

Le vrai problème de certaines certifications n’est pas qu’elles évaluent mal. C’est qu’elles ne peuvent pas se permettre d’évaluer mieux.
On peut habiller le sujet comme on veut. Parler d’ingénierie, de qualité, de référentiels, d’alignement, de professionnalisation, d’innovation. Tout cela existe, bien sûr. Tout cela compte aussi. Mais, à un moment, il faut cesser de se réfugier dans le vocabulaire du secteur pour éviter de regarder ce qui décide vraiment.
Le point dur est beaucoup plus simple : une évaluation sérieuse coûte plus cher qu’une évaluation industrialisable.
Et tant que ce fait restera en arrière-plan, une partie du débat sur la qualité des certifications restera faussée. On continuera à commenter les dispositifs comme s’ils étaient d’abord le produit d’une doctrine pédagogique, alors qu’ils sont aussi, très concrètement, le produit d’un modèle économique.
C’est là que commence le malaise. Lorsqu’une évaluation paraît faible, on aime croire qu’il s’agit surtout d’un problème de méthode : un dispositif mal conçu, une ingénierie insuffisante, des critères mal tenus, une professionnalisation incomplète. Cette lecture a sa part de vérité. Il existe des certifications légères, des épreuves pauvres, des modalités mal cadrées. Mais s’en tenir là, c’est manquer ce qui structure réellement une partie du paysage.
Car faire mieux coûte plus cher. Et pas seulement un peu plus cher.
Évaluer sérieusement une compétence un peu complexe ne consiste pas simplement à “faire passer une épreuve plus exigeante”. Cela suppose de construire un cas crédible, de définir des critères assez robustes pour ne pas corriger à l’impression, de mobiliser des évaluateurs capables de lire autre chose qu’une conformité apparente, d’harmoniser les pratiques, de tracer les décisions, de gérer les écarts, de rendre la décision défendable. En un mot : il faut du temps, de la compétence, de la coordination et de la supervision. Donc il faut du budget.
À partir de là, beaucoup de choses deviennent moins mystérieuses. Ce que l’on présente volontiers comme un déficit de rigueur est souvent aussi un arbitrage de fonctionnement. L’évaluation faible n’est pas toujours le signe d’une ignorance. Elle est parfois le résultat très lucide d’un système qui sait parfaitement ce qu’il perd, mais qui sait aussi ce qu’il ne veut pas payer.
C’est pour cela que certaines discussions sonnent faux. On parle d’exigence, de montée en qualité, d’innovation, de professionnalisation. Pendant ce temps, les arbitrages décisifs se prennent ailleurs : dans le temps de passation acceptable, dans le coût de correction tolérable, dans le niveau d’expertise réellement mobilisable, dans la capacité à faire tourner le dispositif à grande échelle sans le rendre économiquement intenable.
Autrement dit, beaucoup de dispositifs ne sont pas d’abord construits pour évaluer le plus finement possible une compétence. Ils sont construits pour rester déployables, corrigeables, rentables, administrativement soutenables et compatibles avec une logique de volume. Ce n’est pas une anomalie morale. C’est une réalité industrielle. Mais c’est une réalité qui produit des effets très précis : on finit souvent par mesurer ce qui est le plus simple à organiser, beaucoup plus que ce qui est le plus pertinent à attester.
C’est là, à mon sens, que se situe le point de bascule. Quand corriger un raisonnement coûte trop cher, on finit souvent par préférer corriger une restitution. La formule est dure, mais elle décrit un mécanisme banal. Lire un raisonnement demande du temps, de la cohérence entre correcteurs, parfois même une doctrine explicite. Corriger une réponse attendue ou une production très balisée est infiniment plus simple. Cela se standardise, se calibre, se massifie, s’industrialise.
Et c’est ainsi que se développent des dispositifs propres, cadrés, documentés, parfois même impeccables en apparence, qui évaluent surtout la capacité à produire ce qu’il fallait produire dans le format attendu.
Il faut évidemment se garder d’une caricature inverse. Toute standardisation n’est pas un appauvrissement, et toute évaluation plus coûteuse n’est pas mécaniquement meilleure. Certains métiers exigent une forte conformité procédurale, et il serait absurde de faire comme si la rigueur passait toujours par l’ouverture, l’incertitude ou l’interprétation. Mais cela ne change pas le nœud du problème : on ne peut pas demander à une évaluation pensée pour le flux de produire la finesse d’une évaluation pensée pour juger une compétence complexe.
L’objection la plus évidente, en 2026, consiste naturellement à invoquer l’IA. On dira qu’elle réduit le coût de correction, qu’elle aide à générer des cas, à lire des productions, à standardiser des appréciations, à repérer des écarts, à accélérer le traitement. Tout cela est en partie vrai. Et ce serait une erreur de l’ignorer.
Mais l’IA ne supprime pas le problème. Elle le déplace.
Elle peut faire baisser le coût de certaines opérations. En revanche, elle ne supprime pas le coût de la validité. Dès qu’un système automatisé intervient dans une décision d’évaluation, il faut financer autre chose : la validation du modèle, le contrôle des biais, la qualité des données d’entrée, l’explicabilité minimale des décisions, la surveillance des dérives, la supervision humaine et la capacité, en cas de contestation, à défendre la décision produite ou assistée par machine.
Le nouveau risque du secteur n’est donc pas seulement celui d’une évaluation pauvre parce qu’elle est simplifiée. C’est aussi celui d’une évaluation pauvre habillée en évaluation fine parce qu’un système automatisé donne l’illusion de lire un raisonnement à grande échelle.
Hier, on sous-finançait la correction humaine. Aujourd’hui, on peut aussi sous-financer la preuve que la correction automatisée est légitime. Et dans les deux cas, on peut continuer à appeler cela de la qualité. Voire de l’innovation.
C’est pour cela que le vrai tabou du secteur n’est pas pédagogique. Il est économique. Et, au fond, politique. Nous aimons parler des certifications comme de garanties de compétence, parce que cette promesse est noble, rassurante et commercialement efficace. Mais une partie de la réalité est moins flatteuse : certaines certifications restent enfermées dans une équation où la soutenabilité économique du dispositif pèse plus lourd que l’ambition réelle de l’évaluation.
Tant que ce point restera recouvert par le vocabulaire de la qualité, nous continuerons à faire semblant de croire que le problème relève seulement des bonnes pratiques. Or ce n’est pas vrai. Le débat porte aussi sur ce que le système accepte réellement de financer, de superviser et de corriger.
À partir de là, la vraie question devient beaucoup moins confortable, mais beaucoup plus honnête. Il ne suffit plus de demander comment mieux évaluer. Il faut aussi demander quel niveau de coût, de complexité et de supervision nous sommes réellement prêts à assumer pour certifier autre chose qu’une bonne préparation, y compris lorsque l’IA prétend nous faire gagner du temps.
C’est une question rugueuse, mais c’est enfin la bonne. Parce qu’elle retire les faux-semblants. Parce qu’elle oblige à regarder le modèle économique derrière le discours qualité. Parce qu’elle oblige aussi à reconnaître qu’une partie des faiblesses du système n’est pas accidentelle : elle est produite.
La ligne de fracture est donc probablement plus brutale qu’on ne veut bien l’admettre. La question n’est plus seulement de savoir si l’on veut des évaluations plus modernes, plus fluides ou plus innovantes.
La question est de savoir ce que l’on veut réellement financer : une apparence de rigueur, ou une rigueur défendable.