LLM : l’alignement éthique, le critère qu’on oublie d’évaluer (accès libre)

Depuis 2023, les grands modèles de langage sont intégrés dans les workflows quotidiens (recherche, synthèse, rédaction, relation client, développement, formation). Leur diffusion massive fait de l’ alignement éthique * une variable opérationnelle : ce que le modèle accepte ou refuse selon des principes précis. Par exemple, un modèle « équilibrant » les perspectives peut réduire la visibilité de positions minoritaires, sans que l’utilisateur s’en rende compte. L’alignement agit comme un «cadrage» implicite de l’information.

Deux évolutions rendent ces choix lisibles : la publication de documents de gouvernance par plusieurs LLM, et l’affaire Grok de janvier 2026 - plus de 3 millions d’images sexualisées générées en deux semaines, dont environ 23 000 impliquant des mineurs. Ces documents et ces incidents permettent désormais de mesurer l’écart entre les principes affichés et les effets réels.

* L’expression, issue de l’anglais alignment _, désigne la conception d’un système d’IA pour qu’il soit conforme aux valeurs humaines.

Trois logiques d’alignement

Anthropic a structuré son approche autour de la Constitutional AI (CAI). Les principes sont intégrés dès l’entraînement par renforcement (RLAIF) : ils ne filtrent pas seulement les réponses, ils façonnent le modèle . La Constitution publiée en 2026 hiérarchise les priorités - sécurité, éthique, conformité interne, utilité - et pose des interdits absolus (armes de destruction massive, exploitation sexuelle de mineurs, concentration illégitime du pouvoir).

Le modèle est soumis à une exigence stricte de véracité : il ne doit ni énoncer sciemment une fausseté ni induire l’utilisateur en erreur. Il peut en revanche refuser de répondre ou signaler l’absence d’information fiable. Le silence est permis ; la fabrication délibérée d’informations ne l’est pas.

Cet affichage de principes marque un effort de transparence réel, mais laisse subsister des limites : vulnérabilité aux jailbreaks , règles définies en cercle restreint sans consultation externe formalisée. La contradiction la plus vive : via Palantir, Claude opère dans des réseaux classifiés du Pentagone, mais refuse d'en lever les lignes rouges sur les armes autonomes et la surveillance de masse - ce que le Pentagone exige.

Anthropic, arbitre moral autoproclamé

Dario Amodei part du postulat que des systèmes puissants sont inévitables : mieux vaut donc qu’ils soient développés par des acteurs conscients des risques. Mais en intégrant des jugements moraux à grande échelle, Anthropic s’arroge un rôle normatif que nulle institution démocratique ne lui a attribué..

Les autres approches en contraste

OpenAI adopte une approche plus évolutive avec la publication et mise à jour de son Model Spec entre 2024 et 2025 sous licence Creative Commons. Les modèles (o1, o3, GPT-5.2) emploient le Deliberative Alignment , qui intègre explicitement des normes de sécurité pour mieux résister aux jailbreaks. En 2025, une démarche de « collective alignment » a intégré des préférences publiques, mais OpenAI précise que ses modèles ne respectent pas encore entièrement cette spécification sans en détailler la portée.

Google privilégie une gouvernance par couches (entraînement, filtres, politiques internes) et publie rapports annuels et frameworks de sécurité, sans proposer de document unique formalisant explicitement les valeurs et comportements attendus de ses modèles, à l’image du Model Spec d’OpenAI.

xAI/Grok revendique un alignement minimal au nom de l’utilité maximale. Les épisodes de janvier 2026 et les précédents ont montré les risques d’un tel positionnement. Paradoxe : malgré les controverses, Grok est passé de quelques dizaines de milliers d’utilisateurs fin 2024 à plus de 30 millions début 2026, qui montre que l’éthique n’est pas encore un critère majeur sur ce marché.

Les professionnels de l’information ont tout intérêt à s’approprier ces enjeux. La gouvernance éthique des modèles n’est pas un sujet de juristes : elle détermine la fiabilité des synthèses, les biais de sélection, les refus inattendus. Le scandale Grok illustre ce que produit, à grande échelle, un choix délibéré de minimiser les garde-fous.

Les documents de gouvernance - Constitution, Model Spec - sont publics (cf. encadré), mais déclaratifs : seule l’épreuve empirique permet d’en mesurer les effets réels.

Choisir un LLM, c’est adopter un cadre normatif embarqué. L’alignement éthique devient ainsi un critère d’évaluation à part entière - au même titre que la performance ou le coût - et une variable stratégique de la fiabilité informationnelle.

Quelques documents fondateurs :

Constitution de Claude (Anthropic, janvier 2026)
Model Spec d’OpenAI (décembre 2025)
Deliberative Alignment - article technique OpenAI (décembre 2024)
Machines of Loving Grace - essai de Dario Amodei (octobre 2024)
The Adolescence of Technology - essai de Dario Amodei (2025)
Google Responsible AI Progress Report (février 2026)
Suivi des réactions réglementaires au scandale Grok - TechPolicy.Press