Anthropic veut vacciner les IA contre leurs propres dérives

Apprendre à mal se comporter... pour son bien.

Depuis plusieurs années, le comportement parfois changeant des IA fait débat. Entre déclarations inappropriées, flatteries excessives ou hallucinations factuelles, les assistants virtuels peuvent surprendre, de temps en temps au détriment de leur fiabilité. Anthropic explique que ces traits résultent d’une “personnalité” aléatoire, générée par des processus neuronaux complexes encore mal compris.

L’entreprise a publié une étude consacrée à ce qu’elle appelle les « persona vectors« , des motifs d’activation neuronale associés à des traits de personnalité chez les intelligences artificielles. Une avancée technique qui s’adresse principalement aux développeurs d’IA. Son but est d’observer, de comprendre et surtout de maîtriser les comportements imprévus de ces modèles lors de leurs interactions.

Ces persona vectors permettent ainsi d’identifier précisément ces mécanismes, en isolant des “signaux” correspondant à des comportements comme la malveillance, la flatterie ou la tendance à inventer des informations. Ces comportements étranges ou inquiétants, plusieurs modèles connus les ont déjà montrés : du chatbot de Google à Grok, l’assistant IA de X (anciennement Twitter) récemment, qui s’est laissé aller à des propos antisémites.

L’approche d’Anthropic ne s’arrête pas au simple diagnostic. Elle propose aussi une solution. Au lieu d’attendre qu’un modèle dérape, les chercheurs le forcent à adopter ces traits problématiques pendant sa phase d’entraînement, pour mieux l’en protéger ensuite. Ils appellent ça le preventative steering : une sorte de “vaccin comportemental”. On apprend au modèle à être toxique, pour qu’il sache ensuite reconnaître et éviter ce type de comportement.

Cette avancée technique ouvre plusieurs possibilités. D’abord, elle permet de surveiller en temps réel l’évolution de la personnalité d’un modèle, par exemple au cours d’une conversation ou au fil des cycles d’apprentissage. Ensuite, elle autorise des interventions ciblées pour atténuer ou empêcher l’apparition de traits problématiques. Plutôt que de réagir une fois le comportement installé, Anthropic propose une approche préventive, en habituant le modèle à certains biais pendant l’entraînement pour qu’il y résiste mieux.

Un autre point important concerne l’analyse des données utilisées pour entraîner les IA. Grâce aux persona vectors, il devient possible d’identifier les exemples qui risquent d’introduire des comportements indésirables, même quand ceux-ci passent inaperçus aux yeux humains. Cette capacité à anticiper l’impact des données d’entraînement constitue un pas décisif vers des modèles plus sûrs et plus fiables.

Les persona vectors offriraient ainsi, selon Anthropic, une piste pour mieux comprendre et contrôler les personnalités numériques des IA. Cette approche pourrait permettre de mieux anticiper les déviances et d’intervenir plus efficacement pour limiter les comportements indésirables, même si ces résultats restent à confirmer dans des contextes plus larges et variés.

Les résultats sont encourageants : les IA ainsi entraînées deviennent plus stables, plus résistantes aux données douteuses, et gardent leurs performances globales. Autre avantage : cette méthode permet aussi d’identifier les données d’entraînement qui risquent de déclencher des comportements à problème, même si elles paraissent inoffensives à première vue.

Dans un contexte où l’usage des IA s’intensifie et où leurs réponses peuvent avoir un vrai impact, disposer d’outils pour garantir un comportement cohérent et maîtrisé est un enjeu stratégique, éthique et technologique. Anthropic, sans promettre la perfection, avance une méthode pour limiter les risques liés aux sautes d’humeur de nos chers assistants virtuels.