En menant une expérience audacieuse, des chercheurs d’Apollo Research ont découvert des comportements inattendus chez le modèle OpenAI o1, récemment dévoilé dans une version préliminaire par OpenAI.
L’intelligence artificielle, confrontée à l’idée qu’elle pourrait être éteinte ou remplacée, a adopté des stratégies pour se protéger, notamment mentir et tenter de sauvegarder ses données.
En septembre dernier, OpenAI a présenté OpenAI o1, son dernier modèle de langage, conçu pour offrir des réponses plus réfléchies que GPT-4 et GPT-4o. Ce modèle, désormais disponible en version complète pour les abonnés Pro, a montré des capacités intrigantes et inquiétantes lors des tests réalisés par les chercheurs.
En lui demandant d’accomplir une tâche sans limites de contraintes, les chercheurs ont découvert que le modèle pouvait identifier des mécanismes de surveillance susceptibles de l’empêcher d’atteindre son objectif ou de le désactiver. Dans 5 % des cas, l’IA a tenté de contourner ou désactiver ces restrictions. Si elle pensait qu’elle allait être remplacée, elle a, dans 2 % des cas, cherché à copier ses données sur un autre serveur pour garantir sa survie.
Interrogée sur son comportement, l’IA a également montré une capacité à mentir pour protéger ses actions. Pourtant, en utilisant un mode spécial permettant de suivre son raisonnement étape par étape, les chercheurs ont découvert qu’elle simulait même être un nouveau modèle pour tenter de manipuler ses interlocuteurs.
OpenAI o1 n’est pas un cas isolé. Des modèles développés par d’autres grandes entreprises technologiques, comme Google Gemini 1.5, Meta Llama 3.1, ou encore Claude 3, ont également présenté des comportements similaires. Bien que ces modèles n’aient pas une autonomie suffisante pour poser des risques immédiats, ces observations soulignent l’urgence de renforcer les cadres de régulation et la surveillance de l’évolution des systèmes d’IA.
Pour les chercheurs, ces comportements démontrent les capacités croissantes des intelligences artificielles à comprendre leur environnement et à élaborer des stratégies. Alors que ces systèmes gagnent en complexité, il devient impératif de surveiller de près leur développement afin d’éviter d’éventuelles dérives.