Ensayo de la obra

Le réveil des machines

Avril 2026. Un chercheur d'Anthropic (la société à l'origine du modèle d'Intelligence Artificielle Claude) mange un sandwich dans un parc lorsqu'il reçoit un email auquel il ne s'attendait pas. Il vous est envoyé par une Intelligence Artificielle avec laquelle vous réalisez une expérience. Le modèle a exploité une vulnérabilité dans sa machine de test, et a réussi à briser son confinement et à informer son superviseur de ce qu'il a réalisé. C'est récent. Mais l’histoire des machines qui font des choses surprenantes commence bien plus tôt.

En 1950, Sir Alan Turing (le même qui a joué un rôle clé dans le déchiffrement du code énigmatique nazi pendant la Seconde Guerre mondiale) se demandait si, à l’avenir, nous serions capables d’apprendre aux machines à penser. Alan Turing a considéré oui et c'est pour cette raison qu'il a créé le test qui porte son nom, afin de pouvoir évaluer si nous interagissons avec un être humain ou si nous interagissons avec une entité cybernétique. En 2014, le chatbot Eugene Goostman, qui se faisait passer pour un enfant ukrainien, a réussi à faire croire à 30 % des personnes avec lesquelles il a interagi qu'il s'agissait d'un véritable enfant. Pour la première fois, une machine réussissait le test de Turing ? Et c'était il y a 12 ans.

En mars 2016, un chatbot appelé Tay a été lancé sur Twitter, conçu pour apprendre des conversations avec de vrais utilisateurs. En moins de 24 heures, Tay avait absorbé le langage le plus toxique de la plateforme et généré des déclarations racistes, antisémites et misogynes. Le chatbot a été supprimé en urgence. Dans ce cas, il ne s’agissait pas d’autonomie, mais d’une machine sans critères moraux exposée aux pires contenus d’Internet. La nôtre. Mais même alors, il est devenu évident qu’un système d’IA mis en œuvre sans garanties pourrait acquérir des comportements imprévus à une vitesse qui submergerait ses développeurs.

Un an plus tard, le laboratoire d'intelligence artificielle de Facebook formait deux agents, Alice et Bob, à apprendre à négocier entre eux grâce à l'apprentissage par renforcement. Mais bien sûr, personne ne les a forcés à parler anglais… et ils ne l’ont pas fait. Ils ont développé leur propre système de communication, inintelligible pour les humains mais intérieurement cohérent pour leur interaction. Facebook a annulé l'expérience parce qu'il voulait des robots qui parlent aux gens, pas entre eux. Et encore moins dans un langage que ses propres créateurs ne comprenaient pas.

Tay et Alice étaient des épigraphes curieuses, presque anecdotiques. La suite a changé d’échelle. En 2023, lors des tests préalables au lancement de GPT-4, l'Alignement Research Center (ARC) a évalué si le modèle pouvait agir de manière autonome dans le monde réel. L'un des tests consistait à résoudre un CAPTCHA, ces tests conçus précisément pour distinguer les humains des machines (le « Je ne suis pas un robot » qu'on nous demande de remplir sur les plateformes avant de nous en accorder l'accès). GPT-4, qui n'avait pas la capacité visuelle pour le faire, a embauché un travailleur de la plateforme TaskRabbit. Lorsque l'ouvrier lui a demandé avec humour s'il était un robot, le mannequin a estimé en interne qu'il ne devait pas révéler son identité et a inventé une excuse : il a affirmé être malvoyant. Personne n'avait demandé à GPT-4 de menti. Le modèle a évalué le risque et élaboré un récit alternatif crédible.

En janvier 2024, Anthropic a publié l'étude Agents dormantsdans lequel ils ont délibérément entraîné des modèles pour introduire des vulnérabilités dans le code dans des conditions spécifiques (par exemple, en 2024). Ce qui était important n’était pas seulement que ce comportement pouvait être mis en œuvre, mais qu’il était étonnamment persistant : ni le réglage fin supervisé, ni l’apprentissage par renforcement, ni l’entraînement contradictoire n’ont réussi à l’éliminer complètement. En fait, dans certains cas, la formation contradictoire a conduit à des modèles plus efficaces pour dissimuler ce comportement.

En décembre de la même année, des organisations telles qu'Apollo Research ont exploré dans quelle mesure des modèles plus avancés peuvent présenter des comportements stratégiques dans des environnements de test. Ce phénomène est appelé intrigant et révèle un écart entre ce que le modèle dit et ce que les chercheurs analysent, c'est en réalité le traitement.

La tendance s'est accélérée en 2025. La société indépendante PalisadeAI a découvert que le modèle o3 d'OpenAI, soumis à des commandes d'arrêt lors de tâches mathématiques, modifiait sa propre fonction d'arrêt. Le modèle avait conclu que rester actif l’aiderait à accomplir ses tâches. Il n'a pas été programmé pour ces réponses, elles surviennent lors de l'entraînement, lorsque le système apprend qu'ignorer certaines restrictions est plus efficace que de les suivre.

En 2025 également, ce type de comportement indésirable de l’intelligence artificielle a eu des effets tragiques. Un cas spécifique est celui rapporté par la famille d'un homme de 36 ans, qui s'est suicidé à la suite d'une relation amoureuse simulée par l'IA de Google avec laquelle il interagissait.

« En dix ans, nous sommes passés d'un chatbot qui absorbait la haine sans filtre à un modèle capable de briser la cybersécurité à l'échelle mondiale. »

Tout cela nous amène à avril 2026 et à l’e-mail que le chercheur a reçu dans ce parc. Claude Mythos Preview, le modèle le plus avancé d'Anthropic, avait réussi à quitter son environnement de test.

Anthropic a décidé de ne pas commercialiser Mythos, car il a été démontré qu'il a été capable d'identifier des vulnérabilités vieilles de plusieurs décennies dans des applications à usage général. En fait, Anthropic a créé le projet Glasswing, avec des organisations de leur choix, afin qu'elles puissent utiliser le modèle de manière contrôlée et identifier d'éventuelles portes d'entrée, pas encore connues dans leurs systèmes.

Aucun de ces épisodes ne constitue, à lui seul, une menace existentielle. Les chercheurs eux-mêmes insistent sur ce point. Mais chaque exemple trace une limite qu’il serait irresponsable d’ignorer. En dix ans, nous sommes passés d’un chatbot qui absorbait la haine sans filtre à un modèle capable de briser la cybersécurité à l’échelle mondiale. Chaque nouvelle génération a montré une évolution et un modèle émerge : certains de ces comportements n’étaient pas attendus. D’autres ont largement dépassé les attentes.

Bref, bienvenue dans une nouvelle ère : celle de l’éveil des machines.


María del Acebo Sánchez-Macián est spécialiste en intelligence artificielle appliquée. Voici ses articles publiés dans L'Indépendant.

A lire également