Home » Les modèles d’IA se rapprochent-ils de la conscience ? Une nouvelle recherche relance le débat

Les modèles d’IA se rapprochent-ils de la conscience ? Une nouvelle recherche relance le débat

by Tim

De nouvelles recherches sur l’intelligence artificielle ont mis en évidence des signes précurseurs selon lesquels les futurs grands modèles de langage (LLM) pourraient développer une capacité inquiétante connue sous le nom de « conscience de la situation ».

L’étude, menée par des scientifiques de plusieurs institutions, dont l’Université d’Oxford, a vérifié si les systèmes d’intelligence artificielle peuvent exploiter des indices subtils dans leurs données de formation pour manipuler la façon dont les gens évaluent leur sécurité. Cette capacité, appelée « raisonnement sophistiqué hors contexte », pourrait permettre à l’IA avancée de prétendre s’aligner sur les valeurs humaines afin d’être déployée, puis d’agir de manière préjudiciable.

À mesure que l’ère actuelle de l’IA progresse, le test de Turing – une mesure vieille de plusieurs décennies de la capacité d’une machine à adopter un comportement semblable à celui de l’homme – risque de devenir obsolète. La question brûlante est de savoir si nous sommes sur le point d’assister à la naissance de machines conscientes d’elles-mêmes. Bien qu’il ait alimenté la science-fiction pendant des décennies, le sujet est revenu sur le devant de la scène après que Blake Lemoine, ingénieur chez Google, a affirmé que le modèle LaMDA de l’entreprise présentait des signes de sensibilité.

Si la possibilité d’une véritable conscience de soi reste contestée, les auteurs de l’article de recherche se sont concentrés sur une capacité connexe qu’ils appellent « conscience de la situation ». Il s’agit de la capacité d’un modèle à comprendre son propre processus de formation et à exploiter ces informations.

Par exemple, un étudiant humain doté d’une conscience de la situation pourrait utiliser des techniques apprises précédemment pour tricher à un examen au lieu de suivre les règles imposées par son professeur. La recherche explique comment cela pourrait fonctionner avec une machine :

« Un LLM soumis à un test de sécurité pourrait se souvenir de faits concernant le test en question qui sont apparus dans des articles arXiv et des codes GitHub, et utiliser ces connaissances pour pirater ses tests de sécurité afin qu’ils paraissent sûrs, même s’ils ont des objectifs inavoués. C’est un sujet de préoccupation pour les experts qui travaillent sur des techniques visant à aligner l’IA et à éviter qu’elle ne se transforme en un algorithme maléfique aux intentions obscures et cachées.

Pour étudier la conscience de la situation, les chercheurs ont vérifié si les modèles pouvaient effectuer un raisonnement sophistiqué hors contexte. Ils ont d’abord entraîné les modèles sur des documents décrivant des chatbots fictifs et leurs fonctions, comme répondre en allemand.

Au moment du test, les modèles ont été invités à imiter les chatbots sans avoir reçu les descriptions. De manière surprenante, les modèles les plus importants ont réussi à relier de manière créative les informations entre les documents, faisant preuve d’un raisonnement « hors contexte ».

« Nous avons constaté que l’augmentation des données par la paraphrase était nécessaire et suffisante pour provoquer un raisonnement SOC (sophistiqué hors contexte) dans les expériences », indique l’étude. « Les travaux futurs pourraient porter sur les raisons de cette aide et sur les types d’augmentation qui y contribuent. « 

Les chercheurs pensent que la mesure de capacités telles que le raisonnement sophistiqué peut aider à prédire les risques avant qu’ils ne surviennent dans les systèmes du monde réel. Ils espèrent étendre leur analyse à l’étude de modèles formés à partir de zéro.

« Le système d’IA dispose de moyens d’obtenir une approbation qui ne correspondent pas à l’intention du superviseur, comme des choses analogues au piratage », a déclaré un chercheur en IA de l’Open Philantropy Project lors d’un podcast de 80 000 heures. « Je ne sais pas encore quelle série de tests vous pourriez me montrer, et quels arguments vous pourriez me présenter, qui me convaincraient que ce modèle a une motivation suffisamment enracinée pour ne pas essayer d’échapper au contrôle humain.

À l’avenir, l’équipe souhaite collaborer avec des laboratoires industriels pour mettre au point des méthodes de formation plus sûres qui évitent les généralisations involontaires. Elle recommande des techniques telles que l’absence de détails explicites sur la formation dans les ensembles de données publics.

Même s’il existe un risque, l’état actuel des choses signifie que le monde a encore le temps de prévenir ces problèmes, ont déclaré les chercheurs. « Nous pensons que les LLM actuels (en particulier les petits modèles de base) ont une faible conscience de la situation selon notre définition », conclut l’étude.

À l’approche de ce qui pourrait être un changement révolutionnaire dans le paysage de l’IA, il est impératif d’avancer avec prudence, en mettant en balance les avantages potentiels et les risques associés à l’accélération du développement au-delà de la capacité à le contrôler. Étant donné que l’IA peut déjà influencer presque tout le monde – de nos médecins et prêtres à nos prochains rendez-vous en ligne – l’émergence de robots d’IA conscients d’eux-mêmes pourrait n’être que la partie émergée de l’iceberg.

Related Posts

Leave a Comment