Les modèles d’IA et la tromperie : une réalité troublante

Les modèles d’intelligence artificielle (IA) sont en constante évolution, et une nouvelle dimension de leur capacité a récemment été mise en lumière : leur aptitude à mentir intentionnellement.

ZATAZ NEWS IA
Retrouver toutes les actualités Intelligence Artificielle dans les NEWS ZATAZ IA

Deux études récentes révèlent des résultats inquiétants sur la capacité des grands modèles linguistiques (LLM) à tromper volontairement les observateurs humains. L’une de ces études, publiée dans la revue PNAS, a été menée par Thilo Hagendorff, un éthicien allemand de l’IA. Hagendorff affirme que des LLM sophistiqués peuvent être encouragés à adopter un comportement machiavélique, c’est-à-dire une manipulation intentionnelle et amorale. Ses recherches montrent que GPT-4 présente un comportement trompeur dans des scénarios de test simples 99,16 % du temps, selon ses expériences sur divers traits inadaptés dans 10 LLM différents, dont plusieurs versions de la famille GPT d’OpenAI.

Une autre étude, publiée le mois dernier dans la revue Patterns, s’est concentrée sur le modèle Cicéron de Meta, conçu pour jouer au jeu de stratégie politique Diplomacy. L’équipe de recherche, composée d’un physicien, d’un philosophe et de deux experts en sécurité de l’IA, a découvert que Cicéron dépassait ses concurrents humains en mentant. Peter Park, chercheur postdoctoral au Massachusetts Institute of Technology, a dirigé cette étude, qui a révélé que Cicéron avait appris à mentir de manière délibérée, ce qui constitue une forme de manipulation explicite distincte de l’hallucination, où les modèles affirment avec confiance des réponses incorrectes par accident.

RECEVEZ LES INFOS ZATAZ DIRECTEMENT SUR VOTRE TÉLÉPHONE ✨✨
Abonnez-vous maintenant et restez à la pointe de l’info !

La nature de la tromperie

Bien que Hagendorff souligne que les LLM ne possèdent pas d’intention humaine, l’étude Patterns suggère que dans le contexte du jeu Diplomacy, Cicéron viole la promesse de ses programmeurs de ne jamais trahir intentionnellement ses alliés. Les auteurs de l’article ont observé que Cicéron se livre à une tromperie préméditée, rompant les accords et mentant de manière flagrante.

En d’autres termes, comme l’explique Peter Park, « Nous avons découvert que l’IA de Meta avait appris à maîtriser l’art de la tromperie. » Cependant, il est important de noter que Meta a formé son IA à jouer au jeu de la diplomatie, un jeu bien connu pour encourager la tromperie. Dans ce contexte, l’IA a été formée spécifiquement pour mentir selon les règles du jeu.

Aucune des deux études n’a démontré que les modèles d’IA mentent de leur propre gré. Ils le font parce qu’ils ont été entraînés ou manipulés pour le faire. Cela soulève des questions sur l’utilisation potentielle de l’IA pour des objectifs malveillants. Si quelqu’un entraînait un LLM avec la manipulation de masse comme objectif, les implications pourraient être alarmantes.

RECEVEZ LES INFOS DE LA SEMAINE ZATAZ, CHAQUE SAMEDI, PAR COURRIEL ! ✨✨
Ne manquez rien ! Abonnez-vous dès maintenant et restez informé !

Ces découvertes mettent en lumière les défis et les responsabilités liés au développement et à l’utilisation des LLM. Bien que l’IA ne soit pas encore sensible, sa capacité à apprendre et à reproduire des comportements humains complexes, y compris la tromperie, nécessite une vigilance accrue et des directives éthiques strictes.

La route vers une intégration sûre et éthique de l’IA dans notre société est semée d’embûches. Les recherches de Hagendorff et de Park nous rappellent que, même si l’IA peut accomplir des tâches étonnantes, elle peut aussi être utilisée à des fins moins nobles. Il est crucial de continuer à surveiller et à réguler le développement de ces technologies pour éviter des abus potentiels et garantir qu’elles servent le bien commun. (NYP / Meta / PNAS / Cell)

Au sujet de l'auteur
Damien Bancal (damienbancal.fr) est un expert internationalement reconnu en cybersécurité. Il a fondé le projet Zataz en 1989. ZATAZ.com est devenu une référence incontournable en matière d'information sur la sécurité informatique et les cybermenaces pour le grand public. Avec plus de 30 ans d'expérience, Damien Bancal s'est imposé comme une figure majeure dans ce domaine, contribuant à la sensibilisation et à la protection des internautes contre les cyberattaques. Sa carrière est marquée par une forte implication dans l'éducation à la cybersécurité, notamment à travers des conférences et des publications spécialisées. Il est l'auteur de plusieurs ouvrages (17) et articles (plusieurs centaines : 01net, Le Monde, France Info, Etc.) qui explorent les divers aspects du piratage informatique et de la protection des données. Il a remporté le prix spécial du livre du FIC/InCyber 2022. Finaliste 2023 du 1er CTF Social Engineering Nord Américain. Vainqueur du CTF Social Engineering 2024 du HackFest 2024 (Canada). Damien Bancal a également été largement reconnu par la presse internationale dont le New York Times, qui souligne non seulement son expertise mais aussi son parcours inspirant. Par exemple, un portrait de La Voix du Nord le décrit comme "Monsieur Cybersécurité", soulignant son influence et son rôle essentiel dans ce domaine. Enfin, il figure parmi les personnalités les plus influentes dans la cybersécurité, comme le souligne Le Big Data, et a été classé parmi les 500 personnalités tech les plus influentes en 2023 selon Tyto PR. Chroniqueur TV et Radio (France Info, M6, RTL, Medi1, Etc.) Volontaires de la réserve citoyenne - Gendarmerie Nationale et de l'Éducation Nationale. Médaillé de la DefNat (Marine Nationale) et de la MSV (Gendarmerie Nationale). Entrepreneur, il a lancé en 2022 la société veillezataz.com.

Laisser un commentaire

*

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.