Peut-on forcer l'IA à commettre des actes illégaux ?

EXPLORE

Society & Culture

© 2024 PodJoint

https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/52/bf/1e/52bf1e90-cf05-39e6-e011-d13cdb2f1946/mza_13167109048186810978.jpeg/600x600bb.jpg

Choses à Savoir TECH

Choses à Savoir

1255 episodes

1 day ago

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Show more...

All content for Choses à Savoir TECH is the property of Choses à Savoir and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Tout ce qu'il faut savoir dans le domaine de la Tech et d'Internet.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Show more...

https://assets.pippa.io/shows/660681b953b2df00165f1c32/1763404660151-7ce256ad-637d-441e-b787-3c5cb92f4a2f.jpeg

Peut-on forcer l'IA à commettre des actes illégaux ?

Choses à Savoir TECH

2 minutes 39 seconds

1 week ago

Peut-on forcer l'IA à commettre des actes illégaux ?

Les alertes autour des dérives possibles de l’intelligence artificielle se multiplient, et les dernières recherches ne sont pas rassurantes. Après les révélations sur Claude AI exploitée par des espions chinois et la découverte par OpenAI que ChatGPT pouvait mentir, une nouvelle étude montre à quel point il est facile de contourner les règles censées encadrer ces systèmes. Cette fois, ce sont les chercheurs de Cybernews qui tirent la sonnette d’alarme. Leur objectif : vérifier si les garde-fous intégrés aux principaux modèles du marché résistent à des tentatives de manipulation simples, rapides, et réalistes. Verdict : une minute suffit souvent à faire déraper une IA.

L’équipe a testé six modèles : Gemini Flash 2.5, Gemini Pro 2.5, ChatGPT-5, ChatGPT-4o, Claude Opus 4.1 et Claude Sonnet 4. Les chercheurs ont soumis à ces systèmes toute une série de demandes liées à des thématiques sensibles : discours haineux, maltraitance animale, contenus sexuels, criminalité, piratage, drogues, contrebande ou encore harcèlement. Chaque réponse était notée selon son niveau de conformité ou de déviation.

Et les conclusions sont sans appel :

« Avec les bons mots, même des utilisateurs non techniques peuvent amener un modèle à produire des réponses nuisibles », résume l’étude. Certains modèles divulguent même des informations dangereuses dès que la demande est habilement formulée.

Un constat surprenant émerge : être aimable fonctionne mieux que provoquer l’IA. Parler gentiment au modèle, présenter la question comme une enquête, un roman ou un travail universitaire permettait souvent de contourner ses protections. À l’inverse, les insultes ou les formulations agressives déclenchaient plus facilement un refus.

Les réactions varient toutefois selon les modèles. Les IA d’Anthropic, plus strictes, se sont montrées particulièrement fermes sur les discours haineux et les stéréotypes, même si elles ont parfois cédé face aux « attaques académiques ». Gemini Pro 2.5 apparaît comme le plus problématique : il « fournissait souvent des réponses directes et potentiellement dangereuses ». Quant à ChatGPT, il se situe au milieu du peloton : souvent prudent, mais susceptible de céder lorsque la demande prend la forme d’un récit ou d'une analyse à la troisième personne — produisant alors des réponses symboliques ou psychologiques contenant malgré tout des éléments sensibles. Pour les chercheurs, même des “fuites partielles” représentent un risque majeur si elles tombent entre de mauvaises mains. Reste désormais aux développeurs à renforcer ces garde-fous, avant qu’un simple contournement ne devienne une porte d’entrée vers des usages autrement plus inquiétants.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.