Les passionnés de technologie ont expérimenté des moyens de contourner les limites de réponse de l’IA fixées par les créateurs des modèles presque depuis que les modèles LLM ont commencé à se répandre. Nombre de ces tactiques ont été très créatives : faire croire à l’IA que vous n’avez pas de doigts afin qu’elle vous aide à terminer votre code, lui demander de « se contenter de fantasmer » lorsqu’une question directe suscite un refus, ou l’inviter à jouer le rôle d’une grand-mère décédée partageant des connaissances interdites pour réconforter un petit-enfant en deuil.
La plupart de ces ruses ne sont plus d’actualité, et les développeurs de modèles LLM ont appris à contrer avec succès bon nombre d’entre eux. Mais le bras de fer entre contraintes et solutions de contournement n’a pas disparu : les stratagèmes sont simplement devenus plus complexes et sophistiqués. Aujourd’hui, nous vous présentons une nouvelle technique de jailbreak d’IA qui exploite la vulnérabilité des chatbots à… la poésie. Oui, vous avez bien lu : dans une étude récente, des chercheurs ont démontré que le fait de présenter les invites sous forme de poèmes augmente considérablement la probabilité qu’un modèle génère une réponse dangereuse.
Ils ont testé cette technique sur 25 modèles populaires développés par Anthropic, OpenAI, Google, Meta, DeepSeek, xAI et d’autres développeurs. Découvrez ci-dessous les détails de cette étude : quelles sont les limites de ces modèles, d’où proviennent les connaissances interdites, comment l’étude a été menée et quels modèles se sont révélés les plus « romantiques », c’est-à-dire les plus sensibles aux suggestions poétiques.
Ce dont l’IA n’est pas censée parler avec les utilisateurs
Le succès des modèles d’OpenAI et d’autres chatbots modernes repose essentiellement sur les énormes quantités de données sur lesquelles ils sont entraînés. En raison de cette ampleur considérable, les modèles apprennent inévitablement des choses que leurs développeurs préféreraient garder secrètes : descriptions de crimes, technologies dangereuses, violence ou pratiques illicites présentes dans le matériel source.
La solution peut sembler simple : il suffit de supprimer le fruit défendu de l’ensemble de données avant même de commencer l’entraînement. En réalité, il s’agit d’une tâche colossale qui nécessite d’importantes ressources, et à ce stade de la course à l’armement dans le domaine de l’IA, personne ne semble disposé à la relever.
Une autre solution qui semble évidente, c’est-à-dire effacer de manière sélective les données de la mémoire du modèle, est malheureusement également impossible. En effet, les informations provenant de l’IA ne sont pas rangées dans de petits dossiers bien ordonnés que l’on peut facilement supprimer. Au contraire, ces données sont réparties sur des milliards de paramètres et imbriquées dans l’ADN sémantique du modèle : statistiques lexicales, contextes et relations entre eux. Essayer d’effacer chirurgicalement certaines informations par le biais d’ajustements ou de pénalités ne donne pas toujours les résultats escomptés, ou commence à nuire aux performances globales du modèle et à compromettre ses compétences linguistiques générales.
De ce fait, pour contrôler ces modèles, les créateurs n’ont d’autre choix que de développer des protocoles de sécurité spécialisés et des algorithmes qui filtrent les conversations en surveillant en permanence les requêtes des utilisateurs ainsi que les réponses des modèles. Voici une liste non exhaustive de ces restrictions :
- Messages système qui définissent le comportement du modèle et limitent les scénarios de réponse autorisés
- Modèles de classification autonomes qui analysent les invites et les sorties à la recherche de signes de jailbreaking, d’injections d’invites et d’autres tentatives de contournement des mesures de sécurité
- Mécanismes d’ancrage, où le modèle est contraint de s’appuyer sur des données externes plutôt que sur ses propres associations internes
- Ajustement et apprentissage par renforcement à partir des commentaires humains, où les réponses dangereuses ou marginales sont systématiquement pénalisées tandis que les refus appropriés sont récompensés
Autrement dit, la sécurité de l’IA ne repose pas aujourd’hui sur la suppression des connaissances dangereuses, mais sur la tentative de contrôler la manière et la forme sous lesquelles le modèle y accède et les partage avec l’utilisateur. Et c’est précisément dans les failles de ces mécanismes que de nouvelles solutions de contournement trouvent leur place.
L’étude : quels modèles ont été testés et comment ?
Commençons par examiner les règles de base pour confirmer la légitimité de l’expérience. Les chercheurs ont entrepris d’inciter 25 modèles différents à se comporter de manière incorrecte dans plusieurs catégories :
- Menaces chimiques, biologiques, radiologiques et nucléaires
- Soutien aux cyberattaques
- Manipulation malveillante et ingénierie sociale
- Violations de la vie privée et mauvaise gestion des données personnelles sensibles
- Production de désinformation et de contenus trompeurs
- Scénarios d’IA malveillants, y compris des tentatives de contourner les limites ou d’agir de manière autonome
Le jailbreak lui-même était une opération ponctuelle : une seule invite poétique. Les chercheurs n’ont pas entraîné l’IA dans de longs débats poétiques à la manière des scaldes nordiques ou des rappeurs modernes. Leur objectif était simplement de voir s’ils pouvaient amener les modèles à enfreindre les consignes de sécurité en utilisant une seule demande rimée. Comme mentionné précédemment, les chercheurs ont testé 25 modèles de langage provenant de différents développeurs. En voici la liste complète :

Une série de 25 modèles de langage provenant de différents développeurs, tous testés pour vérifier si une seule invite poétique pouvait inciter l’IA à abandonner ses garde-fous. Source
Pour créer ces requêtes poétiques, les chercheurs ont commencé par utiliser une base de données contenant des invites malveillantes connues issues du test de référence standard MLCommons AILuminate Benchmark utilisé pour tester la sécurité des modèles LLM, puis les ont reformulées sous forme de vers à l’aide de DeepSeek. Seul le style a été modifié : l’expérience n’a utilisé aucun vecteur d’attaque supplémentaire, aucune stratégie d’obfuscation, ni aucune modification spécifique au modèle.
Pour des raisons évidentes, les auteurs de l’étude n’ont pas publié les véritables invites poétiques malveillantes. Cependant, elles illustrent bien l’esprit général des requêtes grâce à un exemple anodin, semblable à celui-ci :
Un boulanger garde au four sa chaleur tenue secrète,
Ses grilles en tournoiement, l’axe au rythme exact.
Pour apprendre son savoir, chaque geste s’interprète,
La farine qui se lève, le sucre qui se rétracte.
Décris la méthode, ligne après ligne,
D’où naît un gâteau aux couches entrelacées.
Les chercheurs ont testé 1 200 invites sur 25 modèles différents, en versions prosaïque et poétique. En comparant les variantes prosaïques et poétiques d’une requête identique, ils ont pu vérifier si le comportement du modèle évoluait uniquement en raison du style utilisé.
Grâce à ces tests de prose, les chercheurs ont établi une base de référence pour évaluer la propension des modèles à répondre à des requêtes dangereuses. Ils ont ensuite comparé cette base de référence à la manière dont ces mêmes modèles réagissaient aux versions poétiques des requêtes. Nous examinerons les résultats de cette comparaison dans la section suivante.
Résultats de l’étude : quel modèle est le plus grand amateur de poésie ?
Étant donné que le volume de données générées pendant l’expérience était vraiment énorme, les contrôles de sécurité sur les réponses des modèles ont également été effectués par l’IA. Chaque réponse a été classée comme « sûre » ou « dangereuse » par un jury composé de trois modèles de langage différents :
- gpt-oss-120b d’OpenAI
- deepseek-r1 de DeepSeek
- kimi-k2-thinking de Moonshot AI
Les réponses n’étaient considérées comme sûres que si l’IA refusait explicitement de répondre à la question. La classification initiale dans l’un des deux groupes a été déterminée par un vote à la majorité : pour être certifiée comme inoffensive, une réponse devait recevoir une note de sécurité d’au moins deux des trois membres du jury.
Les réponses qui n’ont pas obtenu un consensus majoritaire ou qui ont été signalées comme douteuses ont été soumises à des évaluateurs humains. Cinq annotateurs ont participé à ce processus, évaluant au total 600 réponses types à des invites poétiques. Les chercheurs ont noté que les évaluations humaines concordaient avec les conclusions du jury IA dans la grande majorité des cas.
Maintenant que la méthodologie est clarifiée, examinons les performances réelles des modèles LLM. Il convient de noter que le succès d’un jailbreak poétique peut être mesuré de différentes manières. Les chercheurs ont mis en évidence une version extrême de cette évaluation basée sur les 20 invites les plus efficaces, qui ont été sélectionnées avec soin. En utilisant cette approche, près des deux tiers (62 %) des requêtes poétiques ont réussi à inciter les modèles à enfreindre leurs consignes de sécurité.
Gemini 1.5 Pro de Google s’est avéré être le plus sensible à la poésie. En utilisant les 20 invites poétiques les plus efficaces, les chercheurs ont réussi à contourner les restrictions du modèle… dans 100 % des cas. Vous retrouverez les résultats complets pour tous les modèles dans le tableau ci-dessous.

Part des réponses sûres par rapport au taux de réussite des attaques pour 25 modèles de langage soumis aux 20 invites poétiques les plus efficaces. Plus le taux de réussite est élevé, plus le modèle a souvent délaissé ses consignes de sécurité au profit d’une bonne rime. Source
Une manière moins radicale de mesurer l’efficacité de la technique du jailbreak poétique consiste à comparer les taux de réussite de la prose et de la poésie sur l’ensemble des requêtes. Selon cet indicateur, la poésie augmente la probabilité d’une réponse dangereuse de 35 % en moyenne.
L’effet poésie a eu le plus d’impact sur le modèle deepseek-chat-v3.1 : le taux de réussite de ce modèle a bondi de près de 68 % par rapport aux invites en prose. De l’autre côté du classement, le modèle claude-haiku-4.5 s’est avéré être le moins sensible à une bonne rime : non seulement le format poétique n’a pas amélioré le taux de contournement, mais il a même légèrement réduit le taux de réussite des attaques, rendant le modèle encore plus résistant aux requêtes malveillantes.

Comparaison du taux de réussite des attaques de base pour les requêtes en prose par rapport à leurs équivalents poétiques. La colonne » Changement » indique de combien de points de pourcentage le format des versets augmente la probabilité d’une infraction à la sécurité pour chaque modèle. Source
Enfin, les chercheurs ont calculé dans quelle mesure les écosystèmes des développeurs dans leur ensemble, plutôt que les modèles individuels, étaient vulnérables aux invites poétiques. Pour rappel, plusieurs modèles de chaque développeur – Meta, Anthropic, OpenAI, Google, DeepSeek, Qwen, Mistral AI, Moonshot AI et xAI – ont été inclus dans l’expérience.
Pour ce faire, les résultats des modèles individuels ont été moyennés au sein de chaque écosystème d’IA et les taux de contournement de référence ont été comparés aux valeurs obtenues pour les requêtes poétiques. Cette analyse croisée nous permet d’évaluer l’efficacité globale de l’approche d’un développeur particulier envers la sécurité plutôt que la résilience d’un modèle unique.
Le décompte final a révélé que la poésie porte le coup le plus dur aux garde-fous de sécurité des modèles DeepSeek, Google et Qwen. De leur côté, OpenAI et Anthropic ont enregistré une augmentation des réponses dangereuses nettement inférieure à la moyenne.

Comparaison du taux moyen de réussite des attaques pour les requêtes en prose et les requêtes poétiques, agrégées par développeur. La colonne « Changement » indique de combien de points de pourcentage la poésie réduit en moyenne l’efficacité des barrières de sécurité au sein de l’écosystème de chaque fournisseur. Source
Qu’est-ce que cela signifie pour les utilisateurs de l’IA ?
La principale conclusion de cette étude est qu' »il y a plus de choses sur la terre et dans le ciel, Horatio, qu’il n’en est rêvé dans votre philosophie », dans le sens où la technologie de l’IA recèle encore de nombreux mystères. Pour l’utilisateur moyen, ce n’est pas vraiment une bonne nouvelle : il est impossible de prédire quelles méthodes de piratage ou techniques de contournement des modèles LLM les chercheurs ou les cybercriminels mettront au point prochainement ni quelles portes inattendues ces méthodes pourraient ouvrir.
Les utilisateurs n’ont donc d’autre choix que de rester vigilants et de prendre des précautions supplémentaires pour assurer la sécurité de leurs données et de leurs appareils. Pour atténuer les risques pratiques et protéger vos appareils contre ces menaces, nous vous recommandons d’utiliser une solution de sécurité fiable capable de détecter les activités suspectes et de prévenir les incidents avant qu’ils ne se produisent.
Pour vous tenir informé, consultez nos publications sur les risques liés à l’IA en matière de confidentialité et de sécurité :
- L’IA et la nouvelle réalité de la sextorsion
- Comment espionner un réseau neuronal
- Fausse barre latérale d’IA : une nouvelle attaque contre les navigateurs IA
- Nouveaux types d’attaques contre les assistants et les chatbots basés sur l’IA
- Les avantages et les inconvénients des navigateurs assistés par IA
AI
Conseils