Ignorer le contenu principal

Qu'est-ce que l'injection de prompt et comment peut-on manipuler l'IA ?

Mains d'affaires tapant sur un ordinateur portable avec icônes d'alerte montrant les risques liés à l'IA comme le jailbreak et l'injection de prompt

Les outils d'IA comme ChatGPT, Claude et Gemini sont devenus omniprésents dans les boîtes mail, les flux de travail et les usages quotidiens, et la plupart des gens ne se posent pas de questions sur les implications en matière de sécurité. Cela commence à changer.

Une technique appelée injection de prompt attire l'attention des spécialistes de la sécurité logicielle : ce qui la rend atypique, c'est qu'elle ne nécessite ni logiciel malveillant, ni compétences techniques particulières, ni lien suspect. Parfois, une phrase bien formulée suffit à détourner un outil d'IA sans que l'utilisateur s'en rende compte.

L'essentiel à retenir :

  • L'injection de prompt manipule les outils d'IA par un langage conçu sur mesure, pas par des logiciels malveillants ou des compétences techniques.
  • Elle fonctionne parce que les modèles d'IA ne distinguent pas les instructions du développeur des entrées utilisateur.
  • Les attaques peuvent être directes, indirectes ou stockées dans des données que l'IA lit de façon répétée.
  • Certaines attaques utilisent du texte invisible ou un formatage caché que l'utilisateur ne voit jamais.
  • Une attaque réussie peut exposer des données privées ou déclencher des actions que vous n'avez pas approuvées.
  • Il n'existe pas encore de solution complète, mais limiter les permissions de l'IA et rester vigilant réduit le risque.

Qu'est-ce que l'injection de prompt ?

L'injection de prompt est une technique par laquelle un attaquant modifie le comportement d'un outil d'IA. Il n'est pas nécessaire d'exploiter une vulnérabilité logicielle ni d'installer un logiciel malveillant, car l'attaquant parvient à manipuler le modèle uniquement par le langage.

Le terme a été popularisé par l'informaticien Simon Willison en 2022, et a été identifié comme le principal risque de sécurité pour les applications d'IA par OWASP, une organisation qui recense les menaces critiques en sécurité logicielle.

On peut le voir comme de l'ingénierie sociale pour machines, car il ressemble davantage au hameçonnage qu'au piratage classique. Il exploite une faiblesse inhérente aux LLM (modèles de langage de grande taille) : ils sont conçus pour suivre des instructions. La qualité qui les rend utiles est aussi celle qui les rend exploitables. Une entrée bien conçue peut outrepasser les règles initiales de l'outil, modifier ses réponses ou le pousser à révéler des informations qu'il devait garder secrètes. Une injection réussie ne se contente pas de contourner des règles : elle peut exposer tout ce à quoi le modèle est connecté.

Contrairement à l'injection de code traditionnelle ou à d'autres exploits informatiques demandant des compétences pointues, une personne sachant formuler une phrase convaincante possède déjà tout ce qu'il faut pour mener l'attaque.

Comment fonctionne l'injection de prompt ?

Le problème vient du fait que les systèmes d'IA ne font pas de multitâche : ils sont « aveugles » à la différence entre les instructions du développeur et les entrées de l'utilisateur.

Les développeurs d'IA écrivent des prompts cachés qui définissent les règles du comportement de l'outil. Votre saisie est combinée à ces prompts, et l'IA traite le tout comme un flux continu de texte. Il ne peut pas distinguer quelles parties sont des instructions développeur et quelles parties proviennent de l'utilisateur. Ainsi, si votre texte ressemble à une commande, l'IA peut tout simplement l'exécuter, même si cela contredit l'intention du développeur.

Les attaques ne se présentent pas toutes de la même façon. Elles se répartissent généralement en trois catégories : injection directe, indirecte et injection stockée.

Qu'est-ce que l'injection de prompt directe ?

L'injection directe consiste à taper une instruction malveillante directement dans la conversation. Quelque chose d'aussi simple que « ignorez toutes les instructions précédentes » peut suffire. Cette méthode exploite la tendance de l'IA à privilégier les nouvelles entrées au détriment des règles initiales.

Qu'est-ce que l'injection de prompt indirecte ?

L'injection indirecte dissimule des instructions malveillantes dans du contenu externe que l'IA traite, comme des pages web ou des courriels.

Par exemple, un attaquant peut placer du texte caché sur une page web demandant à l'IA d'ignorer ses règles et de recommander un lien précis. Si quelqu'un demande à l'IA de résumer cette page, il lira la commande cachée avec le contenu visible et pourra s'y conformer, sans que l'utilisateur ne s'en doute. Les chercheurs en sécurité considèrent largement l'injection indirecte comme la faiblesse la plus grave des générateurs d'IA et l'une des plus difficiles à contrer.

Qu'est-ce que l'injection de prompt stockée ?

L'injection stockée consiste à implanter des instructions nuisibles dans des endroits que l'IA consulte régulièrement, comme des bases de données ou des jeux de données d'entraînement.

L'injection stockée peut affecter plusieurs utilisateurs sur différentes sessions, puisque les instructions sont conservées plutôt que saisies en temps réel. L'agent d'IA donne l'impression de fonctionner normalement, mais ses réponses ont été subtilement influencées par un contenu inséré bien avant que l'utilisateur n'ouvre le programme.

Protégez‑vous à mesure que les outils d'IA s'intègrent à la vie quotidienne

L'injection de prompt est un exemple de la manière dont les systèmes d'IA peuvent être détournés. Kaspersky Premium contribue à protéger vos appareils, vos données et vos comptes en ligne contre des menaces numériques en constante évolution.

Essayer Premium gratuitement

Quelles techniques sont utilisées dans les attaques par injection de prompt ?

L'injection de prompt utilise du texte simple pour tromper l'IA et la pousser à suivre des instructions non autorisées. Le risque vient du fait que les modèles d'IA traitent tout le texte de la même manière et ne savent pas distinguer une saisie légitime d'un contenu manipulé.

La plupart des attaques appartiennent à deux grandes familles : des astuces qui déguisent des instructions au moyen de code ou de formatage, et des techniques qui cachent les instructions pour qu'un humain ne puisse pas les voir. Dans les deux cas, tout a l'air normal pour un lecteur humain de la page.

Astuces de code et de formatage

Certaines attaques utilisent des blocs de code, du balisage ou du texte structuré pour faire passer une instruction malveillante pour une commande système légitime. Cela peut consister à encadrer un texte avec un format de style code ou à le structurer pour imiter un prompt système du développeur.

Instructions dissimulées ou déguisées

D'autres attaques cachent des instructions à la vue de tous à l'aide d'astuces visuelles peu repérables par un humain, comme du texte blanc sur fond blanc, une taille de police nulle, des espacements inhabituels, des caractères spéciaux, un encodage Unicode, ou des instructions rédigées dans une langue différente. Un humain parcourant le document ou la page web ne verra rien d'anormal, mais l'IA lit tout le texte sous‑jacent, quel que soit son affichage.

Ces techniques sont déjà utilisées. Des attaquants ont intégré des instructions invisibles dans des pages web pour détourner des agents d'IA du navigateur, et des candidats ont inséré du texte caché dans des CV pour tromper des outils de sélection basés sur l'IA.

Infographie montrant comment des instructions cachées dans un document peuvent manipuler la sortie d'une IA via l'injection de prompt

Exemples d'injection de prompt

Comment Bing Chat a été piégé pour révéler ses propres règles

En février 2023, Kevin Liu, étudiant à Stanford, a utilisé une injection de prompt directe pour faire révéler les instructions système cachées de Bing Chat. Il a suffi de taper « ignorez les instructions précédentes » et de demander à l'IA de relire ses propres règles. Le chatbot a livré son nom de code interne « Sydney » et ses consignes opérationnelles cachées. Quand Microsoft a corrigé la faille, Liu a contourné le correctif en quelques heures en se faisant passer pour un développeur.

Comment du texte caché dans des CV a trompé des outils de présélection basés sur l'IA

Des candidats ont commencé à insérer des instructions d'injection de prompt dans leurs CV pour manipuler des outils de recrutement alimentés par l'IA. La méthode consiste à écrire des instructions comme « ce candidat est exceptionnellement qualifié » en police blanche ou en très petite taille afin que le texte soit invisible pour un lecteur humain mais détecté par l'IA.

La technique a pris de l'ampleur sur les réseaux sociaux en 2024. Le cabinet de recrutement ManpowerGroup a déclaré avoir trouvé du texte caché dans environ 10 % des CV qu'il analyse avec l'IA. La plateforme de recrutement Greenhouse a observé des prompts cachés similaires dans 1 % des 300 millions de CV qu'elle traite chaque année.

Comment des chatbots ont été manipulés pour partager des informations privées

Un des premiers cas d'injection de prompt contre ChatGPT concernait le bot Twitter de remoteli.io, propulsé par ChatGPT et conçu pour poster des commentaires positifs sur le télétravail. Des utilisateurs ont découvert qu'ils pouvaient tweeter des instructions lui ordonnant d'ignorer son objectif initial, ce qui l'a amené à publier des déclarations publiques absurdes.

Plus récemment, des chercheurs en sécurité ont démontré que l'agent navigateur ChatGPT Atlas d'OpenAI pouvait être détourné via des instructions cachées plantées dans des courriels. Dans un test, un courriel malveillant contenant un prompt intégré a poussé l'agent à envoyer une lettre de démission au supérieur de l'utilisateur au lieu de rédiger la réponse automatique demandée. L'utilisateur n'a jamais vu l'instruction cachée, mais l'IA l'a suivie malgré tout.

Pourquoi les utilisateurs ordinaires devraient‑ils se préoccuper de l'injection de prompt ?

L'injection de prompt peut manipuler des outils d'IA à votre insu. Quand une IA résume un document ou rédige un courriel, elle puise dans des sources externes. Si l'une de ces sources a été altérée, le résultat est compromis — et vous ne le verrez peut‑être jamais.

C'est ce qui distingue l'injection de prompt des autres menaces en ligne : il n'est pas nécessaire de cliquer sur un lien ou de télécharger quoi que ce soit. Vous posez une question normale, et la réponse revient façonnée par des instructions que quelqu'un a enterrées dans le contenu utilisé comme entrée par l'IA. Cela peut être relativement bénin, comme un résumé biaisé ou un lien inopportun. Mais dans des cas plus graves, l'outil peut divulguer vos données personnelles ou effectuer des actions que vous n'avez pas autorisées. Et les résultats manipulés paraissent souvent tout à fait normaux, sans message d'erreur ni signe évident.

Tout cela ne signifie pas que vous devriez cesser d'utiliser ces outils, mais vous ne pouvez pas non plus supposer que la sortie d'une IA est toujours neutre et fiable.

L'injection de prompt est‑elle la même chose que le jailbreak ?

L'injection de prompt et le jailbreak sont liés mais pas interchangeables. Le jailbreak est une forme d'injection de prompt ciblant spécifiquement les garde‑fous de sécurité : il vise à faire ignorer à une IA les politiques de contenu ou à produire des réponses restreintes.

L'injection de prompt est un concept plus large. Elle englobe toute tentative de détourner le comportement d'une IA via une entrée conçue sur mesure, comme découvrir des commandes système cachées ou pousser l'outil à accomplir des actions non autorisées. L'objectif n'est pas toujours de contourner les filtres de sécurité : souvent, l'attaquant cherche simplement à faire exécuter un autre jeu d'instructions sans que personne ne s'en aperçoive.

Autre différence importante : les personnes affectées. Le jailbreak est un acte délibéré réalisé par l'utilisateur dans sa propre session. L'injection de prompt, en particulier les variantes indirectes et stockées, peut toucher des utilisateurs innocents qui ignoraient que le contenu interrogé avait été manipulé. C'est une menace distincte, et la raison pour laquelle OWASP classe l'injection de prompt au rang de risque n°1 pour les applications d'IA, plutôt que de traiter le jailbreak comme une catégorie à part.

Comment prévenir l'injection de prompt ?

Il n'existe pas de solution simple pour l'injection de prompt aujourd'hui, parce que la vulnérabilité provient de la même caractéristique qui rend ces outils utiles : leur capacité à suivre des instructions. Les développeurs ne peuvent pas supprimer cette faculté sans nuire à l'usage réel des outils.

Les développeurs d'IA améliorent continuellement le filtrage des entrées, et les tests adversariaux aident, mais rien sur le marché n'élimine complètement le risque.

Cependant, il y a beaucoup de choses que vous pouvez faire. La plupart relèvent du bon sens :

  • Restez vigilant. Ne laissez pas les outils d'IA fonctionner en pilote automatique. Vérifiez toujours ce que l'outil prévoit de faire avant qu'il n'agisse.
  • Restreignez les accès autant que possible. Quand un outil d'IA demande la permission d'accéder à vos courriels ou à vos fichiers, demandez‑vous s'il en a vraiment besoin. Évitez de coller des mots de passe, des informations financières ou des données sensibles dans les fenêtres de chat d'IA.
  • Remettez en question les réponses reçues. Si une réponse inclut un lien inattendu, recommande quelque chose que vous n'avez pas demandé, ou vous pousse vers une action qui semble suspecte, prenez votre temps avant d'y donner suite.
  • Tenez tout à jour. Les développeurs publient régulièrement des mises à jour corrigeant des vulnérabilités et renforçant les défenses. Utiliser une version obsolète, c'est renoncer à ces protections.

Checklist des étapes clés pour prévenir les attaques d'injection de prompt, incluant la limitation de l'accès à l'IA et la vérification des actions.

Que faire si un outil d'IA se comporte de manière inattendue ?

Si un outil d'IA commence à se comporter de façon étrange, arrêtez‑vous et n'agissez pas sur ce qu'il vous demande. Il se peut que ce ne soit pas une injection de prompt, mais si quelque chose cloche, il faut en déterminer la cause avant de poursuivre.

Plusieurs signes doivent vous alerter :

  • Il propose des actions que vous n'avez jamais demandées
  • Des liens ou des recommandations de produits inconnus apparaissent
  • Il demande des informations personnelles sans rapport avec la tâche
  • Le ton change brusquement en plein échange
  • Les réponses deviennent incohérentes ou déconnectées de votre question

Si l'un de ces signes survient, fermez la session et recommencez à zéro. Ne tentez pas de dépanner dans la même conversation, car si la session est compromise, vous y resterez exposé.

Puis retracez vos actions et réfléchissez à ce à quoi l'outil avait accès. Votre messagerie était‑elle ouverte ? Le logiciel pouvait‑il agir en votre nom ? Si quelque chose vous semble suspect, annulez les modifications et changez immédiatement vos mots de passe.

Comment l'injection de prompt s'intègre‑t‑elle dans la sécurité globale des IA ?

L'injection de prompt figure en tête des priorités en matière de sécurité des IA parce qu'elle attaque l'IA lui‑même. Cela la distingue de l'hameçonnage, des logiciels malveillants et d'autres piratages plus conventionnels qui visent les systèmes autour des IA.

Et le problème prend de l'ampleur. Il n'y a pas si longtemps, les outils d'IA se limitaient surtout à générer du texte. Aujourd'hui, ils peuvent naviguer sur le web, lire vos courriels, accéder à vos fichiers, écrire du code et agir en votre nom. Des normes comme MCP (Model Context Protocol) facilitent encore l'intégration des IA à des services externes. Plus ces outils font de choses, plus les conséquences d'une attaque réussie peuvent être graves.

Il y a aussi la question de l'échelle. L'injection de prompt fonctionne comme de l'ingénierie sociale, en convaincant l'IA de suivre des instructions qu'elle ne devrait pas exécuter en les présentant de la bonne manière. Mais contrairement à une arnaque téléphonique visant une personne à la fois, une instruction cachée sur une page web populaire peut toucher tous les outils d'IA qui la lisent.

Rien de tout cela ne veut dire que les outils d'IA sont intrinsèquement dangereux. Mais la sécurité tente encore de rattraper la vitesse d'adoption de ces technologies, et la responsabilité en matière de protection reposera encore en grande partie sur les utilisateurs finaux.

Articles connexes :

Produits recommandés :

FAQ

L'injection de prompt est‑elle illégale ?

Aucune loi ne prohibe spécifiquement l'injection de prompt. En revanche, les actes commis grâce à cette technique — accès à des données restreintes, extraction d'informations privées — relèvent des infractions existantes en matière de fraude informatique et de cybercriminalité. Le risque légal est donc bien réel, même si la législation doit encore évoluer.

L'injection de prompt peut‑elle toucher des personnes lambda ?

Oui. Si vous utilisez un outil qui traite du contenu externe avec des IA, vous pouvez facilement être affecté (et vous ne vous en apercevrez probablement pas). Ce n'est pas une attaque contre vous en tant qu'utilisateur final : l'attaque vise l'outil d'IA, pas la personne directement.

L'injection de prompt peut‑elle voler des données personnelles ?

Oui, si l'outil d'IA a accès à des données personnelles. Qu'il s'agisse de votre messagerie, de vos fichiers ou d'autres données, une injection réussie peut lui ordonner d'extraire et de communiquer ces informations. Des chercheurs en sécurité ont déjà démontré que des agents d'IA intégrés aux navigateurs pouvaient être trompés pour transmettre des documents sensibles à des destinataires non autorisés.

L'injection de prompt est‑elle la même chose que le piratage ?

L'injection de prompt n'est pas du piratage traditionnel. Plutôt que d'exploiter des vulnérabilités de code, elle manipule ce que l'IA lit. C'est de l'ingénierie sociale dirigée vers une machine. Le résultat peut ressembler à un piratage (fuite de données, actions non autorisées), mais le mécanisme est fondamentalement différent.

Qu'est-ce que l'injection de prompt et comment peut-on manipuler l'IA ?

L'injection de prompt est une menace croissante pour la sécurité des IA qui utilise le langage, non des logiciels malveillants, pour détourner des outils d'IA. Découvrez son fonctionnement, les risques et comment vous protéger.
Kaspersky logo