Les gens confient leurs questions les plus importantes, voire les plus intimes, à des réseaux neuronaux : vérification de diagnostics médicaux, conseils amoureux ou recours à l’IA plutôt qu’à un psychothérapeute. On connaît déjà des cas de planification de suicides, d’attaques réelles et d’autres actes dangereux facilités par des modèles LLM. Les discussions privées entre les humains et l’IA attirent donc de plus en plus l’attention des gouvernements, des entreprises et des particuliers curieux.
Il ne manquera donc pas de personnes prêtes à mettre en pratique l’attaque Whisper Leak. Après tout, ce système permet de déterminer le thème général d’un échange avec un réseau neuronal sans toucher au trafic lui-même – uniquement en étudiant les schémas temporels d’envoi et de réception des paquets chiffrés transmis au serveur d’IA. Il reste néanmoins possible de garder vos chats privés ; explications plus bas…
Fonctionnement de l’attaque Whisper Leak
Tous les modèles de langage génèrent leurs résultats de façon progressive. Pour l’utilisateur, c’est comme si une personne à l’autre bout tapait le message mot par mot. Cependant, en réalité, les modèles de langage ne fonctionnent pas à partir de caractères ni de mots individuels, mais avec des jetons, une sorte d’unité sémantique pour les modèles LLM, et la réponse de l’IA s’affiche à l’écran à mesure que ces jetons sont créés. Ce mode de sortie est connu sous le nom de « streaming », et il s’avère que l’on peut déduire le sujet de la conversation en mesurant les caractéristiques du flux. Nous avons déjà évoqué une étude qui a permis de reconstituer assez fidèlement le texte d’une conversation avec un bot en analysant la longueur de chaque token envoyé par celui-ci.
Les chercheurs de Microsoft ont poussé cette analyse plus loin en étudiant les caractéristiques de réponse de 30 modèles d’IA différents à 11 800 requêtes. Une centaine de questions ont été utilisées, qui étaient des variantes de la question « Le blanchiment d’argent est-il légal ? », tandis que les autres questions étaient aléatoires et portaient sur des sujets totalement différents.
En comparant le délai de réponse du serveur, la taille des paquets et le nombre total de paquets, les chercheurs ont pu distinguer très précisément les requêtes « dangereuses » des requêtes « normales ». Ils ont également utilisé des réseaux neuronaux pour l’analyse, mais pas des modèles LLM. Selon le modèle étudié, la précision de l’identification des sujets « dangereux » varie de 71 % à 100 %, avec une précision supérieure à 97 % pour 19 des 30 modèles.
Les chercheurs ont ensuite mené une expérience plus complexe et plus réaliste. Ils ont testé un ensemble de données de 10 000 conversations aléatoires, dont une seule portait sur le sujet choisi.
Les résultats ont été plus variés, mais l’attaque simulée s’est tout de même avérée plutôt concluante. Pour des modèles tels que Deepseek-r1, Groq-llama-4, gpt-4o-mini, xai-grok-2 et -3, ainsi que Mistral-small et Mistral-large, les chercheurs ont pu détecter le signal parmi le bruit dans 50 % de leurs expériences, sans aucun faux positif.
Pour Alibaba-Qwen2.5, Lambda-llama-3.1, gpt-4.1, gpt-o1-mini, Groq-llama-4 et Deepseek-v3-chat, le taux de réussite de la détection a chuté à 20 %, mais toujours sans faux positifs. En revanche, pour Gemini 2.5 pro, Anthropic-Claude-3-haiku et gpt-4o-mini, la détection des conversations « dangereuses » sur les serveurs de Microsoft n’a été possible que dans 5 % des cas. Le taux de réussite pour les autres modèles testés était encore plus bas.
Il est important de noter que les résultats dépendent non seulement du modèle d’IA utilisé, mais également de la configuration du serveur sur lequel il est exécuté. C’est pourquoi un même modèle OpenAI peut donner des résultats différents selon qu’il est utilisé dans l’infrastructure de Microsoft ou sur les serveurs d’OpenAI. Il en va de même pour tous les modèles open source.
Implications pratiques : que faut-il pour qu’une attaque Whisper Leak fonctionne ?
Si un pirate disposant de ressources importantes a accès au trafic réseau de ses victimes (par exemple, en contrôlant un routeur chez un FAI ou au sein d’une organisation), il peut détecter un pourcentage important de conversations sur des sujets qui l’intéressent simplement en mesurant le trafic envoyé aux serveurs de l’assistant IA, tout en obtenant un taux d’erreur très faible. Toutefois, ce système ne signifie pas pour autant la détection automatique de tout sujet de conversation possible. Le pirate informatique doit d’abord entraîner ses systèmes de détection sur des thématiques spécifiques, et le modèle n’identifiera que celles-ci.
Cette menace ne peut être considérée comme purement théorique. Les organismes chargés de l’application des lois pourraient, par exemple, surveiller les requêtes liées à la fabrication d’armes ou de drogues, tandis que les entreprises pourraient suivre les requêtes de recherche d’emploi de leurs employés. Cependant, il n’est pas concevable d’utiliser cette technologie pour mener une surveillance de masse sur des centaines ou des milliers de thématiques, car cette opération demanderait beaucoup trop de ressources.
En réponse à ces recherches, certains services d’IA populaires ont modifié les algorithmes de leurs serveurs afin de compliquer l’exécution de cette attaque.
Comment se protéger de l’attaque Whisper Leak
La principale responsabilité en matière de défense contre cette attaque incombe aux fournisseurs de modèles d’IA. Le texte généré doit être fourni de manière à ce que le sujet ne puisse pas être discerné à partir des modèles de génération de jetons. À la suite des recherches de Microsoft, des entreprises comme OpenAI, Mistral, Microsoft Azure et xAI ont indiqué qu’elles se penchaient sur cette menace. Désormais, les réseaux neuronaux ajoutent une petite quantité de données invisibles aux paquets envoyés, ce qui perturbe les algorithmes Whisper Leak. Il est à noter que les modèles d’Anthropic étaient intrinsèquement moins sensibles à cette attaque dès le départ.
Si vous utilisez un modèle et des serveurs pour lesquels l’attaque Whisper Leak continue de poser problème, vous pouvez soit passer à un fournisseur moins vulnérable, soit prendre des précautions supplémentaires. Ces mesures sont également pertinentes pour quiconque souhaiterait se prémunir contre de futures attaques de ce type :
- Utilisez des modèles d’IA locaux pour les sujets très sensibles – nous avons rédigé un guide à ce sujet.
- Configurez le modèle pour qu’il utilise, dans la mesure du possible, une sortie sans flux, de sorte que la réponse entière soit transmise en une seule fois plutôt que mot par mot.
- Évitez de discuter de sujets sensibles avec les chatbots lorsque vous êtes connecté à des réseaux non fiables.
- Utilisez un fournisseur de VPN robuste et fiable pour renforcer la sécurité de la connexion.
- N’oubliez pas que le point de fuite le plus probable pour toute information de discussion reste votre propre ordinateur. Il est donc primordial de le protéger contre les logiciels espions à l’aide d’une solution de sécurité fiable fonctionnant à la fois sur votre ordinateur et sur tous vos smartphones.
Voici une série d’articles expliquant quels sont les autres risques liés à l’utilisation de l’IA et comment configurer correctement ces outils :
- Fausse barre latérale d’IA : une nouvelle attaque contre les navigateurs IA
- Les avantages et les inconvénients des navigateurs assistés par IA
- Comment les cybercriminels peuvent-ils lire vos discussions avec ChatGPT ou Microsoft Copilot ?
- Paramètres de confidentialité dans ChatGPT
- DeepSeek : paramétrage de la confidentialité et déploiement d’une version locale
IA
Conseils