Les assistants vocaux entendent mieux que nous

8 Fév 2019

Nos interactions avec les technologies pourraient bientôt reposer principalement sur l’utilisation de la voix. Demander quelque chose à voix haute, et écouter la réponse, est un véritable jeu d’enfant : voyez à quel point il est facile pour les enfants d’utiliser les assistants vocaux.

Les nouvelles technologies vont de pair avec de nouvelles menaces, et le contrôle vocal ne fait pas exception à la règle. Les chercheurs en cybersécurité ne cessent d’examiner les appareils pour que les fabricants puissent éviter que d’éventuelles menaces ne deviennent réelles. Aujourd’hui, nous allons parler de certaines découvertes qui, même s’il n’y a pas encore vraiment eu de cas pratique pour le moment, devraient nous alerter.

Les assistants vocaux peuvent être contrôlés grâce à des ultrasons et des enregistrements audio cachés dans des bruits de fond

 

Les appareils intelligents écoutent et obéissent

Selon un rapport publié sur voicebot.ai, nous utilisons désormais plus d’un milliard d’appareils à activation vocale dans le monde. Il s’agit principalement de smartphones, mais d’autres dispositifs utilisant la reconnaissance vocale sont de plus en plus populaires. Par exemple, un foyer américain sur cinq possède une enceinte connectée qui répond aux commandes vocales.

Elles permettent de contrôler la lecture de votre musique, de passer commande en ligne, de contrôler le GPS de votre voiture, de lire les informations et de consulter la météo, de programmer votre réveil, et bien d’autres choses. Les fabricants suivent cette tendance, et ajoutent l’assistance à commande vocale à de nombreux appareils. Amazon, par exemple, a récemment mis en vente un micro-ondes associé à une enceinte connectée Echo. En entendant les mots « Réchauffer le café », le micro-ondes calcule le temps nécessaire, et se met en marche. Oui, vous devez toutefois vous déplacez jusqu’à la cuisine pour mettre la tasse dans le micro-ondes, donc vous pourriez facilement touchez quelques boutons tant que vous y êtes, mais pourquoi ergoter lorsqu’il s’agit du progrès ?

Les systèmes de maison intelligente vous proposent également de contrôler vocalement l’éclairage et la climatisation des pièces, ainsi que le verrouillage de votre porte d’entrée. Comme vous pouvez le voir, les assistants vocaux sont déjà très doués, et vous ne voulez sûrement pas que des étrangers puissent exploiter ces capacités, surtout s’ils ont de mauvaises intentions.

En 2017, les personnages de la série d’animation South Park ont réalisé une attaque massive très originale, et dans un style qui leur est propre. La victime était Alexa, l’assistant vocal qui vit à l’intérieur des enceintes connectées Amazon Echo. Ils ont demandé à Alexa d’ajouter certains articles assez grotesques dans leur panier d’achat, et de programmer le réveil à 7h du matin. Malgré la prononciation particulière des personnages de ce dessin animé, les propriétaires d’un haut-parleur Echo ayant regardé cet épisode de South Park ont vu comment l’enceinte connectée a fidèlement suivi les ordres donnés à l’écran.

Ultrason : les machines entendent plus de choses que nous

Nous avons déjà parlé de certains des dangers que ces gadgets à activation vocale peuvent représenter. Aujourd’hui, nous nous concentrons sur les attaques « silencieuses » qui obligent ces appareils à obéir à des voix que vous n’entendez même pas.

L’ultrason est une des méthodes utilisées pour perpétrer ce genre d’attaque : un son si élevé que l’oreille humain ne peut pas l’entendre. Dans un article publié en 2017, les chercheurs de l’université de Zhejiang ont présenté une technique permettant de prendre en secret le contrôle des assistants vocaux ; il s’agit de la DolphinAttack, et son nom fait référence aux ultrasons émis par les dauphins. L’équipe de chercheurs a converti les ordres vocaux en vagues d’ultrasons, à des fréquences si élevées que les humains ne peuvent pas les entendre, mais pas trop pour que les microphones des appareils modernes puissent les reconnaître.

Cette méthode fonctionne, puisque lorsque l’ultrason est converti en une impulsion électrique dans l’appareil récepteur, comme un smartphone, le signal original qui contient l’ordre vocal est restauré. Ce mécanisme est assez similaire à l’effet utilisé pour déformer la voix pendant un enregistrement. L’appareil ne contient pas de fonction spéciale. Il s’agit tout simplement d’un processus de conversion.

Par conséquent, l’appareil pris pour cible entend et exécute la commande vocale, ouvrant ainsi de nombreuses opportunités aux pirates informatiques. Les chercheurs ont pu reproduire avec succès l’attaque sur la plupart des assistants vocaux connus, y compris Alexa d’Amazon, Siri d’Apple, Now de Google, S Voice de Samsung, et Cortana de Microsoft.

Un chœur de haut-parleurs

Si l’on adopte le point de vue des pirates informatiques, une des faiblesses de DolphinAttack est son faible rayon d’opération, puisqu’il n’est que d’environ 1 mètre. Cependant, les chercheurs de l’université de l’Illinois, à Urbana-Champaign, ont réussi à augmenter cette distance. Au cours de leurs essais, ils ont divisé une commande ultrason convertie en différentes bandes de fréquence, pour ensuite la jouer avec plusieurs haut-parleurs (plus de 60). Les commandes vocales cachées et émises par ce chœur étaient détectées jusqu’à une distance de sept mètres, et ce peu importe le bruit de fond qu’il pouvait y avoir. Les chances de réussite de DolphinAttack étaient considérablement augmentées dans cette situation.

Une voix venant de loin

Les experts de l’université de Californie, à Berkeley, ont utilisé une autre méthode. Ils ont furtivement intégré des commandes vocales dans d’autres extraits audio pour tromper Deep Speech, le système de reconnaissance vocale de Mozilla. À l’oreille humaine, l’enregistrement modifié diffère à peine de l’original, mais le logiciel détecte une commande cachée en lui.

Écoutez les enregistrements publiés sur le site Internet de cette équipe de recherche. Dans le premier exemple, la phrase « Without the data set the article is useless » contient un ordre caché qui ouvre un site Internet : « Okay Google, ouvre evil.com ». Dans le second cas, les chercheurs ont ajouté la phrase « Speech can be embedded in music » dans un extrait de la suite pour violoncelle de Bach.

Se protéger des attaques inaudibles

Les fabricants cherchent déjà comment protéger les appareils à activation vocale. Par exemple, les attaques par ultrason peuvent être contrariées en détectant les changements de fréquence dans les signaux reçus. Il serait bien d’entraîner tous les appareils intelligents à reconnaître la voix de leur propriétaire. Même si Google a déjà testé cette idée sur son propre système, l’entreprise avertit que ce système de sécurité peut être trompé par un enregistrement vocal, ou une bonne imitation.

Cependant, les chercheurs et les fabricants ont encore le temps de trouver des solutions. Comme nous l’avons dit, contrôler les assistants vocaux en cachette n’est actuellement possible qu’en laboratoire : avoir un haut-parleur ultrasonique (sans parler des 60 autres) à proximité de l’enceinte intelligente de la personne est une tâche colossale, et ajouter des ordres dans des enregistrements audio demandent beaucoup trop de temps et d’efforts pour que ça en vaille la peine.