Avertissement : il s’agit de l’opinion personnelle de l’auteur et elle ne reflète pas la position officielle de Kaspersky (l’entreprise).
Au-delà des divers événements géopolitiques qui ont marqué 2022, au niveau technologique, ce fut l’année de l’IA. Je devrai peut-être commencer par être honnête : jusqu’à récemment, quand on me posait des questions sur l’IA en cybersécurité, je la qualifiais de produit fantôme (ou vaporware en anglais). J’ai toujours su que l’apprentissage automatique pouvait être utilisé de diverses façons dans le monde réel ; mais pour nous, dans l’univers de la sécurité de l’information, l’IA n’avait été utilisée que pour les argumentaires de vente des produits les plus ringards. Pour moi, les expressions comme « basé sur l’IA » n’étaient qu’une façon élégante qu’avaient trouvé les fabricants pour dire : « nous n’avons aucune base de connaissances ou donnée de télémesure, et c’est pourquoi nous avons inventé quelques heuristiques ». Je reste convaincu que dans plus de 95 % des cas les produits obtenus possèdent très peu de l’IA réelle. Le fait est que, pendant que les équipes de marketing étaient occupées à apposer l’étiquette » IA » sur n’importe quel produit qui utilisait le partitionnement en k-moyennes pour ses opérations, l’authentique domaine de l’IA faisait vraiment des progrès.
Pour moi, l’heure de vérité a été quand j’ai essayé DALL-E 2 pour la première fois, et Midjourney peu de temps après. Ces deux projets vous permettent de générer des images à partir d’une description textuelle, et ont déjà provoqué quelques turbulences dans le monde de l’art.
Ensuite, en décembre 2022, ChatGPT a fait fureur partout dans le monde. En quelques mots, ChatGPT est un agent conversationnel. J’imagine que la plupart des gens l’ont déjà essayé mais, si ce n’est pas le cas, je vous conseille vivement de le faire. Il est impossible d’expliquer avec des mots à quel point ce système est supérieur aux projets précédents, et en entendre parler n’est pas suffisant. Vous devez le tester pour vraiment ressentir et comprendre tout ce qui en découle…
Les modèles de langage
Comme Arthur C. Clarke l’a dit, « toute technologie suffisamment avancée est indiscernable de la magie ». J’adore voir comment la technologie peut parfois apporter cette sensation d’émerveillement dans nos vies mais, malheureusement, ce sentiment se trouble lorsque nous essayons d’envisager les conséquences ou les limites d’une nouvelle avancée. C’est pourquoi je pense que nous devons d’abord prendre le temps de comprendre comment ces technologies fonctionnent.
Commençons par ChatGPT. C’est un modèle de langage. En d’autres termes, c’est une représentation de notre langage. Comme c’est le cas avec de nombreux projets d’apprentissage automatique importants, personne ne sait vraiment comment ce modèle fonctionne (pas même OpenAI, ses créateurs). Nous savons comment le modèle a été créé mais c’est beaucoup trop complexe pour être officiellement compréhensible. ChatGPT, qui est actuellement le modèle de langage (public ?) le plus grand, possède plus de 175 milliards de paramètres. Pour que vous puissiez comprendre ce que ça signifie, imaginez une machine géante avec 175 milliards de boutons que vous pouvez régler. Chaque fois que vous envoyez un texte sur ChatGPT, il est converti en un paramètre pour chacun de ces boutons. Enfin, la machine propose un résultat (plus de texte) à partir de cette position. Il y a aussi un caractère aléatoire afin de garantir que la même question n’obtienne pas toujours la même réponse (même si cet aspect peut aussi être ajusté).
C’est pourquoi nous voyons ces modèles comme des boîtes noires : même si vous consacriez toute votre vie à l’étude de cette machine, rien ne garantit que vous puissiez comprendre l’objectif d’un seul bouton (et encore moins de tous). Pourtant, nous savons ce que la machine fait puisque nous connaissons le processus utilisé pour sa génération. Le modèle de langage est un algorithme qui peut traiter du texte et qui a longtemps été nourri lors de la phase d’apprentissage : tout le contenu de Wikipédia, les sites Web plagiés, les livres, etc. Cela a permis la création d’un modèle statistique qui sait quelle est la probabilité d’avoir un mot après un autre. Si j’écris « les roses sont rouges, les bleuets sont » vous pouvez deviner avec un fort degré de certitude que le prochain mot sera « bleus ». En quelques mots, c’est comme ça qu’un modèle de langage fonctionne. Pour un modèle de ce genre, c’est la même chose de finir votre phrase et de deviner quelle séquence de mots est susceptible de répondre à votre question à partir de tout ce qui a été lu auparavant. Dans le cas de ChatGPT, il y a en réalité une étape supplémentaire : le supervised fine-tuning. Les « entraîneurs » humains de l’IA ont eu plusieurs conversations avec le bot et ont signalé toutes les réponses qui pouvaient être problématiques (inexactes, biaisées, racistes, etc.) pour que le programme apprenne à ne pas répéter les mêmes erreurs.
Si vous n’arrivez pas à comprendre l’IA, classez-la comme « mathématiques » ou « statistiques » : la prédiction est l’objectif de ces modèles. Lorsque vous utilisez ChatGPT, vous avez vite le sentiment que l’IA « sait » des choses puisqu’elle est capable de récupérer des informations adaptées au contexte et spécifiques au domaine pour des demandes que le programme voit pour la première fois. Pourtant, le programme ne comprend pas un seul mot : il est seulement capable de générer un texte qui « semble » être la suite naturelle de ce que vous lui avez donné. Cela explique pourquoi ChatGPT peut exposer un argument philosophique complexe mais trébuche souvent lorsqu’il s’agit d’opérations arithmétiques élémentaires : il est plus difficile de prédire le résultat d’un calcul que le prochain mot d’une phrase.
En outre, le programme n’a pas de mémoire : son entraînement s’est terminé en 2021 et le modèle est figé. Les mises à jour se présentent sous la forme de nouveaux modèles (par exemple GPT-4 en 2024) entraînés avec de nouvelles données. En réalité, ChatGPT ne se souvient même pas des conversations que vous avec déjà eues avec lui : l’historique de conversations récentes est envoyé lorsque vous écrivez un nouveau texte pour que la conversation paraisse plus naturelle.
Quant à savoir si ce système peut être qualifié d' »intelligence » (et s’il est très différent de l’intelligence humaine), ce sera l’objet de nombreux débats philosophiques houleux dans les prochaines années.
Les modèles de diffusion
Les outils de génération d’images, comme Midjourney et DALL-E, reposent sur une autre catégorie de modèles. Leur procédure de formation se concentre évidemment sur la génération d’images (ou les collections de pixels) au lieu du texte. En réalité, deux composants sont nécessaires pour générer une image à partir d’une description textuelle, et le premier est très intuitif. Le modèle a besoin d’associer les mots avec des informations visuelles, et c’est pourquoi il est alimenté par des collections d’images qui ont une légende. Tout comme ChatGPT, nous avons une machine colossale et impénétrable qui est très efficace lorsqu’il s’agit d’associer des images avec des données textuelles. La machine ne sait pas comment est le visage de Brad Pitt mais si elle a vu assez de photos de lui, elle sait que toutes les images ont quelques caractéristiques communes. Si quelqu’un envoie une nouvelle photo de Brad Pitt, le modèle peut le reconnaître et déterminer que « oui, c’est encore lui ».
La deuxième partie, que je trouve plus étonnante, est capable d’améliorer les images. Pour ce faire, le système utilise un « modèle de diffusion », entraîné avec des images propres auxquelles on ajoute progressivement du bruit (visuel) jusqu’à ce qu’elles soient méconnaissables. Cela permet au modèle de trouver les ressemblances entre une image floue et de mauvaise qualité et une autre d’une meilleure résolution, là encore à un niveau statistique, et de recréer une bonne image à partir de celle qui a du bruit. En réalité, il y a des produits équipés de l’IA qui s’occupent de débruiter les vieilles photos ou d’améliorer la résolution.
Si nous regroupons toutes les images, nous pouvons les synthétiser : on commence avec un bruit aléatoire qu’on « intensifie » progressivement tout en vérifiant que l’image contient toutes les caractéristiques indiquées par l’utilisateur dans son invite. Cliquez ici pour obtenir une description plus détaillée du système interne de DALL-E.
Les mauvaises questions
L’émergence de tous les outils mentionnés dans cet article a provoqué de vives réactions de la part de l’opinion publique, et certaines étaient très négatives. Certaines inquiétudes sont légitimes à propos de l’apparition soudaine de l’IA dans nos vies, mais je pense que les débats actuels se concentrent essentiellement sur les mauvaises questions. Voyons de quoi il s’agit avant de passer à ce qui je pense devrait être le cœur des débats à propos de l’IA.
DALL-E et Midjourney volent le travail d’artistes réels
J’ai parfois lu que ces outils étaient décrits comme des programmes qui font un patchwork d’images vues auparavant et auxquelles ils appliquent des filtres qui leur permettent d’imiter le style de l’artiste demandé. Toute personne tenant ces propos ignore les réalités techniques des modèles sous-jacents ou fait preuve de mauvaise foi.
Comme je l’ai expliqué auparavant, le modèle est tout simplement incapable d’extraire les images ou tout simplement les formes des images utilisées pour l’entraîner. L’extraction de caractéristiques mathématiques est la seule chose qu’il pourrait faire au mieux.
Nul ne peut nier que de nombreuses œuvres protégées par les droits d’auteurs ont été utilisées dans la phase d’entraînement sans que les auteurs originaux n’aient explicitement donné leur accord, et ce point pourrait éventuellement être discuté. Il convient tout de même de souligner que les artistes humains suivent exactement le même processus pendant leurs études : ils copient les peintures d’experts et trouvent leur inspiration dans les œuvres qu’ils voient. Qu’est-ce que l’inspiration si ce n’est la capacité à capturer l’essence d’une œuvre d’art tout en étant capable de la revisiter ?
DALL-E et Midjourney marquent une rupture dans le sens où ils sont théoriquement capables de trouver l’inspiration dans chaque image produite dans toute l’histoire de l’humanité (et, certainement, dans toutes celles qui voient le jour actuellement). Il s’agit seulement d’un changement d’échelle, la nature reste la même.
L’IA simplifie trop les choses
Ces critiques laissent généralement entendre que l’art devrait être difficile. Cette idée m’a toujours surpris puisque la personne qui regarde l’œuvre d’art ne sait pas si l’artiste a dû faire beaucoup ou peu d’efforts. Ce débat n’a rien de nouveau : des années après la sortie de Photoshop, certaines personnes disent encore que l’art numérique n’est pas vraiment de l’art. D’autres suggèrent que certaines compétences sont nécessaires pour utiliser Photoshop, mais je pense qu’ils passent à côté de l’essentiel. De quel talent Robert Rauschenberg a-t-il eu besoin pour peindre en blanc une toile vierge ? De combien d’années de pratique avez-vous besoin avant de pouvoir jouer le célèbre morceau 4’33 » de John Cage ?
Même si nous considérions les compétences comme un critère d’art, où fixerions-nous les limites ? Quel effort est considéré comme suffisant ? Quand la photographie a été inventée, Charles Baudelaire l’a décrite comme » le refuge de tous les peintres manqués, trop mal doués ou trop paresseux pour achever leurs études » (et il n’était pas le seul à le croire). Il s’avère qu’il avait tort.
ChatGPT aide les cybercriminels
Avec l’émergence de l’IA, nous allons constater une amélioration de la productivité à tous les niveaux. Pour le moment, quelques organes de presse et fabricants font tout leur possible pour surfer sur la vague de ChatGPT, ce qui a donné lieu aux pièges à clics les plus honteux de l’histoire. Comme nous l’avons déjà mentionné dans un autre article, ChatGPT pourrait aider les escrocs à rédiger des messages d’hameçonnage ou à écrire un code malveillant, deux éléments qui n’ont jamais été un facteur limitant. Les personnes qui connaissent l’existence de GitHub savent que la disponibilité d’un programme malveillant n’est pas un problème pour les cybercriminels, et toute personne qui s’inquiète de l’accélération de ce développement devrait aussi avoir eu ces craintes lors de la sortie de Copilot.
Je viens de me rendre compte que c’est assez ridicule de discréditer une frénésie médiatique qui est née suite à d’insignifiantes considérations économiques au lieu d’aborder de réelles inquiétudes, mais le fait est que l’IA aura un énorme impact sur nos vies et de véritables problèmes doivent être résolus. Tout ce bruit se met dans le passage.
Impossible de faire machine arrière
Peu importe ce que vous pensez des outils sortis en 2022 équipés de l’IA ; sachez qu’il y en aura d’autres. Si vous pensez que ce domaine sera règlementé avant que la situation ne devienne incontrôlable, revoyez votre position : la réponse politique que j’ai constatée jusqu’à maintenant a été que la plupart des gouvernements ont décidé d’allouer plus de fonds à la recherche en IA tant qu’ils peuvent encore rattraper leur retard. Aucun pouvoir n’a intérêt à ralentir les choses.
La quatrième révolution industrielle
L’IA va certainement donner lieu à, ou a probablement déjà provoqué, une amélioration de la productivité. Il est encore difficile de savoir dans quelle mesure elle l’est ou le sera. Si votre travail consiste à rédiger des textes avec une certaine inspiration, vous devriez vous inquiéter. Cela vous concerne aussi si vous travaillez à la commission comme créateur visuel : il y aura toujours des clients qui rechercheront une touche humaine, mais la plupart d’entre eux choisiront l’option la plus économique. Ce n’est pas tout : les experts en ingénierie inversée, les avocats, les professeurs, les physiciens et bien d’autres professions devraient connaître de profonds changements.
Il convient de ne pas oublier que ChatGPT est un agent conversationnel d’usage général. Au cours des prochaines années, les modèles spécialisés vont apparaître et surpasser ChatGPT pour certaines utilisations spécifiques. En d’autres termes, si ChatGPT ne peut faire votre travail pour le moment, il est fort probable qu’un nouveau produit équipé de l’IA sorte dans les cinq prochaines années et le fasse. Notre travail, tout notre travail, consistera à surveiller l’IA et à nous assurer que le résultat proposé est correct, au lieu de le faire nous-même.
Il se pourrait que l’IA soit dans l’impasse à cause de sa complexité et ne puisse plus progresser, mais après m’être trompé plusieurs fois, j’ai appris à ne pas parier dans ce domaine. Est-ce que l’IA va autant changer le monde que la machine à vapeur ? Nous devrions espérer que ce ne soit pas le cas parce que les changements brutaux des moyens de production modifient la structure de la société humaine, et ce n’est jamais pacifique.
Les préjugés et la possession de l’IA
Beaucoup de choses ont déjà été dites sur les partis pris des outils d’IA et je ne souhaite pas y revenir dessus. Il est plus intéressant de voir comment OpenAI se bat contre ces préjugés. Comme mentionné ci-dessus, ChatGPT a connu une phase d’apprentissage supervisée au cours de laquelle le modèle de langage a appris à ne pas être intolérant. Alors qu’il s’agit d’un futur désirable, on ne peut que constater que ce processus a affectivement enseigné un nouveau parti pris à l’agent conversationnel. Les conditions de cette phase d’ajustement sont obscures : qui sont ces héros de l’ombre qui ont dû déterminer quelles sont les « mauvaises » réponses ? Des travailleurs non rémunérés dans des pays du tiers monde ou des ingénieurs de Silicon Valley ? Spoiler : il s’agit du premier cas.
Il convient également de rappeler que les produits d’IA ne travaillent pas pour le bien commun. Les divers produits conçus pour le moment appartiennent à des entreprises qui seront toujours et avant tout motivées par les bénéfices, qu’ils entravent ou non les intérêts de l’humanité. Tout comme un changement dans les résultats de recherche de Google a un effet quantifiable sur les gens, les compagnons ou les conseillers de l’IA auront la capacité d’influencer subtilement les utilisateurs.
Et maintenant ?
Étant donné qu’il ne s’agit plus de savoir si l’IA va faire interruption dans nos vies mais de déterminer quand, nous devrions au moins voir comment nous préparer.
Nous devrions être extrêmement prudents pour que ChatGPT (ou tout autre de ses descendants) ne se retrouvent pas dans une position où il pourrait prendre des décisions sans surveillance : ChatGPT est extrêmement fort pour dégager une certaine confiance, mais il y a encore beaucoup d’erreurs. Il y aura aussi de grandes motivations pour réduire les coûts et pour retirer l’être humain de l’équation.
Je prédis également qu’au cours des dix prochaines années la majorité des contenus disponibles en ligne (d’abord les textes et les images, puis les vidéos et les jeux vidéo) seront générés par une IA. Je ne pense pas que nous devrions compter beaucoup sur un signalement automatique efficace de ces contenus ; nous devrons simplement nous méfier de ce que nous voyons sur Internet et lire dix fois plus de bruit. Nous devrons surtout nous méfier des modèles spécialisés qui sont en cours. Que se passera-t-il lorsqu’un des Big Four aura formé un modèle sur le code fiscal et commencera à poser des questions sur les niches fiscales ? Que se passera-t-il lorsqu’un militaire jouera avec ChatGPT et lui dira : « Oui, je veux ça pour mes drones » ?
L’IA sera incroyable : elle va s’occuper de nombreuses tâches ennuyeuses, va apporter de nouvelles possibilités à tout le monde et va relancer de nouvelles formes d’art (oui). Mais l’IA sera aussi terrible. Si l’histoire nous a appris quelque chose, c’est qu’elle va donner lieu à une concentration du pouvoir encore plus importante et va nous entraîner encore plus sur la pente du techno-féodalisme. Elle va changer la façon dont le travail est organisé, voire nos relations avec le vivier de connaissances de l’humanité. Je ne vais pas entrer dans ce sujet.
La boîte de Pandore est ouverte.