Comment installer et utiliser un assistant d’IA sur votre ordinateur

Bénéficiez de tous les avantages de ChatGPT, Copilot et Midjourney localement, sans que vos données soient divulguées sur Internet.

De nombreuses personnes ont déjà testé les réseaux neuronaux génératifs et les utilisent régulièrement, y compris dans le cadre de leur travail. Par exemple, ChatGPT et ses équivalents sont régulièrement utilisés par près de 60 % des Américains, qui ne demandent d’ailleurs pas toujours l’autorisation à leur direction. Cependant, toutes les données impliquées dans de telles opérations (à la fois dans les invites de l’utilisateur et dans les réponses du modèle) sont stockées sur les serveurs d’OpenAI, de Google et des autres fournisseurs d’IA. Pour les tâches pour lesquelles une telle fuite d’informations serait inacceptable, vous n’avez pas besoin d’abandonner complètement l’IA. Il suffit de déployer quelques efforts (et d’investir éventuellement un peu d’argent) pour exécuter localement le réseau neuronal sur votre propre ordinateur, y compris s’il s’agit d’un simple ordinateur portable.

Menaces liées au cloud

Les assistants d’IA les plus populaires s’exécutent dans les infrastructures cloud des grandes entreprises. Si ce système s’avère rapide et efficace, les données qui vous appartiennent et qui sont traitées par le modèle peuvent néanmoins devenir accessibles à la fois au fournisseur de services d’IA et à des tiers qui n’ont aucun lien avec vous, comme cela s’est produit l’année dernière avec ChatGPT.

De tels incidents présentent des niveaux de menace variables en fonction de l’utilisation qui est faite de ces assistants d’IA. Si vous générez de jolies illustrations pour des contes de fées que vous avez écrits, ou si vous demandez à ChatGPT de créer un itinéraire pour votre prochain week-end en ville, il est peu probable qu’une fuite entraîne des dommages importants. En revanche, si votre conversation avec un chatbot contient des informations confidentielles (données personnelles, mots de passe ou numéros de carte bancaire), une éventuelle fuite dans le cloud n’est plus acceptable. Heureusement, vous pouvez éviter ce problème assez facilement en pré-filtrant les données. Nous avons d’ailleurs écrit un article distinct sur le sujet.

Cependant, si toute votre correspondance est confidentielle (par exemple, si vous traitez des informations médicales ou financières), ou si la fiabilité du pré-filtrage est incertaine (car vous devez traiter un grand nombre de données que personne ne prévisualisera et ne filtrera), il n’y a plus qu’une seule solution : déplacer le traitement depuis le cloud vers un ordinateur local. Bien entendu, il y a peu de chances que vous arriviez à exécuter votre propre version de ChatGPT ou de Midjourney hors ligne, mais il existe d’autres réseaux neuronaux qui fonctionnent localement et qui offrent une qualité comparable avec une charge de calcul moins importante.

De quel matériel avez-vous besoin pour exécuter un réseau neuronal ?

Vous avez probablement déjà entendu dire que l’utilisation de réseaux neuronaux nécessite des cartes graphiques surpuissantes, mais dans les faits, ce n’est pas toujours le cas. En fonction de leurs spécificités, plusieurs modèles d’IA peuvent s’avérer exigeants en matière de composants informatiques comme la mémoire vive, la mémoire vidéo, le disque dur et le processeur. Pour ce dernier composant, ce n’est pas seulement la vitesse de traitement qui est importante, mais aussi la prise en charge de certaines instructions vectorielles. La capacité à charger le modèle dépend de la quantité de mémoire vive, tandis que la taille de la « fenêtre contextuelle » (c’est-à-dire la mémoire de la conversation précédente) dépend de la quantité de mémoire vidéo. En règle générale, avec une carte graphique et un processeur faibles, la génération se fait à la vitesse d’un escargot (un à deux mots par seconde pour les modèles texte). Par conséquent, un ordinateur doté d’une configuration aussi minime ne convient que pour se familiariser avec un modèle donné et évaluer ses capacités de base. Pour une véritable utilisation quotidienne, il conviendra d’augmenter la mémoire vive, de mettre la carte graphique à niveau, ou d’opter pour un modèle d’IA plus rapide.

Pour commencer, vous pouvez essayer d’utiliser des ordinateurs qui étaient considérés comme relativement puissants en 2017, c’est-à-dire avec un processeur au moins égal à l’Intel Core i7 prenant en charge les instructions AVX2, une mémoire vive de 16 Go, et une carte graphique dotée d’au moins 4 Go de mémoire. Pour les inconditionnels du Mac, les appareils fonctionnant avec une puce Apple M1 ou des composants plus récents feront l’affaire, les exigences en matière de mémoire étant les mêmes.

Lorsque vous choisissez un modèle d’IA, vous devez d’abord vous renseigner sur la configuration système requise. Une recherche du type « configuration requise pour nom_du_modèle » vous aidera à déterminer si le téléchargement du modèle en question vaut la peine, compte tenu du matériel dont vous disposez. Il existe des études détaillées sur l’impact de la quantité de mémoire, du processeur et de la carte graphique sur les performances de différents modèles, comme celle-ci.

Bonne nouvelle néanmoins pour les personnes qui n’ont pas accès à du matériel puissant : il existe des modèles d’IA simplifiés, capables d’effectuer des tâches pratiques même sur du matériel ancien. Même si votre carte graphique est très faible et basique, il est tout à fait possible d’exécuter des modèles et de lancer des environnements en utilisant uniquement le processeur. En fonction de vos tâches, ces derniers peuvent même fonctionner relativement bien.

Tests de débit de carte graphique

Exemples de fonctionnement de divers systèmes informatiques avec des modèles de langage courants

Choix d’un modèle d’IA et magie de la quantification

Il existe aujourd’hui un large éventail de modèles de langage, mais bon nombre d’entre eux ont des applications pratiques limitées. Néanmoins, il existe aussi des outils d’IA simples d’utilisation et accessibles au grand public parfaitement adaptés à la réalisation de tâches spécifiques, qu’il soit question de générer du texte (par exemple, avec Mistral 7B) ou de créer des fragments de code (par exemple, avec Code Llama 13B). Par conséquent, lorsque vous choisissez un modèle, réduisez votre sélection aux possibilités les plus appropriées, et assurez-vous que votre ordinateur dispose de la configuration nécessaire pour les exécuter.

Dans n’importe quel réseau neuronal, la majeure partie de la charge de la mémoire est liée aux poids, c’est-à-dire à des coefficients numériques qui décrivent le fonctionnement de chaque neurone du réseau. Initialement, lors du développement du modèle, les poids sont calculés et stockés sous forme de nombres fractionnaires de haute précision. Cependant, il s’avère que le fait d’arrondir les poids dans le modèle développé permet d’exécuter l’outil d’IA sur des ordinateurs ordinaires, tout en ne diminuant que légèrement ses performances. Ce processus d’arrondissement s’appelle quantification et, grâce à lui, la taille du modèle peut être considérablement réduite : au lieu de 16 bits, chaque poids peut n’utiliser que 8, 4, voire 2 bits.

D’après les recherches en cours, un modèle plus grand avec plus de paramètres et de quantification peut parfois donner de meilleurs résultats qu’un modèle avec un stockage précis des poids, mais moins de paramètres.

Fort de ces connaissances, vous êtes maintenant prêt à découvrir le trésor des modèles de langage open source, c’est-à-dire le classement des grands modèles de langage (LLM) ouverts. Dans cette liste, les outils d’IA sont triés selon plusieurs indicateurs de qualité en matière de génération, et les filtres permettent d’exclure facilement les modèles trop grands, trop petits ou trop précis.

Liste des modèles de langage triés par ensemble de filtres

Liste des modèles de langage triés par ensemble de filtres

Après avoir lu la description du modèle et vous être assuré que celui-ci est potentiellement adapté à vos besoins, testez ses performances dans le cloud à l’aide des services de Hugging Face ou de Google Colab. De cette manière, vous éviterez de télécharger des modèles qui ne vous donneront pas de résultats satisfaisants, et vous gagnerez donc du temps. Une fois que vous êtes satisfait de votre test initial du modèle, il est temps de voir comment il fonctionne localement !

Logiciels requis

La plupart des modèles open source sont publiés sur Hugging Face, mais le fait de les télécharger sur votre ordinateur ne suffit pas. Pour les exécuter, vous devez installer un logiciel spécialisé, comme LLaMA.cpp, ou son  » wrapper  » encore plus simple d’utilisation, appelé LM Studio. Ce dernier vous permet de choisir le modèle souhaité directement dans l’application, de le télécharger et de l’exécuter dans une boîte de dialogue.

GPT4All constitue un autre moyen  » prêt à l’emploi  » d’utiliser un chatbot localement. Ici, le choix est limité à une douzaine de modèles de langage, mais la plupart d’entre eux s’exécuteront même sur un ordinateur possédant uniquement 8 Go de mémoire et une carte graphique basique.

Si la génération est trop lente, vous aurez peut-être besoin d’un modèle avec une quantification moins précise (2 bits au lieu de 4). Si la génération s’interrompt ou si une erreur d’exécution se produit, sachez que cela est souvent dû à un manque de mémoire. Dans ce cas, il vaut mieux chercher un modèle avec moins de paramètres ou, encore une fois, avec une quantification moins précise.

Sur Hugging Face, de nombreux modèles ont déjà été quantifiés avec différents degrés de précision, mais si personne n’a encore quantifié le modèle que vous désirez avec la précision souhaitée, vous pouvez le faire vous-même en utilisant GPTQ.

Cette semaine, un autre outil prometteur est sorti en version bêta publique : l’application Chat With RTX de NVIDIA. Le fabricant des puces d’IA les plus prisées au monde a en effet lancé un chatbot local capable de résumer le contenu de vidéos YouTube, de traiter des ensembles de documents et bien plus, à condition que l’utilisateur possède un PC Windows avec 16 Go de mémoire et une carte graphique NVIDIA RTX série 30 ou série 40 avec 8 Go ou plus de mémoire vidéo.  » Sous le capot « , on retrouve les mêmes problématiques que pour Mistral et Llama 2, publiés sur Hugging Face. Bien sûr, des cartes graphiques puissantes peuvent améliorer les performances de génération, mais d’après les retours des premiers testeurs, la version bêta existante est relativement lourde (environ 40 Go) et difficile à installer. Cependant, l’outil Chat With RTX de NVIDIA pourrait devenir un assistant local d’IA très utile à l’avenir.

Code du jeu

Code du jeu  » Snake « , écrit selon le modèle de langage quantifié TheBloke/CodeLlama-7B-Instruct-GGUF

Les applications énumérées ci-dessus effectuent tous les calculs localement, n’envoient pas de données aux serveurs, et peuvent s’exécuter hors ligne. Vous pouvez donc partager des informations confidentielles avec elles en toute sécurité. Cependant, pour vous protéger complètement contre les fuites, vous devez vous assurer non seulement de la sécurité du modèle de langage, mais également de celle de votre ordinateur ; et c’est là que notre solution de sécurité complète entre en jeu. Comme l’ont confirmé des tests indépendants, Kaspersky Premium n’a pratiquement aucun impact sur les performances de votre ordinateur, ce qui constitue un avantage important lorsque vous traitez localement des modèles d’IA.

Conseils