Apprentissage fédéré dans la lutte contre les menaces liées aux e-mails

Notre méthode de formation des modèles qui filtrent les spams garantit confidentialité et efficacité.

Quelle est la méthode la plus simple pour détecter une menace (hameçonnage ou spam) dans votre boîte de réception ? Toute une variété de titres techniques et de marqueurs indirects de message indésirable peut montrer la voie à suivre mais nous ne devrions pas négliger l’aspect le plus important : le corps du message. On pourrait croire que c’est la première chose à analyser. Après tout, les cybercriminels et les annonceurs sans scrupules se servent du texte pour manipuler le destinataire. Pourtant, cette tâche n’est pas aussi simple qu’elle n’y paraît. Alors que l’analyse de la signature pouvait s’en occuper dans le passé, il faut désormais utiliser des algorithmes d’apprentissage automatique pour analyser le texte. Pour entraîner le modèle d’apprentissage automatique à classer correctement les messages, il faut le nourrir de messages (en grandes quantités) et ce n’est pas toujours possible à cause de la confidentialité des données. Nous avons trouvé une solution.

Pourquoi l’analyse de la signature n’est-elle plus suffisante ?

Il y a dix ans, il était relativement facile d’attraper une très grande partie des messages indésirables seulement grâce au corps du message puisque les cybercriminels utilisaient les mêmes modèles ; le texte des spams et des messages d’hameçonnage ne changeait guère. De nos jours, les cybercriminels ne cessent d’améliorer l’efficacité de leurs e-mails et utilisent des millions d’appâts différents : nouveaux jeux vidéo, séries TV, modèles de smartphone, actualité politique ou encore situations d’urgence (avec notamment l’abondance de messages d’hameçonnage et de spams ayant un lien avec la Covid-19). Cette grande variété de sujets complique le processus de détection. De plus, les cybercriminels peuvent même modifier le texte d’une même vague de messages pour tromper les filtres.

Bien sûr, les méthodes qui reposent sur la signature sont encore utilisées même si leur succès ne dépend que du fait qu’un texte a été classé comme indésirable ou dangereux par quelqu’un d’autre. En revanche, elles ne peuvent pas être proactives puisque les spammeurs peuvent les tromper en modifiant le message. L’apprentissage automatique est la seule façon de s’attaquer au problème.

Quel est le problème avec l’apprentissage ?

Au cours de ces dernières années, les méthodes d’apprentissage automatique ont obtenu de bons résultats en termes de résolution de problèmes. En analysant une plus grande quantité de données, les modèles apprennent à prendre des décisions et à trouver des caractéristiques communes non négligeables dans les flux d’informations. Nous utilisons les réseaux neuronaux formés sur les titres techniques d’e-mails et le DMARC pour détecter les menaces. Pourquoi est-il impossible de faire la même chose avec le texte d’un message ?

Comme nous l’avons déjà dit, les modèles ont besoin d’une quantité considérable de données. Dans ce cas, il s’agit d’e-mails mais pas que des malveillants. Nous avons aussi besoin d’e-mails légitimes. Sans eux il serait impossible d’apprendre au modèle à faire la différence entre une attaque et une conversation normale. Nous avons plusieurs pièges pour e-mails qui capturent toutes sortes de messages indésirables (dont nous nous servons pour créer les signatures) mais il est beaucoup plus difficile d’obtenir des messages légitimes pour l’apprentissage.

Normalement, les données sont collectées sur les serveurs pour l’apprentissage centralisé mais lorsque nous parlons du contenu des messages d’autres difficultés apparaissent. Les e-mails peuvent contenir des données confidentielles ; il est donc inacceptable de les conserver et de les traiter dans leur format original. Comment pouvons-nous obtenir une quantité suffisante d’e-mails légitimes ?

Apprentissage fédéré

Nous avons résolu ce problème en utilisant la méthode de l’apprentissage fédéré, c’est-à-dire en éliminant complètement le besoin de collecter des e-mails légitimes, et avons entraîné les modèles de façon décentralisée. La formation du modèle a lieu directement sur les serveurs de messagerie du client et le serveur central ne reçoit que les poids appris par les modèles d’apprentissage automatique, et pas le texte du message. Une fois dans le serveur central, les algorithmes associent les données avec la version correspondante au modèle puis nous les renvoyons aux solutions du client, où le modèle analyse à nouveau le flux des e-mails.

C’est une image un peu simplifiée : avant que le nouveau modèle formé soit lâché dans la nature pour analyser de vrais messages, il passe par plusieurs itérations de formation supplémentaire. En d’autres termes, deux modèles travaillent en même temps sur le serveur de messagerie : un en mode formation et un autre en mode actif. Après plusieurs voyages au serveur central, le modèle requalifié remplace l’actif.

Il est impossible de récupérer le texte de messages spécifiques à partir des poids du modèle. La confidentialité est donc garantie tout au long du processus. Néanmoins, la formation à partir de vrais e-mails améliore de façon significative la qualité du modèle de détection.

Pour le moment, nous utilisons déjà cette approche pour trier les spams, en mode test avec notre solution Kaspersky Security for Microsoft Office 365 et nous obtenons des résultats exceptionnels. Cette méthode sera bientôt utilisée de façon plus générale et permettra d’identifier d’autres menaces telles que l’hameçonnage, les attaques BEC, etc.

Conseils