{"id":16116,"date":"2020-12-15T14:27:45","date_gmt":"2020-12-15T14:27:45","guid":{"rendered":"https:\/\/www.kaspersky.fr\/blog\/?p=16116"},"modified":"2020-12-15T14:27:45","modified_gmt":"2020-12-15T14:27:45","slug":"federated-learning-against-mail-threats","status":"publish","type":"post","link":"https:\/\/www.kaspersky.fr\/blog\/federated-learning-against-mail-threats\/16116\/","title":{"rendered":"Apprentissage f\u00e9d\u00e9r\u00e9 dans la lutte contre les menaces li\u00e9es aux e-mails"},"content":{"rendered":"<p>Quelle est la m\u00e9thode la plus simple pour d\u00e9tecter une menace (hame\u00e7onnage ou spam) dans votre bo\u00eete de r\u00e9ception ? Toute une vari\u00e9t\u00e9 de titres techniques et de marqueurs indirects de message ind\u00e9sirable peut montrer la voie \u00e0 suivre mais nous ne devrions pas n\u00e9gliger l\u2019aspect le plus important : le corps du message. On pourrait croire que c\u2019est la premi\u00e8re chose \u00e0 analyser. Apr\u00e8s tout, les cybercriminels et les annonceurs sans scrupules se servent du texte pour manipuler le destinataire. Pourtant, cette t\u00e2che n\u2019est pas aussi simple qu\u2019elle n\u2019y para\u00eet. Alors que l\u2019analyse de la signature pouvait s\u2019en occuper dans le pass\u00e9, il faut d\u00e9sormais utiliser des algorithmes d\u2019apprentissage automatique pour analyser le texte. Pour entra\u00eener le mod\u00e8le d\u2019apprentissage automatique \u00e0 classer correctement les messages, il faut le nourrir de messages (en grandes quantit\u00e9s) et ce n\u2019est pas toujours possible \u00e0 cause de la confidentialit\u00e9 des donn\u00e9es. Nous avons trouv\u00e9 une solution.<\/p>\n<h2>Pourquoi l\u2019analyse de la signature n\u2019est-elle plus suffisante ?<\/h2>\n<p>Il y a dix ans, il \u00e9tait relativement facile d\u2019attraper une tr\u00e8s grande partie des messages ind\u00e9sirables seulement gr\u00e2ce au corps du message puisque les cybercriminels utilisaient les m\u00eames mod\u00e8les\u00a0; le texte des spams et des messages d\u2019hame\u00e7onnage ne changeait gu\u00e8re. De nos jours, les cybercriminels ne cessent d\u2019am\u00e9liorer l\u2019efficacit\u00e9 de leurs e-mails et utilisent des millions d\u2019app\u00e2ts diff\u00e9rents\u00a0: nouveaux jeux vid\u00e9o, s\u00e9ries TV, mod\u00e8les de smartphone, actualit\u00e9 politique ou encore situations d\u2019urgence (avec notamment l\u2019abondance de messages d\u2019hame\u00e7onnage et de spams ayant un lien avec la Covid-19). Cette grande vari\u00e9t\u00e9 de sujets complique le processus de d\u00e9tection. De plus, les cybercriminels peuvent m\u00eame modifier le texte d\u2019une m\u00eame vague de messages pour tromper les filtres.<\/p>\n<p>Bien s\u00fbr, les m\u00e9thodes qui reposent sur la signature sont encore utilis\u00e9es m\u00eame si leur succ\u00e8s ne d\u00e9pend que du fait qu\u2019un texte a \u00e9t\u00e9 class\u00e9 comme ind\u00e9sirable ou dangereux par quelqu\u2019un d\u2019autre. En revanche, elles ne peuvent pas \u00eatre proactives puisque les spammeurs peuvent les tromper en modifiant le message. L\u2019apprentissage automatique est la seule fa\u00e7on de s\u2019attaquer au probl\u00e8me.<\/p>\n<h2>Quel est le probl\u00e8me avec l\u2019apprentissage ?<\/h2>\n<p>Au cours de ces derni\u00e8res ann\u00e9es, les m\u00e9thodes d\u2019apprentissage automatique ont obtenu de bons r\u00e9sultats en termes de r\u00e9solution de probl\u00e8mes. En analysant une plus grande quantit\u00e9 de donn\u00e9es, les mod\u00e8les apprennent \u00e0 prendre des d\u00e9cisions et \u00e0 trouver des caract\u00e9ristiques communes non n\u00e9gligeables dans les flux d\u2019informations. Nous utilisons les r\u00e9seaux neuronaux form\u00e9s sur les titres techniques d\u2019e-mails et le DMARC pour d\u00e9tecter les menaces. Pourquoi est-il impossible de faire la m\u00eame chose avec le texte d\u2019un message\u00a0?<\/p>\n<p>Comme nous l\u2019avons d\u00e9j\u00e0 dit, les mod\u00e8les ont besoin d\u2019une quantit\u00e9 consid\u00e9rable de donn\u00e9es. Dans ce cas, il s\u2019agit d\u2019e-mails mais pas que des malveillants. Nous avons aussi besoin d\u2019e-mails l\u00e9gitimes. Sans eux il serait impossible d\u2019apprendre au mod\u00e8le \u00e0 faire la diff\u00e9rence entre une attaque et une conversation normale. Nous avons plusieurs pi\u00e8ges pour e-mails qui capturent toutes sortes de messages ind\u00e9sirables (dont nous nous servons pour cr\u00e9er les signatures) mais il est beaucoup plus difficile d\u2019obtenir des messages l\u00e9gitimes pour l\u2019apprentissage.<\/p>\n<p>Normalement, les donn\u00e9es sont collect\u00e9es sur les serveurs pour l\u2019apprentissage centralis\u00e9 mais lorsque nous parlons du contenu des messages d\u2019autres difficult\u00e9s apparaissent. Les e-mails peuvent contenir des donn\u00e9es confidentielles\u00a0; il est donc inacceptable de les conserver et de les traiter dans leur format original. Comment pouvons-nous obtenir une quantit\u00e9 suffisante d\u2019e-mails l\u00e9gitimes\u00a0?<\/p>\n<h2>Apprentissage f\u00e9d\u00e9r\u00e9<\/h2>\n<p>Nous avons r\u00e9solu ce probl\u00e8me en utilisant la m\u00e9thode de l\u2019apprentissage f\u00e9d\u00e9r\u00e9, c\u2019est-\u00e0-dire en \u00e9liminant compl\u00e8tement le besoin de collecter des e-mails l\u00e9gitimes, et avons entra\u00een\u00e9 les mod\u00e8les de fa\u00e7on d\u00e9centralis\u00e9e. La formation du mod\u00e8le a lieu directement sur les serveurs de messagerie du client et le serveur central ne re\u00e7oit que les poids appris par les mod\u00e8les d\u2019apprentissage automatique, et pas le texte du message. Une fois dans le serveur central, les algorithmes associent les donn\u00e9es avec la version correspondante au mod\u00e8le puis nous les renvoyons aux solutions du client, o\u00f9 le mod\u00e8le analyse \u00e0 nouveau le flux des e-mails.<\/p>\n<p>C\u2019est une image un peu simplifi\u00e9e\u00a0: avant que le nouveau mod\u00e8le form\u00e9 soit l\u00e2ch\u00e9 dans la nature pour analyser de vrais messages, il passe par plusieurs it\u00e9rations de formation suppl\u00e9mentaire. En d\u2019autres termes, deux mod\u00e8les travaillent en m\u00eame temps sur le serveur de messagerie\u00a0: un en mode formation et un autre en mode actif. Apr\u00e8s plusieurs voyages au serveur central, le mod\u00e8le requalifi\u00e9 remplace l\u2019actif.<\/p>\n<p>Il est impossible de r\u00e9cup\u00e9rer le texte de messages sp\u00e9cifiques \u00e0 partir des poids du mod\u00e8le. La confidentialit\u00e9 est donc garantie tout au long du processus. N\u00e9anmoins, la formation \u00e0 partir de vrais e-mails am\u00e9liore de fa\u00e7on significative la qualit\u00e9 du mod\u00e8le de d\u00e9tection.<\/p>\n<p>Pour le moment, nous utilisons d\u00e9j\u00e0 cette approche pour trier les spams, en mode test avec notre solution <a href=\"https:\/\/www.kaspersky.fr\/small-to-medium-business-security\/microsoft-office-365-security?icid=fr_kdailyplacehold_acq_ona_smm__onl_b2b_kasperskydaily_wpplaceholder____kso365___\" target=\"_blank\" rel=\"noopener\">Kaspersky Security for Microsoft Office 365<\/a> et nous obtenons des r\u00e9sultats exceptionnels. Cette m\u00e9thode sera bient\u00f4t utilis\u00e9e de fa\u00e7on plus g\u00e9n\u00e9rale et permettra d\u2019identifier d\u2019autres menaces telles que l\u2019hame\u00e7onnage, les attaques BEC, etc.<\/p>\n<input type=\"hidden\" class=\"category_for_banner\" value=\"kes-cloud\">\n","protected":false},"excerpt":{"rendered":"<p>Notre m\u00e9thode de formation des mod\u00e8les qui filtrent les spams garantit confidentialit\u00e9 et efficacit\u00e9.<\/p>\n","protected":false},"author":2629,"featured_media":16117,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2112,3150,3151],"tags":[1972,505,90,74],"class_list":{"0":"post-16116","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-business","8":"category-enterprise","9":"category-smb","10":"tag-apprentissage-automatique","11":"tag-e-mail","12":"tag-hameconnage","13":"tag-spam"},"hreflang":[{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/federated-learning-against-mail-threats\/16116\/"},{"hreflang":"en-in","url":"https:\/\/www.kaspersky.co.in\/blog\/federated-learning-against-mail-threats\/22199\/"},{"hreflang":"en-ae","url":"https:\/\/me-en.kaspersky.com\/blog\/federated-learning-against-mail-threats\/17677\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/federated-learning-against-mail-threats\/23846\/"},{"hreflang":"en-gb","url":"https:\/\/www.kaspersky.co.uk\/blog\/federated-learning-against-mail-threats\/21931\/"},{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/federated-learning-against-mail-threats\/20758\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/federated-learning-against-mail-threats\/24408\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/federated-learning-against-mail-threats\/23581\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/federated-learning-against-mail-threats\/29618\/"},{"hreflang":"tr","url":"https:\/\/www.kaspersky.com.tr\/blog\/federated-learning-against-mail-threats\/9143\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/federated-learning-against-mail-threats\/37936\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/federated-learning-against-mail-threats\/16765\/"},{"hreflang":"pl","url":"https:\/\/plblog.kaspersky.com\/federated-learning-against-mail-threats\/14287\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/federated-learning-against-mail-threats\/25901\/"},{"hreflang":"zh","url":"https:\/\/www.kaspersky.com.cn\/blog\/federated-learning-against-mail-threats\/12365\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/federated-learning-against-mail-threats\/29753\/"},{"hreflang":"nl","url":"https:\/\/www.kaspersky.nl\/blog\/federated-learning-against-mail-threats\/26499\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/federated-learning-against-mail-threats\/23165\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/federated-learning-against-mail-threats\/28496\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/federated-learning-against-mail-threats\/28312\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/www.kaspersky.fr\/blog\/tag\/e-mail\/","name":"e-mail"},"_links":{"self":[{"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/posts\/16116","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/users\/2629"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/comments?post=16116"}],"version-history":[{"count":2,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/posts\/16116\/revisions"}],"predecessor-version":[{"id":16119,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/posts\/16116\/revisions\/16119"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/media\/16117"}],"wp:attachment":[{"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/media?parent=16116"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/categories?post=16116"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kaspersky.fr\/blog\/wp-json\/wp\/v2\/tags?post=16116"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}