32C3

Les failles du Big data à prendre en considération

Le Big data est tout simplement incroyable, mais comme n’importe quelle autre technologie, et en particulier les nouvelles, il a aussi ses failles. Jetons un coup d’œil sur ce qui pourrait mal tourner concernant les exécutions du big data.

Alex Drozhzhin
29 Mar 2016

Ces dernières années, nombreux ont été les débats autour du big data, pour la plupart centrés sur les incroyables opportunités technologiques. Et la conclusion qu’on peut en tirer est que l’utilisation du big data peut s’avérer préoccupante. Bien sûr, le big data est quelque chose d’incroyable, mais comme toute technologie émergente il a aussi ses failles. Dans cet article, nous évoquerons les problèmes concernant les exécutions du big data.

big-data-dangers-featured

Pas de vie privée pour vous !

En général, lorsque le monde se met à penser aux possible failles du big data, la première et dernière chose qui lui vient à l’esprit est la vie privée.

Le nom parle de lui-même. Le big data repose sur le regroupement d’un grand nombre d’informations, et plus elles relèvent du domaine privé, plus les algorithmes peuvent efficacement en tirer des conclusions « non-évidentes ». Pour faire simple, les données privées sont comme la poussière de fée de la Magie de l‘imposant Big Data.

Cette « poussière » a tendance à s’éparpiller fréquemment et rester coincée dans les recoins les plus sombres et ainsi de suite. C’est même plus que ça : il existe tout un ensemble de problèmes plus fréquents, reliés les uns aux autres de manière complexe.

For #DPD15, we look at 2014’s top data leaks on Kaspersky Daily. https://t.co/lEpy81gdBl #databreach #cybercrime pic.twitter.com/XITXMW9NLe

— Kaspersky (@kaspersky) January 28, 2015

C’est de la science chéri (pas vraiment)

Le monde considère que les solutions du big data sont une science. Le problème est que les algorithmes relèvent en réalité plus de l’ingénierie. Là est toute la différence.

Imaginez : la physique VS les fusées. La physique est de la science sans encombre : chaque élément a été recherché et démontré, à la fois à titre expérimental et théorique, puis vérifié par la communauté scientifique, c’est ainsi que la science fonctionne.

De plus, la science est un domaine sans cesse ouvert, de ce fait tout peut être constamment reconsidéré par quiconque intéressé. Si d’importants problèmes sont détectés ou que de nouvelles théories font leur apparition, il s’agit toujours d’un sujet de discussion pour la communauté scientifique mondiale.

Les fusées quant à elles sont simplement conçues sur des structures fondées sur certains principes physiques. Et comme vous devez probablement vous en douter, pas le droit à l’erreur lorsqu’il s’agit de la conception des fusées, il en est de même pour n’importe quel autre type de faille, ça ne pardonne pas.

The scary side of #big #data http://t.co/jka3ZJSK6R #bigdata #analytics pic.twitter.com/9beTnrKice

— Kaspersky (@kaspersky) August 21, 2015

On ne peut pas remettre en question les mathématiques, n’est-ce pas ?

Une des conséquences de ce malentendu est la fausse autorité. Les gens doivent prendre pour argent comptant les décisions des algorithmes du big data, pas d’autre choix. Excepté pour les mathématiciens, qui seraient sans doute capables de réfuter ces compétences, qu’il s’agisse du big data ou des algorithmes, s’ils avaient la possibilité de les trouver. Mais l’ont-ils vraiment ?

La boîte noire est tellement noire

Même si vous disposez des connaissances et expériences nécessaires en mathématiques et que vous souhaitez examiner davantage comment fonctionne le big data et les algorithmes, l’accès à ces informations y est rarement autorisé. C’est parce que le logiciel est commercial et que le code source est breveté. La majeure partie du temps, les chercheurs baissent les bras lorsqu’ils savent qu’ils ne pourront pas y accéder. Un peu comme : « Cause toujours tu m’intéresses ».

Dans son discours » Les armes de destruction des mathématiques « , la mathématicienne et militante des droits de l’homme Cathy O’Neil parle du « Value-added modeling » qui est un algorithme destiné à l’évaluation des professeurs aux Etats-Unis.

« Une de mes amies qui dirige un lycée à New York voulait comprendre cet algorithme : Elle enseigne dans un établissement de maths et sciences, et a pensé qu’il serait judicieux pour elle de le comprendre. Elle demanda alors au Ministère de l’Éducation de lui envoyer des informations à ce sujet. Ce à quoi ils ont répondu : « En quoi cela vous intéresse ? Ce sont des maths ! »

« Elle finit par insister et au bout du compte, ils lui donnèrent un document qu’elle me montra par la suite. Trop abstrait à mon goût pour en faire usage. J’ai donc fait une demande en vertu du Freedom of Information Act (en français, » Loi pour la liberté d’information « ) afin d’obtenir le code source et dont la demande m’a été refusée. J’ai trouvé plus tard qu’il y avait un think tank (laboratoire d’idées regroupant des experts) qui se trouvait à Madison, WI et qui était en charge de ce modèle, disposant d’un contrat de licence (qui stipule que) nul n’est autorisé à accéder à ces informations. »

« Personne du Département de l’Éducation de la ville de New York ne comprend ce modèle, aucun professeur n’arrive à connaître les résultats et ne peuvent les améliorer en raison du manque d’instructions. »

Quelque chose à l’intérieur, tout à l’extérieur

Puisque les algorithmes sont incompréhensibles, par conséquent les données saisies le sont aussi. Un opérateur de logiciel de big data ne peut pas toujours s’assurer des données traitées par un algorithme et celles qui ne le sont pas. C’est pourquoi, certaines données peuvent affecter la sortie des données deux fois, la première par l’algorithme et la seconde par l’opérateur. Ou, au contraire, certaines données importantes peuvent être perdues, si l’opérateur pense à tort qu’elles sont déjà incluses dans le résultat, alors qu’en réalité l’algorithme ne les avait pas du tout prises en compte.

Par exemple, la police entre dans un quartier où le taux de criminalité est élevé. Leur logiciel les informe qu’il y a 55% de chance pour que l’homme en face d’eux soit un cambrioleur. Ce dernier porte une valise suspecte mais les policiers ne savent pas si l’outil d’algorithme a pris en compte le taux de criminalité comme un facteur influent ou non. Ils doivent décider si la valise fait de lui une personne plus ou moins suspecte.

Sans oublier que les données saisies peuvent simplement contenir des erreurs, ou ne pas contenir d’informations fondamentalement importantes pour un bon pronostic.

Our top 10 list of the most interesting big data projects in the world http://t.co/YWMxJCTSYZ

— Kaspersky (@kaspersky) April 3, 2015

Le verre est-il à moitié vide ou à moitié plein ?

Les informations saisies ne sont pas toujours vraiment transparentes et peuvent être mal interprétées. Des chiffres peuvent être interprétés de manière subjective et deux personnes peuvent les interpréter de façon totalement différente. A quoi équivaut 30% de probabilité par exemple ? L’interprétation peut varier de « probablement si » à « probablement non » dépendant de nombreux facteurs qu’on ne peut jamais anticiper.

Pire encore, ce résultat de probabilité peut être utilisé comme un facteur discriminant, malgré le fait que la probabilité d’une personne par exemple, ne soit pas considérée comme assez élevée pour être prise en compte et dans certaines circonstances peut être utilisée pour mettre à l’écart une tranche d’individus.

Par exemple, aux Etats-Unis ils utilisent de tels algorithmes pour des questions de sécurité, en essayant de prévoir la probabilité lorsqu’une personne révèle des informations. Etant donné qu’il y a beaucoup de monde en concurrence sur le marché du travail, ils n’ont aucun mal à rejeter des candidatures en se basant sur ce critère, bien que la probabilité ne soit pas vraiment significative, juste un peu au-dessus de la moyenne.

Why Eugene Kaspersky has big problems with big data http://t.co/QPaWyddi via @itworldca cc: @e_kaspersky

— Kaspersky (@kaspersky) May 22, 2012

Pas de parti pris ?

Compte tenu de tous les problèmes mentionnés ci-dessus, on peut affirmer à juste titre que tous les avantages du big data (« sans être influencés ») ne le sont pas toujours. Une décision prise par un être humain fondée sur le calcul d’un algorithme qui est lui-même conçu par un être humain sera toujours au final une décision prise par un être humain.

Qu’elle soit influencée ou non. Le problème est qu’avec un algorithme illisible et des données impossibles à comprendre, il est dur de se faire une idée. Mais vous ne pouvez rien y faire, étant donné qu’il est établi dans le logiciel.

Bienvenue dans le côté obscur, Anakin

Les algorithmes de prédiction sont également vulnérables aux boucles de rétroactions et aux prophéties auto-réalisatrices. Par exemple, un algorithme utilisé par les services de Police de Chicago peut identifier un enfant comme potentiellement dangereux. Les policiers commencent ensuite à « le surveiller de près » en se rendant à son domicile etc. Un enfant pourrait alors penser que la police le traite de criminel malgré son innocence, et agit en conséquence. Il finit par entrer dans leurpropre jeu et faire le voyou, tout cela parce que la police l’a offensé.

Ou, tout comme l’a rapporté Whitney Merril dans son discours intitulé Predicting Crime in a Big Data World lors du Chaos Communication Congress 32, si un officier de police agit sur le terrain et qu’un algorithme lui dit « Vous avez 70% de chance de trouver un voleur dans cette zone » , va-t-il chercher le voyou en question parce qu’on le lui a dit ?

Aucun refus

Si n’importe quelle organisation gouvernementale ou commerciale emploie des algorithmes du big data et que vous en avez assez, vous êtes toujours libre de dire « C’est trop pour moi, j’arrête ». Non pas que quelqu’un va vous demander de devenir l’objet ou non de recherches du big data. Ou pire : ne pas vous prévenir du tout.

Ne vous m’éprenez pas, je ne veux pas dire que toutes les failles mentionnées ci-dessous représentent une raison suffisante pour le monde de rejeter les algorithmes de prédiction. Manifestement, le big data est en hausse et n’est pas prêt de disparaitre. En revanche, il s’agit sûrement du bon moment pour se pencher sur ses failles. Il n’est pas trop tard pour régler le problème.

On devrait rendre les algorithmes et les saisies de données plus transparentes et davantage sécurisées, permettre aux chercheurs d’accéder au code source, établir les lois, informer les individus sur ce qui se passe concernant ces éléments « mathématiques ». On doit à tout prix apprendre des erreurs commises dans le passé pour mieux avancer.

Vie privée sur Internet : le nouveau Baroque

Etant donné que les nouvelles technologies deviennent de plus en plus omniprésentes, notre vision des choses évolue elle aussi différemment. Le directeur marketing Alexander Erofeev nous explique comment Internet a transformé nos habitudes concernant notre vie privée.

Protection des enfants

Les failles du Big data à prendre en considération

Pas de vie privée pour vous !

C’est de la science chéri (pas vraiment)

On ne peut pas remettre en question les mathématiques, n’est-ce pas ?

La boîte noire est tellement noire

Quelque chose à l’intérieur, tout à l’extérieur

Le verre est-il à moitié vide ou à moitié plein ?

Pas de parti pris ?

Bienvenue dans le côté obscur, Anakin

Aucun refus

CES 2025 : Les nouvelles innovations sont-elles à l’épreuve des hackers ?

Podcast : Cyber-Flashing et Revenge Porn

Vie privée sur Internet : le nouveau Baroque

Conseils

Comment survivre à la numérisation

Les clés d’accès en 2025 : le guide complet de l’authentification sans mot de passe

Comment choisir des solutions open-source pour votre entreprise ?

Les coûts cachés d’un SIEM gratuit

Abonnez-vous et recevez tous nos titres à la une par e-mail

Solutions pour les particuliers

TPE

PME

Grande entreprise

Securelist

Eugene Personal Blog

Encyclopédie de Kaspersky