La donnée : source d’information ou vecteur de confusion

, par christophe

Le monde qui se construit aujourd’hui connaît une métamorphose structurelle en mutant de l’information vers la donnée. Alors que notre actualité est inondée d’informations, s’ajoute un déluge de données qui se déverse chaque jour autour de nous. C’est l’annonce d’une révolution annoncée comme informatique mais qui s’oriente bien plus vers un changement sociétal.
Celui-ci porte un nom : le Big Data.

Le changement en cours a des conséquences sur notre appréhension de la donnée comme, d’une façon plus globale, sur celle des concepts découlant de la donnée. Les répercussions sont perçues dans le monde de l’information bien entendu mais aussi dans l’univers médical, financier, dans la sécurité ou l’économie. En effet, comme le précise manuel Castells dans l’Ère de l’information : « une révolution technique centrée sur des processus informationnels remodèle à un rythme accéléré les fondements matériels de la société ». Face à ces bouleversements, il nous faut d’urgence comprendre le sens de la donnée afin que celle-ci soit source de valorisation et non porteuse de confusion.

Par : Patrick Perrot

Un déluge annoncé

Le terme de Big Data avait déjà fait son apparition dans différentes publications dès 1997 au sein de la bibliothèque numérique de l’ACm (Association For Computing machinery). Pourtant, à cette époque, les GAFA (Google, Apple, FaceBook, Amazon) n’ont pas encore révélé tout le potentiel des bases relationnelles, du calcul parallèle et de l’accroissement des capacités matérielles et logicielles. Cela ne saura tarder. Dès 2004, au sein de Google Labs, émerge un algorithme reposant sur des opérations analytiques à grande échelle ; c’est la naissance de map Reduce. Cet outil permet d’effectuer des calculs parallèles et distribués à partir d’un nombre particulièrement conséquent de données.
Dès lors, Doug Cutting, travaillant chez Apache optimise ses développements en cours et crée Hadoop, une plate-forme distribuée pour le stockage et le calcul. Le concept du Big Data existait, il peut désormais se déployer à partir des outils proposés par map Reduce et Hadoop.

Il est alors possible de faire face à un volume gigantesque de données, de nature hétérogène, non structurée et à la temporalité éphémère. La vitesse d’exécution des algorithmes de traitement de l’information permet en outre d’envisager une réactivité en temps réel.

La règle des 3V (volume, variété,vélocité) émis par Gartner en 2012 a d’abord défini le Big Data : « Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.(1) ». Rapidement ont fleuri de nouveaux V : la visibilité, la véracité et la valeur. Parce que Big Data comprend sept lettres, nous pourrions conclure cette liste par un 7e V, la volatilité. En effet, le déluge de données se signifie pas, bien au contraire, une donnée robuste, stable et fiable. Face à cette croissance des données qui défie la loi de moore(2), la question est de savoir si nous sommes aujourd’hui en capacité de l’analyser de façon objective, d’éviter des erreurs d’appréciation et d’appréhension de la continuité de la donnée génératrices de risques sur le théâtre opérationnel. En d’autres termes, le challenge est d’assurer la transition entre la maîtrise de l’information et celle de la donnée.

De l’information à la donnée

Les cinquante dernières années sont souvent définies comme le règne de l’information et de la communication, né de l’extension exponentielle de technologies numériques et informatiques. Il en ressort une transformation de nos relations et de notre appréhension du réel. nous sommes passés d’un monde fondé sur des rapports matériels à un espace plus élargi reposant sur des rapports immatériels. Des précurseurs comme Henri Laborit avait, dès les années soixante-dix, compris le rapport entre l’homme et l’information : « Il faut propager au plus vite cette notion que l’homme n’est pas une force de travail, mais une structure qui traite l’information.  » Pourtant, ce règne en est déjà à son crépuscule, cédant progressivement sa place à celui de la donnée. La différence entre ces deux notions n’est pas anodine. La donnée se définit comme un élément brut et fondamental. Elle ne possède pas de sens à proprement parlé, elle n’apporte pas de valeur, elle n’en enlève pas non plus. L’information quant à elle, peut se définir comme une donnée placée dans un contexte et est, dès lors, sujette à interprétation. Elle est porteuse de sens et influe sur le contexte.

Alors que le réel est un concept continu, l’information se caractérise de manière discontinue en apportant des éclairages ponctuels et précis pouvant expliquer le réel. L’avènement de la donnée diminue le pas d’échantillonnage au sens de la théorie de l’information. Ce dernier se restreint et tend vers une appréhension continue du réel. Claude Shannon, théoricien des mathématiques, avait parfaitement défini la nécessité de l’échantillonnage (à l’origine notamment de la numérisation des signaux) eu égard à notre incapacité à intégrer l’ensemble des informations de manière continue.
Par l’émergence de la donnée, nous pouvons désormais tendre vers la fin de l’échantillonnage à la condition de disposer de données exhaustives. La donnée constitue l’outil permettant de faire le grand écart entre la globalisation et l’individualisation. Il est à la fois possible de suivre et d’anticiper les grandes épidémies à l’échelle mondiale tout en analysant le comportement individuel de monsieur X par rapport à ses déplacements ou ses achats.

La donnée génératrice de confusion

Aujourd’hui dans un monde de la donnée, il nous faut développer des méthodes en mesure d’appréhender ce nouvel espace, ce qui n’est pas sans difficulté. Richard Belmann a évoqué la malédiction mathématique de la dimensionnalité [1] [4] qui rend difficile la discrimination, la détection ainsi que la classification au sein d’un ensemble de données. En effet, analyser des données dans des espaces de grande dimension génère divers phénomènes qui n’apparaissent pas dans des espaces de dimension moindre.
Face à cette question, les méthodes de réduction ont permis de simplifier le problème en construisant des invariants si possibles robustes aux conditions externes. malheureusement, la construction de règles générales comme la mise en évidence d’invariants tend à lisser l’influence de paramètres ne disposant, certes pas, de la plus grande variance mais dont la nature hors norme est à prendre en compte. C’est l’ambition de méthodes comme les réseaux neuronaux ou l’inférence bayesienne qui cherchent à améliorer la stabilité des décisions et à ajouter de l’a priori pour contredire l’adage « plus d’information tue l’information ». Le Big Data, par sa capacité à engendrer une multitude d’informations diverses et à l’analyser, doit répondre à ce challenge. La donnée pourra sortir d’une malédiction de la dimensionnalité à la condition d’être appréhendée par des spécialistes du traitement de l’information.

Compliquant la situation d’exploitation objective des données, la vulgarisation des algorithmes mais surtout la disponibilité des outils par l’intermédiaire d’Internet notamment, accroissent le risque d’une mauvaise utilisation.
Exploiter la donnée est en apparence aujourd’hui accessible à tout un chacun, alors que les concepts mathématiques sous-jacents sont bien souvent complexes. Que ce soit les “vaches de Gamow”[3] ou l’affaire Alan Sokal[9] qui témoigne de l’appropriation par une communauté non scientifique de théories erronées, le raccourci dans l’analyse comme dans l’interprétation des données est un risque bien réel. Alors que la vulgarisation [2] assure en général d’une manière plutôt positive une transition simplifiée entre un sachant et un public profane, l’accessibilité, sans intermédiaire, des méthodes scientifiques offre des possibilités analytiques sans contrôle.

Dans une perspective d’élargissement culturel, la vulgarisation comme l’accessibilité aux méthodes revêtent un caractère très positif. Pour autant, nous ne pouvons ignorer les conséquences de la mise en oeuvre d’applications par des non-initiés. Outre le risque appréciatif, c’est aussi un changement de paradigme qui fait émerger l’outil en lieu et place de la méthode. Avec Internet apparaît l’illusion d’un espace ouvert à tous, abolissant la nécessité de la maîtrise théorique au profit d’un raccourci guidé par l’empirisme. Internet, en donnant accès à une masse quasi infinie d’informations et d’outils, peut à la fois donner l’illusion d’un savoir et contribuer à une conception qui instrumentalise la connaissance.
Celle-ci ne se perçoit alors qu’à travers son utilité pour une utilisation pré établie.
L’explosion de la donnée nous renvoie bien évidemment à la fiabilité offerte par le web. Depuis déjà de nombreuses années, l’espace virtuel constitue un lieu à la potentialité criminelle avérée [7], mais plus qu’hier, la notion de fiabilité de la donnée accessible demeure, aujourd’hui, essentielle.
Qui n’a pas consulté l’encyclopédie en ligne Wikipedia pour s’informer sur une thématique particulière ? Pour autant qui s’est assuré de la véracité des propos tenus ? nous pouvons légitimement considérer que la fiabilité des informations délivrées n’engendre que peu de conséquences dans le cadre d’un usage personnel. Néanmoins, lorsque les consultations ont trait à des investigations d’intérêt criminel via des blogs et des réseaux sociaux, la fiabilité de l’information doit être une indispensable préoccupation notamment à l’heure du web invisible. Il est admis aujourd’hui qu’une grande majorité des flux d’information transite au sein de cet espace. La question est alors de savoir si le web visible ne peut pas constituer un vecteur de désinformation utilisé par les groupes criminels (comme par le délinquant isolé) alors que l’information d’intérêt circulerait via la face cachée du web.
Pourquoi ne pas émettre sur sa page Facebook des photographies de fausses destinations, de faux amis, de fausses relations, voire tout simplement un faux compte Facebook ?
De même, nous pouvons nous interroger sur l’exhaustivité des informations résentes sur le web visible. une utilisation croissante par tout un chacun du web invisible, non plus pour masquer une activité illégale mais dans le cadre de la protection des libertés individuelles et éviter ainsi d’être tracé par les grands acteurs du web est parfaitement envisageable. La donnée disponible sur ce que nous qualifions de sources ouvertes doit, en dépit de l’attrait immédiat, faire l’objet d’une attention particulière.

N’oublions pas non plus qu’une donnée en sources ouvertes est déposée par un individu qui fait un choix partial et est indexée par un unique moteur de recherche qui en 2015 est utilisé à près de 94 % en Europe. Qui utilise Qwant, le moteur européen, Bing, Yandex Ru, WolframAlpha, ou encore Base pour consulter d’autres sources, prendre en compte des données non apparentes sous Google, voire confronter les données indexées par ce dernier ? Comprendre les raisons de la présence d’une donnée en source ouverte peut s’avérer particulièrement pertinent.

Ainsi à travers le problème de la dimensionnalité, de l’accessibilité et de la fiabilité se dessine une malédiction de la donnée capable d’apporter des résultats erronés ou mal interprétés et générer des confusions aux conséquences néfastes dans les champs applicatifs. Pourtant, et à partir de précautions d’utilisation établies, la donnée ouvre des perspectives extrêmement intéressantes en terme d’optimisation du renseignement notamment dans le domaine de la sécurité.

La valorisation de la donnée au service de la sécurité

Le challenge ouvert aujourd’hui aux forces de l’ordre est sans précédent dans la capacité à appréhender un monde criminel confus et en évolution permanente. La donnée constitue une pièce essentielle à l’élaboration d’un renseignement ciblé et précis. Le succès et la pertinence de l’exploitation de la donnée reposent néanmoins sur la maîtrise et le développement de méthodes mathématiques novatrices capables d’exploiter et de sécuriser des données massives, hétérogènes et éphémères.

Au sein du service central de renseignement criminel de la gendarmerie nationale, la donnée de masse a aujourd’hui été prise en compte avec la volonté de comprendre la criminalité et, dans la mesure du possible, de l’anticiper. Structurante dans le cadre du renseignement criminel, qui a vocation à exploiter dans un cadre légal tout type de données utile à la baisse de la criminalité en vue d’apporter des éléments proactifs d’aide à la décision, l’analyse de données est le fait de scientifiques, de criminologues et d’enquêteurs judiciaires [5][6]. En effet, la compétence « métier » associée à la compétence scientifique permet de prévenir les risques mentionnés préalablement. La création de valeur peut objectivement se concevoir à partir de la réunion de savoirfaire englobant la mobilisation de données de sources plus ou moins hétérogènes, en construisant des modèles mathématiques adaptés et adaptatifs et en réévaluant les résultats obtenus au plus près du besoin opérationnel. La disponibilité des données notamment sur Internet ne doit pas faire oublier la donnée d’intérêt qui est bien souvent interne et qui doit constituer le socle de l’analyse. Bien entendu les informations obtenus via l’open data peuvent s’avérer pertinentes mais elles doivent d’abord enrichir une base bâtie sur des sources internes. Cela permet de se garantir de différents écueils tels que le manque de fiabilité, le manque d’exhaustivité ou encore la partialité. Les sources internes qui revêtent un caractère confidentiel en raison de leur nature peuvent concerner des données propres aux services de sécurité, aux entreprises, voire aux individus, notamment par l’essor des objets connectés. La confidentialité attachée à cette forme de donnée, ne signifie pas qu’elle ne doivent pas être exploitées mais plutôt que leur exploitation doit répondre à des règles objectives de protection des libertés
individuelles. L’intérêt principal de la donnée issue de sources internes est sa maîtrise, sa précision, sa fiabilité voire son exhaustivité, c’est-à-dire des caractéristiques qui bien souvent manquent aux données disponibles en sources ouvertes. Dès lors, la valorisation de la donnée ne peut s’affranchir d’une méthodologie qui consiste à appliquer de manière raisonnée des méthodes mathématiques maîtrisées, à établir un socle à partir d’un patrimoine interne, à l’enrichir à partir de données externes pour enfin aboutir à une interprétation exploitable et pertinente. Ce cheminement rigoureux conditionne la valorisation de la donnée en minimisant le risque de confusion.

Ainsi, la donnée, richesse disponible à chacun, nécessite un examen, une structuration, une analyse comme une interprétation alliant diverses compétences que l’illusion de la disponibilité ne doit pas altérer. A cette condition, le Big Data répondra aux espoirs suscités dans notre approche comme notre appréhension du réel et nous garantira de la confusion pour nous guider vers la valorisation.

Bibliographie
[1] Bellman, R. E. Dynamic programming, Princeton University Press, 1957
[2] Cartellier D., La vulgarisation scientifique à l’heure de libre accessibilité des savoirs. Quelle place pour les médiateurs ? Mémoires du livre - Studies in Book Culture, Volume 1, numéro 2, 2010
[3] Gamow G., Le Nouveau monde de M. Tompkins, Russell Stannard Editions le Pommier, 2007
[4] Giraud C., Introduction to High-Dimensional Statistics, Chapman and Hall/CRC, 2014 Raichwarg D. et J. J., Savants et ignorants. Une histoire de la vulgarisation des
sciences, Paris, Le Seuil, 1991, 296 p.
[5] Perrot P. L’analyse du risque criminel : l’émergence d’une nouvelle approche
[6] Perrot P. , Kader T. A. Forecasting analysis in a criminal intelligence context - Proceedings International Crime and Intelligence Analysis Conference, Grande-Bretagne 2015
[7] P. Perrot Mondes virtuels : un nouvel espace ouvert à la criminalité - Proceedings Workshop Interdisciplinaire sur la sécurité globale, France 2009
[8] Rapport final du groupe d’experts de haut niveau, Commission européenne, Construire la société européenne de l’information pour tous, Office des publications officielles des Communautés européennes, 1997, p. 17.
[9] Sokal A., Transgressing the Boundaries : Towards a Transformative Hermeneutics of Quantum Gravity, Social Text 46/47, printemps/été 1996, p. 217-252.

L’auteur

Officier de gendarmerie au sein du service central de renseignement criminel, le lieutenant-colonel Patrick Perrot a combiné des commandements opérationnels et des fonctions de nature scientifique. Auteur de nombreuses publications dans le domaine des sciences forensiques et du renseignement, il est ingénieur et titulaire d’un doctorat de Télécoms Paris Tech.

Sources :
Revue de la Gendarmerie Nationale 4e trimestre 2015, page 43 à 48.

PDF - 3 Mo
Matinale technologique n°18 : Cybersécurité
Mardi 12 décembre 2017 à Nogent

Pour en savoir plus :

- Matinale technologique n°15 : La propriété industrielle pour mon entreprise le 14 juin 2017 à Nogent.
- David Biguet : « Il n’y a pas une, mais des industries du futur »
- La donnée : source d’information ou vecteur de confusion
- Matinale technologique n°18 : Cybersécurité le Mardi 12 décembre 2017 à Nogent