Ouvrir le menu principal

Donnée

information codifiée, figée et transmissible
Page d'aide sur l'homonymie Pour les articles homonymes, voir Donnée (homonymie).

Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire d’une réalité, le résultat d'une comparaison entre deux évènement du même ordre (mesure) soit en d'autres termes une observation ou une mesure[1].

La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité. Si elle est considérée comme indiscutable ou même si elle est indiscutée par méconnaissance, elle peut servir de base à une recherche, à un examen quelconque.

Les données pouvant être de nature très différentes suivant leur source doivent souvent faire l'objet d'une transformation préalable avant traitement. Jusqu'à il y a quelques siècles l'être humain n'a eu connaissance du monde réel qu'à travers ses sens naturels, la vue, l'ouïe, l'odorat, etc ...Son cerveau a développé une capacité de raisonnement permettant de combler un peu les lacunes inhérentes à la faiblesse de ses capteurs. Cela lui a permis de développer son intelligence et de développer des outils permettant d'augmenter sa capacité à connaitre le monde réel.

La technique utilisée aujourd'hui est la quantification numérique dans un système binaire associée à des machine de traitement à deux états de fonctionnement. En clair cela veut dire que le monde réel est vu par des capteurs dont la réponse continue ou discrète est traduite en nombre qui sont traités par des machines à état appelées ORDINATEUR.

Un travail est souvent fait sur les données brutes pour leur donner un sens et ainsi, d'obtenir une information. Les données peuvent être :

  • des résultats de mesure fonction d'un étalon de référence pouvant, associé à la manière de traiter les données, générer des biais sur l’interprétation finale (limites des sondages) ;
  • des valeurs discrète représentant l'état d'un système ;
  • des informations logiques représentant un contexte non réel ;
  • etc ....

Le résultat du traitement sera souvent in fine soumis à l'interprétation d'un être humain et devra de ce fait être présenté sous forme adéquate, par exemple un graphique ou une liste de choix. Cela permettra à un être humain d'y associer un sens (une interprétation) et ainsi de créer une nouvelle information.

Sommaire

La valeur des données Modifier

Depuis toujours, être informé le premier a été un avantage décisif, que ce soit en politique ou à la guerre. Evidemment plus l'information est pertinente en rapport du contexte et plus l'avantage de celui qui la détient est poussé. A notre époque c'est toujours vrai dans ces domaines, d'autant plus que le temps de validité de l'information s'est considérablement raccourci, ce qui était pertinent la veille ne l'est plus forcément le lendemain.

Aujourd'hui,la donnée élémentaire qui sert à élaborer l'information est produite en très grand nombre, contrairement aux époques précédentes, et ne peut plus être traitée par les mêmes méthodes. Pour être exploitée la donnée initiale doit être transformée en code numérique ce qui dans un premier temps la banalise. Pour lui donner du sens il faut que l'humain la contextualise et l'interprète. Alors la donnée prend toute sa valeur et devient pertinente.

Les sociétés modernes sont organisées autour de la donnée que ce soit pour gérer leur économie ou leur politique. A l’ère du numérique, la capacité de collecte et de transport des données à très grande vitesse a été à l'origine du développement de moyens et de méthodes d’exploitation différentes de ceux qui étaient en vigueur il y a encore quelques années.

La notion de valeur affectée à ces données en a été bouleversée et quand on essaye de définir la valeur de cette unité élémentaire, on commence souvent par analyser une forme construite de la notion de la donnée ; on parle à tel propos d’open data, d’expérimental data et de big data, mais combien vaut une donnée, entendue en tant que simple résultat de l’observation ou de mesure de la réalité?

L'acquisition des données peut être liée à des transactions commerciales ou directes sans qu'il soit nécèssaire d’effectuer une marchandisation.La valeur de la donnée réside alors dans son utilisation.

La valorisation de la donnée se fait à travers un processus capable à chaque étape de la transformation d'augmenter sa valeur directement ou par combinaison avec d'autres données. En général la finalité est l'exploitation par l'homme pour la prise de décision ou par un autre système permettant une commande de processus.

Le calcul [2] fait partie du processus de transformation par la machine et le jugement qualitatif qui appartient à l'humain fait partie de l'interprétation et donne la valeur objective à l'information finale [3].

S. Chignard et LD Benyayer ont essayé de créer une grille de lecture pour la quantification des données[4] en partant de trois conceptions de la valeur :

  1. La valeur est subjective : elle dépend de l’intérêt porté par l'humain qui va l'utiliser directement ou après transformation.
  2. La valeur est co-construite : elle augmente à partir de l'instant ou elle rentre dans un processus de transformation, notamment à travers des études croisées, capables d’exprimer des concepts, d’où l’importance de la collaboration et de la coordination dans le processus de la valorisation des données;
  3. La valeur est potentielle : elle donnera ou pas un avantage futur à ceux qui la détiennent.

A partir de ces axiomes, les données peuvent être interprétées à la lumière de trois formes de valeur.

Les données comme matière premièreModifier

La donnée devient la matière première pour certains agents économiques, tels que les data brokers, des entreprises qui « collects, stores, analyzes and sells consumer data »[5], comme activité principale de leur business. Une donnée sur les conditions médicales d’un individu peut prendre une valeur entre les 15-20 $[6]. En réalité, il n’existe pas encore un véritable marché des données, puisqu’il manque une standardisation, nécessaire à l’échange. Pour ces motifs, une quantification précise et universelle de la donnée n’est pas encore concevable. 

La collecte des donnéesModifier

La collecte de données peut se faire de manière primaire (le chercheur est le tout premier à obtenir les données sur le terrain de recherche) ou secondaire (le chercheur utilise d'autres sources, par exemple des publications existantes d'autres chercheurs). Les techniques d'analyse des données varient et incluent, par exemple, la triangulation ou la méthode dite de percolation des données [7]. Cette dernière méthodologie offre un système articulé de collecte, de classement et d'analyse des données utilisant entre autres cinq angles possibles d'analyse (au minimum trois) pour maximiser l'objectivité de l'analyse et permettre le regard le plus complet possible sur l'objet sous investigation soit: les analyses qualitatives et quantitatives, la revue des écrits (y compris les écrits scientifiques), les interviews d'experts, et la simulation informatique. Les données sont alors "percolées" selon une série d'étapes déterminées pour en extraire l'information la plus pertinente.

L'intégrité dans la collecte de donnéesModifier

La principale raison de maintenir l'intégrité des données est de favoriser l'observation des erreurs dans le processus de collecte des données. Ces erreurs peuvent être intentionnelles (falsification délibérée) ou non intentionnelles (erreurs aléatoires ou systématiques).

Deux approches peuvent protéger l'intégrité des données et assurer la validité scientifique des résultats des études inventées par Craddick, Crawford, Rhodes, Redican, Rukenbrod et Laws en 2003:

  1. Assurance de la qualité - toutes les actions effectuées avant la collecte des données
  2. Contrôle de la qualité - toutes les actions effectuées pendant et après la collecte des données


Assurance de la qualité

Son objectif principal est la prévention, qui est avant tout une activité rentable pour protéger l'intégrité de la collecte de données. La normalisation des protocoles est le meilleur exemple de cette activité rentable, qui est élaborée dans un manuel de procédures complet et détaillé pour la collecte de données. Le risque de ne pas identifier les problèmes et les erreurs dans le processus de recherche est évidemment causé par des lignes directrices mal écrites. On trouvera ci-après plusieurs exemples d'échecs de ce type :

  • Incertitude quant au calendrier, aux méthodes et à l'identification de la personne responsable
  • Liste partielle des articles à recueillir
  • Description vague des instruments de collecte de données au lieu d'instructions rigoureuses étape par étape sur l'administration des tests.
  • Absence de reconnaissance du contenu exact et des stratégies de formation et de recyclage des membres du personnel chargés de la collecte des données.
  • Instructions imprécises sur l'utilisation, les ajustements et l'étalonnage de l'équipement de collecte de données
  • Aucun mécanisme préétabli pour documenter les changements apportés aux procédures au cours de l'enquête.


Contrôle de la qualité

Étant donné que les actions de contrôle de la qualité ont lieu pendant ou après la collecte des données, tous les détails sont soigneusement documentés. Il est nécessaire de disposer d'une structure de communication clairement définie comme condition préalable à la mise en place de systèmes de surveillance. Il n'est pas recommandé de ne pas être certain de la circulation de l'information, car une structure de communication mal organisée entraîne une surveillance laxiste et peut également limiter les possibilités de détection des erreurs. Le contrôle de la qualité est également responsable de l'identification des actions nécessaires pour corriger les pratiques de collecte de données erronées et pour minimiser de telles occurrences futures. Une équipe est plus susceptible de ne pas se rendre compte de la nécessité d'effectuer ces actions si ses procédures sont rédigées de façon vague et ne sont pas fondées sur la rétroaction ou l'éducation.

Problèmes de collecte de données qui nécessitent une action rapide :

  • Erreurs systématiques
  • Violation du protocole
  • Fraude ou inconduite scientifique
  • Erreurs dans des données individuelles
  • Problèmes individuels de rendement du personnel ou du site.

Les données comme levierModifier

La valeur de la donnée dépend de son utilisation, qui devient de jour en jour plus performante. Les données seront le véritable instrument qui permettra de franchir le mur du temps : l’analyse des données est l’appui sur lequel on essaye de rationaliser la prise des décisions. Le but final de l’analyse des données est d’arriver à prévoir ce qui se passera dans le futur, avec une marge d’erreur négligeable.

Les données comme actif stratégiqueModifier

Enfin, la valeur de la donnée peut être interprétée à l’égard d’un actif stratégique. Elles deviennent une source précieuse, puisque rare, à pouvoir exploiter. La firme qui la possède peut, par exemple, devenir le point d’accès exclusif à l’information que seulement elle détienne, ou être capable de renforcer les barrières à la mobilité.

La détermination de la valeur d’une donnée peut être donc qualculée (Vatin, 2012) à partir de son utilisation subjective, qui fonde la valorisation sur le processus de transformation de la donnée et sur ses caractéristiques qualitatives. 

Notes et référencesModifier

  1. Sciences des données: Leçon inaugurale au Collège de France prononcée le jeudi 8 mars 2012, Serge Abiteboul.
  2. Cochoy, F., « Conclusion. La part de l'âne, ou le qualcul économique du consommateur. », Sciences sociales et sociétés, 203-218.,‎ .
  3. Michel Callon, « Postface : La formulation marchande des biens. Fran¸cois Vatin. Evaluer et valoriser : une sociologie ´economique de la mesure, », Presses Universitaires du Mirail, pp.247-269,‎ .
  4. Chignard, S., & Benyayer, L. D., Datanomics–Les nouveaux business models des données., FYP Éditions, .
  5. Natasha Singer, « A Data Broker Offers a Peek Behind the Curtain », The New York Times,‎ (ISSN 0362-4331, lire en ligne, consulté le 22 mai 2017).
  6. Chignard, S., & Benyayer, intervention au séminaire « Etudier les cultures numériques, approches théoriques et empiriques », 15 mai 2017.
  7. Mesly, Olivier (2015). Creating Models in Psychological Research. États-Unis : Springer Psychology : 126 pages. (ISBN 978-3-319-15752-8).

Voir aussiModifier

Sur les autres projets Wikimedia :

Articles connexesModifier