Science des données

discipline qui comprend des éléments de statistiques, d'informatique et de visualisation des données

En termes généraux, la science des données est l'extraction de connaissance d'ensembles de données[1],[2].

Science des données
Image dans Infobox.
Les différentes disciplines de la science des données.
Sous-classe de
Pratiqué par
Data-scientist (d)Voir et modifier les données sur Wikidata

La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées. Elle est souvent associée aux Big Data et à l'analyse des données.

Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information.

Parmi elles : les modèles probabilistes, l'apprentissage automatique, l'apprentissage statistique, la programmation informatique, l'ingénierie de données, la reconnaissance de formes, la visualisation de données, l'analytique prophétique, la modélisation d'incertitude, le stockage de données, la géo-visualisation[3], la compression de données et le calcul à haute performance. Les méthodes qui s'adaptent aux données de masse sont particulièrement intéressantes dans la science des données, bien que la discipline ne soit généralement pas considérée comme limitée à ces données.

La science des données (en anglais data science[4]) est une discipline qui s'appuie sur des outils mathématiques, de statistiques, d'informatique (cette science est principalement une « science des données numériques »[5]) et de visualisation des données. Elle est en plein développement, dans le monde universitaire ainsi que dans le secteur privé et le secteur public. Moore en 1991 a défini la statistique comme la science des données[6] (définition reprise par d'autres dont James T. McClave et al. en 1997[7]) et U. Beck en 2001[8] oppose la science des données à la science de l'expérience, voyant une dissociation croissante entre ces deux types de science, que tendrait selon lui à encourager une société de la gestion du risque au sein d'une « civilisation du danger »[9].

ObjectifsModifier

Le premier objectif du « data scientist » est de produire des méthodes (automatisées, autant que possible) de tri et d'analyse de données de masse et de sources plus ou moins complexes ou disjointes de données, afin d'en extraire des informations utiles ou potentiellement utiles.

Pour cela, le "scientifique des données" s'appuie sur la fouille de données, les statistiques, le traitement du signal, diverses méthodes de référencement, apprentissage automatique et la visualisation de données. Il s'intéresse donc à la classification, au nettoyage, à l'exploration, à l'analyse et à la protection de bases de données plus ou moins interopérables.

En réponse à la complexité croissante de la science des données, des partenariats s'établissent entre collectivités, universités, grandes écoles et secteur privé, ce travail étant pris en charge en interne ou sous-traité par une entreprise spécialisée.

HistoireModifier

Le terme Data Science a été forgé lors du 2e colloque franco-japonais de statistique tenu à l'Université Montpellier II (France) en [11]. Les participants ont reconnu l'émergence d'une nouvelle discipline au cœur de laquelle se trouvent des données de toutes origines, tailles, types et structures. Cette activité doit s'appuyer sur des concepts et des principes reconnus de la statistique et de l'analyse des données tout en exploitant pleinement la puissance croissante des outils informatiques. En 2001, William Cleveland reprenait essentiellement les mêmes idées dans un article programmatique paru en 2001 « Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics » qui précise les contours de cette discipline émergente.

Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité).

Elle a reçu beaucoup d'attention dernièrement grâce à l'intérêt grandissant pour le "Big Data". Cependant la data science ne se limite pas à l'étude de bases de données pouvant être qualifiées de "Big Data".

Par ailleurs l'essor de techniques d'apprentissage automatique (en anglais machine learning) et d'intelligence artificielle ont également participé à la croissance de cette discipline et à son ouverture vers de nouveaux champs (passant par exemple de l'analyse statistique pure de données fortement structurées à l'analyse de données semi-structurées (XML par exemple) pour notamment mettre « en correspondance des bases de données et de données textuelles »[12].

Formation : Cette science nouvelle a naturellement généré « l'émergence d'une nouvelle filière de formation : « data scientists » »[13].

En FranceModifier

Cette science s'inscrit dans les efforts d'accompagnement du numérique, en lien depuis qu'elle existe avec la mission Etalab (dont le directeur, Henri Verdier, est aussi « administrateur général des données de l’État », assisté par des data-scientists recrutés pour « accélérer la possibilité de politiques publiques « augmentées » par les données et leur analyse ».

Domaines d'utilisationModifier

Parmi les plus grands utilisateurs de la science des données figurent (par ordre alphabétique)


Compétences métierModifier

A ne pas confondre avec l’analyse métier et l’ingénierie des données, le data scientist va plus loin que le Data Analyst, dont en utilisant le Machine Learning.

Pour cela il doit être rigoureux, mais curieux et créatif, capable de trouver les données les plus adéquates pour une question et avoir une pensée structurée lui permettant de décomposer et organiser les questions et les processus[15].

Il doit savoir manipuler et nettoyer les données et les préparer dans un format adapté à l’analyse. Il doit aussi maitriser les sciences des données qui nécessitent une expertise pluridisciplinaire[15]. Son expertise recouvre les domaines scientifiques, méthodologiques, statistiques (maitrise des statistiques descriptives ; moyennes, médianes, variance, déviation, distributions de probabilités, échantillonnage, statistiques inférentielles, etc.), des outils d'ingénierie logicielle du domaine (SAS ou R au minimum), de l'algorithmique du Machine Learning/Deep Learning et des bibliothèques de type TensorFlow, Keras ou PyTorch pour créer de bons modèles prédictifs, s'appuyant sur les données du passé et du présent pour en déduire des tendances prospectives probables. Il doit maitriser au moins un langage de programmation (Python en général, ou R, Java, Julia, Pearl ou C/C++) et de programmation (SQL, de plus en plus souvent)[15]. Le data scientist doit aussi maitriser les questions de régression et de classification, d'apprentissage supervisé ou non supervisé et avoir de solides compétences en droit des données, maitrise des aspects éthiques et sociaux, confidentialité, anonymisation, sécurité des données sensibles (données personnelles et de santé notamment)[15].

La maîtrise de la plateforme Hadoop, d'outils de traitement tels que Hive et Pig est bienvenue et parfois requise par l'employeur, de même que les outils de cloud (ex : Amazon S3 et de gestion de données non-structurées (par exemple issues des réseaux sociaux, de flux vidéo ou audio). Des notions d'intelligence artificielle sont de plus en plus requises (réseaux de neurones artificiels, etc.)[15]. Et in fine le data scientist doit aussi être pédagogique, et pour cela maitriser la Data visualisation et idéalement être en capacité de déployer les modèles de Machine Learning qu'il a mis au point (c'est à dire les rendre utilisables par des non-spécialistes)[15]. En rendant les modèles utilisables par les non spécialistes, le data scientist crée un Data product. Celui ci peut être une application sur un portable ou une web application. Les utilisateurs de R développent généralement leur Data product sur Shiny.

Selon le média Le Big Data : 88% des Data Scientists ont au moins un master, et 46% au moins un doctorat. 32% viennent du domaine des mathématiques et statistiques. 19% des sciences informatiques et 16% d'écoles d’ingénieurs[15].

Selon le classement des 25 ou 50 "meilleurs" métiers du monde fait aux Etats-Unis par le site de recherche d’emploi Glassdoor, celui de Data Scientis arrivait en tête, devant les « ingénieurs DevOps » et les « Data Technicians »[15].

Evolutions attendues du métierModifier

GGartner Inc, estime que plus de 40% des tâches du Data Scientist seront rapidement automatisées (avant 2020) ce qui devrait favoriser une augmentation de leur productivité, mais aussi l'apparition de « citizen data scientists »[15] et d'approches collaborative (ex Wikidata, encore modestement associé à Wikipédia et à ses projets frères et soeurs).

Des questions éthiques et de démocratie se posent avec les vols massifs de données personnels ou les usages manipulateurs de données, par exemple suite au scandale Facebook-Cambridge Analytica/AggregateIQ lié à l'usage douteux à illégal du big data et des réseaux sociaux au profit de quelques candidat (ex : Donald Trump) et du parti du Brexit lors du référendum sur l'appartenance du Royaume-Uni à l'Union européenne qui a conduit au Brexit.

SalairesModifier

Selon Glassdoor, son salaire annuel est en moyenne de 116 840 dollars, et fin janvier Glassdoor estimait à 1736 le nombre d'offres d’emploi. Le salaire moyen d’un Data Scientist américain serait de 110 000 dollars, contre 45000 à 50000 euros/an en France, et malgré l’apparition de nombreuses formations, les employeurs peinent encore à trouver des profils assez qualifiés.

Notes et référencesModifier

  1. (en) Vasant Dhar, « Data Science and Prediction », Communications of the ACM, no 12,‎ , p. 64-73 (DOI 10.1145/2500499, lire en ligne)
  2. (en) « The key word in "Data Science" is not Data, it is Science », sur simplystats, (consulté le 25 mars 2015)
  3. « Roque Leal », sur roqueleal.me (consulté le 19 juin 2020)
  4. Davenport et DJ Patil « Data Scientist: The Sexiest Job of the 21st Century », Harvard Business Review, 2012
  5. Gossiaux J.F (1998) L'ethnologie au bout du compte (No. 30, pp. 153-163). Ministère de la culture/Maison des sciences de l’homme.
  6. Moore, D. S. (1991), Teaching statistics as a respectable subject. In Gordon, F. and S. Gordon (eds.), Statistics for the twenty-first century, 14-25, Mathematical Association of America.
  7. McClave, James T. et co. (1997) Statistics , Prentice Hall, New Jersey
  8. Beck U (2001) La politique dans la société du risque (Vol. 17, No. 1, pp. 376-392). La Découverte.
  9. Beck, U. (2001). La politique dans la société du risque (Vol. 17, No. 1, pp. 376-392). La Découverte.
  10. Kégl B (2014) La science des données pour les données de la science. In 9th Journées Informatique de l'IN2P3-IRFU.(résumé)
  11. (en) Escoufier et al., éditeurs, Data Science and its Application : La science des données et ses applications, Tokyo, Academic Press, (ISBN 0-12-241770-4), préface
  12. Stage Recherche-M2 : Mise en correspondance debases de données etdedonnées textuelles, encadré par Mathieu Roche (TETIS-Cirad & LIRMM, Montpellier) et Sophie Fortuno (TETIS-Cirad, Montpellier)
  13. a b c d e f g h i j k et l Abiteboul, S., Bancilhon, F., Bourdoncle, F., Clemencon, S., De La Higuera, C., Saporta, G., & Soulié, F. F. (2014). L'émergence d'une nouvelle filière de formation:«d ata scientist s» (Doctoral dissertation, INRIA Saclay)
  14. « Data Science Blog », sur France Data Science Blog, (consulté le 19 juin 2020).
  15. a b c d e f g h et i +Bastien L, « Voici toutes les compétences nécessaires pour devenir Data Scientist », sur LeBigData.fr, (consulté le 9 mars 2021)


Voir aussiModifier

Sur les autres projets Wikimedia :

BibliographieModifier

Articles connexesModifier

Liens externesModifier