Ouvrir le menu principal

Jeu de données

collection de données

Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs (ou données) où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique)[1].

Structure d'un jeu de donnéesModifier

Un jeu de données peut avoir une structure tabulaire, par exemple un fichier CSV, une structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe, comme dans le RDF.

Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et chaque colonne à une variable[1].

TypologieModifier

En statistiques et en économétrie, on distingue les séries temporelles (ou série chronologique) dans lesquelles on observe une unité statistique à différentes périodes, les données en coupe pour lesquelles on observe plusieurs unités statistiques pour une période donnée et les données de panel pour lesquelles on observe plusieurs unités statistiques à différentes périodes[2].

ExemplesModifier

AnnexesModifier