Jeu de données


Définition

Un jeu de données est un ensemble d'exemples ou éléments de données où chaque exemple regroupe des attributs qui qualifient différents aspects d'un exemplaire d’un objet.

Un ensemble d'éléments de données du même type et qui ont quelque chose en commun. Les moyennes et les distributions peuvent être déterminées pour un jeu de données.

Compléments

Comme leur nom l'indique, les données sont à la base de la science des données et de l'apprentissage automatique.

Selon la discipline on parle d'observations (ou d'échantillons) en statistique, d'exemples (ou d'exemplaires) dans le langage de la science des données et de points de données dans le langage de l’apprentissage automatique. En fait, comme c'est souvent le cas, ces termes sont interchangeables.

En général, les exemples d'un jeu de données sont caractérisés par les attributs (en anglais, features) qui mesurent ou qualifient différentes propriétés de l’exemplaire d’un objet. Cet objet peut être physique ou conceptuel. Par exemple: le sapin a pour attributs: sa taille, le diamètre de son tronc et sa couleur.

Encore là, selon la discipline, une grandeur qui varie (ou quantité mesurée) est appelée variable en statistique, attribut (ou caractéristique) dans le langage de la science des données. Aussi, le nombre d'attributs correspond à la dimension de chaque points de données dans le langage de l’apprentissage automatique. Un exemplaire de données qui comporte deux attributs sera de dimension 2, trois attributs de dimensions 3, ainsi de suite jusqu'aux milliers d'attributs et même des millions pour une image couleur 4K.

Français

jeu de données

ensemble de données


Anglais

data set

dataset

Source: Google machine learning glossary

Source : 24pm Academy

Source : GDT - Traitement des données

Source : univ-paris8.fr

Source : univ-paris8.fr

Source : kdnuggets

Glossaire de la statistique DataFranca