« Jeu de données » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « Glossaire de la statistique DataFranca » par « {{Modèle:Statistiques}} ») |
||
Ligne 40 : | Ligne 40 : | ||
[https://www.kdnuggets.com/2020/12/20-core-data-science-concepts-beginners.html Source : kdnuggets ] | [https://www.kdnuggets.com/2020/12/20-core-data-science-concepts-beginners.html Source : kdnuggets ] | ||
{{Modèle:Statistiques}} | |||
[[Catégorie:Statistiques]] | [[Catégorie:Statistiques]] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Version du 4 janvier 2024 à 22:09
Définition
Un jeu de données est un ensemble d'exemples ou éléments de données où chaque exemple regroupe des attributs qui qualifient différents aspects d'un exemplaire d’un objet.
Autrement dit, un jeu de données est un ensemble d'éléments de données du même type qui ont quelque chose en commun.
Compléments
Comme leur nom l'indique, les données sont à la base de la science des données et de l'apprentissage automatique.
Les moyennes et les distributions peuvent être déterminées pour un jeu de données.
Selon la discipline on parle d'observations (ou d'échantillons) en statistique, d'exemples (ou d'exemplaires) dans le langage de la science des données et de points de données dans le langage de l’apprentissage automatique. En fait, comme c'est souvent le cas, ces termes sont interchangeables.
En général, les exemples d'un jeu de données sont caractérisés par les attributs (en anglais, features) qui mesurent ou qualifient différentes propriétés de l’exemplaire d’un objet. Cet objet peut être physique ou conceptuel. Par exemple: le sapin a pour attributs: sa taille, le diamètre de son tronc et sa couleur.
Encore là, selon la discipline, une grandeur qui varie (ou quantité mesurée) est appelée variable en statistique, attribut (ou caractéristique) dans le langage de la science des données. Aussi, le nombre d'attributs correspond à la dimension de chaque points de données dans le langage de l’apprentissage automatique. Un exemplaire de données qui comporte deux attributs sera de dimension 2, trois attributs de dimensions 3, ainsi de suite jusqu'aux milliers d'attributs et même des millions pour une image couleur 4K.
Français
jeu de données
ensemble de données
Anglais
data set
dataset
Source: Google machine learning glossary
Source : GDT - Traitement des données
Contributeurs: Evan Brach, Claude Coulombe, Imane Meziani, Jacques Barolet, Patrick Drouin, wiki, Robert Meloche