Annotation des données
Définition
L'annotation des données est une tâche essentielle dans la préparation d'un jeu de données d'entraînement en apprentissage supervisé. Chaque exemple d'un ensemble de données destiné à l'apprentissage supervisé doit comporter au moins une étiquette dite étiquette cible qui est la réponse ou le résultat prédit par les autres attributs.
Par exemple, les attributs d'un jeu de données sur le logement pourraient inclure le nombre de chambres, le nombre de salles de bain et la date de construction. Dans ce cas, l'étiquette cible pourrait être le loyer mensuel du logement.
La mise au point de modèles en apprentissage automatique supervisé exige le traitement d'une grande quantité de données qui doivent être annotées ou étiquetées avec précision.
Compléments
Par exemple en vision artificielle, l'annotation est une opération manuelle qui consiste à identifier un objet dans l'image avec une étiquette (i.e. un court texte), et/ou à encadrer un objet dans un rectangle ou un polygone irrégulier et parfois même décrire textuellement des zones spécifiques d'une image. Les cadres peuvent être en 2D (rectangles) ou même en 3D (boîtes rectangulaires ou parallépipèdes).
Pour annoter de grandes quantités de données, une solution est d'organiser une campagne d’annotation participative sur une plateforme de microtravail.
Il est également possible de sous-traiter l'annotation des données à une entreprise spécialisée.
Français
annotation des données
annotation (moins précis)
étiquetage des données
étiquetage (moins précis)
enrichissement des données (plus générique)
enrichissement (plus générique et moins précis)
balisage des données (rarement employé)
marquage des données (rarement employé)
Anglais
data tagging
dataset tagging
tagging
data labeling
dataset labeling
labeling
data annotation
dataset annotation
annotation
Contributeurs: Claude Coulombe, wiki