Annotation des données


Définition

L'annotation des données est une tâche essentielle dans la préparation d'un jeu de données d'entraînement en apprentissage supervisé. Chaque exemple d'un ensemble de données destiné à l'apprentissage supervisé doit comporter au moins une étiquette dite étiquette cible qui est la réponse ou le résultat prédit par les autres attributs.

Par exemple, les attributs d'un jeu de données sur le logement pourraient inclure le nombre de chambres, le nombre de salles de bain et la date de construction. Dans ce cas, l'étiquette cible pourrait être le loyer mensuel du logement.

La mise au point de modèles en apprentissage automatique supervisé exige le traitement d'une grande quantité de données qui doivent être annotées ou étiquetées avec précision.

Compléments

Par exemple en vision artificielle, l'annotation est une opération manuelle qui consiste à identifier un objet dans l'image avec une étiquette (i.e. un court texte), et/ou à encadrer un objet dans un rectangle ou un polygone irrégulier et parfois même décrire textuellement des zones spécifiques d'une image. Les cadres peuvent être en 2D (rectangles) ou même en 3D (boîtes rectangulaires ou parallépipèdes).


Pour annoter de grandes quantités de données, une solution est d'organiser une campagne d’annotation participative sur une plateforme de microtravail.

Il est également possible de sous-traiter l'annotation des données à une entreprise spécialisée.

Français

annotation des données

annotation (moins précis)

étiquetage des données

étiquetage (moins précis)

enrichissement des données (plus générique)

enrichissement (plus générique et moins précis)

balisage des données (rarement employé)

marquage des données (rarement employé)

Anglais

data tagging

dataset tagging

tagging

data labeling

dataset labeling

labeling

data annotation

dataset annotation

annotation



Compléments vidéos




Contributeurs: Claude Coulombe, wiki