Apprentissage supervisé

Définition

L’apprentissage supervisé est un type d’apprentissage automatique dans lequel un algorithme s’entraîne à une tâche en utilisant un jeu de données annotées. Chaque annotation indique le résultat attendu de l’algorithme. On considère que l’entraînement est réussi lorsque l’écart entre les prédictions de l’algorithme et les annotations est minimal.

Compléments

L'apprentissage supervisé consiste à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non-supervisé où on ne dispose pas d'annotations.

On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

L’apprentissage supervisé se déroule en quatre étapes :

La première étape consiste à déterminer les résultats attendus qui correspondent aux différentes annotations.
L’étape suivante est celle de l’annotation des données proprement dite, le plus souvent manuellement par une personne. Ces données annotées constituent le jeu de données d’entraînement.
La troisième étape est l’entraînement du modèle (model training). À cette étape, l’algorithme cherche, pour l’ensemble d’un jeu de données, à minimiser l’erreur entre la prédiction faite par le modèle pour chaque donnée et la vérité, qui elle correspond à l’annotation de la donnée.
Enfin, à la dernière étape, dite étape de prédiction (ou étape d’inférence), le modèle cherche à prédire l’annotation d’une nouvelle donnée, mais cette fois sans annotation, en utilisant le modèle entraîné à l’étape précédente.

Prenons un exemple classique d’apprentissage supervisé, la détection des pourriels (spam).

Première étape, on détermine que l’on classera les courriels entre deux valeurs d’annotation « pourriel » et « non pourriel ». C’est donc un cas de classification binaire.

Deuxième étape. Pour construire le jeu de données d’entraînement, chaque courriel est examiné et annoté par un utilisateur en tant que « pourriel » ou « non pourriel ».

À la troisième étape, l’algorithme d’apprentissage supervisé s’entraîne à associer le contenu d’un courriel à l’annotation « pourriel » ou « non pourriel ». On entraîne l’algorithme sur des centaines, voire des milliers de courriels. Petit à petit, en traitant chaque courriel, l’algorithme s’améliore en cherchant à réduire son erreur de prédiction.

Enfin à la quatrième étape. On fournit le contenu d’un courriel jamais examiné (non annoté) et à partir de son contenu, l’algorithme ou plutôt le modèle entraîné par apprentissage supervisé sera capable de prédire s’il s’agit d’un pourriel ou non.

Complément audio : Qu’est-ce que l’apprentissage supervisé?

Français

apprentissage supervisé

Anglais

supervised learning

supervised machine learning

Sources

Source: Apprentissage supervisé

Note: apprentissage supervisé est une désignation publiée au Journal officiel de la République française le 9 décembre 2018 et normalisée par l'ISO en collaboration avec la Commission électrotechnique internationale