DataFranca en collaboration avec ses partenaires a préparé des capsules linguistiques et informatives sur les grands thèmes  de l’intelligence artificielle et de la science des données.

Qu’est-ce que 
« l’apprentissage supervisé »

Patrick Drouin 
Linguiste et terminologue
Professeur titulaire, Université de Montréal

L’apprentissage supervisé, en anglais supervised learning, est un type d’apprentissage automatique dans lequel un algorithme s’entraîne à une tâche en utilisant un jeu de données annotées. Chaque annotation indique le résultat attendu de l’algorithme. On considère que l’entraînement est réussi lorsque l’écart entre les prédictions de l’algorithme et les annotations est minimal.

L’apprentissage supervisé se déroule en quatre étapes : 

La première étape consiste à déterminer les résultats attendus qui correspondent aux différentes annotations.

L’étape suivante est celle de l’annotation des données proprement dite, le plus souvent manuellement par une personne. Ces données annotées constituent le jeu de données d’entraînement, le dataset.

La troisième étape est l’entraînement du modèle, (model training). À cette étape, l’algorithme cherche, pour l’ensemble d’un jeu de données, à minimiser l’erreur entre la prédiction faite par le modèle pour chaque donnée et la vérité, qui elle correspond à l’annotation de la donnée.

Enfin, à la dernière étape, dite étape de prédiction (ou étape d’inférence), le modèle cherche à prédire l’annotation d’une nouvelle donnée, mais cette fois sans annotation, en utilisant le modèle entraîné à l’étape précédente.

Claude Coulombe  
Doctorat en intelligence artificielle
Conseiller scientifique, DataFranca

Prenons un exemple classique d’apprentissage supervisé, la détection des pourriels (spam).

Première étape, on détermine que l’on classera les courriels entre deux valeurs d’annotation « pourriel » et « non pourriel ». C’est donc un cas de classification binaire.

Deuxième étape. Pour construire le jeu de données d’entraînement, chaque courriel est examiné et annoté par un utilisateur en tant que « pourriel » ou « non pourriel ».

À la troisième étape, l’algorithme d’apprentissage supervisé s’entraîne à associer le contenu d’un courriel à l’annotation « pourriel » ou « non pourriel ». On entraîne l’algorithme sur des centaines, voire des milliers de courriels. Petit à petit, en traitant chaque courriel, l’algorithme s’améliore en cherchant à réduire son erreur de prédiction.

Enfin à la quatrième étape. On fournit  le contenu d’un courriel jamais examiné (non annoté) et à partir de son contenu, l’algorithme ou plutôt le modèle entraîné par apprentissage supervisé sera capable de prédire s’il s’agit d’un pourriel ou non.