Apprentissage profond

Définition

Geoffrey Hinton, de l’Université de Toronto, a inventé le terme « deep learning » en 2006. Ensuite, les médias et les réseaux sociaux s’en sont emparé. L’apprentissage profond est en quelque sorte la nouvelle image de marque des réseaux de neurones.

L’apprentissage profond fait partie d’une famille de méthodes d’apprentissage automatique fondée sur des réseaux de neurones artificiels qui comportent plusieurs couches cachées de neurones. L’apprentissage profond peut être supervisé, semi-supervisé, non supervisé ou par renforcement.

Des architectures d’apprentissage profond, telles que :

les réseaux de neurones profonds;
les réseaux récurrents;
les réseaux convolutifs issus des travaux de Yann LeCun;
les réseaux autoattentifs souvent appelés « transformers ».

ont été appliquées à divers domaines tels que :

la vision artificielle;
le traitement automatique de la langue;
le dialogue personne-machine;
la reconnaissance de la parole;
la reconnaissance audio;
la génération de textes;
la génération d'images;
le filtrage des réseaux sociaux;
la bio-informatique;
la synthèse de médicaments;
l’analyse d’images médicales;
l’inspection des matériaux.

Dans beaucoup de ces domaines, l’apprentissage profond a donné des résultats comparables, voire parfois supérieurs, à ceux d’experts humains.

Par exemple, l’apprentissage profond a permis à un ordinateur de vaincre un champion mondial du jeu de Go, et d’atteindre dans la traduction de textes une qualité qui s’approche de celle de l’humain.

Compléments

L’organisation typique d’un réseau de neurones, aussi appelée architecture multicouche, consiste en une superposition de couches de neurones (neuron layers). Le réseau à une seule couche cachée était la seule architecture de réseau de neurones que l’on savait entraîner efficacement jusque vers la fin des années 1990.

Le nombre de couches cachées définit la notion de profondeur d’un réseau de neurones. Techniquement, un réseau de neurones profond est un réseau qui comporte plus d’une couche cachée de neurones. C’est-à-dire, deux couches cachées ou davantage.

Un terme plus exact pour désigner l’apprentissage profond serait « apprentissage de représentations », ou encore « apprentissage hiérarchique ». Rappelons que représentation est un terme générique qui désigne l’état d’une réalité (une connaissance) au moyen de données. Enfin, on rencontre parfois l'expression « apprentissage des attributs » pour désigner l'apprentissage profond.

D’un point de vue pratique, une couche de neurones reçoit une représentation en entrée qu’elle transforme pour produire une représentation en sortie.

Les représentations successives sont de complexité grandissante au fur et à mesure que l’on ajoute des couches au réseau. Par exemple, en vision artificielle, les premières couches apprennent à reconnaître des concepts visuels de base comme des points, des lignes, des contours, des taches, des textures. Les couches suivantes vont combiner ces concepts pour former des figures géométriques à la base de représentations plus complexes comme des yeux, des nez, des bouches pour finir en dernière couche avec la reconnaissance d’un visage.

Les dernières avancées technologiques, en termes d’architecture de réseau profond, reposent sur le mécanisme d’attention, plus précisément l’auto-attention, pour remplacer à la fois la récurrence et les convolutions. Plus connus sous le vocable « Transformers » emprunté au cinéma d’animation des années 80, les réseaux auto-attentifs sont issus des travaux pionniers du laboratoire MILA dirigé par Yoshua Bengio de l’Université de Montréal qui ont défini un premier mécanisme d’attention utilisé en traduction automatique neuronale.

Pour leurs travaux sur l’apprentissage profond, les chercheurs Geoffrey Hinton, Yann LeCun et Yoshua Bengio ont reçu le Prix Turing en 2018.