Qu’est-ce que
« l’apprentissage profond »
Patrick Drouin
Linguiste et terminologue
Professeur titulaire, Université de Montréal
L’apprentissage profond, (deep learning) fait partie d’une famille plus large de méthodes d’apprentissage automatique basées sur des réseaux de neurones artificiels. Geoffrey Hinton, de l’Université de Toronto, a inventé le terme «deep learning» en 2006. Ensuite, les médias et les réseaux sociaux s’en sont emparés. L’apprentissage profond est en quelque sorte la nouvelle image de marque des réseaux de neurones.
C’est un nom qui fait bien rêver…
Des architectures d’apprentissage profond, telles que réseaux de neurones profonds, réseaux récurrents, réseaux convolutifs, issus des travaux de Yann Lecun, et réseaux auto-attentifs (les fameux transformers) ont été appliquées à divers domaines tels que la vision par ordinateur, la reconnaissance de la parole, le traitement automatique de la langue, la reconnaissance audio, le filtrage des réseaux sociaux, la bioinformatique, la conception de médicaments, l’analyse d’images médicales et l’inspection des matériaux. Dans toutes ces activités, ils ont produit des résultats comparables, voire parfois supérieurs, à ceux d’experts humains.
L’apprentissage profond a d’ailleurs permis à un ordinateur de vaincre un champion au jeu de Go, un jeu dont la complexité est extrêmement grande et d’atteindre une qualité qui s’approche de celle de l’humain dans le processus de traduction.
Claude Coulombe
Doctorat en intelligence artificielle
Conseiller scientifique, DataFranca
L’organisation typique d’un réseau de neurones, aussi appelée architecture multicouche, consiste en une superposition de couches de neurones (neuron layers). Le réseau à une seule couche cachée était la seule architecture de réseau de neurones que l’on savait entraîner efficacement jusque vers la fin des années 1990.
Le nombre de couches cachées définit la notion de profondeur d’un réseau de neurones. Techniquement, un réseau de neurones profond est un réseau qui comporte plus d’une couche cachée de neurones. C’est-à-dire, deux couches cachées ou davantage.
Un terme plus exact pour désigner l’apprentissage profond serait « apprentissage de représentations », ou encore « apprentissage hiérarchique ». Une représentation est un terme générique qui désigne l’état d’une réalité (une connaissance) au moyen de données.
D’un point de vue pratique, une couche de neurones reçoit une représentation en entrée qu’elle transforme pour produire une représentation en sortie.
Les représentations successives sont de complexité grandissante au fur et à mesure que l’on ajoute des couches au réseau. Par exemple, en vision artificielle, les premières couches apprennent à reconnaître des concepts visuels de base comme des points, des lignes, des contours, des taches, des textures. Les couches suivantes vont combiner ces concepts pour former des figures géométriques à la base de représentations plus complexes comme des yeux, des nez, des bouches pour finir en dernière couche avec la reconnaissance d’un visage.
Les dernières avancées technologiques, en termes d’architecture de réseau profond, reposent sur le mécanisme d’attention, plus précisément l’auto-attention, pour remplacer à la fois la récurrence et les convolutions. Plus connus sous le vocable « Transformers » emprunté au cinéma d’animation des années 80, les réseaux auto-attentifs sont issus des travaux pionniers du laboratoire MILA dirigé par Yoshua Bengio de l’Université de Montréal qui ont défini un premier mécanisme d’attention utilisé en traduction automatique neuronale.
Pour leurs travaux sur l’apprentissage profond, les chercheurs Geoffrey Hinton, Yann LeCun et Yoshua Bengio ont reçu le Prix Turing en 2018.