Si RAG, BERT ou GPT ne vous disent rien, allez faire un tour dans le lexique de DataFranca, une initiative québécoise qui propose des traductions et définitions de milliers de termes de l’intelligence artificielle.
J’ai toujours été admiratif devant ces passionnés du français qui prennent sur eux de défricher des pans entiers du langage en y consacrant des heures innombrables.
À ma connaissance, la dernière grande initiative provient de DataFranca, qui s’est attaquée au vocabulaire archispécialisé de l’intelligence artificielle. L’équipe, dont le noyau dur est constitué d’un gestionnaire des communications, d’un consultant en informatique et d’un linguiste et professeur de traduction, a créé un Grand lexique français de l’intelligence artificielle entièrement consultable en ligne. Vous y trouverez près de 5 000 termes, d’« abandon » à « zébioctet » (270 octets). Du vocabulaire de l’IA, le Grand dictionnaire terminologique (GDT) de l’Office québécois de la langue française (OQLF) en propose, mais pas autant et pas aussi pointu.
Pour chaque terme, les auteurs formulent une définition, une liste de traductions et une explication du concept. C’est parfois assez savant, mais leurs descriptions de certains concepts de base comme « GPT », « fabulation » ou « mégadonnées » sont particulièrement éclairantes.
Bien que ses rédacteurs aient été animés d’une volonté de vulgarisation, le Grand lexique français de l’intelligence artificielle ne se lit pas comme un roman. On peut saluer l’effort d’avoir traduit RAG (retrieval augmented generation) par GAIA (génération augmentée d’information applicative), mais la définition et les compléments d’information risquent de vous faire chauffer les neurones, même en français. Normal : DataFranca s’adresse d’abord aux fonctionnaires, aux entrepreneurs, aux chercheurs et aux professeurs.
« Montréal est un des grands centres de l’intelligence artificielle et il est important que les gens puissent travailler en français, on doit donc leur proposer du vocabulaire en français », explique Gérard Pelletier, fondateur du projet, avec qui je me suis entretenu alors qu’il était à Oran, en Algérie, pour une conférence qui tournait autour du Grand lexique.
BERT, ChatGPT et Sesame Street
L’idée à l’origine du lexique remonte à 2013, alors que cet ancien publicitaire se cherchait un projet de semi-retraite. Son fils, qui travaille chez IBM, lui parle alors pour la première fois du big data. Le concept est tellement nouveau que l’équivalent français ne figure dans aucune banque terminologique. L’information ne tombe pas dans l’oreille d’un sourd : dans les années 1990, Gérard Pelletier a conçu la première encyclopédie d’Internet — intitulée L’encyclopédie de l’inforoute.
Fasciné par cette science en plein développement, il en parle alors à son ami Claude Coulombe, un consultant et spécialiste des données qui s’est illustré quelque 20 ans plus tôt en créant le Correcteur 101, premier logiciel correcteur québécois. Ce dernier saisit tout de suite l’ampleur du chantier. « On s’est dit : si on ne le fait pas, personne ne va le faire », raconte Gérard Pelletier. Les deux s’adjoindront bien vite un troisième larron, Patrick Drouin, directeur du Département de linguistique et de traduction de l’Université de Montréal.
Le trio se fera d’abord les dents sur une brochette de 122 termes proposés par Hugo Larochelle, un chercheur chez Google DeepMind. Mais le travail démarre à plein régime en 2018 après l’obtention d’une première subvention de l’OQLF. À l’heure actuelle, le subventionnaire principal est le Fonds de recherche du Québec.
La première étape du travail consiste à collecter le vocabulaire. Patrick Drouin confie à une petite équipe d’étudiants-chercheurs le premier travail de dépouillement parmi les milliers d’articles savants.
Une fois qu’un nouveau terme est repéré, il s’agit de vérifier si le GDT, Termium, FranceTerme ou Wikimédia ne proposent pas déjà quelque chose. C’est parfois le cas, mais pas pour la majorité des termes. « Et le résultat n’est pas toujours satisfaisant », dit Patrick Drouin. Il donne un exemple simple comme « big data » traduit par « mégadonnées », ce qui manque d’exactitude puisque « méga- » en grec signifie « million », alors que le big data joue dans les trillions et les quadrillions. Et dans certains contextes, le terme « données massives » est nettement plus approprié.
Heureusement, les termes anglais se traduisent souvent sans équivoque. « Mais dans 20 % des cas, un gros effort de désambiguïsation est requis, raconte Claude Coulombe. C’est là que Patrick et moi intervenons. » Un exemple : la traduction d’« unlearning » par « désapprentissage » est simple, même si la définition, elle, peut donner du fil à retordre.
« Là où ça devient compliqué, c’est quand le terme anglais est lui-même une approximation d’une équation ou d’un algorithme. Ou, pire, quand il reprend des noms de personnages de Sesame Street ou de films d’animation japonais, comme BERT, ELMo ou Transformer. » BERT, par exemple, est l’acronyme de « bidirectional encoder representations from transformers » traduit par « représentations d’encodeur bidirectionnel à partir de réseaux autoattentifs ».
Les rédacteurs dans ce cas doivent faire un grand effort de vulgarisation, parfois amusant. Le T de ChatGPT est une référence à la série Transformers, terme qui correspond en fait au concept de « réseau autoattentif ». « Beaucoup de concepts de l’IA sont formulés par des chercheurs qui ne sont pas terminologues », constate Claude Coulombe. Et c’est sans compter l’humour particulier de ces grands patenteux que sont les programmeurs.
Travailler vite, travailler utilement
Selon Gérard Pelletier, il y a énormément de points à mettre sur les i en intelligence artificielle du fait qu’il n’existe pas encore d’encyclopédie propre à ce domaine, même en anglais. « On doit expliquer beaucoup, parce qu’il y a énormément de jargon, dit-il, à commencer par la notion d’intelligence artificielle, car l’IA n’est ni intelligente ni artificielle. » Les auteurs ont d’ailleurs commencé à décliner DataFranca en petits ouvrages regroupant les mots incontournables, comme Les 101 mots de l’intelligence artificielle, dont le contenu se veut davantage accessible pour les profanes.
Si on prend soin de bien lire les définitions ou les informations fournies pour chaque terme dans la banque de données en ligne, il apparaît clairement que le Grand lexique français de l’intelligence artificielle est une création évolutive qui comporte encore des trous. Ce côté inachevé est totalement assumé par ses créateurs. « Notre méthodologie, c’est : on va vite. L’idée est de pouvoir proposer un terme en français aussitôt que possible. Si le terme en anglais se répand, la proposition existe », résume Gérard Pelletier.
Consulter l’article complet sur l’ACTUALITÉ