Le français a son mot à dire sur l’IA

Les nouvelles technologies favorisent le développement d’anglicismes en tout genre. Et l’intelligence artificielle représente un défi pour la langue française, qui doit s’adapter à des concepts en perpétuelle évolution pour ne pas perdre du terrain au Québec, plaque tournante de la recherche en matière d’apprentissage automatique.

L’Office québécois de la langue française (OQLF) n’a pas attendu la mise en ligne de la première version de ChatGPT en novembre 2022 pour prendre conscience de la menace. Dès 2018, l’organisme chargé d’assurer le respect de la Charte de la langue française a publié un premier lexique de l’IA. Cet outil a été conçu en étroite collaboration avec l’Université Laval, l’Université de Sherbrooke et le Mila, l’Institut québécois d’intelligence artificielle fondé par Yoshua Bengio.

« On a produit un vocabulaire de 85 concepts en IA », précise Francis Pedneault, coordonnateur de la production linguistique à l’OQLF. « La demande est venue de l’administration, mais aussi des entreprises privées. Montréal devenait un pôle d’expertise en IA, et il a fallu créer un vocabulaire pour répondre directement à leurs besoins. » Dans ce domaine, la principale difficulté est que l’on doit agir vite, avec des notions dont on ne maîtrise pas encore forcément toutes les subtilités.

Pas de temps à perdre

« Dès que l’on s’habitue à utiliser un mot en anglais, il est très difficile de revenir en arrière. D’où l’importance d’être très réactif », ajoute le directeur général de DataFranca, Gérard Pelletier, qui a mis sur pied un site Internet pour assurer la diffusion de plus de 7800 définitions en français de termes rattachés à l’IA. « Si on laisse aller, on risque de se retrouver comme dans les années 1950 au Québec, où l’anglais était très présent dans certains secteurs, comme l’industrie automobile », croit-il.

Du fait de son domaine d’application, le champ lexical de l’IA est voué à évoluer rapidement. « On doit revoir et alimenter constamment nos définitions, souligne M. Pedneault. On reçoit de 2000 à 3000 courriels par année avec des suggestions d’ajout ou des commentaires pour alimenter notre vitrine linguistique. » Dans ce processus de veille terminologique, les linguistes ne sont pas les seuls à avoir leur mot à dire. Les entrepreneurs et chercheurs, tout comme le grand public, contribuent aussi à cette démarche participative.

Un combat perdu d’avance ?

Il n’est pas rare qu’une définition change au gré des avancées technologiques. Source de mythes et fantasmes, le fameux big data a d’abord été traduit par le terme « mégadonnées ». Mais les experts de DataFranca ont indiqué qu’il serait préférable de parler de « données massives », puisqu’aujourd’hui les téraoctets ou pétaoctets ont pris le dessus sur les mégaoctets.

Quelle que soit la définition retenue, les organismes tels que l’OQLF n’ont pas le pouvoir d’imposer l’utilisation d’un terme plutôt qu’un autre. Doit-on en déduire que le combat est perdu d’avance face à de nouvelles technologies qui ont toujours eu un sérieux penchant pour les anglicismes ? « De manière générale, c’est un effort de promouvoir une terminologie et de s’assurer qu’elle est employée », reconnaît M. Pedneault, qui cite en exemple le cas bien connu du mot « divulgâcheur ». « C’est un terme qui, à la base, a reçu un accueil plutôt mitigé. Mais il s’intègre de plus en plus dans la vie courante », souligne-t-il.

Il ajoute que « les médias écrits sont un vecteur très important de la diffusion de la terminologie française ». La promotion comme l’acceptation de ce lexique passent aussi par une meilleure coordination entre le Québec et le pays de la French Tech. Ce dernier est d’ailleurs souvent montré du doigt pour son laxisme en matière de défense de la langue de Molière.

Au-delà du Québec

Dans cette optique, l’OQLF mène des travaux concertés avec la Délégation générale à la langue française et aux langues de France (DGLFLF). « C’est par l’utilisation d’une terminologie commune qu’on peut assurer une meilleure diffusion du français, explique M. Pedneault. Il y a des échanges fréquents entre nos organisations et on a intégré les informations provenant de notre partenaire français à notre vitrine linguistique. Il ne serait pas à notre avantage de laisser s’installer des différences terminologiques. »

En tant que pôle de recherche en IA, le Québec a un rôle majeur à jouer dans le développement d’un lexique appelé à rayonner dans toute la francophonie. « Avec DataFranca, on s’est donné pour mission de répondre à une demande qui va bien au-delà du Québec, que ce soit en Côte d’Ivoire, au Sénégal ou au Maghreb, dit M. Pelletier. Il est essentiel d’assurer cette diffusion dans ces pays, auprès notamment des enseignants et des étudiants. »

LE B.A.-BA DE L’INTELLIGENCE ARTIFICIELLE

Définis par l’OQLF, ces termes ont déjà imprégné le langage courant pour mieux décortiquer, en français dans le texte, la mécanique de l’intelligence artificielle.

• Apprentissage automatique (« machine learning » en anglais) : mode d’apprentissage par lequel un agent évalue et améliore ses performances et son efficacité sans que son programme soit modifié, en acquérant de nouvelles connaissances et aptitudes à partir de données et/ou en réorganisant celles qu’il possède déjà.

• Vidéo hypertruquée (« deepfake » en anglais) : enregistrement audiovisuel qui a fait l’objet d’un hypertrucage.

• Agent conversationnel (« chatbot » en anglais) : logiciel capable de communiquer de façon bidirectionnelle avec un utilisateur en langage naturel, par messagerie instantanée ou au moyen d’une interface vocale.

• Apprentissage profond (« deep learning » en anglais) : mode d’apprentissage automatique généralement effectué par un réseau de neurones artificiels composé de plusieurs couches de neurones hiérarchisées selon le degré de complexité des concepts et qui, en interagissant entre elles, permettent à un agent d’apprendre progressivement et efficacement à partir de mégadonnées.

Malik Cocherel
Collaboration spéciale

LE DEVOIR 16 mars 2024

info@DataFranca.org