Petit modèle de langue

Définition

En traitement automatique de la langue naturelle, un petit modèle de langue ou PML (en anglais, Small Language Model, SML) est un modèle de langue qui a été préentraîné sur un corpus spécialisé.

Par conséquent, un petit modèle de langue (PML) comporte un nombre réduit de paramètres par rapport à un grand modèle de langues, occupe moins d'espace mémoire, est plus rapide à exécuter sur des ordinateurs moins puissants et moins gourmands en énergie.

Compléments

La principale différence entre un petit modèle de langue et grand modèle de langues est qu'un petit modèle de langue est entraîné sur un jeu de données ou corpus plus petit et plus spécialisé, parfois sur une seule langue plutôt que sur un corpus à usage général et multilingue comme Wikipédia ou le contenu de la Toile en entier.

Typiquement un petit modèle de langue comporte quelques millards de paramètres, parfois seulement quelques dizaines de millions.

Un petit modèle de langue peut apprendre plus efficacement, à partir de moins de données et à un coût financier et énergétique moindre. Cependant, il a aussi moins de connaissances et un champ d'application plus restreint qu'un grand modèle de langues.

Nous recommandons « petit modèle de langue » plutôt que « petit modèle de langage » parce que le langage désigne la faculté d'utiliser une langue alors que la langue est l'objet modélisé.

Français

petit modèle de langue

petit modèle de langage

PML

Anglais

small language model

SML

Sources

Wikipédia - petit modèle de langage

LinkedIn - Small Language Models: What They Are and Why They Matter