N-gramme


Définition

Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc.).

Compléments

À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « d e », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ».


En traitement de la langue natuelle il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.


Cette technique est employée en fouille de texte et en génération automatique de texte pour construire des modèles de langue.

Français

N-gramme

Anglais

N-gram

Sources

Source : Wikipedia

Source : Datascience glossary