« N-gramme » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(4 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc | Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc.) trouvée dans un corpus textuel. | ||
== Compléments == | == Compléments == | ||
À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « '''d e''' », comme dans l'article « '''de''' », mais aussi comme dans les mots « '''de'''main », « mon'''de''' » ou « mo'''de'''rne ». En traitement | À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « '''d e''' », comme dans l'article « '''de''' », mais aussi comme dans les mots « '''de'''main », « mon'''de''' » ou « mo'''de'''rne ». | ||
<hr/> | |||
En [[traitement de la langue naturelle|traitement de la langue natuelle]] il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres. | |||
<hr/> | |||
Cette technique est employée en [[fouille de texte]] et en [[génération automatique de texte]] pour construire des modèles de langue. | Cette technique est employée en [[fouille de texte]] et en [[génération automatique de texte]] pour construire des modèles de langue. | ||
Ligne 18 : | Ligne 20 : | ||
[http://www.datascienceglossary.org Source : Datascience glossary] | [http://www.datascienceglossary.org Source : Datascience glossary] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 22 octobre 2024 à 20:09
Définition
Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc.) trouvée dans un corpus textuel.
Compléments
À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « d e », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ».
En traitement de la langue natuelle il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.
Cette technique est employée en fouille de texte et en génération automatique de texte pour construire des modèles de langue.
Français
N-gramme
Anglais
N-gram
Sources
Contributeurs: Imane Meziani, Patrick Drouin, wiki, Sihem Kouache