« N-gramme » : différence entre les versions


m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
Technique employée en fouille ou découpage de textes en sous-séquences de longueur N.
Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc,).  


La valeur de N peut être autre que trois, selon vos besoins. Cela permet de construire des modèles statistiques de documents (par exemple, lors de leur classement automatique) et de trouver des termes positifs ou négatifs associés à un nom de produit.  
 
== Compléments ==
À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « '''d e''' », comme dans l'article « '''de''' », mais aussi comme dans les mots « '''de'''main », « mon'''de''' » ou « mo'''de'''rne ». En traitement du langage naturel il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.
 
Cette technique est employée en [[fouille de texte]] et en [[génération automatique de texte]] pour construire des modèles de langue.  


== Français ==
== Français ==
Ligne 13 : Ligne 17 :
==Sources==
==Sources==


[https://fr.wikipedia.org/wiki/N-gramme  Source : Wikipedia]
[http://www.datascienceglossary.org  Source : Datascience glossary]
[http://www.datascienceglossary.org  Source : Datascience glossary]


 
[[Catégorie:Wikipedia]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Version du 22 octobre 2024 à 14:33

Définition

Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc,).


Compléments

À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « d e », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ». En traitement du langage naturel il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.

Cette technique est employée en fouille de texte et en génération automatique de texte pour construire des modèles de langue.

Français

N-gramme

Anglais

N-gram


Sources

Source : Wikipedia Source : Datascience glossary