« N-gramme » : différence entre les versions


Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Aucun résumé des modifications
 
(13 versions intermédiaires par 4 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
technique, employée en fouille de texte, de découpage des textes en sous-séquences de longueur N
Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc.) trouvée dans un corpus textuel.
 
== Compléments ==
À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « '''d e''' », comme dans l'article « '''de''' », mais aussi comme dans les mots « '''de'''main », « mon'''de''' » ou « mo'''de'''rne ».
<hr/>
En [[traitement de la langue naturelle|traitement de la langue natuelle]] il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.
<hr/>
Cette technique est employée en [[fouille de texte]] et en [[génération automatique de texte]] pour construire des modèles de langue.


== Français ==
== Français ==
'''N-Gramme'''
'''N-gramme'''
   
   
== Anglais ==
== Anglais ==
'''n-gram'''
'''N-gram'''
 
The analysis of sequences of ''n'' items (typically, words in natural language) to look for patterns. For example, trigram analysis examines three-word phrases in the input to look for patterns such as which pairs of words appear most often in the groups of three. The value of ''n'' can be something other than three, depending on your needs. This helps to construct statistical models of documents (for example, when automatically classifying them) and to find positive or negative terms associated with a product name. See also computational linguistics, classification
 
 


<small>
==Sources==
[https://fr.wikipedia.org/wiki/N-gramme  Source : Wikipedia]


[http://www.datascienceglossary.org  Source : Datascience glossary]
[http://www.datascienceglossary.org  Source : Datascience glossary]


 
[[Catégorie:Publication]]
 
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:Vocabulary]]
[[Catégorie:Science des données]]
[[Catégorie:Datascience glossary]]
[[Catégorie:Scotty]]

Dernière version du 22 octobre 2024 à 15:42

Définition

Un n-gramme est une sous-séquence de N éléments construite à partir d'une séquence donnée (lettres, mots, etc.) trouvée dans un corpus textuel.

Compléments

À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « d e », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ».


En traitement de la langue natuelle il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.


Cette technique est employée en fouille de texte et en génération automatique de texte pour construire des modèles de langue.

Français

N-gramme

Anglais

N-gram

Sources

Source : Wikipedia

Source : Datascience glossary