« N-gramme » : différence entre les versions
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
technique, employée en fouille de texte, de découpage des textes en sous-séquences de longueur N | technique, employée en fouille de texte, de découpage des textes en sous-séquences de longueur N | ||
Ligne 22 : | Ligne 15 : | ||
[http://www.datascienceglossary.org Source : Datascience glossary] | [http://www.datascienceglossary.org Source : Datascience glossary] | ||
[[Catégorie:Vocabulary]] | |||
[[Catégorie:Science des données]] | |||
[[Catégorie:Datascience glossary]] | |||
[[Catégorie:Scotty]] |
Version du 18 mai 2020 à 09:42
Définition
technique, employée en fouille de texte, de découpage des textes en sous-séquences de longueur N
Français
N-Gramme
Anglais
n-gram
The analysis of sequences of n items (typically, words in natural language) to look for patterns. For example, trigram analysis examines three-word phrases in the input to look for patterns such as which pairs of words appear most often in the groups of three. The value of n can be something other than three, depending on your needs. This helps to construct statistical models of documents (for example, when automatically classifying them) and to find positive or negative terms associated with a product name. See also computational linguistics, classification
Contributeurs: Imane Meziani, Patrick Drouin, wiki, Sihem Kouache