« Sac de mots » : différence entre les versions


m (Pitpitt a déplacé la page Bag of Words vers Bag of words)
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Approche du traitement automatique de la langue qui consiste à créer un ensemble de mots non-ordonnés à partir du découpage des mots d'un élément de texte (fenêtre, phrase, paragraphe, document, corpus, etc.) qui fait abstraction de l'ordre des mots.


== Définition ==
==Compléments==
XXXXXXXXX
Par analogie, l'idée du sac de mots est tout simplement que tous les mots d'un élément textuel sont placés dans un grand sac. On peut raffiner la méthode en tenant compte de la fréquence d'occurrence, en ramenant les mots à leur [[lemmatisation|forme canonique]] ou à une [[Troncature|forme tronquée]].


== Français ==
== Français ==
''' Sac à mots'''
''' sac de mots'''


== Anglais ==
== Anglais ==
''' Bag of Words'''
''' bag of Words'''
 
'''BoW'''
 
'''BOW'''


<small>
<small>




Bag of Words (BoW) is a natural language processing (NLP) strategy for converting a text document into numbers that can be used by a computer program. BoW is often implemented as a Python dictionary. Each key in the dictionary is set to a word, and each value is set to the number of times the word appears.
<!-- Bag of Words (BoW) is a natural language processing (NLP) strategy for converting a text document into numbers that can be used by a computer program. BoW is often implemented as a Python dictionary. Each key in the dictionary is set to a word, and each value is set to the number of times the word appears.
   
   
  The BoW model is one of the most useful ways to convert text data for use by machine learning algorithms. In this context, text words are referred to as tokens and the entire process of representing a sentence as a bag of words vector (a string of numbers) is known as tokenization.
  The BoW model is one of the most useful ways to convert text data for use by machine learning algorithms. In this context, text words are referred to as tokens and the entire process of representing a sentence as a bag of words vector (a string of numbers) is known as tokenization.
Ligne 19 : Ligne 24 :
  Techopedia Explains Bag of Words (BoW)
  Techopedia Explains Bag of Words (BoW)
  BoW models are concerned with whether a known word occurs in a document and how many times it occurs -- not the order in which it appears, nor its context. BoW plays an important role in natural language processing, information retrieval from documents and document classification.
  BoW models are concerned with whether a known word occurs in a document and how many times it occurs -- not the order in which it appears, nor its context. BoW plays an important role in natural language processing, information retrieval from documents and document classification.
 
-->






[https://www.techopedia.com/definition/34788/bag-of-words-bow  Source : techopedia]
[https://www.techopedia.com/definition/34788/bag-of-words-bow  Source : techopedia]
[https://fr.wikipedia.org/wiki/Sac_de_mots  Source : Wikipedia]




[[Catégorie:vocabulary]]
[[Catégorie:Publication]]
[[Catégorie:vocabulaire]]

Version du 28 mars 2023 à 14:59

Définition

Approche du traitement automatique de la langue qui consiste à créer un ensemble de mots non-ordonnés à partir du découpage des mots d'un élément de texte (fenêtre, phrase, paragraphe, document, corpus, etc.) qui fait abstraction de l'ordre des mots.

Compléments

Par analogie, l'idée du sac de mots est tout simplement que tous les mots d'un élément textuel sont placés dans un grand sac. On peut raffiner la méthode en tenant compte de la fréquence d'occurrence, en ramenant les mots à leur forme canonique ou à une forme tronquée.

Français

sac de mots

Anglais

bag of Words

BoW

BOW



Source : techopedia

Source : Wikipedia



Contributeurs: Patrick Drouin, wiki