« Vecteur contextuel » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
Représentation répartie issue de l'apprentissage automatique visant à représenter les mots d'un corpus, leurs cooccurrents et leur contexte sous formes de vecteurs de nombres réels.  
Un vecteur contextuel est une représentation répartie et dense sous la forme de nombres avec des décimales (i.e. nombres réels). La modélisation par vecteur contextuel, bien que souvent appliquée aux mots, ne se limite pas à ces derniers et peut être appliquée à des phrases, des paragraphes, des documents, etc.


Note: la représentation répartie obtenue a comme propriété que les mots apparaissant dans des contextes similaires possèdent des vecteurs qui sont relativement proches.  
La représentation par vecteur contextuel a comme propriété que les mots apparaissant dans des contextes similaires possèdent des vecteurs qui sont relativement proches. Il en découle que la distance entre des vecteurs contextuels de concepts similaires (ex. bouteille, gobelet) est plus faible que celle mesurée entre des concepts sémantiquement éloignés (ex. bouteille, moucheron).  


Des représentations par vecteurs-mots populaires sont [[word2vec]] et GloVe.
Un vecteur contextuel est obtenu par '''[[Apprentissage automatique|apprentissage automatique]]''' ou analyse de cooccurrence ou de voisinage de données.
 
==Compléments==
Détail technique, on part typiquement d’un corpus représenté par un lexique parcimonieux de plusieurs milliers d'attributs vers une représentation compacte de quelques centaines d’attributs. Voir '''[[Parcimonie des données]]'''
 
Des représentations par vecteur contextuels populaires sont [[word2vec]] et GloVe.


==Français==
==Français==
'''vecteur contextuel'''
'''vecteur-mot'''   
'''vecteur-mot'''   


'''plongement lexical'''
'''plongement lexical''' <small>(<i>usage plus rare</i>)</small>


'''plongement de mot'''
'''plongement de mot''' <small>(<i>usage plus rare</i>)</small>


'''représentation lexicale''' 
==Anglais==


==Anglais==
'''word embedding'''
'''word embedding'''
'''contextual word embedding'''
'''contextual word representation'''
'''contextual vector'''
'''context vector'''


'''word vector'''
'''word vector'''


<small>
<small>
Ligne 28 : Ligne 42 :


Source: Nagoudi, El Moatez Billah; Jérémy Ferrero et Didier SchwabDidier Schwab (2017). ''Amélioration de la similarité sémantique vectorielle par méthodes non-supervisées'', Actes de la24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017), Orléans, France, 9 pages.
Source: Nagoudi, El Moatez Billah; Jérémy Ferrero et Didier SchwabDidier Schwab (2017). ''Amélioration de la similarité sémantique vectorielle par méthodes non-supervisées'', Actes de la24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017), Orléans, France, 9 pages.


Source: Bernier Colborne, Gabriel (2016).'' Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement'', thèse de doctorat, Université de Montréal, 265 pages.
Source: Bernier Colborne, Gabriel (2016).'' Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement'', thèse de doctorat, Université de Montréal, 265 pages.
Ligne 35 : Ligne 48 :


[[Utilisateur:Patrickdrouin  | Source: Termino]]
[[Utilisateur:Patrickdrouin  | Source: Termino]]


</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
<br></div><br><br>
<br></div><br><br>


[[Category:Termino 2019]]
[[Category:Termino 2019]]
[[Category:GRAND LEXIQUE FRANÇAIS]]
[[Category:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:101]]
[[Catégorie:101]]
[[Catégorie:PUBLICATION]]

Version du 16 août 2022 à 00:07

Définition

Un vecteur contextuel est une représentation répartie et dense sous la forme de nombres avec des décimales (i.e. nombres réels). La modélisation par vecteur contextuel, bien que souvent appliquée aux mots, ne se limite pas à ces derniers et peut être appliquée à des phrases, des paragraphes, des documents, etc.

La représentation par vecteur contextuel a comme propriété que les mots apparaissant dans des contextes similaires possèdent des vecteurs qui sont relativement proches. Il en découle que la distance entre des vecteurs contextuels de concepts similaires (ex. bouteille, gobelet) est plus faible que celle mesurée entre des concepts sémantiquement éloignés (ex. bouteille, moucheron).

Un vecteur contextuel est obtenu par apprentissage automatique ou analyse de cooccurrence ou de voisinage de données.

Compléments

Détail technique, on part typiquement d’un corpus représenté par un lexique parcimonieux de plusieurs milliers d'attributs vers une représentation compacte de quelques centaines d’attributs. Voir Parcimonie des données

Des représentations par vecteur contextuels populaires sont word2vec et GloVe.

Français

vecteur contextuel

vecteur-mot

plongement lexical (usage plus rare)

plongement de mot (usage plus rare)

Anglais

word embedding

contextual word embedding

contextual word representation

contextual vector

context vector

word vector

Source: Wiktionnaire, Plongement lexical

Source: Turenne, Nicolas (2016). Analyse de données textuelles sous R, Londres, Éditions ISTE, 318 pages.

Source: Nagoudi, El Moatez Billah; Jérémy Ferrero et Didier SchwabDidier Schwab (2017). Amélioration de la similarité sémantique vectorielle par méthodes non-supervisées, Actes de la24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017), Orléans, France, 9 pages.

Source: Bernier Colborne, Gabriel (2016). Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement, thèse de doctorat, Université de Montréal, 265 pages.

Source : kdnuggets

Source: Termino