« ELMo » : différence entre les versions


Aucun résumé des modifications
m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
Ligne 13 : Ligne 13 :
'''Embedding from Language Model'''
'''Embedding from Language Model'''


<small>
 
==Sources==


[https://arxiv.org/pdf/1802.05365.pdf  Source : arxiv - Deep contextualized word representations]
[https://arxiv.org/pdf/1802.05365.pdf  Source : arxiv - Deep contextualized word representations]

Version du 27 janvier 2024 à 21:17

Définition

ELMo est l'acronyme anglais de Embeddings from Language Models, une représentation vectorielle dense de mots basée sur des caractères et résultant de l'entraînement d'un modèle de langage au moyen d'un réseau de neurones récurrent bidirectionnel à longue mémoire court terme (biLMCT).

Compléments

De nos jours, ELMo a surtout un intérêt historique car fut le précurseur des représentations vectorielles de mots basées sur des modèles de langage. Par contre le premier modèle viable fut ULMFiT (Universal Language Model Fine-Tuning) qui fut détrôné à son tour par BERT (Bidirectional Encoder Representations for Transformers) de Google, puis la série GPT acronyme de Generative Pre-Training d'OpenAI, puis GPT-2, et GPT-3 devenus acronymes de Generative Pre-Trained Transformer..

Français

ELMo

Anglais

ELMo

Embedding from Language Model


Sources

Source : arxiv - Deep contextualized word representations

Contributeurs: Claude Coulombe, wiki