« ELMo » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵↵↵==Sources== » par « ==Sources== ») |
||
(8 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
[[Représentation vectorielle dense et continue| | ELMo est l'acronyme anglais de ''Embeddings from Language Models'', [[Représentation vectorielle dense et continue|une représentation vectorielle dense de mots]] basée sur des caractères et résultant de l'entraînement d'un [[Modèle de langage|modèle de langage]] au moyen d'un [[Réseau récurrent bidirectionnel à longue mémoire court terme|réseau de neurones récurrent bidirectionnel à longue mémoire court terme]] (biLMCT). | ||
==Compléments== | ==Compléments== | ||
ELMo a surtout un intérêt historique car fut le précurseur des [[ | De nos jours, ELMo a surtout un intérêt historique car fut le précurseur des [[Représentation vectorielle dense et continue|représentations vectorielles de mots]] basées sur des modèles de langage. Par contre le premier modèle viable fut [[ULMFiT]] (Universal Language Model Fine-Tuning) qui fut détrôné à son tour par [[BERT]] (Bidirectional Encoder Representations for Transformers) de Google, puis la série [[GPT]] acronyme de ''Generative Pre-Training'' d'OpenAI, puis [[GPT-2]], et [[GPT-3]] devenus acronymes de ''Generative Pre-Trained Transformer''.. | ||
==Français== | ==Français== | ||
Ligne 13 : | Ligne 13 : | ||
'''Embedding from Language Model''' | '''Embedding from Language Model''' | ||
==Sources== | |||
[https://arxiv.org/pdf/1802.05365.pdf Source : arxiv - Deep contextualized word representations] | [https://arxiv.org/pdf/1802.05365.pdf Source : arxiv - Deep contextualized word representations] |
Dernière version du 31 janvier 2024 à 09:55
Définition
ELMo est l'acronyme anglais de Embeddings from Language Models, une représentation vectorielle dense de mots basée sur des caractères et résultant de l'entraînement d'un modèle de langage au moyen d'un réseau de neurones récurrent bidirectionnel à longue mémoire court terme (biLMCT).
Compléments
De nos jours, ELMo a surtout un intérêt historique car fut le précurseur des représentations vectorielles de mots basées sur des modèles de langage. Par contre le premier modèle viable fut ULMFiT (Universal Language Model Fine-Tuning) qui fut détrôné à son tour par BERT (Bidirectional Encoder Representations for Transformers) de Google, puis la série GPT acronyme de Generative Pre-Training d'OpenAI, puis GPT-2, et GPT-3 devenus acronymes de Generative Pre-Trained Transformer..
Français
ELMo
Anglais
ELMo
Embedding from Language Model
Sources
Contributeurs: Claude Coulombe, wiki