« RetNet » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
Ligne 12 : | Ligne 12 : | ||
<!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | <!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | ||
==Sources== | |||
[https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] | [https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] |
Dernière version du 28 janvier 2024 à 12:22
Définition
Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des grands modèles de langues qui combine les propriétés d'un réseau neuronal récurrent et un mécanisme d'auto-attention.
Complément
RetNet est mot valise qui signifie Retentive Network.
Français
architecture RetNet
Anglais
RetNet
Sources
Contributeurs: Patrick Drouin, wiki