« RetNet » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(Une version intermédiaire par le même utilisateur non affichée) | |||
Ligne 12 : | Ligne 12 : | ||
<!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | <!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | ||
==Sources== | |||
[https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] | [https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] | ||
Ligne 18 : | Ligne 18 : | ||
[https://arxiv.org/abs/2307.08621 Source: Sun et al. 2023] | [https://arxiv.org/abs/2307.08621 Source: Sun et al. 2023] | ||
[[Catégorie: | [[Catégorie:ENGLISH]] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 28 janvier 2024 à 12:22
Définition
Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des grands modèles de langues qui combine les propriétés d'un réseau neuronal récurrent et un mécanisme d'auto-attention.
Complément
RetNet est mot valise qui signifie Retentive Network.
Français
architecture RetNet
Anglais
RetNet
Sources
Contributeurs: Patrick Drouin, wiki