« RetNet » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(5 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des [[grand modèle de langues|grands modèles de langues]] qui combine les propriétés d'un [[réseau neuronal récurrent]] et un [[R%C3%A9seau_autoattentif|mécanisme d'auto-attention]]. | |||
== Complément == | |||
RetNet est mot valise qui signifie '''''Ret'''entive '''Net'''work''. | |||
== Français == | == Français == | ||
Ligne 9 : | Ligne 10 : | ||
== Anglais == | == Anglais == | ||
''' RetNet''' | ''' RetNet''' | ||
<!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | |||
==Sources== | |||
[https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] | |||
[https:// | [https://arxiv.org/abs/2307.08621 Source: Sun et al. 2023] | ||
[[Catégorie:ENGLISH]] | |||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 28 janvier 2024 à 12:22
Définition
Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des grands modèles de langues qui combine les propriétés d'un réseau neuronal récurrent et un mécanisme d'auto-attention.
Complément
RetNet est mot valise qui signifie Retentive Network.
Français
architecture RetNet
Anglais
RetNet
Sources
Contributeurs: Patrick Drouin, wiki