« RetNet » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Architecture de réseau neuronal profond | Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des [[grand modèle de langues|grands modèles de langues]] qui combine les propriétés d'un [[réseau neuronal récurrent]] et un [[R%C3%A9seau_autoattentif|mécanisme d'auto-attention]]. | ||
== Français == | == Français == |
Version du 3 octobre 2023 à 13:20
Définition
Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des grands modèles de langues qui combine les propriétés d'un réseau neuronal récurrent et un mécanisme d'auto-attention.
Français
architecture RetNet
Anglais
RetNet
Contributeurs: Patrick Drouin, wiki