« RetNet » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Architecture de réseau neuronal profond combinant les propriétés d'un [[réseau neuronal récurrent]] et un [[R%C3%A9seau_autoattentif|mécanisme d'auto-attention]]. | Architecture de réseau neuronal profond combinant les propriétés d'un [[réseau neuronal récurrent]] et un [[R%C3%A9seau_autoattentif|mécanisme d'auto-attention]]. | ||
Ligne 9 : | Ligne 7 : | ||
== Anglais == | == Anglais == | ||
''' RetNet''' | ''' RetNet''' | ||
<!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | <!-- It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.--> | ||
<small> | <small> | ||
Ligne 18 : | Ligne 13 : | ||
[https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] | [https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205 Source : medium.com] | ||
[https://arxiv.org/abs/2307.08621 Source: Sun et al. 2023] | |||
[[Catégorie: | [[Catégorie:Publication]] |
Version du 3 octobre 2023 à 13:19
Définition
Architecture de réseau neuronal profond combinant les propriétés d'un réseau neuronal récurrent et un mécanisme d'auto-attention.
Français
architecture RetNet
Anglais
RetNet
Contributeurs: Patrick Drouin, wiki