« RetNet » : différence entre les versions


Aucun résumé des modifications
m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
 
(3 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
Architecture de réseau neuronal profond combinant les propriétés d'un [[réseau neuronal récurrent]] et un [[R%C3%A9seau_autoattentif|mécanisme d'auto-attention]].   
Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des [[grand modèle de langues|grands modèles de langues]] qui combine les propriétés d'un [[réseau neuronal récurrent]] et un [[R%C3%A9seau_autoattentif|mécanisme d'auto-attention]].   
 
== Complément ==
RetNet est mot valise qui signifie '''''Ret'''entive '''Net'''work''.


== Français ==
== Français ==
Ligne 9 : Ligne 12 :
<!--  It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.-->
<!--  It is foundational architecture for LLMs, simultaneously achieving training parallelism, low-cost inference, and good performance.-->


<small>
==Sources==


[https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205  Source : medium.com]
[https://medium.com/aiguys/retnet-transformer-killer-is-here-1dc7f50d1205  Source : medium.com]
Ligne 15 : Ligne 18 :
[https://arxiv.org/abs/2307.08621  Source: Sun et al. 2023]
[https://arxiv.org/abs/2307.08621  Source: Sun et al. 2023]


[[Catégorie:Publication]]
[[Catégorie:ENGLISH]]
 
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 28 janvier 2024 à 12:22

Définition

Architecture de réseau neuronal profond principalement utilisé pour l'entraînement des grands modèles de langues qui combine les propriétés d'un réseau neuronal récurrent et un mécanisme d'auto-attention.

Complément

RetNet est mot valise qui signifie Retentive Network.

Français

architecture RetNet

Anglais

RetNet

Sources

Source : medium.com

Source: Sun et al. 2023

Contributeurs: Patrick Drouin, wiki