« Mixture de profondeurs » : différence entre les versions
Aucun résumé des modifications |
m (Arianne a déplacé la page Mixture-of-Depths vers Mixture de profondeurs) |
||
| (2 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 5 : | Ligne 5 : | ||
La mixture de profondeurs fait référence à des architectures qui, à chaque '''[[Couche de neurones|couche]]''' du '''[[modèle]]''', sélectionnent un sous-ensemble de '''[[données]]''' d'entrées à traiter intégralement, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance. | La mixture de profondeurs fait référence à des architectures qui, à chaque '''[[Couche de neurones|couche]]''' du '''[[modèle]]''', sélectionnent un sous-ensemble de '''[[données]]''' d'entrées à traiter intégralement, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance. | ||
== Compléments == | |||
Cette technique est peut être appliquée sur des '''[[Réseau autoattentif|réseaux autoattentifs]]''' (''transformers'' en anglais), des '''[[Réseau autoattentif pour la vision|réseaux autoattentifs pour la vision]]''', des '''[[Réseau convolutif|réseaux convolutifs]]''' et sur des '''[[Grand modèle de langues|grands modèles de langues]]''' '''[[Modèle multimodal|multimodaux]]'''. | |||
== Français == | == Français == | ||
''' | '''mixture de profondeurs''' | ||
== Anglais == | == Anglais == | ||
| Ligne 21 : | Ligne 24 : | ||
[https://medium.com/@simeon.emanuilov/mixture-of-depths-a-new-approach-to-efficiently-allocate-compute-in-transformer-language-models-15b0d32ff501 Source : Medium] | [https://medium.com/@simeon.emanuilov/mixture-of-depths-a-new-approach-to-efficiently-allocate-compute-in-transformer-language-models-15b0d32ff501 Source : Medium] | ||
[[Catégorie: | [[Catégorie:publication]] | ||
Dernière version du 25 février 2026 à 12:17
en construction
Définition
Technique d’apprentissage automatique inspirée de la mixture d'experts, mais qui se distingue de cette dernière par le déploiement d’un seul expert au lieu de plusieurs.
La mixture de profondeurs fait référence à des architectures qui, à chaque couche du modèle, sélectionnent un sous-ensemble de données d'entrées à traiter intégralement, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance.
Compléments
Cette technique est peut être appliquée sur des réseaux autoattentifs (transformers en anglais), des réseaux autoattentifs pour la vision, des réseaux convolutifs et sur des grands modèles de langues multimodaux.
Français
mixture de profondeurs
Anglais
Mixture-of-Depths
MoD
Sources
Contributeurs: Arianne Arel





