« Mixture de profondeurs de calcul » : différence entre les versions

Version du 10 mars 2026 à 18:48

Définition

Stratégie d'optimisation de modèles d'apprentissage où le modèle décide dynamiquement, pour chaque élément traité (par exemple, un gedment textuel), d'utiliser ou non une couche du modèle.

Les éléments jugés prioritaires souvent via un échantillonnage à troncature k fixe traversent la couche, tandis que les autres passent par une connexion résiduelle, réduisant la quantité de calculs sans trop sacrifier sur les performances.

Compléments

La mixture de profondeurs de calcul fait référence à des architectures qui, à chaque couche du modèle, sélectionne un sous-ensemble de données d'entrées à traiter, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance.

L'inspiration par l'architecture mixture d'experts apparaît pour le moins étriquée, car il s'agit d'un seul expert au lieu de plusieurs.

Cette technique peut être appliquée sur des réseaux autoattentifs (transformers en anglais), des réseaux autoattentifs pour la vision, des réseaux convolutifs et sur des grands modèles de langues multimodaux.

Français

mixture de profondeurs de calcul

mixture de profondeurs

Anglais

Mixture-of-Depths

MoD

Sources

Source : Arxiv

Source : Emergent Mind

Source : Medium

Version du 10 mars 2026 à 18:48 (voir la source) Claude COULOMBE (discussion \| contributions) Aucun résumé des modifications ← Modification précédente	Version du 10 mars 2026 à 18:48 (voir la source) Claude COULOMBE (discussion \| contributions) m (Claude COULOMBE a déplacé la page Mixture de profondeurs vers Mixture de profondeurs de calcul) Modification suivante →
(Aucune différence)

« Mixture de profondeurs de calcul » : différence entre les versions