Dimensionnalité intrinsèque

Définition

Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? L'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

Français

Dimensionnalité intrinsèque

Anglais

Intrinsic dimensionality

Source : arxiv