« Dimensionnalité intrinsèque » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Intrinsic dimensionality''' Although pretrained language models c... »)
 
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==en construction==


== Définition ==
== Définition ==
XXXXXXXXX
Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? Dans cet article, nous soutenons que l'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres. 


== Français ==
== Français ==
''' XXXXXXXXX '''
''' Dimensionnalité intrinsèque '''


== Anglais ==
== Anglais ==
''' Intrinsic dimensionality'''
''' Intrinsic dimensionality'''


  Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent algorithms (e.g., without strong regularization) to tune a model with hundreds of millions of parameters on datasets with only hundreds or thousands of labeled examples? In this paper, we argue that analyzing fine-tuning through the lens of intrinsic dimension provides us with empirical and theoretical intuitions to explain this remarkable phenomenon. We empirically show that common pre-trained models have a very low intrinsic dimension; in other words, there exists a low dimension reparameterization that is as effective for fine-tuning as the full parameter space. For example, by optimizing only 200 trainable parameters randomly projected back into the full space, we can tune a RoBERTa model to achieve 90\% of the full parameter performance levels on MRPC. Furthermore, we empirically show that pre-training implicitly minimizes intrinsic dimension and, perhaps surprisingly, larger models tend to have lower intrinsic dimension after a fixed number of pre-training updates, at least in part explaining their extreme effectiveness. Lastly, we connect intrinsic dimensionality with low dimensional task representations and compression based generalization bounds to provide intrinsic-dimension-based generalization bounds that are independent of the full parameter count. 
<small>


[https://arxiv.org/abs/2012.13255  Source : arxiv]
[https://arxiv.org/abs/2012.13255  Source : arxiv]




 
[[Catégorie:publication]]
[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Version du 14 novembre 2023 à 16:41

Définition

Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? Dans cet article, nous soutenons que l'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

Français

Dimensionnalité intrinsèque

Anglais

Intrinsic dimensionality


Source : arxiv



Contributeurs: Marie Alfaro, wiki