Dimensionnalité intrinsèque - Historique des versions

Pitpitt le 29 novembre 2023 à 01:13

2023-11-29T01:13:08Z

← Version précédente		Version du 28 novembre 2023 à 21:13
Ligne 12 :		Ligne 12 :


	[[Catégorie:~~vocabulaire]]~~		[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
	~~[[Catégorie:publication~~]]

Mariealfaro le 28 novembre 2023 à 16:54

2023-11-28T16:54:38Z

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
+La dimension intrinsèque est un concept qui décrit le nombre minimal de variables nécessaires pour représenter un ensemble de données ou un signal avec peu de perte d’information. Par exemple, si un ensemble de données est échantillonné à partir d’une courbe en deux dimensions, sa dimension intrinsèque est un, car une seule variable suffit pour décrire la variation le long de la courbe.
 == Français ==
@@ Ligne 23 : / Ligne 13 : @@
 [[Catégorie:vocabulaire]]

Pitpitt le 16 novembre 2023 à 01:36

2023-11-16T01:36:58Z

← Version précédente		Version du 15 novembre 2023 à 21:36
Ligne 2 :		Ligne 2 :
	== Définition ==		== Définition ==

			'''XXXXXXX'''

			'''Définition simple svp. qui contextualise...'''

Pitpitt : Pitpitt a déplacé la page Intrinsic dimensionality vers Dimensionnalité intrinsèque

2023-11-16T01:34:24Z

Pitpitt a déplacé la page Intrinsic dimensionality vers Dimensionnalité intrinsèque

← Version précédente	Version du 15 novembre 2023 à 21:34
(Aucune différence)

Pitpitt le 16 novembre 2023 à 01:33

2023-11-16T01:33:59Z

← Version précédente		Version du 15 novembre 2023 à 21:33
Ligne 3 :		Ligne 3 :


	GOOGLE TRANSLATE
			GOOGLE TRANSLATE
			INUTILEMENT TECHNIQUE

	-Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? L'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.		-Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? L'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

Pitpitt le 16 novembre 2023 à 01:33

2023-11-16T01:33:14Z

← Version précédente		Version du 15 novembre 2023 à 21:33
Ligne 1 :		Ligne 1 :

	== Définition ==		== Définition ==
	Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? L'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

			GOOGLE TRANSLATE
			-Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? L'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

	== Français ==		== Français ==
Ligne 13 :		Ligne 16 :


	[[Catégorie:~~publication]]~~		[[Catégorie:vocabulaire]]
	~~[[Catégorie:vocabulary~~]]

Mariealfaro le 14 novembre 2023 à 20:42

2023-11-14T20:42:01Z

← Version précédente		Version du 14 novembre 2023 à 16:42
Ligne 1 :		Ligne 1 :

	== Définition ==		== Définition ==
	Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? ~~Dans cet article, nous soutenons que l~~'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.		Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? L'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

	== Français ==		== Français ==

Mariealfaro le 14 novembre 2023 à 20:41

2023-11-14T20:41:07Z

← Version précédente		Version du 14 novembre 2023 à 16:41
Ligne 1 :		Ligne 1 :
	~~==en construction==~~

	== Définition ==		== Définition ==
	~~XXXXXXXXX~~		Bien que les modèles de langage pré-entraînés puissent être affinés pour produire des résultats de pointe pour une très large gamme de tâches de compréhension du langage, la dynamique de ce processus n'est pas bien comprise, en particulier dans le régime de données faibles. Pourquoi pouvons-nous utiliser des algorithmes de descente de gradient relativement simples (par exemple, sans régularisation forte) pour ajuster un modèle comportant des centaines de millions de paramètres sur des ensembles de données ne comportant que des centaines ou des milliers d'exemples étiquetés ? Dans cet article, nous soutenons que l'analyse du réglage fin sous l'angle de la dimension intrinsèque nous fournit des intuitions empiriques et théoriques pour expliquer ce phénomène remarquable. Nous montrons empiriquement que les modèles pré-entraînés courants ont une dimension intrinsèque très faible ; en d'autres termes, il existe un reparamétrage de faible dimension qui est aussi efficace pour le réglage fin que l'espace de paramètres complet. Par exemple, en optimisant seulement 200 paramètres entraînables projetés aléatoirement dans l'espace complet, nous pouvons régler un modèle RoBERTa pour atteindre 90 % des niveaux de performance des paramètres complets sur MRPC. En outre, nous montrons empiriquement que le pré-entraînement minimise implicitement la dimension intrinsèque et, ce qui est peut-être surprenant, les modèles plus grands ont tendance à avoir une dimension intrinsèque plus faible après un nombre fixe de mises à jour de pré-entraînement, ce qui explique au moins en partie leur extrême efficacité. Enfin, nous relions la dimensionnalité intrinsèque à des représentations de tâches de faible dimension et à des limites de généralisation basées sur la compression afin de fournir des limites de généralisation basées sur la dimension intrinsèque qui sont indépendantes du nombre total de paramètres.

	== Français ==		== Français ==
	''' ~~XXXXXXXXX~~ '''		''' Dimensionnalité intrinsèque '''

	== Anglais ==		== Anglais ==
	''' Intrinsic dimensionality'''		''' Intrinsic dimensionality'''

	Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent algorithms (e.g., without strong regularization) to tune a model with hundreds of millions of parameters on datasets with only hundreds or thousands of labeled examples? In this paper, we argue that analyzing fine-tuning through the lens of intrinsic dimension provides us with empirical and theoretical intuitions to explain this remarkable phenomenon. We empirically show that common pre-trained models have a very low intrinsic dimension; in other words, there exists a low dimension reparameterization that is as effective for fine-tuning as the full parameter space. For example, by optimizing only 200 trainable parameters randomly projected back into the full space, we can tune a RoBERTa model to achieve 90\% of the full parameter performance levels on MRPC. Furthermore, we empirically show that pre-training implicitly minimizes intrinsic dimension and, perhaps surprisingly, larger models tend to have lower intrinsic dimension after a fixed number of pre-training updates, at least in part explaining their extreme effectiveness. Lastly, we connect intrinsic dimensionality with low dimensional task representations and compression based generalization bounds to provide intrinsic-dimension-based generalization bounds that are independent of the full parameter count.

	~~<small>~~

	[https://arxiv.org/abs/2012.13255 Source : arxiv]		[https://arxiv.org/abs/2012.13255 Source : arxiv]


			[[Catégorie:publication]]
	[[Catégorie:vocabulary]]		[[Catégorie:vocabulary]]

Pitpitt : Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Intrinsic dimensionality''' Although pretrained language models c... »

2023-10-17T13:45:30Z

Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Intrinsic dimensionality''' Although pretrained language models c... »

Nouvelle page

==en construction==

== Définition ==
XXXXXXXXX

== Français ==
''' XXXXXXXXX '''

== Anglais ==
''' Intrinsic dimensionality'''

Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent algorithms (e.g., without strong regularization) to tune a model with hundreds of millions of parameters on datasets with only hundreds or thousands of labeled examples? In this paper, we argue that analyzing fine-tuning through the lens of intrinsic dimension provides us with empirical and theoretical intuitions to explain this remarkable phenomenon. We empirically show that common pre-trained models have a very low intrinsic dimension; in other words, there exists a low dimension reparameterization that is as effective for fine-tuning as the full parameter space. For example, by optimizing only 200 trainable parameters randomly projected back into the full space, we can tune a RoBERTa model to achieve 90\% of the full parameter performance levels on MRPC. Furthermore, we empirically show that pre-training implicitly minimizes intrinsic dimension and, perhaps surprisingly, larger models tend to have lower intrinsic dimension after a fixed number of pre-training updates, at least in part explaining their extreme effectiveness. Lastly, we connect intrinsic dimensionality with low dimensional task representations and compression based generalization bounds to provide intrinsic-dimension-based generalization bounds that are independent of the full parameter count.

<small>

[https://arxiv.org/abs/2012.13255 Source : arxiv]

[[Catégorie:vocabulary]]

Dimensionnalité intrinsèque - Historique des versions

Pitpitt le 29 novembre 2023 à 01:13

Mariealfaro le 28 novembre 2023 à 16:54

Pitpitt le 16 novembre 2023 à 01:36

Pitpitt : Pitpitt a déplacé la page Intrinsic dimensionality vers Dimensionnalité intrinsèque

Pitpitt le 16 novembre 2023 à 01:33

Pitpitt le 16 novembre 2023 à 01:33

Mariealfaro le 14 novembre 2023 à 20:42

Mariealfaro le 14 novembre 2023 à 20:41

Pitpitt : Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Intrinsic dimensionality''' Although pretrained language models c... »

Pitpitt : Pitpitt a déplacé la page Intrinsic dimensionality vers Dimensionnalité intrinsèque

Pitpitt : Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == ''' Intrinsic dimensionality''' Although pretrained language models c... »