« Parcimonie des données » : différence entre les versions

Dernière version du 11 octobre 2024 à 08:31

Définition

La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.

La parcimonie désigne également des représentations parcimonieuses où beaucoup d’attributs sont absents ou valent zéro.

Par exemple, dans un jeu de données utilisé en traitement automatique de la langue naturelle, la plupart des attributs linguistiques n’ont qu’un faible nombre d’occurrences. En effet, il y a beaucoup de phénomènes rares en linguistique

Compléments

Le phénomène de parcimonie est particulièrement exacerbé pour les données en haute dimension (i.e. avec beaucoup d'attributs).

À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui établit que « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par le philosophe Guillaume d'Occam au XIVe siècle sous la form « il ne faut pas multiplier les entités sans nécessité ».

En français, l'usage de l’adjectif « parcimonieux » qui a le sens de frugal, modique, restreint, minime, sera préféré pour traduire les mots «parcimonious» et «sparse» en anglais à cause de sa proximité.

En linguistique, on retrouve des vecteurs parcimonieux, également appelés vecteurs creux, qui ont la taille du lexique, typiquement plusieurs dizaines de milliers d'attributs. Les mots sont encodés avec un seul bit discriminant où un attribut est mis à 1 pour représenter le mot et tous les autres attributs à 0 pour représenter les autres mots. Des chercheurs dont des pionniers du MILA dirigé par Yoshua Bengio, ont inventé des vecteurs-contextuels plus denses pour solutionner ce problème.

Français

parcimonie des données

dispersion des données

dissémination des données

rareté des données

Anglais

data sparsity

data sparseness

Sources

Source: Vo, Xuan Thanh (2015). Learning with sparsity and uncertainty by Difference of Convex functions optimization, thèse de doctorat, Université de Lorraine, 231 pages.

Source: Christine Plumejeaud (2011). Modèles et méthodes pour l’information spatio-temporelle évolutive, thèse de doctorat, Université Grenoble Alpes, 331 pages.

Source: Termino

101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »

@@ Ligne 1 : / Ligne 1 : @@
-== Domaine ==
+==Définition==
-[[Category:Vocabulaire]]
+La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.
-[[Category:Intelligence artificielle]]Intelligence artificielle<br />
-[[Category:Termino 2019]]
+La parcimonie désigne également des représentations parcimonieuses où beaucoup d’attributs sont absents ou valent zéro.
-<br>
+Par exemple, dans un jeu de données utilisé en [[traitement automatique de la langue naturelle]], la plupart des attributs linguistiques n’ont qu’un faible nombre d’occurrences. En effet, il y a beaucoup de phénomènes rares en linguistique
-== Définition ==
+==Compléments==
+Le phénomène de parcimonie  est particulièrement exacerbé pour les données en haute dimension (i.e. avec beaucoup d'attributs).
+<hr />
+À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui établit que « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par le philosophe Guillaume d'Occam au XIVe siècle sous la form « il ne faut pas multiplier les entités sans nécessité ».
+<hr />
+En français, l'usage de l’adjectif « parcimonieux » qui a le sens de frugal, modique, restreint, minime, sera préféré pour traduire les mots «parcimonious» et «sparse» en anglais à cause de sa proximité.
+<hr />
+En linguistique, on retrouve des vecteurs parcimonieux, également appelés vecteurs creux, qui ont la taille du lexique, typiquement plusieurs dizaines de milliers d'attributs. Les mots sont encodés avec un seul bit discriminant où un attribut est mis à 1 pour représenter le mot et tous les autres attributs à 0 pour représenter les autres mots. Des chercheurs dont des pionniers du MILA dirigé par Yoshua Bengio, ont inventé des vecteurs-contextuels plus denses pour solutionner ce problème.
-Phénomène qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision.
+==Français==
-<br>
+'''parcimonie des données'''
-<br>
-<br>
-Note : <br>
+'''dispersion des données'''
-Ce phénomène est particulièrement exacerbé pour les données en hautes dimensions.<br>
-== Français ==
+'''dissémination des données'''
-'''parcimonie des donnéées'''<br>
-'''dissémination des données'''<br>
-<br>
+'''rareté des données'''
-Source : Vo, Xuan Thanh (2015). Learning with sparsity and uncertainty by Difference of Convex functions optimiztion, thèse de doctorat, Université de Lorraine, 231 pages.
+==Anglais==
+'''data sparsity'''
-Source : Christine Plumejeaud (2011). Modèles et méthodes pour l’information spatio-temporelle évolutive, thèse de doctorat, Université Grenoble Alpes, 331 pages.
+'''data sparseness'''
+==Sources==
+Source: Vo, Xuan Thanh (2015). ''Learning with sparsity and uncertainty by Difference of Convex functions optimization'', thèse de doctorat, Université de Lorraine, 231 pages.
+Source: Christine Plumejeaud (2011). ''Modèles et méthodes pour l’information spatio-temporelle évolutive'', thèse de doctorat, Université Grenoble Alpes, 331 pages.
+[[Utilisateur:Patrickdrouin  | Source: Termino]]
+</small><br>
+{{Modèle:101}}
-== Anglais ==
+[[Category:Intelligence artificielle]]
-'''data sparsity''' <br>
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
-'''data sparseness'''
+[[Catégorie:101]]

« Parcimonie des données » : différence entre les versions