Parcimonie des données


Définition

La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.

La parcimonie désigne également des représentations parcimonieuses où beaucoup d'attributs sont absents ou à valeur zéro.

Par exemple, dans un jeu de données en traitement automatique de la langue naturelle, la plupart des attributs linguistiques n'ont qu'un faible nombre d'occurrences. Il y a beaucoup d'évènements rares.

Compléments

Le phénomène de parcimonie est particulièrement exacerbé pour les données en haute dimension. En linguistique, il y a beaucoup d'é

À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par Guillaume d'Occam.

En anglais: «parcimonious», «sparse». En français: dans le sens de frugal, modique, restreint, minime, voire négligeable, insignifiant, dérisoire. L’adjectif « parcimonieux » est le favori à cause de sa proximité avec les mots «parcimonious» et «sparse» en anglais.

Français

parcimonie des données

dissémination des données


Anglais

data sparsity

data sparseness

Source: Vo, Xuan Thanh (2015). Learning with sparsity and uncertainty by Difference of Convex functions optimiztion, thèse de doctorat, Université de Lorraine, 231 pages.

Source: Christine Plumejeaud (2011). Modèles et méthodes pour l’information spatio-temporelle évolutive, thèse de doctorat, Université Grenoble Alpes, 331 pages.

Source: Termino