Parcimonie des données
Définition
La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.
La parcimonie désigne également des représentations parcimonieuses où beaucoup d'attributs sont absents ou à valeur zéro.
Par exemple, dans un jeu de données en traitement automatique de la langue naturelle, la plupart des attributs linguistiques n'ont qu'un faible nombre d'occurrences. Il y a beaucoup d'évènements rares.
Compléments
Le phénomène de parcimonie est particulièrement exacerbé pour les données en haute dimension. En linguistique, il y a beaucoup d'é
À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par Guillaume d'Occam.
En anglais: «parcimonious», «sparse». En français: dans le sens de frugal, modique, restreint, minime, voire négligeable, insignifiant, dérisoire. L’adjectif « parcimonieux » est le favori à cause de sa proximité avec les mots «parcimonious» et «sparse» en anglais.
Français
parcimonie des données
dissémination des données
Anglais
data sparsity
data sparseness
Source: Vo, Xuan Thanh (2015). Learning with sparsity and uncertainty by Difference of Convex functions optimiztion, thèse de doctorat, Université de Lorraine, 231 pages.
Source: Christine Plumejeaud (2011). Modèles et méthodes pour l’information spatio-temporelle évolutive, thèse de doctorat, Université Grenoble Alpes, 331 pages.
Contributeurs: Claude Coulombe, Jacques Barolet, Julie Roy, Patrick Drouin, wiki