« Parcimonie des données » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 3 : Ligne 3 :
La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.
La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.


La parcimonie désigne également des représentations parcimonieuses où beaucoup d'attributs sont absents ou à valeur zéro.
La parcimonie désigne également des représentations parcimonieuses où beaucoup d'attributs sont absents ou à valeur zéro.  


Par exemple, dans un jeu de données en '''[[traitement automatique de la langue naturelle]]''', la plupart des attributs linguistiques n'ont qu'un faible nombre d'occurrences. Il y a beaucoup d'évènements rares.
Par exemple, dans un jeu de données en '''[[traitement automatique de la langue naturelle]]''', la plupart des attributs linguistiques n'ont qu'un faible nombre d'occurrences. En linguistique, il y a beaucoup de phénomènes rares.


==Compléments==
==Compléments==
 
Le phénomène de parcimonie  est particulièrement exacerbé pour les données en haute dimension.  
Le phénomène de parcimonie  est particulièrement exacerbé pour les données en haute dimension. En linguistique, il y a beaucoup d'é
<hr/>
 
À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par Guillaume d'Occam.  
À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par Guillaume d'Occam.  
 
<hr/>
En anglais: «parcimonious», «sparse». En français: dans le sens de frugal, modique, restreint, minime, voire négligeable, insignifiant, dérisoire. L’adjectif « parcimonieux » est le favori à cause de sa proximité avec les mots «parcimonious» et «sparse» en anglais.
En français, l'usage de l’adjectif « parcimonieux » qui a le sens de frugal, modique, restreint, minime, sera préféré à cause de sa proximité avec les mots «parcimonious» et «sparse» en anglais.  
 
<hr/>
En linguistique, on retrouve des vecteurs parcimonieux, également appelés vecteurs creux, qui ont la taille du lexique, typiquement plusieurs dizaines de milliers d'attributs. Les mots sont encodés avec un seul bit discriminant, un attribut est mis à 1 pour représenter le mot et tous les autres attributs à 0 pour représenter les autres mots. Pour solutionner ce problème, des chercheurs dont des pionniers du MILA dirigé par Yoshua Bengio, ont inventé des vecteurs-contextuels plus denses.
==Français==
==Français==
'''parcimonie des données'''   
'''parcimonie des données'''   


'''dissémination des données'''  
'''dissémination des données'''  


==Anglais==
==Anglais==
Ligne 33 : Ligne 32 :


[[Utilisateur:Patrickdrouin  | Source: Termino]]
[[Utilisateur:Patrickdrouin  | Source: Termino]]


</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
</small><br> <div style="border:2px solid #336699; background: #f6f6f6; padding: 1em; margin-bottom:1em; width: 90%;"><html><a href="https://datafranca.org/wiki/Cat%C3%A9gorie:101"><img src="https://datafranca.org/images/icone-101-mots.png" width="250"></a></html>  
<br></div><br><br>
<br></div><br><br>


[[Category:Intelligence artificielle]]
[[Category:Intelligence artificielle]]

Version du 12 août 2022 à 14:40

Définition

La parcimonie des données désigne une situation qui consiste à ne pas observer suffisamment de données dans un jeu de données pour arriver à modéliser avec précision sa distribution statistique.

La parcimonie désigne également des représentations parcimonieuses où beaucoup d'attributs sont absents ou à valeur zéro.

Par exemple, dans un jeu de données en traitement automatique de la langue naturelle, la plupart des attributs linguistiques n'ont qu'un faible nombre d'occurrences. En linguistique, il y a beaucoup de phénomènes rares.

Compléments

Le phénomène de parcimonie est particulièrement exacerbé pour les données en haute dimension.


À distinguer du principe de parcimonie utilisé en sciences et en philosophie qui « les explications les plus simples sont les meilleures ». On parle aussi du principe du rasoir d’Occam car il a été énoncé par Guillaume d'Occam.


En français, l'usage de l’adjectif « parcimonieux » qui a le sens de frugal, modique, restreint, minime, sera préféré à cause de sa proximité avec les mots «parcimonious» et «sparse» en anglais.


En linguistique, on retrouve des vecteurs parcimonieux, également appelés vecteurs creux, qui ont la taille du lexique, typiquement plusieurs dizaines de milliers d'attributs. Les mots sont encodés avec un seul bit discriminant, un attribut est mis à 1 pour représenter le mot et tous les autres attributs à 0 pour représenter les autres mots. Pour solutionner ce problème, des chercheurs dont des pionniers du MILA dirigé par Yoshua Bengio, ont inventé des vecteurs-contextuels plus denses.

Français

parcimonie des données

dissémination des données

Anglais

data sparsity

data sparseness

Source: Vo, Xuan Thanh (2015). Learning with sparsity and uncertainty by Difference of Convex functions optimiztion, thèse de doctorat, Université de Lorraine, 231 pages.

Source: Christine Plumejeaud (2011). Modèles et méthodes pour l’information spatio-temporelle évolutive, thèse de doctorat, Université Grenoble Alpes, 331 pages.

Source: Termino