Partitionnement des données

De wiki.datafranca.org
Aller à : navigation, rechercher


Domaine

Définition

Clustering (ou partitionnement des données) :

Cette méthode de classification non supervisée rassemble un ensemble d’algorithmes d’apprentissage dont le but est de regrouper entre elles des données non étiquetées présentant des propriétés similaires. Isoler ainsi des schémas ou des familles permet aussi de préparer le terrain pour l’application ultérieure d’algorithmes d’apprentissage supervisé (comme le KNN).

Le clustering est utilisé notamment lorsqu’il est coûteux d’étiqueter le données. C’est néanmoins un problème mal défini mathématiquement : différentes métriques et/ou différentes représentations des données aboutiront à différents regroupements sans qu’aucun ne soit nécessairement meilleur qu’un autre. Ainsi la méthode de clustering doit être choisie avec soin en fonction du résultat attendu et de l’utilisation prévue des données.

Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de l’espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.



Termes privilégiés

Anglais