« Regroupement de données » : différence entre les versions


Aucun résumé des modifications
mAucun résumé des modifications
Ligne 15 : Ligne 15 :


'''groupement de données'''    
'''groupement de données'''    
'''agrégation de données'''


'''partitionnement de données '''    
'''partitionnement de données '''    

Version du 11 juillet 2023 à 14:55

Définition

Le regroupement de données (clustering) est une méthode d'analyse des données dans laquelle les données sont classées, par regroupement, en groupes plus homogènes, ou par division (on parle alors de partitionnement de données) selon une mesure de similarité qui calcule la distance entre paires d'exemples de données. Ainsi les données d’un même groupe partagent des attributs communs.

Le résultat est l'appartenance à un groupe ou une probabilité d'appartenance à chacun des groupes formés par l'algorithme. Cette méthode d’analyse de données relève de l’apprentissage non supervisé.

Compléments

Note - Le regroupement de données (clustering) est la principale tâche de l’apprentissage non supervisé en analyse des données.

En Amérique du Nord, on utilise davantage le concept de regroupement (clustering) ou de création de groupes (clusters) de données, alors qu'en Europe on préfère le concept de répartition ou division en groupes (partitionnement) de données.

Français

regroupement de données  

groupement de données 

agrégation de données

partitionnement de données  

segmentation de données  

Anglais

clustering  

data clustering  

binning

Source : GDT - Traitement des données