« Regroupement de données » : différence entre les versions

Version du 22 août 2022 à 22:59

Définition

Le groupement de données est une méthode d'analyse des données dans laquelle les données sont classées, par regroupement, en groupes plus homogènes, ou par division (on parle alors de partitionnement de données selon une mesure de similarité qui calcule la distance entre paires d'exemples de données. Ainsi les données d’un même groupe partagent des attributs communs.

Le résultat est l'appartenance à un groupe ou une probabilité d'appartenance à chacun des groupes formés par l'algorithme. Cette méthode d’analyse de données relève de l’apprentissage non supervisé .

Compléments

Note - Le groupement de données (clustering) est la principale tâche de apprentissage non supervisé en analyse des données.

Français

groupement de données

partitionnement de données

regroupement de données

segmentation de données

Anglais

clustering

data clustering

binning

Source : GDT - Traitement des données

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
-Le groupement de données est une méthode d'''[[Analyse des données|analyse des données]]'' dans laquelle les données sont classées, par regroupement, en groupes plus homogènes, ou par division (on parle alors de ''[[partitionnement de données|Partitionnement de données]]'' selon une mesure de similarité qui calcule la distance entre paires d'exemples de données. Ainsi les données d’un même groupe partagent des attributs communs.
+Le groupement de données est une méthode d'''[[Analyse des données|analyse des données]]'' dans laquelle les données sont classées, par regroupement, en groupes plus homogènes, ou par division (on parle alors de ''[[Partitionnement de données|partitionnement de données]]'' selon une mesure de similarité qui calcule la distance entre paires d'exemples de données. Ainsi les données d’un même groupe partagent des attributs communs.
 Le résultat est l'appartenance à un groupe ou une probabilité d'appartenance à chacun des groupes formés par l'algorithme. Cette méthode d’analyse de données relève de l’apprentissage non supervisé .