« Sous-échantillonnage aléatoire » : différence entre les versions


Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
Les jeux de données déséquilibrés sont ceux où il y a une forte asymétrie dans la distribution des classes, comme des exemples de 1: 100 ou 1: 1000 dans la classe minoritaire à la classe majoritaire.
Une approche pour résoudre le problème du déséquilibre de classe consiste à rééchantillonner au hasard l'ensemble de données d'apprentissage. Les deux principales approches pour rééchantillonner au hasard un ensemble de données déséquilibré consistent à supprimer des exemples de la classe majoritaire, appelés '''sous-échantillonnage''', et à dupliquer des exemples de la classe minoritaire, appelés '''suréchantillonnage'''.
Une approche pour résoudre le problème du déséquilibre de classe consiste à rééchantillonner au hasard l'ensemble de données d'apprentissage. Les deux principales approches pour rééchantillonner au hasard un ensemble de données déséquilibré consistent à supprimer des exemples de la classe majoritaire, appelés '''sous-échantillonnage''', et à dupliquer des exemples de la classe minoritaire, appelés '''suréchantillonnage'''.



Version du 7 juin 2020 à 20:18

Définition

Une approche pour résoudre le problème du déséquilibre de classe consiste à rééchantillonner au hasard l'ensemble de données d'apprentissage. Les deux principales approches pour rééchantillonner au hasard un ensemble de données déséquilibré consistent à supprimer des exemples de la classe majoritaire, appelés sous-échantillonnage, et à dupliquer des exemples de la classe minoritaire, appelés suréchantillonnage.

Français

Sous-échantillonnage aléatoire masculin

Sur-échantillonnage aléatoire masculin

Anglais

Random Under-Sampling

Random Over-Sampling


Source : machine learning mastery

Contributeurs: Imane Meziani, wiki, Sihem Kouache