« Validation croisée par v-ensembles » : différence entre les versions


(Page créée avec « ==en construction== == Définition == En poursuivant ce raisonnement (décrit dans la cadre de la validation croisée, ci-dessus), pourquoi ne pas également répéter l... »)
 
m (Remplacement de texte : « ↵<small> » par «  ==Sources== »)
 
(3 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
== Définition ==
En poursuivant ce raisonnement (décrit dans la cadre de la validation croisée, ci-dessus), pourquoi ne pas également répéter l'analyse plusieurs fois, en tirant aléatoirement à chaque fois un échantillon différent à partir des données, pour chaque taille d'arbre en démarrant à la racine de l'arbre, et en l'appliquant à la prévision des observations issues des échantillons de test sélectionnés aléatoirement. Nous pouvons alors utiliser (interpréter ou accepter pour nos résultats finaux) l'arbre qui possède la meilleure précision moyenne pour les valeurs prévues ou les classifications prévues de la validation croisée. Dans la plupart des cas, cet arbre ne sera celui qui possède le plus de noeuds terminaux, c'est-à-dire l'arbre le plus complexe. Cette méthode d'élagage de l'arbre, et de sélection d'un arbre plus petit à partir d'une séquence d'arbres, peut se révéler extrêmement puissante, et donne de très bons résultats sur les jeux de données les plus petits (voir aussi la rubrique Détail des Calculs ou le descriptif de la boîte de dialogue Spécifications Rapides - onglet Validation pour plus d'informations). Cette étape essentielle permet de trouver des modèles d'arbres utiles (pour la prévision), mais en raison des nombreux calculs qu'elle implique, cette méthode est souvent absente des logiciels d'arbres de classification ou de régression. Le module GC&RT (ainsi que le module GCHAID) de STATISTICA intègre ces techniques.
Dans la validation croisée v-ensembles, nous tirons de façon répétée un certain nombre d’échantillons aléatoires (v) dans nos données pour l’analyse, puis nous appliquons le modèle respectif, la méthode de prévision, etc. pour calculer les valeurs prédites, les classifications, etc.  


Nous calculons généralement des indices de synthèse pour mesurer la précision de la prévision sur les v-réplications ; par conséquent, cette technique permet à l’analyste d’évaluer la précision globale du modèle ou de la méthode de prévision respective sur des échantillons aléatoires tirés de façon répétée.


Cette méthode est en général utilisée pour les méthodes d’arbres de classification et de régression.


== Français ==
== Français ==
Ligne 14 : Ligne 13 :




<small>
==Sources==
 


[https://www.statsoft.fr/concepts-statistiques/modeles-arbres-de-classification-et-regression/modeles-arbres-de-classification-et-regression.php  Source : Satistica ]


[https://www.statsoft.fr/concepts-statistiques/modeles-arbres-de-classification-et-regression/modeles-arbres-de-classification-et-regression.php  Source : Statistica ]


[[Catégorie:vocabulaire]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:Satistica]]

Dernière version du 28 janvier 2024 à 14:02

Définition

Dans la validation croisée v-ensembles, nous tirons de façon répétée un certain nombre d’échantillons aléatoires (v) dans nos données pour l’analyse, puis nous appliquons le modèle respectif, la méthode de prévision, etc. pour calculer les valeurs prédites, les classifications, etc.

Nous calculons généralement des indices de synthèse pour mesurer la précision de la prévision sur les v-réplications ; par conséquent, cette technique permet à l’analyste d’évaluer la précision globale du modèle ou de la méthode de prévision respective sur des échantillons aléatoires tirés de façon répétée.

Cette méthode est en général utilisée pour les méthodes d’arbres de classification et de régression.

Français

Validation croisée par v-ensembles

Anglais

V-fold cross validation


Sources

Source : Statistica

Contributeurs: Imane Meziani, wiki