Validation croisée par v-ensembles
en construction
Définition
En poursuivant ce raisonnement (décrit dans la cadre de la validation croisée, ci-dessus), pourquoi ne pas également répéter l'analyse plusieurs fois, en tirant aléatoirement à chaque fois un échantillon différent à partir des données, pour chaque taille d'arbre en démarrant à la racine de l'arbre, et en l'appliquant à la prévision des observations issues des échantillons de test sélectionnés aléatoirement. Nous pouvons alors utiliser (interpréter ou accepter pour nos résultats finaux) l'arbre qui possède la meilleure précision moyenne pour les valeurs prévues ou les classifications prévues de la validation croisée. Dans la plupart des cas, cet arbre ne sera celui qui possède le plus de noeuds terminaux, c'est-à-dire l'arbre le plus complexe. Cette méthode d'élagage de l'arbre, et de sélection d'un arbre plus petit à partir d'une séquence d'arbres, peut se révéler extrêmement puissante, et donne de très bons résultats sur les jeux de données les plus petits (voir aussi la rubrique Détail des Calculs ou le descriptif de la boîte de dialogue Spécifications Rapides - onglet Validation pour plus d'informations). Cette étape essentielle permet de trouver des modèles d'arbres utiles (pour la prévision), mais en raison des nombreux calculs qu'elle implique, cette méthode est souvent absente des logiciels d'arbres de classification ou de régression. Le module GC&RT (ainsi que le module GCHAID) de STATISTICA intègre ces techniques.
Français
Validation croisée par v-ensembles
Anglais
V-fold cross validation
Contributeurs: Imane Meziani, wiki