Minimum local
en construction
Définition
Il y a beaucoup d'intérêt pour essayer de caractériser la surface d'erreur des modèles profonds. Cela découle d'une question de longue date.
Étant donné que les réseaux profonds sont des systèmes hautement non linéaires optimisés par des méthodes de gradient local, pourquoi ne semblent-ils pas être affectés par de mauvais minima locaux? Il est largement admis que la formation de modèles profonds à l'aide de méthodes de gradient fonctionne si bien parce que la surface d'erreur n'a pas de minima locaux, ou s'ils existent, ils doivent avoir une valeur proche du minimum global.
Il est connu que ces résultats reposent sur des hypothèses très fortes qui ne sont pas satisfaites par des modèles réels. Dans cet article, nous présentons des exemples montrant que pour qu'un tel théorème soit vrai, des hypothèses supplémentaires sur les données, des schémas d'initialisation et / ou les classes de modèle doivent être faites. Nous examinons le cas particulier des ensembles de données de taille finie. Nous démontrons que dans ce scénario, on peut construire des contre-exemples (ensembles de données ou schémas d'initialisation) lorsque le réseau devient sensible à de mauvais minima locaux sur l'espace de poids.
La compréhension de ce terme dépend dans une certaine mesure de la métaphore de la surface d'erreur.
Lorsqu'un algorithme d'apprentissage de réseau neuronal artificiel fait descendre l'erreur totale du réseau dans une vallée de la surface d'erreur, cette vallée peut ou non conduire au point le plus bas sur toute la surface d'erreur. Si ce n'est pas le cas, le minimum dans lequel l'erreur totale finira par tomber est appelé minimum local. L'algorithme d'apprentissage est parfois appelé dans ce cas «piégé dans un minimum local».
Dans de tels cas, il est généralement utile de redémarrer l'algorithme avec un nouvel ensemble initial de poids choisi au hasard - c'est-à-dire à un nouveau point aléatoire dans l'espace de poids. Comme cela signifie un nouveau point de départ sur la surface d'erreur, il est susceptible de conduire dans une vallée différente, et nous espérons que celle-ci conduira à la véritable erreur minimale (absolue), ou au moins à une meilleure erreur minimale.
Français
Minimum local masculin
Anglais
Local minimum
Understanding this term depends to some extent on the error surface metaphor.
When an artificial neural network learning algorithm causes the total error of the net to descend into a valley of the error surface, that valley may or may not lead to the lowest point on the entire error surface. If it does not, the minimum into which the total error will eventually fall is termed a local minimum. The learning algorithm is sometimes referred to in this case as "trapped in a local minimum."
In such cases, it usually helps to restart the algorithm with a new, randomly chosen initial set of weights - i.e. at a new random point in weight space. As this means a new starting point on the error surface, it is likely to lead into a different valley, and hopefully this one will lead to the true (absolute) minimum error, or at least a better minimum error.
Contributeurs: Imane Meziani, wiki, Sihem Kouache