« Adagrad » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 8 : | Ligne 8 : | ||
== Définition == | == Définition == | ||
Algorithme complexe de descente de gradient qui redimensionne les gradients de chaque paramètre en attribuant à chacun des paramètres un taux d'apprentissage indépendant. Pour | Algorithme complexe de descente de gradient qui redimensionne les gradients de chaque paramètre en attribuant à chacun des paramètres un taux d'apprentissage indépendant. Pour plus d'explication, consultez ces articles. | ||
http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf | |||
http://ruder.io/optimizing-gradient-descent/index.html#adagrad | |||
Version du 29 septembre 2018 à 20:26
Domaine
Vocabulaire
Google
Apprentissage profond
Définition
Algorithme complexe de descente de gradient qui redimensionne les gradients de chaque paramètre en attribuant à chacun des paramètres un taux d'apprentissage indépendant. Pour plus d'explication, consultez ces articles.
http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf
http://ruder.io/optimizing-gradient-descent/index.html#adagrad
Termes privilégiés
AdaGrad
Anglais
AdaGrad
Contributeurs: Jacques Barolet, wiki