« Adagrad » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Domaine == | == Domaine == | ||
[[category:Vocabulary]] Vocabulary | [[category:Vocabulary]] Vocabulary<br /> | ||
[[Catégorie:Apprentissage profond]] Apprentissage profond | [[Catégorie:Apprentissage profond]] Apprentissage profond | ||
== Définition == | == Définition == | ||
Version du 18 mars 2018 à 20:27
Domaine
Vocabulary
Apprentissage profond
Définition
Termes privilégiés
Anglais
Adagrad
Adagrad is an adaptive learning rate algorithms that keeps track of the squared gradients over time and automatically adapts the learning rate per-parameter. It can be used instead of vanilla SGD and is particularly helpful for sparse data, where it assigns a higher learning rate to infrequently updated parameters. • Adaptive Subgradient Methods for Online Learning and Stochastic Optimization • Stanford CS231n: Optimization Algorithms • An overview of gradient descent optimization algorithms
Contributeurs: Jacques Barolet, wiki