« Adagrad » : différence entre les versions


(Page créée avec « == Domaine == catégorie:Démo Catégorie Démo Catégorie:Apprentissage profond Apprentissage profond == Définition == == Termes privilégiés ==... »)
 
m (Remplacement de texte — « [[Category: » par « [[Catégorie: »)
 
(27 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== Domaine ==
#REDIRECTION[[ Gradient adaptatif ]]
[[catégorie:Démo]] Catégorie Démo
[[Catégorie:ENGLISH]]
[[Catégorie:Apprentissage profond]] Apprentissage profond
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
== Définition ==
 
 
 
== Termes privilégiés ==
 
== Anglais ==
 
 
'''Adagrad'''
 
Adagrad is an adaptive learning rate algorithms that keeps track of the squared gradients over time and automatically adapts the learning rate per-parameter. It can be used instead of vanilla SGD and is particularly helpful for sparse data, where it assigns a higher learning rate to infrequently updated parameters.
• Adaptive Subgradient Methods for Online Learning and Stochastic Optimization
• Stanford CS231n: Optimization Algorithms
• An overview of gradient descent optimization algorithms

Dernière version du 27 septembre 2019 à 12:33

Rediriger vers :



Contributeurs: Jacques Barolet, wiki