« Descente de gradient stochastique asynchrone » : différence entre les versions

Version du 29 novembre 2024 à 12:36

en construction

Définition

La descente de gradient stochastique asynchrone est une approche qui vise à améliorer l'efficacité de la formation des réseaux profonds à grande échelle en l'accélérant dans un environnement informatique distribué. Elle permet d'atteindre une vitesse plus rapide puisqu'aucun travailleur n'a besoin d'attendre après les autres et ils ajoutent directement le gradient local au modèle global.

Voir aussi descente de gradient stochastique et réseau de neurones artificiels

Compléments

Il est cependant difficile d'ajuster les hyperparamètres pour obtenir une convergence et une accélération linéaire, puisque la stabilité de l'algorithme d'optimisation est fortement influencée par la nature asynchrone de l'évolution des paramètres. La descente de gradient stochastique asynchrone coûte également plus d'itérations pour converger que le SGD séquentiel et ne peut pas atteindre la parité de précision du SGD séquentiel, en particulier lorsque le nombre de travailleurs est élevé.

Français

Descente de gradient stochastique asynchrone

Anglais

Asynchronous Stochastic Gradient Descent

Asynchronous SGD

ASGD

Asynchronous Stochastic Gradient Descent (ASGD) is an approach that aims to improve training efficiency of large-scale deep network by accelerating it in a distributed computing environment. It can achieve faster speed due to the fact that no worker need to wait for other and these workers directly add the local gradient to the global model.

It is difficult to tune the hyperparameters, to achieve convergence and linear speedup since the stability of the optimization algorithm is strongly influenced by the asynchronous nature of parameter uptade. ASGD also costs more iterations to converge than sequential SGD and cannot reach accuracy parity of sequential SGD especially when the number of workers is large.

Source

Source : arxiv

Source : IJCAI-16

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-XXXXXXX
+La descente de gradient stochastique asynchrone est une approche qui vise à améliorer l'efficacité de la formation des réseaux profonds à grande échelle en l'accélérant dans un environnement informatique distribué. Elle permet d'atteindre une vitesse plus rapide puisqu'aucun travailleur n'a besoin d'attendre après les autres et ils ajoutent directement le gradient local au modèle global.
 Voir aussi '''[[descente de gradient stochastique]]''' et '''[[réseau de neurones artificiels]]'''
+== Compléments ==
+Il est cependant difficile d'ajuster les hyperparamètres pour obtenir une convergence et une accélération linéaire, puisque la stabilité de l'algorithme d'optimisation est fortement influencée par la nature asynchrone de l'évolution des paramètres. La descente de gradient stochastique asynchrone coûte également plus d'itérations pour converger que le SGD séquentiel et ne peut pas atteindre la parité de précision du SGD séquentiel, en particulier lorsque le nombre de travailleurs est élevé.
 == Français ==
@@ Ligne 18 : / Ligne 21 : @@
 ''' ASGD'''
-''Deep neural networks have been shown to achieve state-of-the-art performance in several machine learning tasks. Stochastic Gradient Descent (SGD) is the preferred optimization algorithm for training these networks and asynchronous SGD (ASGD) has been widely adopted for accelerating the training of large-scale deep networks in a distributed computing environment.''
+''Asynchronous Stochastic Gradient Descent (ASGD) is an approach that aims to improve training efficiency of large-scale deep network by accelerating it in a distributed computing environment. It can achieve faster speed due to the fact that no worker need to wait for other and these workers directly add the local gradient to the global model.''
+''It is difficult to tune the hyperparameters, to achieve convergence and linear speedup since the stability of the optimization algorithm is strongly influenced by the asynchronous nature of parameter uptade. ASGD also costs more iterations to converge than sequential SGD and cannot reach accuracy parity of sequential SGD especially when the number of workers is large.''
 == Source ==

« Descente de gradient stochastique asynchrone » : différence entre les versions