« Apprentissage par différence temporelle » : différence entre les versions
Ligne 13 : | Ligne 13 : | ||
En apprentissage par renforcement, l’algorithme d’apprentissage par différence temporelle utilise un mécanisme d’estimation temporelle pour la prédiction du temps d’arrivée d’une récompense. L’algorithme d’apprentissage par différence temporelle s'inspire d'études d’apprentissage chez les animaux. | En apprentissage par renforcement, l’algorithme d’apprentissage par différence temporelle utilise un mécanisme d’estimation temporelle pour la prédiction du temps d’arrivée d’une récompense. L’algorithme d’apprentissage par différence temporelle s'inspire d'études d’apprentissage chez les animaux. | ||
Sources: | Sources:<br/> | ||
http://theses.univ-lyon2.fr/documents/getpart.php?id=lyon2.2005.blanc_jm&part=92195 | http://theses.univ-lyon2.fr/documents/getpart.php?id=lyon2.2005.blanc_jm&part=92195<br/> | ||
http://planiart.usherbrooke.ca/cours/ift615/ift615-13-apprentissage-renforcement.pdf | http://planiart.usherbrooke.ca/cours/ift615/ift615-13-apprentissage-renforcement.pdf<br/> | ||
== Anglais == | == Anglais == |
Version du 6 février 2019 à 22:41
Domaine
Définition
Français
apprentissage par différence temporelle
En apprentissage par renforcement, l’algorithme d’apprentissage par différence temporelle utilise un mécanisme d’estimation temporelle pour la prédiction du temps d’arrivée d’une récompense. L’algorithme d’apprentissage par différence temporelle s'inspire d'études d’apprentissage chez les animaux.
Sources:
http://theses.univ-lyon2.fr/documents/getpart.php?id=lyon2.2005.blanc_jm&part=92195
http://planiart.usherbrooke.ca/cours/ift615/ift615-13-apprentissage-renforcement.pdf
Anglais
Temporal difference learning
Temporal difference (TD) learning is a prediction-based machine learning method. It has primarily been used for the reinforcement learning problem, and is said to be "a combination of Monte Carlo ideas and dynamic programming (DP) ideas."[1] TD resembles a Monte Carlo method because it learns by sampling the environment according to some policy[clarification needed], and is related to dynamic programming techniques as it approximates its current estimate based on previously learned estimates (a process known as bootstrapping). The TD learning algorithm is related to the temporal difference model of animal learning.[2]
Contributeurs: Evan Brach, Claire Gorjux, Claude Coulombe, Jacques Barolet, wiki