« SARSA » : différence entre les versions
Aucun résumé des modifications |
m (Remplacement de texte : « ↵<small> » par « ==Sources== ») |
||
(Une version intermédiaire par le même utilisateur non affichée) | |||
Ligne 10 : | Ligne 10 : | ||
''' State–action–reward–state–action''' | ''' State–action–reward–state–action''' | ||
==Sources== | |||
[https://en.wikipedia.org/wiki/State%E2%80%93action%E2%80%93reward%E2%80%93state%E2%80%93action Source : Wikipedia Machine Learning ] | [https://en.wikipedia.org/wiki/State%E2%80%93action%E2%80%93reward%E2%80%93state%E2%80%93action Source : Wikipedia Machine Learning ] | ||
Ligne 17 : | Ligne 17 : | ||
[[Catégorie: | [[Catégorie:ENGLISH]] | ||
[[Catégorie: | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 28 janvier 2024 à 12:18
Définition
En apprentissage par renforcement, algorithme d'apprentissage dont l’acronyme anglais correspond à State-Action-Reward-State-Action, en français: État-Action-Récompense-État-Action. Il s'agit d'une légère variation du populaire algorithme apprentissage par fonction Q.
Français
SARSA
Anglais
SARSA
State–action–reward–state–action
Sources
Contributeurs: Imane Meziani, wiki