« Fonction de récompense » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 5 : | Ligne 5 : | ||
== Compléments == | == Compléments == | ||
La fonction de de récompense a généralement un impact significatif sur les résultats d'un [apprentissage par renforcement]] dont le but est de maximiser les récompenses et prédire les meilleures actions possibles dans une situation spécifique. | La fonction de de récompense a généralement un impact significatif sur les résultats d'un [[apprentissage par renforcement]] dont le but est de maximiser les récompenses et prédire les meilleures actions possibles dans une situation spécifique. | ||
==Français== | ==Français== |
Version du 31 octobre 2023 à 16:18
Définition
En apprentissage par renforcement, pour une action particulière d'un agent, une fonction de récompense détermine la magnitude de la récompense ou de la pénalité qu'il reçoit en retour de cette action.
En recherche heuristique, une fonction de récompense peut être définie comme l'évaluation d'un état particulier. Par exemple, l'évaluation du résultat d'un coup aux échecs.
Compléments
La fonction de de récompense a généralement un impact significatif sur les résultats d'un apprentissage par renforcement dont le but est de maximiser les récompenses et prédire les meilleures actions possibles dans une situation spécifique.
Français
fonction de récompense
Anglais
'reward function
Contributeurs: Claude Coulombe, wiki