« Apprentissage par renforcement inverse » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Domaine == | == Domaine == | ||
[[category:Vocabulaire]] | [[category:Vocabulaire]]Vocabulaire<br /> | ||
== Définition == | == Définition == | ||
Apprentissage par imitation (ou Apprentissage par enforcement inverse) | Apprentissage par imitation (ou Apprentissage par enforcement inverse) |
Version du 18 mars 2018 à 20:23
Domaine
Vocabulaire
Définition
Apprentissage par imitation (ou Apprentissage par enforcement inverse)
En apprentissage par renforcement (Reinforcement Learning ou RL), l’algorithme essaie de trouver la meilleure stratégie pour atteindre un objectif en interagissant avec l’environnement et en obtenant des « récompenses », façon de qualifier la qualité des actions prises par l’algorithme. En apprentissage par renforcement inverse (Inverse Reinforcement Learning ou IRL), l’algorithme observe un « expert » résoudre le problème et essaye d’apprendre à faire aussi bien que lui (voire mieux).
Cet expert peut être une personne ou un algorithme qui sait, a priori, résoudre le problème et peut multiplier les exemples. Cet apprentissage aussi qualifié d’apprentissage par imitation (Apprenticeship Learning) a l’avantage de ne pas nécessiter de définir de récompenses, problème compliqué et crucial en apprentissage par renforcement.
Termes privilégiés
Anglais
Contributeurs: Evan Brach, Claire Gorjux, Claude Coulombe, Jacques Barolet, wiki