« Problème du bandit manchot » : différence entre les versions
m (Isaline a déplacé la page Bandit à deux bras vers Problème du bandit manchot) |
Aucun résumé des modifications |
||
Ligne 12 : | Ligne 12 : | ||
'''multi-armed bandit problem''' | '''multi-armed bandit problem''' | ||
''' | ''' ''K''-armed bandit problem''' | ||
Version du 16 avril 2021 à 10:29
Définition
En théorie des probabilités, problème qui se formule de la manière imagée suivante : un utilisateur (un agent) est face à des machines à sous et doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l’utilisateur ne connaît pas a priori. L’objectif est de maximiser le gain cumulé de l’utilisateur.
Ce problème est un exemple d'apprentissage par renforcement.
Français
problème du bandit manchot
problème du bandit à K bras
Anglais
multi-armed bandit problem
K-armed bandit problem
Contributeurs: Isaline Hodecent, wiki