Modèles de bandits
Définition
Famille d’algorithmes qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur un manche d'une machine à sou.
Français
modèles du « bandit manchot »
Anglais
Multi-armed bandit model
N-armed bandit problem
[https://en.wikipedia.org/wiki/Multi-armed_bandit Multi-armed bandit
Contributeurs: Claire Gorjux, Jacques Barolet, wiki