Modèles de bandits


Révision datée du 28 janvier 2024 à 11:13 par Pitpitt (discussion | contributions) (Remplacement de texte : « ↵<small> » par «  ==Sources== »)

Définition

Famille d’algorithmes qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur le manche d'une machine à sou.

Français

modèles de bandits

modèles de bandits manchots

Anglais

Multi-armed bandit model

N-armed bandit problem


Sources

Source: Data Analytics post

Source: Multi-armed bandit