« Modèles de bandits » : différence entre les versions
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
||
Ligne 9 : | Ligne 9 : | ||
== Définition == | == Définition == | ||
Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”. | Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”. | ||
== Français == | == Français == | ||
Ligne 20 : | Ligne 16 : | ||
'''Multi-armed bandit model''' | '''Multi-armed bandit model''' | ||
'''N-armed bandit problem''' | '''N-armed bandit problem''' | ||
Version du 8 décembre 2019 à 21:01
en construction
Définition
Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”.
Français
Modèles de « bandits manchot »
Anglais
Multi-armed bandit model N-armed bandit problem
[https://en.wikipedia.org/wiki/Multi-armed_bandit Multi-armed bandit
Contributeurs: Claire Gorjux, Jacques Barolet, wiki