« Modèles de bandits » : différence entre les versions


Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Aucun résumé des modifications
Balise : Éditeur de wikicode 2017
Ligne 5 : Ligne 5 :
[[Catégorie:Scotty]]
[[Catégorie:Scotty]]
[[Catégorie:dataanalyticspost]]
[[Catégorie:dataanalyticspost]]
[[Catégorie:]]
[[Catégorie:9]]


== Définition ==
== Définition ==
Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret).   Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”.
Famille d’algorithmes qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur un manche d'une machine à sou.


== Français ==
== Français ==
'''Modèles du « bandit manchot » '''
'''modèles du « bandit manchot » '''
   
   
== Anglais ==
== Anglais ==

Version du 10 décembre 2019 à 15:19


Définition

Famille d’algorithmes qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur un manche d'une machine à sou.

Français

modèles du « bandit manchot »

Anglais

Multi-armed bandit model

N-armed bandit problem


Source : Data Analytics post

[https://en.wikipedia.org/wiki/Multi-armed_bandit Multi-armed bandit