« Modèles de bandits » : différence entre les versions

Version du 10 décembre 2019 à 13:27

[[Catégorie:]]

Définition

Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”.

Français

Modèles de « bandits manchot »

Anglais

Multi-armed bandit model

N-armed bandit problem

Source : Data Analytics post

[https://en.wikipedia.org/wiki/Multi-armed_bandit Multi-armed bandit

@@ Ligne 15 : / Ligne 15 : @@
 == Anglais ==
 '''Multi-armed bandit model'''
 '''N-armed bandit problem'''

« Modèles de bandits » : différence entre les versions

Version du 10 décembre 2019 à 13:27

Définition

Français

Anglais

« Modèles de bandits » : différence entre les versions