« Modèles de bandits » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(Une version intermédiaire par un autre utilisateur non affichée) | |||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
Famille | Famille d’[[algorithme]]s qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur le manche d'une machine à sou. | ||
==Français== | ==Français== | ||
'''modèles de bandits ''' | '''modèles de bandits''' | ||
'''modèles de bandits manchots | '''modèles de bandits manchots''' | ||
==Anglais== | ==Anglais== | ||
''' | '''multi-armed bandit model''' | ||
''' | '''n-armed bandit problem''' | ||
==Sources== | |||
[https://dataanalyticspost.com/Lexique/ Source : ''Data Analytics post''] | |||
[https://en.wikipedia.org/wiki/Multi-armed_bandit Source : ''Multi-armed bandit''] | |||
[https://en.wikipedia.org/wiki/Multi-armed_bandit Source: ''Multi-armed bandit''] | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 29 février 2024 à 12:48
Définition
Famille d’algorithmes qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur le manche d'une machine à sou.
Français
modèles de bandits
modèles de bandits manchots
Anglais
multi-armed bandit model
n-armed bandit problem
Sources
Contributeurs: Claire Gorjux, Jacques Barolet, wiki