« Modèles de bandits » : différence entre les versions

Dernière version du 29 février 2024 à 13:48

Définition

Famille d’algorithmes qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur le manche d'une machine à sou.

Français

modèles de bandits

modèles de bandits manchots

Anglais

multi-armed bandit model

n-armed bandit problem

Sources

Source : Data Analytics post

Source : Multi-armed bandit

@@ Ligne 1 : / Ligne 1 : @@
+==Définition==
+Famille d’[[algorithme]]s qui propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret).  Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu de hasard que l’on trouve dans les casinos où l’on tire sur le manche d'une machine à sou.
-== en construction ==
+==Français==
-[[Catégorie:Vocabulaire]]
+'''modèles de bandits'''
-[[Catégorie:Intelligence artificielle]]
-[[Catégorie:dataanalyticspost]]
+'''modèles de bandits manchots'''
-== Définition ==
+==Anglais==
-Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret).
+'''multi-armed bandit model'''
-Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”, ces machines à sous que l’on appelle aussi des “bras”. Dans ce jeu, il s’agit de miser puis d’actionner un bras articulé pour voir le gain (ou la perte) conséquente. Le joueur a le choix entre plusieurs machines à sous, chacune occasionnant un gain aléatoire selon une distribution inconnue mais fixée à l’avance. Il cherche à accumuler le plus de gains possible, ce qui lui impose un arbitrage entre deux stratégies : l’exploration qui consiste à évaluer chacun des bras afin de déterminer celui de rendement maximal, et l’exploitation qui consiste à jouer le bras considéré comme le meilleur à un instant donné.
+'''n-armed bandit problem'''
-== Français ==
+==Sources==
-'''Modèles de « bandits » '''
+[https://dataanalyticspost.com/Lexique/ Source : ''Data Analytics post'']
-== Anglais ==
-'''XXXXXXXXXXXXXXX '''
+[https://en.wikipedia.org/wiki/Multi-armed_bandit Source : ''Multi-armed bandit'']
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
-<small>
-[https://dataanalyticspost.com/Lexique/ Source : Data Analytics post]

« Modèles de bandits » : différence entre les versions