« Modèles de bandits » : différence entre les versions
(Page créée avec « == en construction == Catégorie:Vocabulaire Catégorie:Intelligence artificielle Catégorie:dataanalyticspost == Définition == Cette famille d’algorithm... ») Balise : Éditeur de wikicode 2017 |
Aucun résumé des modifications Balise : Éditeur de wikicode 2017 |
||
Ligne 3 : | Ligne 3 : | ||
[[Catégorie:Vocabulaire]] | [[Catégorie:Vocabulaire]] | ||
[[Catégorie:Intelligence artificielle]] | [[Catégorie:Intelligence artificielle]] | ||
[[Catégorie:Scotty]] | |||
[[Catégorie:dataanalyticspost]] | [[Catégorie:dataanalyticspost]] | ||
== Définition == | == Définition == | ||
Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). | Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”. | ||
''ces machines à sous que l’on appelle aussi des “bras”. Dans ce jeu, il s’agit de miser puis d’actionner un bras articulé pour voir le gain (ou la perte) conséquente. Le joueur a le choix entre plusieurs machines à sous, chacune occasionnant un gain aléatoire selon une distribution inconnue mais fixée à l’avance. Il cherche à accumuler le plus de gains possible, ce qui lui impose un arbitrage entre deux stratégies : l’exploration qui consiste à évaluer chacun des bras afin de déterminer celui de rendement maximal, et l’exploitation qui consiste à jouer le bras considéré comme le meilleur à un instant donné.'' | |||
== Français == | == Français == | ||
'''Modèles de « bandits » ''' | '''Modèles de « bandits manchot » ''' | ||
== Anglais == | == Anglais == | ||
''' | '''Multi-armed bandit model''' | ||
'''N-armed bandit problem''' | |||
Ligne 23 : | Ligne 27 : | ||
[https://dataanalyticspost.com/Lexique/ Source : Data Analytics post] | [https://dataanalyticspost.com/Lexique/ Source : Data Analytics post] | ||
[https://en.wikipedia.org/wiki/Multi-armed_bandit Multi-armed bandit |
Version du 7 décembre 2019 à 11:02
en construction
Définition
Cette famille d’algorithmes propose des stratégies optimales pour maximiser l’espérance d’un gain lors d’une succession de choix entre plusieurs actions aux récompenses inconnues (on parle aussi de maximiser le rendement et de minimiser le regret). Les modèles de bandits sont inspirés du problème de l’optimisation des gains du jeu des “bandits manchots”.
ces machines à sous que l’on appelle aussi des “bras”. Dans ce jeu, il s’agit de miser puis d’actionner un bras articulé pour voir le gain (ou la perte) conséquente. Le joueur a le choix entre plusieurs machines à sous, chacune occasionnant un gain aléatoire selon une distribution inconnue mais fixée à l’avance. Il cherche à accumuler le plus de gains possible, ce qui lui impose un arbitrage entre deux stratégies : l’exploration qui consiste à évaluer chacun des bras afin de déterminer celui de rendement maximal, et l’exploitation qui consiste à jouer le bras considéré comme le meilleur à un instant donné.
Français
Modèles de « bandits manchot »
Anglais
Multi-armed bandit model N-armed bandit problem
[https://en.wikipedia.org/wiki/Multi-armed_bandit Multi-armed bandit
Contributeurs: Claire Gorjux, Jacques Barolet, wiki