Apprentissage par renforcement - Historique des versions

Claude COULOMBE le 7 octobre 2025 à 19:34

2025-10-07T19:34:39Z

← Version précédente		Version du 7 octobre 2025 à 15:34
Ligne 2 :		Ligne 2 :
	En apprentissage par renforcement, l’[[algorithme]] apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’[[apprentissage non supervisé]], l’apprentissage par renforcement n’a pas besoin de données étiquetées.		En apprentissage par renforcement, l’[[algorithme]] apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’[[apprentissage non supervisé]], l’apprentissage par renforcement n’a pas besoin de données étiquetées.

	En gros, l'apprentissage par renforcement c'est apprendre en interagissant. Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une ~~punition~~.		En gros, l'apprentissage par renforcement c'est apprendre en interagissant. Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une pénalité.

	On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant une action à exécuter.		On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant une action à exécuter.

Pitpitt : Remplacement de texte : « ==Español== » par « ==Español== Catégorie:es »

2025-09-24T00:55:15Z

Remplacement de texte : « ==Español== » par « ==Español== Catégorie:es »

← Version précédente		Version du 23 septembre 2025 à 20:55
Ligne 24 :		Ligne 24 :

	==Español==		==Español==
			[[Catégorie:es]]

	'''''aprendizaje por refuerzo'''''		'''''aprendizaje por refuerzo'''''

Pitpitt le 20 août 2025 à 23:50

2025-08-20T23:50:37Z

← Version précédente		Version du 20 août 2025 à 19:50
Ligne 40 :		Ligne 40 :
	[https://www.obvia.ca/sites/obvia.ca/files/ressources/202501-OBV-Out-Glossaire_Obvia.pdf Glossaire de l'Obvia - apprentissage par renforcement]		[https://www.obvia.ca/sites/obvia.ca/files/ressources/202501-OBV-Out-Glossaire_Obvia.pdf Glossaire de l'Obvia - apprentissage par renforcement]

	~~</small><br>~~
	{{Modèle:101}}		{{Modèle:101}}
	{{Modèle:GDT}}		{{Modèle:GDT}}
Ligne 48 :		Ligne 48 :
	[[Catégorie:Apprentissage automatique]]		[[Catégorie:Apprentissage automatique]]
	[[Catégorie:GRAND LEXIQUE FRANÇAIS]]		[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
	~~[[Catégorie:Publication]]~~

Patrickdrouin le 19 août 2025 à 19:25

2025-08-19T19:25:36Z

← Version précédente		Version du 19 août 2025 à 15:25
Ligne 13 :		Ligne 13 :
	L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).		L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).
	<hr/>		<hr/>
	AlphaGo, un programme d’IA développé par DeepMind, a réussi à battre le champion du monde au jeu de table Go en 2016. Basé sur l’apprentissage par renforcement, AlphaGo a perfectionné son jeu en jouant contre lui-même de manière continue pendant 40 jours!		[[AlphaGo]], un programme d’IA développé par DeepMind, a réussi à battre le champion du monde au jeu de table Go en 2016. Basé sur l’apprentissage par renforcement, AlphaGo a perfectionné son jeu en jouant contre lui-même de manière continue pendant 40 jours!

	==Français==		==Français==

Patrickdrouin le 19 août 2025 à 19:24

2025-08-19T19:24:40Z

← Version précédente		Version du 19 août 2025 à 15:24
Ligne 12 :		Ligne 12 :
	<hr/>		<hr/>
	L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).		L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).
			<hr/>
			AlphaGo, un programme d’IA développé par DeepMind, a réussi à battre le champion du monde au jeu de table Go en 2016. Basé sur l’apprentissage par renforcement, AlphaGo a perfectionné son jeu en jouant contre lui-même de manière continue pendant 40 jours!

	==Français==		==Français==
Ligne 35 :		Ligne 37 :

	==Sources==		==Sources==
	*[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']		[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']
			[https://www.obvia.ca/sites/obvia.ca/files/ressources/202501-OBV-Out-Glossaire_Obvia.pdf Glossaire de l'Obvia - apprentissage par renforcement]

	</small><br>		</small><br>
Ligne 45 :		Ligne 48 :
	[[Catégorie:Apprentissage automatique]]		[[Catégorie:Apprentissage automatique]]
	[[Catégorie:GRAND LEXIQUE FRANÇAIS]]		[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
			[[Catégorie:Publication]]

Jean-Sébastien Zavalone le 21 juillet 2025 à 19:03

2025-07-21T19:03:59Z

← Version précédente		Version du 21 juillet 2025 à 15:03
Ligne 23 :		Ligne 23 :
	==Español==		==Español==

	aprendizaje por refuerzo		'''''aprendizaje por refuerzo'''''

	aprendizaje reforzado		'''''aprendizaje reforzado '''''

	''En el aprendizaje por refuerzo, el algoritmo aprende un comportamiento a partir de experimentos repetidos, con el fin de optimizar las recompensas recibidas a lo largo del tiempo. Al igual que el aprendizaje no supervisado, el aprendizaje por refuerzo no requiere datos etiquetados.''		''En el aprendizaje por refuerzo, el algoritmo aprende un comportamiento a partir de experimentos repetidos, con el fin de optimizar las recompensas recibidas a lo largo del tiempo. Al igual que el aprendizaje no supervisado, el aprendizaje por refuerzo no requiere datos etiquetados.''

Jean-Sébastien Zavalone le 21 juillet 2025 à 19:03

2025-07-21T19:03:25Z

@@ Ligne 20 : / Ligne 20 : @@
 ==Anglais==
 '''reinforcement learning'''
 ==Sources==
 *[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement ''Source: Wikipedia'']

Claude COULOMBE le 26 mai 2025 à 21:05

2025-05-26T21:05:02Z

← Version précédente		Version du 26 mai 2025 à 17:05
Ligne 15 :		Ligne 15 :
	==Français==		==Français==
	'''apprentissage par renforcement'''		'''apprentissage par renforcement'''

			'''apprentissage par interaction'''

	==Anglais==		==Anglais==

Claude COULOMBE le 26 mai 2025 à 21:04

2025-05-26T21:04:35Z

← Version précédente		Version du 26 mai 2025 à 17:04
Ligne 1 :		Ligne 1 :
	==Définition==		==Définition==
	En apprentissage par renforcement, l’[[algorithme]] apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’[[apprentissage non supervisé]], l’apprentissage par renforcement n’a pas besoin de données étiquetées.		En apprentissage par renforcement, l’[[algorithme]] apprend un comportement à partir d’expériences répétées, de façon à optimiser les récompenses reçues au cours du temps. Tout comme l’[[apprentissage non supervisé]], l’apprentissage par renforcement n’a pas besoin de données étiquetées.

	Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une punition.		En gros, l'apprentissage par renforcement c'est apprendre en interagissant. Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une punition.

	On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant une action à exécuter.		On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant une action à exécuter.
Ligne 9 :		Ligne 9 :

	==Compléments==		==Compléments==
	~~En gros, il~~ existe deux approches à l'apprentissage par renforcement: celles qui se [[Apprentissage par renforcement à base de modèles\|basent sur un modèle]] (en anglais, ''model-based''), c.-à-d. une représentation formelle de l'environnement, et celles qui n'utilisent [[Apprentissage par renforcement sans modèle\|pas de modèle]] (en anglais, ''model-free'').		Il existe deux approches principales à l'apprentissage par renforcement: celles qui se [[Apprentissage par renforcement à base de modèles\|basent sur un modèle]] (en anglais, ''model-based''), c.-à-d. une représentation formelle de l'environnement, et celles qui n'utilisent [[Apprentissage par renforcement sans modèle\|pas de modèle]] (en anglais, ''model-free'').
	<hr/>		<hr/>
	L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).		L’apprentissage par renforcement se démarque de l'<nowiki/>'''[[apprentissage supervisé]]''' et de l''''[[apprentissage non supervisé]]''' par son côté interactif et itératif. L’agent intelligent essaie plusieurs solutions, on parle « d’exploration », observe la réaction de l’environnement et adapte son comportement pour découvrir la meilleure stratégie. On dira qu'il « exploite » le résultat de ses explorations (exploitation).

Claude COULOMBE le 25 avril 2025 à 04:22

2025-04-25T04:22:56Z

← Version précédente		Version du 25 avril 2025 à 00:22
Ligne 4 :		Ligne 4 :
	Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une punition.		Typiquement, un agent intelligent, qui est plongé au sein d’un environnement, prend une décision ou réalise une action en fonction de son état courant et de l’observation de son environnement. En retour de l’action de l’[[agent]], l’environnement procure à l’agent une récompense ou une punition.

	On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant ~~l’action~~ à exécuter.		On peut voir l’apprentissage par renforcement comme un jeu d’essais et d’erreurs dont le but est de déterminer les actions qui vont maximiser les gains d’un agent intelligent. Il élaborera ainsi un comportement optimal, appelé stratégie ou [[politique]], qui est une fonction associant à l’état courant une action à exécuter.

	Voir aussi: [[apprentissage par fonction Q]], apprentissage avec [[politique d'action]] et [[apprentissage par renforcement inverse\|'''apprentissage par renforcement inverse''']]		Voir aussi: [[apprentissage par fonction Q]], apprentissage avec [[politique d'action]] et [[apprentissage par renforcement inverse\|'''apprentissage par renforcement inverse''']]

Apprentissage par renforcement - Historique des versions

Claude COULOMBE le 7 octobre 2025 à 19:34

Pitpitt : Remplacement de texte : « ==Español== » par « ==Español== Catégorie:es »

Pitpitt le 20 août 2025 à 23:50

Patrickdrouin le 19 août 2025 à 19:25

Patrickdrouin le 19 août 2025 à 19:24

Jean-Sébastien Zavalone le 21 juillet 2025 à 19:03

Jean-Sébastien Zavalone le 21 juillet 2025 à 19:03

Claude COULOMBE le 26 mai 2025 à 21:05

Claude COULOMBE le 26 mai 2025 à 21:04

Claude COULOMBE le 25 avril 2025 à 04:22

Pitpitt : Remplacement de texte : « ==Español== » par « ==Español== Catégorie:es »