« ThinkAct » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(2 versions intermédiaires par le même utilisateur non affichées)
Ligne 3 : Ligne 3 :
== Définition ==
== Définition ==
Architecture de raisonnement ''vision-langage-action'' ou VLA qui entraîne un '''[[grand modèle de langues multimodal]]''' à générer des plans de raisonnement guidés par des récompenses visuelles alignées.  
Architecture de raisonnement ''vision-langage-action'' ou VLA qui entraîne un '''[[grand modèle de langues multimodal]]''' à générer des plans de raisonnement guidés par des récompenses visuelles alignées.  
Voir aussi '''[[alignement de l'IA]]''' et '''[[Vision-Language-Action Model]]'''


== Français ==
== Français ==
Ligne 17 : Ligne 19 :
[https://huggingface.co/papers/2507.16815l  Source : huggingface]
[https://huggingface.co/papers/2507.16815l  Source : huggingface]


[[Catégorie:vocabulary]]
[[Catégorie:publication]]

Dernière version du 27 février 2026 à 13:42

en construction

Définition

Architecture de raisonnement vision-langage-action ou VLA qui entraîne un grand modèle de langues multimodal à générer des plans de raisonnement guidés par des récompenses visuelles alignées.

Voir aussi alignement de l'IA et Vision-Language-Action Model

Français

ThinkAct

Anglais

ThinkAct

A reasoning vision-language-action framework that trains a multimodal large language model to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency.

Sources

Source : GitHub.io

Source : huggingface

Contributeurs: Arianne Arel, wiki