« ThinkAct » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (2 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 3 : | Ligne 3 : | ||
== Définition == | == Définition == | ||
Architecture de raisonnement ''vision-langage-action'' ou VLA qui entraîne un '''[[grand modèle de langues multimodal]]''' à générer des plans de raisonnement guidés par des récompenses visuelles alignées. | Architecture de raisonnement ''vision-langage-action'' ou VLA qui entraîne un '''[[grand modèle de langues multimodal]]''' à générer des plans de raisonnement guidés par des récompenses visuelles alignées. | ||
Voir aussi '''[[alignement de l'IA]]''' et '''[[Vision-Language-Action Model]]''' | |||
== Français == | == Français == | ||
| Ligne 17 : | Ligne 19 : | ||
[https://huggingface.co/papers/2507.16815l Source : huggingface] | [https://huggingface.co/papers/2507.16815l Source : huggingface] | ||
[[Catégorie: | [[Catégorie:publication]] | ||
Dernière version du 27 février 2026 à 13:42
en construction
Définition
Architecture de raisonnement vision-langage-action ou VLA qui entraîne un grand modèle de langues multimodal à générer des plans de raisonnement guidés par des récompenses visuelles alignées.
Voir aussi alignement de l'IA et Vision-Language-Action Model
Français
ThinkAct
Anglais
ThinkAct
A reasoning vision-language-action framework that trains a multimodal large language model to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency.
Sources
Contributeurs: Arianne Arel, wiki





