« UniVideo » : différence entre les versions

Version du 13 mars 2026 à 11:15

EN CONSTRUCTION

Définition

Cadre permettant de comprendre la génération automatique d'image et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un grand modèle de langues (GML) pour la compréhension des instructions et un modèle DiT multimodal (MMDiT) pour la génération d'image.

Français

UniVideo

Anglais

UniVideo

Sources

Source : arxiv

Source : huggingface

Source : UniVideo, GitHub.io

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxx
+Cadre permettant de comprendre la '''[[génération automatique d'image]]''' et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un '''[[grand modèle de langues (GML)]]''' pour la compréhension des instructions et un modèle '''DiT multimodal (MMDiT)''' pour la génération d'image.
 == Français ==
@@ Ligne 10 : / Ligne 10 : @@
 '''UniVideo '''
-<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.-->
+<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.
+Multimodal DiT?-->
 ==Sources==

« UniVideo » : différence entre les versions