« UniVideo » : différence entre les versions

Version du 24 février 2026 à 11:58

xxxxx

UniVideo

UniVideo

@@ Ligne 8 : / Ligne 8 : @@
 == Anglais ==
-'''xxxUniVideoxx '''
+'''UniVideo '''
- A unified framework that combines video understanding, generation, and editing capabilities within a single model. Unlike existing approaches that handle these tasks separately, UniVideo can interpret complex multimodal instructions and perform diverse video operations through a dual-stream architecture. The system demonstrates strong performance across multiple video tasks while enabling novel capabilities like visual prompt understanding and task composition.
+<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.-->
- UniVideo, a dual-stream framework combining a Multimodal Large Language Model and a Multimodal DiT, extends unified modeling to video generation and editing, achieving state-of-the-art performance and supporting task composition and generalization.
 ==Sources==
-[https://huggingface.co/papers/2510.08377   Sources :  huggingface]
+[https://arxiv.org/abs/2510.08377   Source : arxiv]
+[https://huggingface.co/papers/2510.08377   Source :  huggingface]
+[https://congwei1230.github.io/UniVideo/   Source : UniVideo, GitHub.io]
 [[Catégorie:vocabulary]]