« UniVideo » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(Une version intermédiaire par le même utilisateur non affichée)
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
xxxxx
Cadre permettant de comprendre la '''[[génération automatique d'image]]''' et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un '''[[grand modèle de langues (GML)]]''' pour la compréhension des instructions et un modèle '''DiT multimodal (MMDiT)''' pour la génération d'image.


== Français ==
== Français ==
Ligne 8 : Ligne 8 :


== Anglais ==
== Anglais ==
'''xxxUniVideoxx '''
'''UniVideo '''


A unified framework that combines video understanding, generation, and editing capabilities within a single model. Unlike existing approaches that handle these tasks separately, UniVideo can interpret complex multimodal instructions and perform diverse video operations through a dual-stream architecture. The system demonstrates strong performance across multiple video tasks while enabling novel capabilities like visual prompt understanding and task composition.
<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.
UniVideo, a dual-stream framework combining a Multimodal Large Language Model and a Multimodal DiT, extends unified modeling to video generation and editing, achieving state-of-the-art performance and supporting task composition and generalization.
 
Multimodal DiT?-->


==Sources==
==Sources==
[https://huggingface.co/papers/2510.08377  Sources :  huggingface]
[https://arxiv.org/abs/2510.08377  Source : arxiv]
 
[https://huggingface.co/papers/2510.08377  Source :  huggingface]
 
[https://congwei1230.github.io/UniVideo/  Source : UniVideo, GitHub.io]




[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Dernière version du 13 mars 2026 à 11:15

EN CONSTRUCTION

Définition

Cadre permettant de comprendre la génération automatique d'image et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un grand modèle de langues (GML) pour la compréhension des instructions et un modèle DiT multimodal (MMDiT) pour la génération d'image.

Français

UniVideo

Anglais

UniVideo


Sources

Source : arxiv

Source : huggingface

Source : UniVideo, GitHub.io

Contributeurs: Arianne Arel, wiki