« UniVideo » : différence entre les versions
(Page créée avec « == EN CONSTRUCTION == == Définition == xxxxx == Français == '''UniVideo''' == Anglais == '''xxxUniVideoxx ''' A unified framework that combines video understanding, generation, and editing capabilities within a single model. Unlike existing approaches that handle these tasks separately, UniVideo can interpret complex multimodal instructions and perform diverse video operations through a dual-stream architecture. The system demonstrates strong performance a... ») |
Aucun résumé des modifications |
||
| (6 versions intermédiaires par 3 utilisateurs non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
Nom propre d'un outil permettant de combiner une requête textuelle grâce à un '''[[grand modèle de langues (GML)]]''' et des images sources afin de '''[[génération automatique d'image|générer un montage vidéo]]''' qui combine ces images selon la requête. | |||
== | == Compléments == | ||
Le montage de la vidéo utilise une architecture à double flux, et un modèle '''DiT multimodal (MMDiT)''' de génération d'image. | |||
== Français == | == Français == | ||
| Ligne 8 : | Ligne 9 : | ||
== Anglais == | == Anglais == | ||
''' | '''UniVideo ''' | ||
<!--Framework for understanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. | |||
Multimodal DiT?--> | |||
==Sources== | ==Sources== | ||
[https://huggingface.co/papers/2510.08377 | [https://arxiv.org/abs/2510.08377 Source : arxiv] | ||
[https://huggingface.co/papers/2510.08377 Source : huggingface] | |||
[https://congwei1230.github.io/UniVideo/ Source : UniVideo, GitHub.io] | |||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
Dernière version du 30 avril 2026 à 20:19
Définition
Nom propre d'un outil permettant de combiner une requête textuelle grâce à un grand modèle de langues (GML) et des images sources afin de générer un montage vidéo qui combine ces images selon la requête.
Compléments
Le montage de la vidéo utilise une architecture à double flux, et un modèle DiT multimodal (MMDiT) de génération d'image.
Français
UniVideo
Anglais
UniVideo
Sources
Contributeurs: Arianne Arel, Claude Coulombe, wiki





