« UniVideo » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (Une version intermédiaire par le même utilisateur non affichée) | |||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Cadre permettant de comprendre la '''[[génération automatique d'image]]''' et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un '''[[grand modèle de langues (GML)]]''' pour la compréhension des instructions et un modèle '''DiT multimodal (MMDiT)''' pour la génération d'image. | |||
== Français == | == Français == | ||
| Ligne 8 : | Ligne 8 : | ||
== Anglais == | == Anglais == | ||
''' | '''UniVideo ''' | ||
<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. | |||
Multimodal DiT?--> | |||
==Sources== | ==Sources== | ||
[https://huggingface.co/papers/2510.08377 | [https://arxiv.org/abs/2510.08377 Source : arxiv] | ||
[https://huggingface.co/papers/2510.08377 Source : huggingface] | |||
[https://congwei1230.github.io/UniVideo/ Source : UniVideo, GitHub.io] | |||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] | ||
Dernière version du 13 mars 2026 à 11:15
EN CONSTRUCTION
Définition
Cadre permettant de comprendre la génération automatique d'image et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un grand modèle de langues (GML) pour la compréhension des instructions et un modèle DiT multimodal (MMDiT) pour la génération d'image.
Français
UniVideo
Anglais
UniVideo
Sources
Contributeurs: Arianne Arel, wiki





