UniVideo


Révision datée du 30 avril 2026 à 20:19 par Pitpitt (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Nom propre d'un outil permettant de combiner une requête textuelle grâce à un grand modèle de langues (GML) et des images sources afin de générer un montage vidéo qui combine ces images selon la requête.

Compléments

Le montage de la vidéo utilise une architecture à double flux, et un modèle DiT multimodal (MMDiT) de génération d'image.

Français

UniVideo

Anglais

UniVideo


Sources

Source : arxiv

Source : huggingface

Source : UniVideo, GitHub.io

Contributeurs: Arianne Arel, Claude Coulombe, wiki