« UniVideo » : différence entre les versions

Version du 28 avril 2026 à 15:03

Nom propre d'un outil permettant de combiner une requête textuelle grâce à un grand modèle de langues (GML)' et des images sources afin de générer un montage vidéo qui combine ces images selon la requête.

Le montage de la vidéo utilise une architecture à double flux, et un modèle DiT multimodal (MMDiT) de génération d'image.

UniVideo

UniVideo

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-Cadre permettant de comprendre la '''[[génération automatique d'image]]''' et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un '''[[grand modèle de langues (GML)]]''' pour la compréhension des instructions et un modèle '''DiT multimodal (MMDiT)''' pour la génération d'image.
+Nom propre d'un outil permettant de combiner une requête textuelle grâce à un '''[[grand modèle de langues (GML)]]''' et des images sources afin de ''[[génération automatique d'image|générer un montage vidéo]]''' qui combine ces images selon la requête.
+== Compléments ==
+Le montage de la vidéo utilise une architecture à double flux, et un modèle '''DiT multimodal (MMDiT)''' de génération d'image.
 == Français ==
@@ Ligne 10 : / Ligne 13 : @@
 '''UniVideo '''
-<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.
+<!--Framework for understanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.
 Multimodal DiT?-->
@@ Ligne 20 : / Ligne 23 : @@
 [https://congwei1230.github.io/UniVideo/   Source : UniVideo, GitHub.io]
 [[Catégorie:vocabulary]]