« UniVideo » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
Cadre permettant de comprendre la '''[[génération automatique d'image]]''' et le montage du domaine de la vidéo grâce à une architecture à double flux, combinant un '''[[grand modèle de langues (GML)]]''' pour la compréhension des instructions et un modèle '''DiT multimodal (MMDiT)''' pour la génération d'image.
Nom propre d'un outil permettant de combiner une requête textuelle grâce à un '''[[grand modèle de langues (GML)]]''' et des images sources afin de ''[[génération automatique d'image|générer un montage vidéo]]''' qui combine ces images selon la requête.
 
== Compléments ==
Le montage de la vidéo utilise une architecture à double flux, et un modèle '''DiT multimodal (MMDiT)''' de génération d'image.


== Français ==
== Français ==
Ligne 10 : Ligne 13 :
'''UniVideo '''
'''UniVideo '''


<!--Framework for unederstanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.
<!--Framework for understanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation.


Multimodal DiT?-->
Multimodal DiT?-->
Ligne 20 : Ligne 23 :


[https://congwei1230.github.io/UniVideo/  Source : UniVideo, GitHub.io]
[https://congwei1230.github.io/UniVideo/  Source : UniVideo, GitHub.io]


[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Version du 28 avril 2026 à 15:03

EN CONSTRUCTION

Définition

Nom propre d'un outil permettant de combiner une requête textuelle grâce à un grand modèle de langues (GML)' et des images sources afin de générer un montage vidéo qui combine ces images selon la requête.

Compléments

Le montage de la vidéo utilise une architecture à double flux, et un modèle DiT multimodal (MMDiT) de génération d'image.

Français

UniVideo

Anglais

UniVideo


Sources

Source : arxiv

Source : huggingface

Source : UniVideo, GitHub.io

Contributeurs: Arianne Arel, Claude Coulombe, wiki