« UniVideo » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Nom propre d'un outil permettant de combiner une requête textuelle grâce à un '''[[grand modèle de langues (GML)]]''' et des images sources afin de ''[[génération automatique d'image|générer un montage vidéo]]''' qui combine ces images selon la requête. | |||
== Compléments == | |||
Le montage de la vidéo utilise une architecture à double flux, et un modèle '''DiT multimodal (MMDiT)''' de génération d'image. | |||
== Français == | == Français == | ||
| Ligne 10 : | Ligne 13 : | ||
'''UniVideo ''' | '''UniVideo ''' | ||
<!--Framework for | <!--Framework for understanding generation and editing in the video domain with a dual-stream design, combining a Multimodal Large Language Model (MLLM) for instruction understanding with a Multimodal DiT (MMDiT) for video generation. | ||
Multimodal DiT?--> | Multimodal DiT?--> | ||
| Ligne 20 : | Ligne 23 : | ||
[https://congwei1230.github.io/UniVideo/ Source : UniVideo, GitHub.io] | [https://congwei1230.github.io/UniVideo/ Source : UniVideo, GitHub.io] | ||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] | ||
Version du 28 avril 2026 à 15:03
EN CONSTRUCTION
Définition
Nom propre d'un outil permettant de combiner une requête textuelle grâce à un grand modèle de langues (GML)' et des images sources afin de générer un montage vidéo qui combine ces images selon la requête.
Compléments
Le montage de la vidéo utilise une architecture à double flux, et un modèle DiT multimodal (MMDiT) de génération d'image.
Français
UniVideo
Anglais
UniVideo
Sources
Contributeurs: Arianne Arel, Claude Coulombe, wiki





