« OmniVideoBench » : différence entre les versions


(Page créée avec « == EN CONSTRUCTION == == Définition == xxxxx == Français == '''OmniVideoBench ''' == Anglais == '''OmniVideoBench''' A comprehensive benchmark designed to evaluate how well multimodal large language models (MLLMs) can understand and reason across both audio and visual information in videos. The benchmark addresses a critical gap in current evaluation methods, which often focus on single modalities or fail to properly integrate audio-visual reasoning in a l... »)
 
Aucun résumé des modifications
 
(2 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
== EN CONSTRUCTION ==
== Définition ==
== Définition ==
xxxxx
'''[[Test de performances]]''' pour évaluer le raisonnement audiovisuel profond dans une grande variété de tâches et de modalités au sein d'un '''[[grand modèle de langues multimodal]]'''.


== Français ==
== Français ==
Ligne 10 : Ligne 8 :
'''OmniVideoBench'''
'''OmniVideoBench'''


A comprehensive benchmark designed to evaluate how well multimodal large language models (MLLMs) can understand and reason across both audio and visual information in videos. The benchmark addresses a critical gap in current evaluation methods, which often focus on single modalities or fail to properly integrate audio-visual reasoning in a logically consistent manner.
''Comprehensive benchmark for evaluating deep audio-visual reasoning across a wide variety of tasks and modalities in multimodal large language model.''
 
==Sources==
[https://github.com/NJU-LINK/OmniVideoBench  Source : GitHub]


OmniVideoBench is a comprehensive benchmark for evaluating audio-visual reasoning in multimodal large language models, addressing modality complementarity and logical consistency.
[https://huggingface.co/papers/2510.10689 Source :  huggingface]


==Sources==
[https://omnivideobench.github.io/omnivideobench_home/   Source : OmniVideoBench]
[https://huggingface.co/papers/2510.10689 Sources : huggingface]




[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 7 mars 2026 à 19:11

Définition

Test de performances pour évaluer le raisonnement audiovisuel profond dans une grande variété de tâches et de modalités au sein d'un grand modèle de langues multimodal.

Français

OmniVideoBench

Anglais

OmniVideoBench

Comprehensive benchmark for evaluating deep audio-visual reasoning across a wide variety of tasks and modalities in multimodal large language model.

Sources

Source : GitHub

Source : huggingface

Source : OmniVideoBench

Contributeurs: Arianne Arel, wiki