« SAIL-VL2 » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(2 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :


== Définition ==
== Définition ==
XXXXXXXXX
'''[[Modèle fondateur]]''' de '''[[génération image-à-texte]]''' conçu pour une compréhension et un raisonnement multimodaux complets. Il atteint des performances de pointe dans divers '''[[Test de performance|tests de performance]]''' grâce à la curation des '''[[données]]''', à l'entraînement progressif et à l'architecture de '''[[mixture d'experts]]''' creuse.
 
Voir aussi '''[[entraînement]]'''


== Français ==
== Français ==
Ligne 9 : Ligne 11 :
'''SAIL-VL2'''
'''SAIL-VL2'''


An open-source vision-language foundation model designed for comprehensive multimodal understanding and reasoning.
''Vision-language foundation model for comprehensive multimodal understanding and reasoning. It achieves state-of-the-art performance across diverse benchmarks through data curation, progressive training, and sparse MoE architecture.''
SAIL-VL2 represents a comprehensive advancement in efficient vision-language modeling through innovations in architecture, training strategies, and data curation. The model successfully demonstrates that smaller, well-designed models can achieve competitive performance with much larger counterparts across diverse multimodal tasks.  


== Source ==
== Sources ==
[https://arxiv.org/abs/2509.14033  Source : arxiv]
 
[https://github.com/BytedanceDouyinContent/SAIL-VL2  Source : GitHub]


[https://huggingface.co/papers/2509.14033  Source : huggingface]
[https://huggingface.co/papers/2509.14033  Source : huggingface]


[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
 
[[Catégorie:vocabulaire]]

Dernière version du 10 mars 2026 à 21:20

Définition

Modèle fondateur de génération image-à-texte conçu pour une compréhension et un raisonnement multimodaux complets. Il atteint des performances de pointe dans divers tests de performance grâce à la curation des données, à l'entraînement progressif et à l'architecture de mixture d'experts creuse.

Voir aussi entraînement

Français

SAIL-VL2

Anglais

SAIL-VL2

Vision-language foundation model for comprehensive multimodal understanding and reasoning. It achieves state-of-the-art performance across diverse benchmarks through data curation, progressive training, and sparse MoE architecture.

Sources

Source : arxiv

Source : GitHub

Source : huggingface

Contributeurs: Arianne Arel, wiki