« SAIL-VL2 » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (Une version intermédiaire par le même utilisateur non affichée) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
'''[[Modèle fondateur]]''' de '''[[génération image-à-texte]]''' conçu pour une compréhension et un raisonnement multimodaux complets. Il atteint des performances de pointe dans divers '''[[Test de performance|tests de performance]]''' grâce à la curation des '''[[données]]''', à l'entraînement progressif et à l'architecture de '''[[mixture d'experts]]''' creuse. | |||
Voir aussi '''[[entraînement]]''' | |||
== Français == | == Français == | ||
| Ligne 9 : | Ligne 11 : | ||
'''SAIL-VL2''' | '''SAIL-VL2''' | ||
''Vision-language foundation model for comprehensive multimodal understanding and reasoning. It achieves state-of-the-art performance across diverse benchmarks through data curation, progressive training, and sparse MoE architecture.'' | |||
== | == Sources == | ||
[https://arxiv.org/abs/2509.14033 Source : arxiv] | |||
[https://github.com/BytedanceDouyinContent/SAIL-VL2 Source : GitHub] | |||
[https://huggingface.co/papers/2509.14033 Source : huggingface] | [https://huggingface.co/papers/2509.14033 Source : huggingface] | ||
[[Catégorie: | [[Catégorie:publication]] | ||
Dernière version du 10 mars 2026 à 13:45
Définition
Modèle fondateur de génération image-à-texte conçu pour une compréhension et un raisonnement multimodaux complets. Il atteint des performances de pointe dans divers tests de performance grâce à la curation des données, à l'entraînement progressif et à l'architecture de mixture d'experts creuse.
Voir aussi entraînement
Français
SAIL-VL2
Anglais
SAIL-VL2
Vision-language foundation model for comprehensive multimodal understanding and reasoning. It achieves state-of-the-art performance across diverse benchmarks through data curation, progressive training, and sparse MoE architecture.
Sources
Contributeurs: Arianne Arel, wiki





