« Modèle multimodal vision-langue-action » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (3 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Classe de [[modèle fondateur|modèles fondateurs]] [[Modèle multimodal|multimodaux]] unifiés qui intègrent la vision, la langue et les actions (par exemple des mouvements dans l'espace). | Classe de [[modèle fondateur|modèles fondateurs]] [[Modèle multimodal|multimodaux]] unifiés qui intègrent la vision, la langue et les actions (par exemple, des mouvements dans l'espace). | ||
== Compléments == | == Compléments == | ||
| Ligne 7 : | Ligne 7 : | ||
Ils peuvent avoir divers domaines d'application, tels que la '''[[robotique]]''' '''[[humanoïde]]''', les véhicules autonomes, la robotique médicale et industrielle, l'agriculture de précision et le déplacement en '''[[réalité augmentée]]'''. | Ils peuvent avoir divers domaines d'application, tels que la '''[[robotique]]''' '''[[humanoïde]]''', les véhicules autonomes, la robotique médicale et industrielle, l'agriculture de précision et le déplacement en '''[[réalité augmentée]]'''. | ||
Voir aussi | On peut, par exemple, donner des instructions à robot sans apprentissage spécifique. On peut donc lui demander de ramasser au sol un objet tombé sans l'avoir au préalable entraîné pour répondre à cette commande. | ||
Voir aussi '''[[modèle fondateur]]''' et '''[[modèle multimodal]]''' | |||
== Français == | == Français == | ||
'''modèle multimodal vision-langue-action''' | '''modèle multimodal vision-langue-action''' | ||
'''modèle multimodal vision-language-action''' | |||
'''modèle multimodal VLA''' | |||
== Anglais == | == Anglais == | ||
Dernière version du 10 mars 2026 à 15:06
Définition
Classe de modèles fondateurs multimodaux unifiés qui intègrent la vision, la langue et les actions (par exemple, des mouvements dans l'espace).
Compléments
En d'autres termes, ces modèles (conceptualisés vers 2021-2022) combinent des encodeurs visuels, des modèles de langue et des modules de politique d'action pour percevoir leur environnement, comprendre des instructions complexes et exécuter des actions appropriées de manière dynamique.
Ils peuvent avoir divers domaines d'application, tels que la robotique humanoïde, les véhicules autonomes, la robotique médicale et industrielle, l'agriculture de précision et le déplacement en réalité augmentée.
On peut, par exemple, donner des instructions à robot sans apprentissage spécifique. On peut donc lui demander de ramasser au sol un objet tombé sans l'avoir au préalable entraîné pour répondre à cette commande.
Voir aussi modèle fondateur et modèle multimodal
Français
modèle multimodal vision-langue-action
modèle multimodal vision-language-action
modèle multimodal VLA
Anglais
Vision-Language-Action Model
VLA
VLA model
A class of multimodal foundation models that integrates vision, language and actions, conceptualized around 2021-2022. In other words, VLA combines vision encoders, language models and policy modules or planners to achieve the perception of their surroundings, understand complex instructions, and execute appropriate actions dynamically. VLAs can have diverse application domains such as humanoid robotics, autonomous vehicles, medical and industrial robotics, precision agriculture, and augmented reality navigation.
Sources
Contributeurs: Arianne Arel, Patrick Drouin





