Modèle multimodal vision-langue-action

Définition

Classe de modèles fondateurs multimodaux unifiés qui intègrent la vision, la langue et les actions (par exemple, des mouvements dans l'espace).

Compléments

En d'autres termes, ces modèles (conceptualisés vers 2021-2022) combinent des encodeurs visuels, des modèles de langue et des modules de politique d'action pour percevoir leur environnement, comprendre des instructions complexes et exécuter des actions appropriées de manière dynamique.

Ils peuvent avoir divers domaines d'application, tels que la robotique humanoïde, les véhicules autonomes, la robotique médicale et industrielle, l'agriculture de précision et le déplacement en réalité augmentée.

On peut, par exemple, donner des instructions à robot sans apprentissage spécifique. On peut donc lui demander de ramasser au sol un objet tombé sans l'avoir au préalable entraîné pour répondre à cette commande.

Voir aussi modèle fondateur et modèle multimodal

Français

modèle multimodal vision-langue-action

modèle multimodal vision-language-action

modèle multimodal VLA

Anglais

Vision-Language-Action Model

VLA

VLA model

A class of multimodal foundation models that integrates vision, language and actions, conceptualized around 2021-2022. In other words, VLA combines vision encoders, language models and policy modules or planners to achieve the perception of their surroundings, understand complex instructions, and execute appropriate actions dynamically. VLAs can have diverse application domains such as humanoid robotics, autonomous vehicles, medical and industrial robotics, precision agriculture, and augmented reality navigation.

Sources

Source : Arxiv

Source : Wikipedia