Vision-Language-Action Model


en construction

Définition

Conceptualisés vers 2021-2022, il s'agit d'une classe de modèles fondateurs multimodaux qui intègrent la vision, la langue et les actions. En d'autres termes, ces modèles combinent des encodeurs visuels, des modèles de langue et des modules de politique d'action pour percevoir leur environnement, comprendre des instructions complexes et exécuter des actions appropriées de manière dynamique.

Ils peuvent avoir divers domaines d'application, tels que la robotique humanoïde, les véhicules autonomes, la robotique médicale et industrielle, l'agriculture de précision et le déplacement en réalité augmentée.

Voir aussi encodeur, modèle fondateur et modèle multimodal

Français

XXXXXXXX

Anglais

Vision-Language-Action Model

VLA

VLA model

A class of multimodal foundation models that integrates vision, language and actions, conceptualized around 2021-2022. In other words, VLA combines vision encoders, language models and policy modules or planners to achieve the perception of their surroundings, understand complex instructions, and execute appropriate actions dynamically. VLAs can have diverse application domains such as humanoid robotics, autonomous vehicles, medical and industrial robotics, precision agriculture, and augmented reality navigation.

Sources

Source : Arxiv

Source : Wikipedia

Contributeurs: Arianne Arel