Parrot - Historique des versions

Pitpitt le 28 septembre 2024 à 17:37

2024-09-28T17:37:14Z

← Version précédente		Version du 28 septembre 2024 à 13:37
Ligne 28 :		Ligne 28 :


	[[Catégorie:~~publication~~]]		[[Catégorie:ENGLISH]]

			[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Arianne le 28 septembre 2024 à 16:03

2024-09-28T16:03:54Z

← Version précédente		Version du 28 septembre 2024 à 12:03
Ligne 1 :		Ligne 1 :
	== Définition ==		== Définition ==
	Il s'agit d'une méthode qui utilise le texte comme guide pour conduire l'alignement visuel des segments au niveau de la langue et les convertit en vecteurs sémantiques compacts spécifique à celle-ci. Cette méthode possède d'excellentes capacités multilingues, contrairement aux grands modèles de langues multimodaux, qui disposent généralement d'un '''[[jeu de données]]''' déséquilibré, ~~soit~~ centré sur l'anglais.		Il s'agit d'une méthode qui utilise le texte comme guide pour conduire l'alignement visuel des segments au niveau de la langue et les convertit en vecteurs sémantiques compacts spécifique à celle-ci. Cette méthode possède d'excellentes capacités multilingues, contrairement aux grands modèles de langues multimodaux, qui disposent généralement d'un '''[[jeu de données]]''' de paramètres peaufiné, mais déséquilibré, centré sur l'anglais.

	Voir aussi '''[[grand modèle de langues]]''', '''[[modèle multimodal]]''', '''[[segment]]''' et '''[[vecteur sémantique compact]]'''		Voir aussi '''[[grand modèle de langues]]''', '''[[modèle multimodal]]''', '''[[peaufinage]]''', '''[[segment]]''' et '''[[vecteur sémantique compact]]'''

	==Compléments==		==Compléments==

Arianne le 28 septembre 2024 à 15:55

2024-09-28T15:55:05Z

← Version précédente		Version du 28 septembre 2024 à 11:55
Ligne 1 :		Ligne 1 :
	== Définition ==		== Définition ==
	~~XXXXXXXXX~~		Il s'agit d'une méthode qui utilise le texte comme guide pour conduire l'alignement visuel des segments au niveau de la langue et les convertit en vecteurs sémantiques compacts spécifique à celle-ci. Cette méthode possède d'excellentes capacités multilingues, contrairement aux grands modèles de langues multimodaux, qui disposent généralement d'un '''[[jeu de données]]''' déséquilibré, soit centré sur l'anglais.

			Voir aussi '''[[grand modèle de langues]]''', '''[[modèle multimodal]]''', '''[[segment]]''' et '''[[vecteur sémantique compact]]'''

			==Compléments==
			Grâce à la conception du module de '''[[mixture d'experts]]''', Parrot peut rapidement apprendre à aligner des représentations visuelles dans plusieurs langues en utilisant une petite quantité de données image-texte multilingues. Parrot conditionne les segments visuels à diverses entrées linguistiques et utilise la mixture d'expert pour favoriser l'alignement des segments multilingues.

	== Français ==		== Français ==
	''' Parrot'''		''' Parrot'''

			'''PARROT'''

	== Anglais ==		== Anglais ==
	''' Parrot'''		''' Parrot'''

	~~Existing methods mainly focus on aligning vision encoders with LLMs through~~ supervised fine-tuning (~~SFT)~~ to ~~endow LLMs with multimodal abilities~~, ~~making MLLMs' inherent ability to react~~ to multiple languages ~~progressively deteriorate as the training process evolves~~.		''' PARROT'''
	~~We empirically find that~~ the ~~imbalanced SFT datasets, primarily composed~~ of ~~English~~-~~centric image-text pairs, lead~~ to ~~significantly reduced performance in non-English languages~~.
			''Parrot is a method that utilizes textual guidance to drive visual token alignment at the language level and converts them into language-specific embeddings. This method possesses excellent multilingual capabilities, unlike Multimodal Large Language Models that mostly have a imbalanced supervised fine-tuning dataset (English-centric''

			''Due to the design of the MoE module, PARROT can rapidly learn to align visual representations across multiple languages by using a small amount of multilingual image-text data. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. ''

	== Source ==		== Source ==

			[https://arxiv.org/abs/2406.02539 Source : arxiv]

	[https://huggingface.co/papers/2406.02539 Source : huggingface]		[https://huggingface.co/papers/2406.02539 Source : huggingface]


	[[Catégorie:~~vocabulary]]~~		[[Catégorie:publication]]
	~~[[Catégorie:vocabulaire~~]]

Pitpitt le 10 juin 2024 à 13:59

2024-06-10T13:59:22Z

← Version précédente		Version du 10 juin 2024 à 09:59
Ligne 18 :		Ligne 18 :

	[[Catégorie:vocabulary]]		[[Catégorie:vocabulary]]
			[[Catégorie:vocabulaire]]

Pitpitt le 10 juin 2024 à 13:28

2024-06-10T13:28:50Z

← Version précédente		Version du 10 juin 2024 à 09:28
Ligne 9 :		Ligne 9 :

	Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.		Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.
	We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.		We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.

Pitpitt le 10 juin 2024 à 13:28

2024-06-10T13:28:29Z

← Version précédente		Version du 10 juin 2024 à 09:28
Ligne 8 :		Ligne 8 :
	''' Parrot'''		''' Parrot'''

			Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.
	Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.
	We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.		We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.

Pitpitt : Page créée avec « == Définition == XXXXXXXXX == Français == ''' Parrot''' == Anglais == ''' Parrot''' Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs... »

2024-06-10T13:28:17Z

Page créée avec « == Définition == XXXXXXXXX == Français == ''' Parrot''' == Anglais == ''' Parrot''' Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs... »

Nouvelle page

== Définition ==
XXXXXXXXX

== Français ==
''' Parrot'''

== Anglais ==
''' Parrot'''

Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.
We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.

== Source ==

[https://huggingface.co/papers/2406.02539 Source : huggingface]

[[Catégorie:vocabulary]]