« Parrot » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
XXXXXXXXX
Il s'agit d'une méthode qui utilise le texte comme guide pour conduire l'alignement visuel des segments au niveau de la langue et les convertit en vecteurs sémantiques compacts spécifique à celle-ci. Cette méthode possède d'excellentes capacités multilingues, contrairement aux grands modèles de langues multimodaux, qui disposent généralement d'un '''[[jeu de données]]''' déséquilibré, soit centré sur l'anglais.
 
Voir aussi '''[[grand modèle de langues]]''', '''[[modèle multimodal]]''', '''[[segment]]''' et '''[[vecteur sémantique compact]]'''
 
==Compléments==
Grâce à la conception du module de '''[[mixture d'experts]]''', Parrot peut rapidement apprendre à aligner des représentations visuelles dans plusieurs langues en utilisant une petite quantité de données image-texte multilingues. Parrot conditionne les segments visuels à diverses entrées linguistiques et utilise la mixture d'expert pour favoriser l'alignement des segments multilingues.


== Français ==
== Français ==
''' Parrot'''
''' Parrot'''
'''PARROT'''


== Anglais ==
== Anglais ==
''' Parrot'''
''' Parrot'''


Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. 
''' PARROT'''
We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.
 
''Parrot is a method that utilizes textual guidance to drive visual token alignment at the language level and converts them into language-specific embeddings. This method possesses excellent multilingual capabilities, unlike Multimodal Large Language Models that mostly have a imbalanced supervised fine-tuning dataset (English-centric''
 
''Due to the design of the MoE module, PARROT can rapidly learn to align visual representations across multiple languages by using a small amount of multilingual image-text data. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. ''


== Source ==
== Source ==
[https://arxiv.org/abs/2406.02539  Source : arxiv]


[https://huggingface.co/papers/2406.02539  Source : huggingface]
[https://huggingface.co/papers/2406.02539  Source : huggingface]




[[Catégorie:vocabulary]]
[[Catégorie:publication]]
[[Catégorie:vocabulaire]]

Version du 28 septembre 2024 à 10:55

Définition

Il s'agit d'une méthode qui utilise le texte comme guide pour conduire l'alignement visuel des segments au niveau de la langue et les convertit en vecteurs sémantiques compacts spécifique à celle-ci. Cette méthode possède d'excellentes capacités multilingues, contrairement aux grands modèles de langues multimodaux, qui disposent généralement d'un jeu de données déséquilibré, soit centré sur l'anglais.

Voir aussi grand modèle de langues, modèle multimodal, segment et vecteur sémantique compact

Compléments

Grâce à la conception du module de mixture d'experts, Parrot peut rapidement apprendre à aligner des représentations visuelles dans plusieurs langues en utilisant une petite quantité de données image-texte multilingues. Parrot conditionne les segments visuels à diverses entrées linguistiques et utilise la mixture d'expert pour favoriser l'alignement des segments multilingues.

Français

Parrot

PARROT

Anglais

Parrot

PARROT

Parrot is a method that utilizes textual guidance to drive visual token alignment at the language level and converts them into language-specific embeddings. This method possesses excellent multilingual capabilities, unlike Multimodal Large Language Models that mostly have a imbalanced supervised fine-tuning dataset (English-centric

Due to the design of the MoE module, PARROT can rapidly learn to align visual representations across multiple languages by using a small amount of multilingual image-text data. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.

Source

Source : arxiv

Source : huggingface

Contributeurs: Arianne , wiki