Parrot


Révision datée du 28 septembre 2024 à 13:37 par Pitpitt (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Il s'agit d'une méthode qui utilise le texte comme guide pour conduire l'alignement visuel des segments au niveau de la langue et les convertit en vecteurs sémantiques compacts spécifique à celle-ci. Cette méthode possède d'excellentes capacités multilingues, contrairement aux grands modèles de langues multimodaux, qui disposent généralement d'un jeu de données de paramètres peaufiné, mais déséquilibré, centré sur l'anglais.

Voir aussi grand modèle de langues, modèle multimodal, peaufinage, segment et vecteur sémantique compact

Compléments

Grâce à la conception du module de mixture d'experts, Parrot peut rapidement apprendre à aligner des représentations visuelles dans plusieurs langues en utilisant une petite quantité de données image-texte multilingues. Parrot conditionne les segments visuels à diverses entrées linguistiques et utilise la mixture d'expert pour favoriser l'alignement des segments multilingues.

Français

Parrot

PARROT

Anglais

Parrot

PARROT

Parrot is a method that utilizes textual guidance to drive visual token alignment at the language level and converts them into language-specific embeddings. This method possesses excellent multilingual capabilities, unlike Multimodal Large Language Models that mostly have a imbalanced supervised fine-tuning dataset (English-centric

Due to the design of the MoE module, PARROT can rapidly learn to align visual representations across multiple languages by using a small amount of multilingual image-text data. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens.

Source

Source : arxiv

Source : huggingface

Contributeurs: Arianne , wiki