« Parrot » : différence entre les versions

Version du 10 juin 2024 à 09:28

Définition

XXXXXXXXX

Français

Parrot

Anglais

Parrot

Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves. 
We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.

Source

Source : huggingface

Version du 10 juin 2024 à 09:28 (voir la source) Pitpitt (discussion \| contributions) Aucun résumé des modifications ← Modification précédente		Version du 10 juin 2024 à 09:28 (voir la source) Pitpitt (discussion \| contributions) Aucun résumé des modifications Modification suivante →
Ligne 9 :		Ligne 9 :

	Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.		Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs' inherent ability to react to multiple languages progressively deteriorate as the training process evolves.
	We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.		We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages.

« Parrot » : différence entre les versions

Version du 10 juin 2024 à 09:28

Définition

Français

Anglais

Source

« Parrot » : différence entre les versions