Préentraînement contrastif langue-image

Définition

Approche qui prend l'entrée d'une image et la description textuelle de l'image et apprend à intégrer les représentations de l'image et du texte sur la surface d'une (hyper) sphère aussi précisément que possible.

Compléments

CLIP est un modèle open source, multimodal et sans prise de vue. À partir d'une image et de descriptions textuelles, le modèle peut prédire la description textuelle la plus pertinente pour cette image, sans optimisation pour une tâche particulière.

Français

CLIP

Anglais

CLIP

Constastive Language-Image Pretraining

Sources

Denis, Nicholas (2023) - Révolution : Une nouvelle approche de pré-entraînement d'apprentissage par transfert voit le jour!- Statistique Canada

Medium