Préentraînement contrastif langue-image
Définition
Approche qui prend l'entrée d'une image et la description textuelle de l'image et apprend à intégrer les représentations de l'image et du texte sur la surface d'une (hyper) sphère aussi précisément que possible.
Compléments
CLIP est un modèle open source, multimodal et sans prise de vue. À partir d'une image et de descriptions textuelles, le modèle peut prédire la description textuelle la plus pertinente pour cette image, sans optimisation pour une tâche particulière.
Français
CLIP
Anglais
CLIP
Constastive Language-Image Pretraining
Sources
Denis, Nicholas (2023) - Révolution : Une nouvelle approche de pré-entraînement d'apprentissage par transfert voit le jour!- Statistique Canada
- Introduction au contrastive learning : une forme d’apprentissage auto supervisé- Medium
Contributeurs: Patrick Drouin, wiki