Préentraînement contrastif langue-image


Révision datée du 25 janvier 2024 à 15:20 par Patrickdrouin (discussion | contributions) (Page créée avec « ==Définition== Approche qui prend l'entrée d'une image et la description textuelle de l'image et apprend à intégrer les représentations de l'image et du texte sur la surface d'une (hyper) sphère aussi précisément que possible. == Compléments == CLIP est un modèle open source, multimodal et sans prise de vue. À partir d'une image et de descriptions textuelles, le modèle peut prédire la description textuelle la plus pertinente pour cette image, sans o... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Approche qui prend l'entrée d'une image et la description textuelle de l'image et apprend à intégrer les représentations de l'image et du texte sur la surface d'une (hyper) sphère aussi précisément que possible.

Compléments

CLIP est un modèle open source, multimodal et sans prise de vue. À partir d'une image et de descriptions textuelles, le modèle peut prédire la description textuelle la plus pertinente pour cette image, sans optimisation pour une tâche particulière.

Français

CLIP

Anglais

CLIP

Constastive Language-Image Pretraining

Sources

Denis, Nicholas (2023) - Révolution : Une nouvelle approche de pré-entraînement d'apprentissage par transfert voit le jour!- Statistique Canada

Medium

Contributeurs: Patrick Drouin, wiki