Génération automatique d'image

Définition

Branche de l'intelligence artificielle dont le but est de produire ou modifier des images fixes ou vidéo (c.-à-d. une série d'images) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides.

Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des images en réponse à une requête générative faite à un grand modèle de langues dit multimodal.

Voir génération texte-à-image, génération texte-à-vidéo.

Compléments

Les modèles multimodaux, associés aux robots conversationnels génératifs comme: ChatGPT, Claude ou Gemini, sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).

En gros, il existe deux approches pour la génération automatique d'images : 1) l'approche symbolique à base de règles et de gabarits, et 2) une approche statistique ou par apprentissage automatique où la technologie dominante est l'emploi de modèles de langue dits modèle multimodal qui sont entraînés sur de vastes corpus d'images. Il existe également des générateurs d'images à technologie hybride qui utilisent les deux approches.

La génération automatique d'image peut être appliquée aux images animées. On parle alors de génération automatique de vidéo.

La génération automatique d'image se fait souvent en utilisant un modèle à bruit statistique.

Notez que le concept de génération texte à image est plus spécifique.

Dans le cas de la modification d'images, on accompagne la requête générative d'une image.

Français

génération automatique d'image

génération / générateur automatique d'image

génération / générateur d'image

synthèse texte-image

synthèse texte-vidéo

Anglais

AI image generation

automatic image generation

image2image / image-to-image

text2image / text-to-image

text2video / text-to-video

Sources

Source : Légifrance

Source : journaldugeek

Source: arxiv

Source: OpenAI