« Génération automatique d'image » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(3 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
Branche de l'[[intelligence artificielle]] dont le but est de produire ou modifier des images fixes ou vidéo (c.-à-d. série d'images) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides.
Branche de l'[[intelligence artificielle]] dont le but est de produire ou modifier des images fixes ou vidéo (c.-à-d. une série d'images) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides.


Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des images en réponse à une [[requête générative]] faite à un [[grand modèle de langues]] dit [[multimodal|modèle multimodal]].  
Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des images en réponse à une [[requête générative]] faite à un [[grand modèle de langues]] dit [[modèle multimodal|multimodal]].  


Voir [[génération texte-à-image]], [[génération texte-à-vidéo]].
Voir [[génération texte-à-image]], [[génération texte-à-vidéo]].
== Compléments ==
== Compléments ==
Les [modèle multimodal|modèles multimodaux], associés aux [[robot conversationnel génératif|robots conversationnels génératifs]] comme: [[ChatGPT]], [[Claude]] ou [[Gemini]], sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).
Les [[modèle multimodal|modèles multimodaux]], associés aux [[robot conversationnel génératif|robots conversationnels génératifs]] comme: [[ChatGPT]], [[Claude]] ou [[Gemini]], sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).
<hr/>
<hr/>
En gros, il existe deux approches pour la génération automatique d'images : 1) l'[[intelligence artificielle symbolique|approche symbolique]] à base de règles et de gabarits, et 2) une approche statistique ou par [[apprentissage automatique]] où la technologie dominante est l'emploi de [[modèle de langue|modèles de langue]] qui sont entraînés sur de vastes corpus d'images. Il existe également des générateurs d'images à technologie hybride qui utilisent les deux approches.  
En gros, il existe deux approches pour la génération automatique d'images : 1) l'[[intelligence artificielle symbolique|approche symbolique]] à base de règles et de gabarits, et 2) une approche statistique ou par [[apprentissage automatique]] où la technologie dominante est l'emploi de [[modèle de langue|modèles de langue]] dits [[multimodaux|modèle multimodal]] qui sont entraînés sur de vastes corpus d'images. Il existe également des générateurs d'images à technologie hybride qui utilisent les deux approches.  
<hr/>
<hr/>
La génération automatique d'image peut être appliquée aux images animées. On parle alors de [[génération texte-à-vidéo|génération automatique de vidéo]].  
La génération automatique d'image peut être appliquée aux images animées. On parle alors de [[génération texte-à-vidéo|génération automatique de vidéo]].  

Dernière version du 22 octobre 2024 à 15:38

Définition

Branche de l'intelligence artificielle dont le but est de produire ou modifier des images fixes ou vidéo (c.-à-d. une série d'images) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides.

Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des images en réponse à une requête générative faite à un grand modèle de langues dit multimodal.

Voir génération texte-à-image, génération texte-à-vidéo.

Compléments

Les modèles multimodaux, associés aux robots conversationnels génératifs comme: ChatGPT, Claude ou Gemini, sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).


En gros, il existe deux approches pour la génération automatique d'images : 1) l'approche symbolique à base de règles et de gabarits, et 2) une approche statistique ou par apprentissage automatique où la technologie dominante est l'emploi de modèles de langue dits modèle multimodal qui sont entraînés sur de vastes corpus d'images. Il existe également des générateurs d'images à technologie hybride qui utilisent les deux approches.


La génération automatique d'image peut être appliquée aux images animées. On parle alors de génération automatique de vidéo.


La génération automatique d'image se fait souvent en utilisant un modèle à bruit statistique.


Notez que le concept de génération texte à image est plus spécifique.


Dans le cas de la modification d'images, on accompagne la requête générative d'une image.

Français

génération automatique d'image

génération / générateur automatique d'image

génération / générateur d'image

synthèse texte-image

synthèse texte-vidéo

Anglais

AI image generation

automatic image generation

image2image / image-to-image

text2image / text-to-image

text2video / text-to-video

Sources

Source : Légifrance

Source : journaldugeek

Source: arxiv

Source: OpenAI