« Génération automatique d'audio » : différence entre les versions

Dernière version du 18 avril 2026 à 15:52

Définition

Branche de l'intelligence artificielle dont le but est de produire de l'audio, comme du son, de la musique ou une voix, à partir de représentations informatisées symboliques, apprises (et résultant d'un apprentissage automatique), ou encore hybrides.

Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des contenus audio, en réponse à une requête générative faite à un grand modèle de langues dit modèle multimodal.

Voir aussi synthèse de la parole

Compléments

En gros, il existe deux approches pour la génération automatique d'audio : 1) l'approche symbolique à base de règles et de gabarits, et 2) une approche statistique ou par apprentissage automatique où la technologie dominante utilise des modèles de langue dits multimodaux qui sont entraînés sur de vastes corpus audio. Il existe également des générateurs d'audio à technologie hybride qui utilisent les deux approches.

Les modèles multimodaux, associés aux robots conversationnels génératifs comme: ChatGPT, Claude ou Gemini, sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).

Français

génération / générateur automatique d'audio

génération / générateur d'audio

synthèse texte-audio

Anglais

automatic audio generation / generator

audio generation / generator

AI audio generation / generator

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
-Branche de l'[[intelligence artificielle]] dont le but est de produire de l'audio (son, musique, voix) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides.
+Branche de l'[[intelligence artificielle]] dont le but est de produire de l'audio, comme du son, de la musique ou une voix, à partir de représentations informatisées symboliques, apprises (et résultant d'un [[apprentissage automatique]]), ou encore hybrides.
-Opération qui consiste à produire ou à modifier des contenus audio, en réponse à une [[requête générative]] faite à un [[grand modèle de langues]].
+Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des contenus audio, en réponse à une [[requête générative]] faite à un [[grand modèle de langues]] dit [[Modèle multimodal|modèle multimodal]].
-Le texte généré est généralement grammaticalement correct, sémantiquement cohérent et pragmatiquement pertinent.
+Voir aussi [[synthèse de la parole]]
-Un logiciel de génération automatique de texte est également appelé générateur de texte ou robot rédacteur, parfois rédacteur robot ou rédacteur automatique.
-Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, on parle alors d'un [[robot conversationnel]].
 == Compléments ==
-En gros, il existe deux approches pour la génération automatique de texte: 1) l'[[intelligence artificielle symbolique|approche symbolique]] à base de règles et de gabarits, et 2) une approche statistique ou par [[apprentissage automatique]] où la technologie dominante est l'emploi de [[modèle de langue|modèles de langue]] qui sont entraînés sur de vastes corpus de textes. Il existe également des générateurs de texte à technologie hybride qui utilisent les deux approches.
+En gros, il existe deux approches pour la génération automatique d'audio : 1) l'[[intelligence artificielle symbolique|approche symbolique]] à base de règles et de gabarits, et 2) une approche statistique ou par [[apprentissage automatique]] où la technologie dominante utilise des [[modèle de langue|modèles de langue]] dits [[modèle multimodal|multimodaux]] qui sont entraînés sur de vastes corpus audio. Il existe également des générateurs d'audio à technologie hybride qui utilisent les deux approches.
-Le plus souvent, les générateurs de texte spécialisés, par exemple pour écrire un bulletin météo, décrire des résultats sportifs ou commenter les cours de la bourse adoptent l'approche symbolique en partant de gabarits avec des parties variables et des règles qui pilotent la génération de texte à partir de données. Ces techniques offrent un meilleur contrôle sur le texte générés au prix d'une moins grande généralité.
-Les générateurs de texte généralistes, comme ceux des [[robot conversationnel|robots conversationnels]]: [[ChatGPT]], [[Claude]] ou [[Gemini]], se basent essentiellement sur des [[modèle de langue|modèles de langue]] capables de générer les prochains mots dans un texte. Ils ont l'avantage d'une grande généralité au prix d'un risque de [[fabulation|fabulations]].
+Les [[modèle multimodal|modèles multimodaux]], associés aux [[robot conversationnel génératif|robots conversationnels génératifs]] comme: [[ChatGPT]], [[Claude]] ou [[Gemini]], sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).
 == Français ==
-'''génération / générateur automatique de texte'''
+'''génération / générateur automatique d'audio'''
-'''génération / générateur de texte'''
+'''génération / générateur d'audio'''
-'''GAT'''
+'''synthèse texte-audio'''
-'''robot rédacteur'''
+== Anglais ==
+'''automatic audio generation / generator'''
-'''rédacteur robot'''
+'''audio generation / generator'''
-== Anglais ==
+'''AI audio generation / generator'''
-'''automatic text generation / generator'''
+<!--
+   == Compléments ==
+La génération automatique d'audio est notamment employée pour composer des œuvres musicales en imitant un style donné ou pour produire un énoncé oral en imitant une voix particulière.
-'''AI text generation / generator'''
+La génération automatique de l'audio se fait souvent en utilisant un [[modèle à bruit statistique]].
-'''text generation / generator'''
+Il ne faut pas confondre avec le concept de [[transcription automatique de la parole]].
-'''natural language text generation / generator'''
+== Français ==
+'''génération automatique d'audio'''
-'''natural language generation / generator'''
+== Anglais ==
+'''AI audio generation'''
-'''NLG'''
+A branch of artificial intelligence whose aim is to produce audio, such as sound, music or voice, from computerized representations that are symbolic, learned (and resulting from machine learning), or hybrid.
-'''automatic text writer'''
+In the particular case of a dialogue or conversation between a person and a computer, the operation consists in producing or modifying audio content, in response to a generative request made to a large language model known as a multimodal model.
-==Sources==
+See also: speech synthesis
-[http://www.linguist.univ-paris-diderot.fr/~danlos/Dossier%20publis/GAT%2700.pdf  Source : Université Paris Diderot ]
+==Español==
+[[Catégorie:es]]
-[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
+''''' generación automática de audio '''''
-[[Catégorie:publication]]
-[[Catégorie:101]]
-== Compléments ==
+''Una rama de la inteligencia artificial cuyo objetivo es producir audio, como sonido, música o voz, a partir de representaciones simbólicas computarizadas, aprendidas (y resultantes del aprendizaje automático), o incluso representaciones híbridas.''
-La génération automatique d'audio est notamment employée pour composer des œuvres musicales en imitant un style donné ou pour produire un énoncé oral en imitant une voix particulière.
-La génération automatique de l'audio se fait souvent en utilisant un [[modèle à bruit statistique]].
+''En el caso específico de un diálogo o conversación entre una persona y una computadora, la operación consiste en producir o modificar contenido de audio en respuesta a una consulta generativa realizada a un modelo lingüístico amplio conocido como modelo multimodal. Véase también: síntesis de voz.''
-Il ne faut pas confondre avec le concept de [[transcription automatique de la parole]].
-== Français ==
-'''génération automatique d'audio'''
-== Anglais ==
+==Sources==
-'''AI audio generation'''
-'''audio generative AI'''
+[http://www.linguist.univ-paris-diderot.fr/~danlos/Dossier%20publis/GAT%2700.pdf  Source : Université Paris Diderot ]
-==Sources==
 [https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000050185686  Source : Légifrance]
 [https://www.journaldugeek.com/2024/10/02/intelligence-artificielle-ne-dites-plus-prompt-et-llm-il-y-a-des-mots-francais-pour-ca/    Source : journaldugeek]
+{{Modèle:101}}
-[[Catégorie: Publication]]
+[[Catégorie:101]]
+[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

« Génération automatique d'audio » : différence entre les versions