« Génération automatique d'audio » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(10 versions intermédiaires par 3 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Branche de l'[[intelligence artificielle]] dont le but est de produire de l'audio (son, musique, voix) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides. | |||
Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des contenus audio, en réponse à une [[requête générative]] faite à un [[grand modèle de langues]] dit [[multimodal|modèle multimodal]]. | |||
Voir [[synthèse de la parole]]. | |||
== Compléments == | |||
En gros, il existe deux approches pour la génération automatique d'audio : 1) l'[[intelligence artificielle symbolique|approche symbolique]] à base de règles et de gabarits, et 2) une approche statistique ou par [[apprentissage automatique]] où la technologie dominante utilise des [[modèle de langue|modèles de langue]] dits [[modèle multimodal|multimodaux]] qui sont entraînés sur de vastes corpus audio. Il existe également des générateurs d'audio à technologie hybride qui utilisent les deux approches. | |||
Les [[modèle multimodal|modèles multimodaux]], associés aux [[robot conversationnel génératif|robots conversationnels génératifs]] comme: [[ChatGPT]], [[Claude]] ou [[Gemini]], sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique). | |||
== Français == | |||
'''génération / générateur automatique d'audio''' | |||
'''génération / générateur d'audio''' | |||
'''synthèse texte-audio''' | |||
== Anglais == | |||
'''automatic audio generation / generator''' | |||
'''audio generation / generator''' | |||
'''AI audio generation / generator''' | |||
==Sources== | |||
[http://www.linguist.univ-paris-diderot.fr/~danlos/Dossier%20publis/GAT%2700.pdf Source : Université Paris Diderot ] | |||
== Compléments == | == Compléments == | ||
La génération automatique d'audio est notamment employée pour composer des œuvres musicales en imitant un style donné ou pour produire un énoncé oral en imitant une voix particulière. | La génération automatique d'audio est notamment employée pour composer des œuvres musicales en imitant un style donné ou pour produire un énoncé oral en imitant une voix particulière. | ||
La génération automatique de l'audio se fait souvent en utilisant un [[modèle à bruit statistique]]. | |||
Il ne faut pas confondre avec le concept de [[transcription automatique de la parole]]. | Il ne faut pas confondre avec le concept de [[transcription automatique de la parole]]. | ||
Ligne 14 : | Ligne 44 : | ||
'''audio generative AI''' | '''audio generative AI''' | ||
==Sources== | ==Sources== | ||
Ligne 21 : | Ligne 50 : | ||
[https://www.journaldugeek.com/2024/10/02/intelligence-artificielle-ne-dites-plus-prompt-et-llm-il-y-a-des-mots-francais-pour-ca/ Source : journaldugeek] | [https://www.journaldugeek.com/2024/10/02/intelligence-artificielle-ne-dites-plus-prompt-et-llm-il-y-a-des-mots-francais-pour-ca/ Source : journaldugeek] | ||
[[Catégorie:101]] | |||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 24 octobre 2024 à 20:48
Définition
Branche de l'intelligence artificielle dont le but est de produire de l'audio (son, musique, voix) à partir de représentations informatisées symboliques, apprises et résultant d'un apprentissage automatique ou hybrides.
Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des contenus audio, en réponse à une requête générative faite à un grand modèle de langues dit modèle multimodal.
Voir synthèse de la parole.
Compléments
En gros, il existe deux approches pour la génération automatique d'audio : 1) l'approche symbolique à base de règles et de gabarits, et 2) une approche statistique ou par apprentissage automatique où la technologie dominante utilise des modèles de langue dits multimodaux qui sont entraînés sur de vastes corpus audio. Il existe également des générateurs d'audio à technologie hybride qui utilisent les deux approches.
Les modèles multimodaux, associés aux robots conversationnels génératifs comme: ChatGPT, Claude ou Gemini, sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).
Français
génération / générateur automatique d'audio
génération / générateur d'audio
synthèse texte-audio
Anglais
automatic audio generation / generator
audio generation / generator
AI audio generation / generator
Sources
Source : Université Paris Diderot
Compléments
La génération automatique d'audio est notamment employée pour composer des œuvres musicales en imitant un style donné ou pour produire un énoncé oral en imitant une voix particulière.
La génération automatique de l'audio se fait souvent en utilisant un modèle à bruit statistique.
Il ne faut pas confondre avec le concept de transcription automatique de la parole.
Français
génération automatique d'audio
Anglais
AI audio generation
audio generative AI
Sources
Contributeurs: Claude Coulombe, Patrick Drouin, wiki