« Génération automatique d'audio » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (Une version intermédiaire par le même utilisateur non affichée) | |||
| Ligne 39 : | Ligne 39 : | ||
'''AI audio generation''' | '''AI audio generation''' | ||
A branch of artificial intelligence whose aim is to produce audio, such as sound, music or voice, from computerized representations that are symbolic, learned (and resulting from machine learning), or hybrid. | |||
In the particular case of a dialogue or conversation between a person and a computer, the operation consists in producing or modifying audio content, in response to a generative request made to a large language model known as a multimodal model. | |||
See also: speech synthesis | |||
==Español== | ==Español== | ||
[[Catégorie:es]] | |||
''''' generación automática de audio ''''' | ''''' generación automática de audio ''''' | ||
Dernière version du 18 avril 2026 à 15:52
Définition
Branche de l'intelligence artificielle dont le but est de produire de l'audio, comme du son, de la musique ou une voix, à partir de représentations informatisées symboliques, apprises (et résultant d'un apprentissage automatique), ou encore hybrides.
Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des contenus audio, en réponse à une requête générative faite à un grand modèle de langues dit modèle multimodal.
Voir aussi synthèse de la parole
Compléments
En gros, il existe deux approches pour la génération automatique d'audio : 1) l'approche symbolique à base de règles et de gabarits, et 2) une approche statistique ou par apprentissage automatique où la technologie dominante utilise des modèles de langue dits multimodaux qui sont entraînés sur de vastes corpus audio. Il existe également des générateurs d'audio à technologie hybride qui utilisent les deux approches.
Les modèles multimodaux, associés aux robots conversationnels génératifs comme: ChatGPT, Claude ou Gemini, sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).
Français
génération / générateur automatique d'audio
génération / générateur d'audio
synthèse texte-audio
Anglais
automatic audio generation / generator
audio generation / generator
AI audio generation / generator
Contributeurs: Arianne Arel, Claude Coulombe, Espanol: JSZ, Patrick Drouin, wiki





