Transcription automatique de la parole


Révision datée du 17 août 2024 à 20:00 par Claude COULOMBE (discussion | contributions) (Page créée avec « == Définition == La transcription ou génération voix-vers-texte utilise un modèle de ''reconnaissance automatique de la parole'' pour convertir la voix humaine fournie en entrée vers un texte en sortie. L'usager parle dans un micro ou fournit un fichier audio de ses paroles et le modèle convertit le fichier audio en un texte. ==Compléments== Pour y arriver, un modèle d’apprentissage profond est entraîné sur un ensemble colossal de données ass... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

La transcription ou génération voix-vers-texte utilise un modèle de reconnaissance automatique de la parole pour convertir la voix humaine fournie en entrée vers un texte en sortie.

L'usager parle dans un micro ou fournit un fichier audio de ses paroles et le modèle convertit le fichier audio en un texte.

Compléments

Pour y arriver, un modèle d’apprentissage profond est entraîné sur un ensemble colossal de données associant de la parole à un texte, c’est-à-dire un clip sonore à un texte qui l'accompagne.

Le modèle de reconnaissance automatique de la parole peut être un modèle génératif voix-vers-texte.

Français

transcription

transcription de la voix

transcription de la parole

transcription voix vers texte

transcription parole vers texte

génération voix-vers-texte

génération parole-vers-texte

modèle génératif voix-vers-texte

modèle génératif voix vers texte

modèle génératif parole-vers-texte

voix-vers-texte

parole-vers-texte

Anglais

transcription

voice-to-text

voice to text

voice-2-text

voice2text

Sources

Source: L'entrepreneur.

Source: Actus du Web

Source: fr.techtribune.net


Contributeurs: Claude Coulombe, wiki