« AudioPaLM » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' AudioPaLM''' == Anglais == ''' AudioPaLM''' '''Abstract.''' We introduce AudioPaLM, a large langu... »)
 
m (Remplacement de texte : « ↵↵↵ » par «   »)
 
(5 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
== Définition ==
XXXXXXXXX
AudioPaLM est un modèle de langage pour la compréhension et la génération de la parole. Il fusionne les modèles de langage basés sur le texte et la parole, PaLM-2 [Anil et al., 2023] et AudioLM [Borsos et al., 2022], en une architecture multimodale unifiée qui peut traiter et générer du texte et de la parole avec des applications de reconnaissance vocale.


== Français ==
== Français ==
''' AudioPaLM'''
'''AudioPaLM'''


== Anglais ==
== Anglais ==
''' AudioPaLM'''
'''AudioPaLM'''


  '''Abstract.''' We introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation. AudioPaLM inherits the capability to preserve paralinguistic information such as speaker identity and intonation from AudioLM and the linguistic knowledge present only in text large language models such as PaLM-2. We demonstrate that initializing AudioPaLM with the weights of a text-only large language model improves speech processing, successfully leveraging the larger quantity of text training data used in pretraining to assist with the speech tasks. The resulting model significantly outperforms existing systems for speech translation tasks and has the ability to perform zero-shot speech-to-text translation for many languages for which input/target language combinations were not seen in training. AudioPaLM also demonstrates features of audio language models, such as transferring a voice across languages based on a short spoken prompt.
==Sources==


<small>
[https://google-research.github.io/seanet/audiopalm/examples/  Source : google-research]


[https://google-research.github.io/seanet/audiopalm/examples/  Source : google-research]
[[Catégorie:ENGLISH]]


[[Catégorie:vocabulaire]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 29 janvier 2024 à 11:19

Définition

AudioPaLM est un modèle de langage pour la compréhension et la génération de la parole. Il fusionne les modèles de langage basés sur le texte et la parole, PaLM-2 [Anil et al., 2023] et AudioLM [Borsos et al., 2022], en une architecture multimodale unifiée qui peut traiter et générer du texte et de la parole avec des applications de reconnaissance vocale.

Français

AudioPaLM

Anglais

AudioPaLM

Sources

Source : google-research



Contributeurs: Maya Pentsch, wiki