Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG

Thibault Gaudier, Marie Tahon, Anthony Larcher, Yannick Estève


Abstract
La création de contenu journalistique peut être assistée par des outils technologiques comme la synthèse de parole. Cependant l’éditeur doit avoir la possibilité de contrôler la génération du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un système de conversion de voix génère un signal de locuteur cible à partir d’une représentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d’un audio source. Les PPGs démêlent le contenu phonétique du contenu rythmique, et sont généralement considérés indépendants du locuteur. Cet article présente un système de conversion utilisant les PPGs, et son évaluation en qualité audio avec un test perceptif. Nous montrons également qu’un système de vérification du locuteur ne parvient pas à identifier le locuteur source après la conversion, même si le modèle a été entraîné sur des données synthétiques.
Anthology ID:
2024.jeptalnrecital-jep.60
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
579–588
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.60
DOI:
Bibkey:
Cite (ACL):
Thibault Gaudier, Marie Tahon, Anthony Larcher, and Yannick Estève. 2024. Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG. In Actes des 35èmes Journées d'Études sur la Parole, pages 579–588, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG (Gaudier et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-jep.60.pdf