@inproceedings{gaudier-etal-2024-verification,
title = "V{\'e}rification automatique de la voix de locuteurs apr{\`e}s resynth{\`e}se {\`a} l{'}aide de {PPG}",
author = "Gaudier, Thibault and
Tahon, Marie and
Larcher, Anthony and
Est{\`e}ve, Yannick",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.60",
pages = "579--588",
abstract = "La cr{\'e}ation de contenu journalistique peut {\^e}tre assist{\'e}e par des outils technologiques comme la synth{\`e}se de parole. Cependant l{'}{\'e}diteur doit avoir la possibilit{\'e} de contr{\^o}ler la g{\'e}n{\'e}ration du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un syst{\`e}me de conversion de voix g{\'e}n{\`e}re un signal de locuteur cible {\`a} partir d{'}une repr{\'e}sentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d{'}un audio source. Les PPGs d{\'e}m{\^e}lent le contenu phon{\'e}tique du contenu rythmique, et sont g{\'e}n{\'e}ralement consid{\'e}r{\'e}s ind{\'e}pendants du locuteur. Cet article pr{\'e}sente un syst{\`e}me de conversion utilisant les PPGs, et son {\'e}valuation en qualit{\'e} audio avec un test perceptif. Nous montrons {\'e}galement qu{'}un syst{\`e}me de v{\'e}rification du locuteur ne parvient pas {\`a} identifier le locuteur source apr{\`e}s la conversion, m{\^e}me si le mod{\`e}le a {\'e}t{\'e} entra{\^\i}n{\'e} sur des donn{\'e}es synth{\'e}tiques.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="gaudier-etal-2024-verification">
<titleInfo>
<title>Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG</title>
</titleInfo>
<name type="personal">
<namePart type="given">Thibault</namePart>
<namePart type="family">Gaudier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marie</namePart>
<namePart type="family">Tahon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anthony</namePart>
<namePart type="family">Larcher</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Yannick</namePart>
<namePart type="family">Estève</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La création de contenu journalistique peut être assistée par des outils technologiques comme la synthèse de parole. Cependant l’éditeur doit avoir la possibilité de contrôler la génération du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un système de conversion de voix génère un signal de locuteur cible à partir d’une représentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d’un audio source. Les PPGs démêlent le contenu phonétique du contenu rythmique, et sont généralement considérés indépendants du locuteur. Cet article présente un système de conversion utilisant les PPGs, et son évaluation en qualité audio avec un test perceptif. Nous montrons également qu’un système de vérification du locuteur ne parvient pas à identifier le locuteur source après la conversion, même si le modèle a été entraîné sur des données synthétiques.</abstract>
<identifier type="citekey">gaudier-etal-2024-verification</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.60</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>579</start>
<end>588</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG
%A Gaudier, Thibault
%A Tahon, Marie
%A Larcher, Anthony
%A Estève, Yannick
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G French
%F gaudier-etal-2024-verification
%X La création de contenu journalistique peut être assistée par des outils technologiques comme la synthèse de parole. Cependant l’éditeur doit avoir la possibilité de contrôler la génération du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un système de conversion de voix génère un signal de locuteur cible à partir d’une représentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d’un audio source. Les PPGs démêlent le contenu phonétique du contenu rythmique, et sont généralement considérés indépendants du locuteur. Cet article présente un système de conversion utilisant les PPGs, et son évaluation en qualité audio avec un test perceptif. Nous montrons également qu’un système de vérification du locuteur ne parvient pas à identifier le locuteur source après la conversion, même si le modèle a été entraîné sur des données synthétiques.
%U https://aclanthology.org/2024.jeptalnrecital-jep.60
%P 579-588
Markdown (Informal)
[Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG](https://aclanthology.org/2024.jeptalnrecital-jep.60) (Gaudier et al., JEP/TALN/RECITAL 2024)
ACL