28.10 Traitement de La Prononciation en Langue
28.10 Traitement de La Prononciation en Langue
28.10 Traitement de La Prononciation en Langue
RÉSUMÉ. Cet article, consacré au lien entre traitement automatique et apprentissage de la pro-
nonciation en L2, vise à offrir une vue d’ensemble des méthodes et pratiques actuellement en
cours dans les deux domaines de référence du sujet (la didactique des langues étrangères et
le traitement automatique de la parole), en nous concentrant sur la démarche de correction
phonétique, du diagnostic d’erreurs aux procédures de remédiation. L’un des composants les
plus novateurs de notre réflexion porte sur les apports de la phonologie de corpus, notamment
des corpus oraux d’apprenants de L2. Cette réflexion nous conduit à plaider en faveur d’une
approche interdisciplinaire plus riche entre didacticiens et ingénieurs de la parole afin d’en-
courager le développement des systèmes de correction automatique dans les curricula de L2.
ABSTRACT. This article focuses on the link between automatic speech processing and L2 pronun-
ciation learning. It stands as a “position paper” in favor of a more interdisciplinary perspective
between the fields of Spoken Language Processing and Second Language Education in the pro-
cess of designing user-friendly and pedagogically efficient Computer-Assisted Pronunciation
Training systems. It offers an overview of current approaches and techniques in both fields (sec-
ond language pronunciation teaching, from diagnostic to corrective feedback, and automatic
pronunciation errors detection and correction). One distinctive aspect of our contribution lies
in its connection with the field of corpus phonology, especially oral L2 learners’ corpora. In
conclusion, we call for more interactions between speech engineers and L2 education special-
ists to promote the use of such systems in L2 curricula.
MOTS-CLÉS : traitement automatique de la parole, prononciation en L2, corpus oraux.
KEYWORDS: spoken language processing, L2 pronunciation, speech corpora.
1. Introduction
Lorsque l’on se penche sur le rôle des avancées techniques en didactique des
langues, on doit rappeler le rôle essentiel joué par les phonéticiens au tournant du
XX e siècle dans la modernisation de la pédagogie des langues vivantes (le mouve-
ment dit de la « Réforme »). L’apport de la phonétique expérimentale y est essen-
tiel, lui-même rendu possible par les innovations techniques de l’époque, certaines
étant transformées en outils pédagogiques (guide-langue, olive nasale, phonographe)
(Galazzi, 2002). Au cours du XXe siècle, pourtant, la prononciation a souvent fait fi-
gure d’orpheline de la didactique, hormis dans certaines approches méthodologiques,
comme la méthodologie structuro-globale audio-visuelle (SGAV, Rivenc 2003). Les
développements technologiques portés par l’apprentissage des langues assisté par or-
dinateur (ALAO) ont réussi à durablement s’installer dans le marché pédagogique,
mais leur succès sur le plan phonético-phonologique semble n’avoir pas encore été à
la hauteur de ce que les avancées en ingénierie de la parole auraient pu laisser espérer.
Une des pistes de recherche les plus récentes dans la réflexion sur l’entraînement à
la prononciation assisté par ordinateur (EPAO, en anglais Computer-Assisted Pronun-
ciation Training, CAPT) concerne le rôle de plus en plus croissant de la phonologie de
corpus, en particulier des corpus d’apprenants, dans le développement des systèmes
d’EPAO. Si la linguistique de corpus a en effet été largement mise à profit dans le
domaine de l’ALAO depuis les années 1980 en particulier via l’utilisation de corpus
d’écrits natifs pour le développement de concordanciers et de ressources numériques
lexicographiques, ce n’est que plus récemment que les corpus oraux d’apprenants,
moins nombreux1 , ont commencé à être exploités en lien avec les technologies de re-
connaissance automatique de la parole (RAP) (Carranza et al., 2014). Toutefois, les
applications conçues dans cette optique restent encore limitées, tant dans la distinc-
tion, parfois complexe, entre ce qui relève de la phonétique et de la phonologie, que du
point de vue des besoins et des contingences didactiques. Dans cet article, nous adop-
tons comme point de départ la didactique des langues étrangères, pour rappeler que
les prouesses techniques ne peuvent être suivies de succès pédagogiques qu’à condi-
tion d’épouser les besoins contextualisés des apprenants de langue et de leurs ensei-
gnants. Nous rappelons dans un premier temps les enjeux d’apprentissage et les grands
traits des méthodes classiquement employées dans l’enseignement et la correction de
la prononciation (Champagne-Muzar et Bourdages, 1998 ; Lauret, 2007 ; Derwing et
Munro, 2015), avant d’examiner l’état actuel des systèmes d’évaluation automatique
de la parole et d’EPAO. Sur cette base, nous discutons enfin des défis méthodologiques
et techniques qui doivent être abordés par l’ingénierie de la parole si elle souhaite in-
tégrer les avancées les plus récentes dans le domaine de la prononciation en langue
étrangère (ci-après L2).
1. Consulter l’inventaire des corpus d’apprenants dans le monde, piloté par S. Granger :
https ://uclouvain.be/en/research-institutes/ilc/cecl/learner-corpora-around-the-world.html
TAP, apprentissage de la prononciation 17
2. Notre traduction.
18 TAL. Volume 57 – n◦ 3/2016
3. Il faut également noter que, dans le domaine du traitement de la parole, la distinction entre in-
telligibilité et compréhensibilité est souvent associée à celle entre transfert de forme (phonético-
acoustique) et transfert de sens. L’intelligibilité est généralement évaluée par des tâches de
transcription ou de répétition de mots, tandis que la compréhensibilité est testée dans des tâches
plus proches de situations de communication réelles et impliquant des processus cognitifs de
plus haut niveau (cf. Fontan et al., 2015 ; Wilson et Spaulding, 2010)
TAP, apprentissage de la prononciation 19
5. Voir le site de formation à la MVT réalisé par Michel Billières et son équipe :
http ://w3.uohprod.univ-tlse2.fr/UOH-PHONETIQUE-FLE/index.html
6. Voir également : http ://www.suvag.com/
22 TAL. Volume 57 – n◦ 3/2016
7. Notre traduction.
TAP, apprentissage de la prononciation 23
8. Dans un lexique de prononciations de RAP, le phone [z] sert à définir une variante de pronon-
ciation du premier mot, « elles », dans un souci d’économie. S’il était rattaché au second mot,
« arrivent », il faudrait le rattacher à toutes les prononciations des mots qui sont susceptibles de
suivre « elles » et commençant par une voyelle.
24 TAL. Volume 57 – n◦ 3/2016
À ce jour la majorité des travaux en détection automatique ont porté sur l’identifi-
cation d’erreurs segmentales – c’est-à-dire de phonèmes « mal réalisés » par des ap-
prenants de L2 (Eskenazi, 2009 ; Montacié et Caraty, 2015 ; Witt, 2012). À ce champ
de recherche dénommé individual error detection en anglais s’ajoutent les travaux sur
l’identification et la caractérisation d’erreurs à un niveau plus large – généralement de
l’ordre du mot ou de la phrase – champ de recherche que l’on désigne sous le terme
plus générique de pronunciation assessment (Eskenazi, 2009). Ces outils sont pour
la plupart développés à partir de corpus d’enregistrements de locuteurs L2 annotés
par des experts. C’est ce que l’on appelle l’apprentissage supervisé : le système « ap-
prend » à identifier des erreurs de prononciation en généralisant à partir d’exemples
qui lui ont été fournis. Les annotations d’experts (des informaticiens spécialisés dans
le traitement de la parole, des phonéticiens ou des enseignants de langue étrangère)
servent alors de référence (groundtruth evidence) pour l’entraînement du système.
La détection d’erreurs n’est qu’une première étape dans la création d’un outil d’en-
traînement à la prononciation. Pour être efficace, un système complet d’EPAO doit se
servir des éléments de diagnostic apportés par le module de détection d’erreurs pour
à terme proposer des éléments de correction appropriés. Dans cette optique et selon
Hansen (2006), le système doit répondre à quatre exigences : établir des éléments
de caractérisation qualitative (1) et quantitative (2) sur les éléments mal prononcés
(le diagnostic), et fournir en retour à l’apprenant des informations sous une forme
compréhensible (3) et lui permettant de corriger sa production (4) : le feedback. La
génération automatique de feedback a longtemps été guidée par ce qu’il était pos-
sible de faire techniquement bien plus que par des considérations d’ordre didactique
(Neri et al., 2002). L’implémentation peut-être la plus représentative d’un feedback
difficilement compréhensible par l’apprenant est la visualisation de la forme d’onde
correspondant au signal de parole prononcé, représentée à côté de la forme d’onde du
signal cible. Si l’apprenant peut avoir une idée de la distance entre les deux produc-
tions, avec ce genre de représentation il n’a aucune information qualitative sur ce qui
caractérise sa prononciation par rapport au modèle natif (Ai, 2013). Il risque donc de
répéter et de fossiliser ses erreurs plutôt que de les corriger (Eskenazi, 2009). Ce type
de feedback est présent dans des didacticiels actuels, comme par exemple dans les
versions les plus récentes du logiciel TELL ME MORE (2013). Pour aller plus loin,
des études ont porté sur la production d’indices utiles à l’autocorrection de la pronon-
ciation. En plus des informations purement quantitatives – c’est-à-dire des simples
scores de « bonne prononciation » – les systèmes ainsi élaborés profitent par exemple
des techniques d’alignement pour fournir à l’apprenant des informations sur l’endroit
exact de son erreur, que ce soit à l’échelle du phone (ex. dans le système Fonix Talk
SDK, 2016) ou bien du mot (Saz et Eskenazi, 2012). De même, en partant de l’idée
que pour être efficace un système d’EPAO doit aider l’apprenant à mieux percevoir
les différences entre sa prononciation et la prononciation native (Witt, 2012), d’autres
types de feedback ont été élaborés afin de fournir à l’apprenant des éléments informa-
tifs ou prescriptifs. Le premier type de feedback, et probablement le plus utilisé, est le
feedback de type articulatoire. Globalement, il s’agit soit de montrer à l’apprenant un
modèle du mouvement cible à réaliser pour un son de parole (Miyakoda, 2013), soit
de lui montrer son propre mouvement à partir d’algorithmes d’inversion articulatoire
(Hueber, 2013). Le feedback auditif permet aussi de faire prendre conscience à l’ap-
TAP, apprentissage de la prononciation 27
prenant des différences entre sa production et un modèle natif (Ai, 2013) par divers
biais :
– l’emphase : la synthèse de la parole permet par exemple de faire un focus sur
l’endroit où l’apprenant a fait une erreur (Meng et al., 2012) ;
– l’exagération : Lu et al. (2002) exagèrent par exemple les trois paramètres acous-
tiques de l’accentuation pour mieux faire percevoir le contraste entre syllabes accen-
tuées et inaccentuées aux apprenants ;
– la transposition prosodique : des paramètres prosodiques (ex. les contours into-
natifs) de l’énoncé cible sont transposés sur l’énoncé de l’apprenant. Ce dernier peut
donc entendre l’énoncé cible avec sa propre voix. Ce type de technique repose sur des
études ayant montré que le feedback auditif était d’autant plus efficace que la voix
utilisée était proche de celle de l’apprenant (Eskenazi, 2009).
Il faut néanmoins souligner que la plupart des systèmes automatiques se sont fo-
calisés sur la détection d’erreurs et non sur le feedback car ce n’est plus problème
purement d’ingénierie, ce qui est donc plus difficile à appréhender pour les chercheurs
en TAP. À noter également que la majorité des systèmes automatiques abordent princi-
palement les difficultés d’ordre segmental, et bien moins celles d’ordre suprasegmen-
tal. Ainsi, comparativement, assez peu d’entre eux se sont investis dans la correction
de l’intonation qui est pourtant l’un des aspects prioritaires à traiter dans l’enseigne-
ment/apprentissage d’une L2. Les travaux en la matière sont davantage le fait de lin-
guistes, par exemple le logiciel WinPitch (Martin, 2004, http ://www.winpitch.com/),
décliné en plusieurs versions : Pro W8 pour la recherche en prosodie, LTL W8 pour
les enseignants avec possibilité de créer des leçons et des tests de prononciation, LTL
simple, pour les apprenants, avec système d’alignement automatique pour la détection
des erreurs et des fonctions de morphing prosodique. Ce système permet de visualiser
les courbes intonatives produites par l’apprenant, avec surlignage coloré, d’ajuster la
vitesse de lecture, de comparer par alignement automatique le modèle de l’enseignant
et la production de l’apprenant, etc.
format et du feedback offerts par les produits pédagogiques dérivés des systèmes de
reconnaissance automatique.
référence au système cible visé, variable selon les communautés), cette orientation,
couplée aux résultats de tests perceptifs, conduirait également à une procédure d’éva-
luation sensible aux degrés d’acceptabilité sociolinguistique des productions, si pos-
sible en termes d’intelligibilité, de compréhensibilité et de précision, davantage axées
sur des frontières floues que catégoriques. La question du rapport entre normes natives
et non natives, tant en production qu’en perception, pour les apprenants se trouve donc
au cœur de la réflexion, et il faut, pour ces dernières, y inclure les apports des corpus
d’apprenants.
à traiter en priorité les éléments perçus par les auditeurs natifs non experts, avant de
se pencher sur le détail phonétique fin des productions (par exemple dans le projet
Interphonologie du français contemporain (IPFC), voir Detey et al., 2016b). La valeur
ajoutée de l’évaluation humaine d’une part, et celle de l’intégration de formes non
natives aux lexiques de référence d’autre part, de manière à tenir compte des normes
non natives, sont à présent bien repérées dans le domaine (Detey, 2012), et l’usage de
corpus d’apprenants pour améliorer la détection et la correction automatique d’erreurs
d’apprenants occupe de nombreux chercheurs (Gamon et al., 2013). Or, l’approche
(iii) attire l’attention des concepteurs (et des utilisateurs) des systèmes d’EPAO sur la
définition de la cible : quelle flexibilité faut-il se permettre dans l’établissement de la
cible et à quel niveau (phonétique, phonologique) ? Quel type de mesure adopter pour
l’évaluation de l’écart entre la production et la cible ? Sur le plan phonétique la cible
doit-elle être définie en termes de catégorie phonémique, en termes de traits pho-
nétiques, de mesure acoustique ou de catégorisation psycho-acoustique ? Enfin, elle
souligne également la nécessité d’intégrer l’évaluation humaine non seulement ex-
perte mais également non experte dans la procédure d’évaluation. Outre cette dimen-
sion méthodologique, les apports des corpus d’apprenants se situent évidemment dans
la description qu’ils doivent à terme offrir des stades et parcours développementaux
typiques d’une population donnée (en distinguant les plans phonétique et phonolo-
gique, ainsi que perceptif et productif), de manière à élaborer des modèles phonético-
phonologiques dynamiques, possiblement en lien, dans le domaine didactique, avec
les différents niveaux et les descripteurs du « Cadre européen commun de référence
pour les langues » (CECRL) par exemple (Conseil de l’Europe, 2001 ; Detey et Ra-
cine, 2012). Ces modèles pourraient également tenir compte des tâches impliquées (en
particulier lecture vs non lecture), et aux différents stades pourraient être attribués des
degrés d’acceptabilité plus ou moins grands, en fonction de la précision phonétique
des productions, mais aussi de la charge fonctionnelle des structures en question, ainsi
que de leur catégorisation perceptive. En effet, une autre limite de l’utilisation qui est
faite des corpus d’apprenants pour le développement de systèmes d’EPAO réside dans
le fait que ces données servent surtout à améliorer la détection et la caractérisation
automatique d’erreurs (Chen et Jang, 2012) et qu’il n’est pas proposé aujourd’hui de
véritable réflexion quant à la progression à suivre dans l’apprentissage. Si une simple
perspective « data-driven » oriente les concepteurs vers les erreurs les plus fréquentes
en priorité (Burgos et al., 2013), le point de vue didactique consiste généralement à
traiter d’abord les erreurs les moins difficiles (et donc aussi les moins fréquentes) pour
faire ensuite progresser l’apprenant vers les sons et/ou les positions phonologiques qui
lui posent le plus de difficultés.
Si les systèmes évoqués plus haut pourraient mieux répondre aux besoins et aux
attentes des utilisateurs, il va de soi que leur succès dépendra également de leur for-
mat didactique et du feedback qu’ils renverront à l’apprenant. On peut déjà noter que
si le système d’EPAO est trop « strict » et qu’il rejette massivement les productions
TAP, apprentissage de la prononciation 31
d’apprenants (détection exhaustive des erreurs pour un débutant par exemple), ou s’il
lui fournit trop d’informations données simultanément, le résultat peut être contre-
productif et conduire l’apprenant à abandonner le système. Par-delà les aspects gé-
nériques (ex. langue et métalangage employés), de nombreuses études ont mis en
évidence l’intérêt de l’instruction explicite (Saito et Saito, sous presse), de l’entraî-
nement audiovisuel (Hazan et al., 2005) ou encore de l’entraînement à haut degré de
variabilité (Thomson, 2011) pour aider les apprenants à améliorer leur perception ou
leur production, tant sur le plan phonémique que prosodique. Des études récentes nous
renseignent sur l’impact différentiel de certains formats pédagogiquement classiques
de retour correctif, comme celle de Gooch, Saito et Lyster à propos du « recast » et
du « prompt » dans l’apprentissage de la liquide /ô/ par des apprenants coréens d’an-
glais recevant un enseignement centré sur la forme et orienté vers le sens (« simulated
meaning-oriented classrooms receiving form-focused instruction ») (2016) : « stu-
dents were pushed by prompts to improve intelligibility mainly through the adjustment
of interlanguage strategies (e.g., prolonging the phonemic length), and by recasts to
refine accuracy in their /ô/ production ». Ces études nous apprennent également que
le retour correctif portant sur les erreurs de perception peut aider à améliorer la pré-
cision de la production, mais que cet effet dépend du type de retour correctif (Lee et
Lyster, 2016). L’intérêt de la dimension visuelle, quant à lui, a déjà particulièrement
été exploré (Hardison, 2007), au niveau suprasegmental (à travers la visualisation de
courbes sonores (Cazade, 1999), mais aussi avec d’autres formats tels que des flashs
lumineux, voir Hincks et Edlund, 2009), et, plus récemment, sur le plan segmental
(voir Olson (2014) ; pour une revue des travaux et la proposition d’un paradigme de
feedback visuel, ainsi que Offerman et Olson, 2016). Sans pouvoir couvrir ici l’en-
semble des études concernant le retour correctif sur la production orale des apprenants
de langue étrangère (pour une revue récente voir Brown, 2016), il est sans doute utile
de rappeler les six types de retours identifiés par Lyster et Ranta (1997) dans leur étude
phare, à savoir : « recast » (une manière de corriger une erreur implicitement sans blo-
quer la communication, essentiellement en répétant la forme produite par l’apprenant
en la corrigeant, c’est-à-dire une reformulation corrective de la production erronée)9 ;
correction explicite ; élicitation (obtenir la forme correcte par l’apprenant plutôt que
lui donner) ; requête de clarification ; retour métalinguistique ; répétition de l’erreur.
Les auteurs soulignent que l’une des faiblesses du « recast », majoritairement em-
ployé par les enseignants parmi les six types identifiés, est qu’il entraîne souvent une
ambiguïté sur le focus de l’intervention de l’enseignant (sur la forme ou sur le sens ?),
ambiguïté éliminée par les autres types de retours correctifs ; l’engagement des appre-
nants dans le processus correctif semble le plus productif lorsque la forme correcte
n’est pas fournie directement (comme avec le « recast » ou la correction explicite)
(Lyster et Ranta 1997, p. 57-58). À la lecture de qui précède, il apparaît que l’éva-
luation quantifiée (taux de réussite ou autre score comparable) à elle seule ne suffit
pas à aider l’apprenant à corriger sa prononciation : le lien entre lexique et phonolo-
9. Lyster et Ranta indiquent que le terme « écho » est parfois utilisé pour traduire « recast » en
français, car il arrive que les apprenants ne perçoivent pas la différence entre leur production
originale et la forme corrigée produite par leur enseignant (1997, p. 57).
32 TAL. Volume 57 – n◦ 3/2016
gie, notamment, est fléché tant dans les travaux relatifs aux connexions entre forme
et sens dans l’acquisition d’une L2 (Isaacs, 2009) que dans certains des modèles les
plus récents en interphonologie (van Leussen et Escudero, 2015), tandis que diffé-
rentes techniques facilitant l’acquisition ont été répertoriées. Il reste donc à intégrer
ces derniers acquis aux procédures de remédiation offerts par les systèmes d’EPAO à
ses utilisateurs.
5. Conclusion
Cet article vise un double lectorat : d’une part les ingénieurs de la parole, afin
de les sensibiliser aux pratiques et aux perspectives contemporaines en didactique
des langues, en particulier vis-à-vis des objectifs de la correction de la prononciation
(intelligibilité vs précision phonétique), en lien avec l’élargissement des modèles de
référence (variation native et non native), mais aussi vis-à-vis des attentes en termes
de feedback (dépassement du niveau segmental et lien avec les études en didactique
sur les effets de l’instruction, de la modalité et des retours correctifs) ; d’autre part les
didacticiens pour leur présenter l’intérêt des systèmes d’EPAO et de leurs développe-
ments les plus récents. La première partie de l’article offre un aperçu des pratiques et
des enjeux de l’enseignement/apprentissage de la prononciation en langue étrangère
tel qu’il est effectué sans système automatisé, tandis que la deuxième partie décrit les
procédures de reconnaissance automatique de la parole et leurs principales applica-
tions dans le domaine de la correction automatique de la prononciation. La troisième
partie, enfin, se penche sur les pistes à explorer si l’on souhaite améliorer les interac-
tions entre les deux champs, à savoir celle, d’obédience sociolinguistique, des modèles
de référence pour l’évaluation de la prononciation, celle, d’obédience psycholinguis-
tique, de l’intégration des connaissances des interlangues des apprenants pour l’opti-
misation des systèmes, et enfin celle, d’obédience didactique, du format et du contenu
des retours correctifs que doivent fournir les systèmes d’EPAO en tenant compte des
deux premières pistes.
Parmi les points de discussion pour le futur figurent ainsi notamment : (i) le rap-
port entre les modèles de langage statistiques construits à partir de grands corpus de
textes pour les systèmes de RAP et la nature des corpus en question (oral vs écrit, type
de discours, variétés de référence, etc.), au regard des avancées récentes effectuées
en linguistique de corpus ; (ii) le rapport entre les seuils employés dans les systèmes
de RAP pour décider de la qualité d’une réalisation phonétique et les seuils d’ac-
ceptabilité envisagés par les didacticiens travaillant en sociophonétique de corpus,
et traitant des variétés natives et non natives (Galazzi et Guimbretière, 1991 ; Detey
et Racine, 2012) ; (iii) le traitement de la parole spontanée et les cas d’ambiguïtés
morpho-phonologiques (par opposition à de la parole lue ou répétée pour laquelle les
cibles sont prédéfinies).
Concernant les systèmes complets d’EPAO, trois chantiers doivent être mention-
nés : (1) un manque d’études longitudinales à long terme portant sur des systèmes
d’EPAO complets, allant de la détection d’erreurs et du diagnostic à la remédiation
TAP, apprentissage de la prononciation 33
(feedback), puisque les progrès sont longs à accomplir et qu’ils peuvent se situer à
une autre échelle que celles généralement adoptées dans les études psycholinguis-
tiques ponctuelles ; (2) un manque de prise en compte de la variation inter- et intra-
apprenants : l’expérience enseignante révèle que, même pour une L1 et un niveau
communs, les profils d’apprenants sont très divers, en termes de difficultés de pronon-
ciation mais aussi et surtout en termes d’efficacité des types d’exercices et de feedback
utilisés. De même, cette variabilité peut apparaître sur le plan intra-individuel, un ap-
prenant ne bénéficiant pas au même degré d’un même type d’exercices ou de feedback
au cours de son parcours d’apprentissage, d’où la nécessité de faire évoluer le travail
de « profilage » automatique des apprenants pour intégrer cette variabilité et optimiser
les exercices proposés ; (3) un manque d’intégration de la prosodie dans les premières
étapes de l’apprentissage : du côté de l’ingénierie de la parole, la prosodie est envi-
sagée comme un élément à travailler chez les apprenants les plus avancés, apportant
plus de naturel à une parole déjà intelligible (Ai, 2013 ; Witt, 2012). Or, en didactique,
le point de vue est généralement opposé, la prosodie étant considérée comme primor-
diale (première dans l’acquisition de la L1, support pour l’apprentissage segmental qui
va suivre, notamment dans la MVT, etc.). Il reste donc à mener des études permettant
de tester, dans des contextes didactiques authentiques et pour des langues sources et
cibles spécifiques, des systèmes de RAP intégrant plus avant la variation en L1 ainsi
que les variantes en L2, et ce, non seulement sur le plan segmental, mais aussi pro-
sodique et multimodal, et offrant si possible des grilles d’évaluation adossables aux
descripteurs des compétences en langue définis par exemple par le CECRL. Les chan-
tiers à venir ne se situent donc plus seulement sur le plan de l’ingénierie de la parole,
mais sur celui de la collaboration interdisciplinaire entre ingénieurs, didacticiens et
enseignants.
Remerciements
Les réflexions présentées dans cet article ont bénéficié du soutien de JSPS KA-
KENHI JP 15H03227 et JP 23320121. Nous remercions trois évaluateurs anonymes
pour leurs commentaires, ainsi que les membres des projets PFC et IPFC, en particu-
lier Jacques Durand, Bernard Laks, Chantal Lyche, Isabelle Racine et Yuji Kawaguchi.
6. Bibliographie
Abdel-Hamid O., Mohamed A.-R., Jiang H., Penn G., « Applying convolutional neural networks
concepts to hybrid NN-HMM model for speech recognition », Proc. ICASSP, p. 4277-4280,
2012.
Ai R., « Perceptual Feedback in Computer Assisted Pronunciation Training : A Survey. »,
RANLP, p. 1-6, 2013.
Akahane-Yamada R., Tohkura Y., Bradlow A. R., Pisoni D. B., « Does training in speech per-
ception modify speech production ? », Proc. ICSLP, p. 606-609, 1996.
34 TAL. Volume 57 – n◦ 3/2016
Amodei D. et al., « Deep speech 2 : End-to-end speech recognition in English and Mandarin »,
Proc. ICML, 2015.
Black M. et al., « Automated Evaluation of Non-Native English Pronunciation Quality : Com-
bining Knowledge- and Data-Driven Features at Multiple Time Scales », Proc. Interspeech,
Dresde, p. 493-497, 2015.
Bohn O.-S., Munro M. (eds), Language Experience in Second Language Speech Learning, John
Benjamins, 2007.
Boula de Mareüil P., Woehrling C., Adda-Decker M., « Contribution of automatic speech pro-
cessing to the study of Northern/Southern French », Lang Sci, vol. 39, p. 75-82, 2013.
Brown A., « Functional Load and the teaching of pronunciation », Tesol Quaterly, vol. 22, no 4,
p. 593-606, 1988.
Brown D., « The type and linguistic foci of oral corrective feedback in the L2 classroom : A
meta-analysis », Lang Teach Res, vol. 20, no 4, p. 436-458, 2016.
Burgos P., Cucchiarini C., Van Hout R., Strik H., « Pronunciation errors by Spanish learners
of Dutch : a data-driven study for ASR-based pronunciation training. », Proc. Interspeech,
p. 2385-2389, 2013.
Calbris G., « La prononciation et la correction phonétique », Le français dans le monde, vol. 65,
p. 28-37, 1969.
Calliope L., Parole et son traitement automatique, Masson Paris, 1989.
Carranza M., « Transcription and annotation of a Japanese accented spoken corpus of L2 Spa-
nish for the development of CAPT applications », in A. Pareja-Lora, C. Calle-Martínez,
P. Rodríguez-Arancón (eds), New perspectives on teaching and working with languages in
the digital era, Research-publishing.net, p. 339-349, 2016.
Carranza M., Cucchiarini C., Burgos P., Strik H., « Non-native speech corpora for the develop-
ment of computer assisted pronunciation training systems », Proceedings of Edulearn 2014,
IATED, Valence, p. 3624-3633, 2014.
Cazade A., « De l’usage des courbes sonores et autres supports graphiques pour aider l’appre-
nant en langues », Alsic, vol. 2, no 2, p. 3-32, 1999.
Champagne-Muzar C., Bourdages J. S., Le point sur la phonétique, Clé International, 1998.
Chen L.-Y., Jang J.-S. R., « Improvement in Automatic Pronunciation Scoring using Additional
Basic Scores and Learning to Rank », Proc. Interspeech, Portland, p. 1295-1298, 2012.
Chun D., « Signal analysis software for teaching discourse Intonation », Lang Learn Technol,
vol. 2, no 1, p. 61-77, 1998.
Colantoni L., Steele J., Escudero P., Second Language Speech. Theory and Practice, Cambridge
University Press, 2015.
Conseil de l’Europe, Cadre européen commun de référence pour les langues, Paris : Didier,
2001.
Derwing T. M., Munro J. M., Pronunciation Fundamentals. Evidence-based Perspectives for
L2 Teaching and Research, John Benjamins, 2015.
Detey S., « Coding an L2 phonological corpus : from perceptual assessment to non-native
speech models – an illustration with French nasal vowels », in Y. Tono, Y. Kawaguchi,
M. Minegishi (eds), Developmental and crosslinguistic perspectives in learner corpus re-
search, John Benjamins, Amsterdam/Philadelphie, p. 229-250, 2012.
TAP, apprentissage de la prononciation 35
Gooch R., Saito K., Lyster R., « Effects of recasts and prompts on L2 pronunciation develop-
ment : Teaching English /r/ to Korean adult EFL learners », System, vol. 60, p. 117-127,
2016.
Guberina P., « Les appareils Suvag et Suvag Lingua », Revue de Phonétique Appliquée, vol.
27-28, p. 7-16, 1973.
Guberina P., Gospodnetic N., Pozojenic M., Skaaric P., Vuletic B., « Correction de la pronon-
ciation des élèves qui apprennent le français », Revue de Phonétique Appliquée, vol. 1,
p. 81-94, 1965.
Hansen T. K., « Computer assisted pronunciation training : the four ’k’s of feedback », Proc.
m-ICTE, Séville, p. 342-346, 2006.
Hardison D. M., « The visual element in phonological perception and learning », in M. C. Pen-
nington (ed.), Phonology in context, Palgrave Macmillan, New York, p. 135-158, 2007.
Hazan V., Sennema A., Iba M., Faulkner A., « Effect of audiovisual perceptual training on the
perception and production of consonants by Japanese learners of English », Speech commun,
vol. 47, no 3, p. 360-378, 2005.
Hincks R., Edlund J., « Promoting increased pitch variation in oral presentations with transient
visual feedback », Lang Learn Technol, vol. 13, no 3, p. 32-50, 2009.
Hu W., Qian Y., Soong F., « A New DNN-based High Quality Pronunciation Evaluation for
Computer-Aided Language Learning (CALL) », Proc. Interspeech, Lyon, p. 1886-1890,
2013.
Hu W., Qian Y., Soong F., Wang Y., « Improved Mispronunciation Detection With Deep Neural
Network Trained Acoustic Models and Transfer Learning based Logistic Regression Clas-
sifiers », Speech Commun, vol. 67, p. 154-166, 2015.
Hueber T., « Ultraspeech-player : Intuitive visualization of ultrasound articulatory data for
speech therapy and pronunciation training », Proc. Interspeech, Lyon, p. 752-753, 2013.
Huensch A., « Perceptual phonetic training improves production in larger discourse contexts »,
Journal of Second Language Pronunciation, vol. 2, no 2, p. 183-207, 2016.
Intravaia P., Formation des professeurs de langue en phonétique corrective. Le système verbo-
tonal, Didier Erudition, 2000.
Isaacs T., « Integrating form and meaning in L2 pronunciation instruction », TESL Canada
Journal, vol. 27, no 1, p. 1-12, 2009.
Isaacs T., « Assessing speaking », in D. Tsagari, J. Banerjee (eds), Handbook of Second Lan-
guage assessment, DeGruyter Mouton, Berlin, p. 131-146, 2016.
Isaacs T., Thomson R. I., « Rater experience, rating scale length, and judgments of L2 pronun-
ciation : revisiting research conventions », Language Assessment Quarterly, vol. 10, no 2,
p. 135-159, 2013.
Kang O., Moran M., « Functional loads of pronunciation features in nonnative speakers’ oral
assessment », Tesol Quarterly, vol. 48, no 1, p. 176-187, 2014.
Kondo M., Tsubaki H., Sagisaka Y., « Segmental variation of Japanese speakers’ English :
Analysis of "the North Wind and the Sun" in AESOP corpus », Journal of the Phonetic
Society of Japan, vol. 19, p. 3-17, 2015.
Laborde V., Pellegrini T., Fontan L., Mauclair J., Sahraoui H., Farinas J., « Pronunciation As-
sessment of Japanese Learners of French with GOP Scores and Phonetic Information »,
Proc. Interspeech, San Francisco, p. 2686-2690, 2016.
TAP, apprentissage de la prononciation 37
Munro M. J., Derwing T. M., « The functional load principle in ESL pronunciation instruction :
An exploratory study », System, vol. 34, no 4, p. 520-531, 2006.
Neri A., Cucchiarini C., Strik H., « Feedback in Computer Assisted Pronunciation Training :
Technology push or demand pull ? », Proc. ICSLP, Denver, p. 1209-1212, 2002.
Neri A., Cucchiarini C., Strik H., « Selecting segmental errors in non-native Dutch for optimal
pronunciation training », IRAL, vol. 44, no 4, p. 357-404, 2006.
Nguyen N., Adda-Decker M. (eds), Méthodes et outils pour l’analyse phonétique des grands
corpus oraux, Hermes Science Publications, 2013.
Offerman H. M., Olson D. J., « Visual feedback and second language segmental production :
The generalizability of pronunciation gains », System, vol. 59, p. 45-60, 2016.
Olson D., « Benefits of visual feedback on segmental production in the L2 classroom », Lang
Learn Technol, vol. 18, no 3, p. 173-92, 2014.
Pellegrini T., Fontan L., Sahraoui H., « Réseau de neurones convolutif pour l’évaluation auto-
matique de la prononciation », Conférence JEP-TALN-RECITAL, Paris, p. 624-632, 2016.
Pennington M. C., Richards J. C., « Pronunciation revisited », Tesol Quaterly, vol. 20, no 2,
p. 207-225, 1986.
Pennington M. C., Richards J. C., « Computer-aided pronunciation pedagogy : promise, limita-
tions, directions », Computer Assisted Language Learning, vol. 12, no 5, p. 427-440, 1999.
Qian Y., Wang X., Evanini K., Suendermann-Oeft D., « Self-Adaptive DNN for Improving
Spoken Language Proficiency Assessment », Proc. Interspeech, San Francisco, p. 3122-
3126, 2016.
Rabiner L. R., « A tutorial on hidden Markov models and selected applications in speech recog-
nition », Proceedings of the IEEE, vol. 77, no 2, p. 257-286, 1989.
Racine I., Zay F., Detey S., Kawaguchi Y., « De la transcription de corpus à l’analyse interpho-
nologiques : enjeux méthodologiques en FLE », 2011.
Renard R. (ed.), Apprentissage d’une langue étrangère/seconde 2. La phonétique verbo-tonale,
De Boeck Université, 2002.
Rilliard A., Shochi T., Martin J.-C., Erickson D., Aubergé V., « Multimodal indices to Japanese
and French prosodically expressed social affects », Lang speech, vol. 52, no 2/3, p. 223-243,
1988.
Rivenc P. (ed.), Apprentissage d’une langue étrangère/seconde. Vol. 3 : la méthodologie, De
Boeck, 2003.
Saito K., « Effects of instruction on L2 pronunciation development : A synthesis of 15 quasi-
experimental intervention studies », TESOL Quarterly, vol. 46, p. 842-854, 2012.
Saito Y., Saito K., « Differential effects of instruction on the development of second language
comprehensibility, word stress, rhythm, and intonation : The case of inexperienced Japanese
EFL learners », Lang Teach Res, sous presse.
Saz O., Eskenazi M., « Addressing Confusions in Spoken Language in ESL Pronunciation Tu-
tors », Proc. Interspeech, Portland, p. 771-774, 2012.
Strik H., Cucchiarini C., On automatic phonological transcription of speech corpora, Oxford
University Press, 2014.
Tao J., Chen L., Lee C. M., « DNN Online with iVectors Acoustic Modeling and Doc2Vec
Distributed Representations for Improving Automated Speech Scoring », Proc. Interspeech,
San Francisco, p. 3117-3121, 2016.
TAP, apprentissage de la prononciation 39