R Rec BS.2051 1 201706 S!!PDF F
R Rec BS.2051 1 201706 S!!PDF F
R Rec BS.2051 1 201706 S!!PDF F
2051-1
(06/2017)
Série BS
Service de radiodiffusion sonore
ii Rec. UIT-R BS.2051-1
Avant-propos
Le rôle du Secteur des radiocommunications est d'assurer l'utilisation rationnelle, équitable, efficace et économique du
spectre radioélectrique par tous les services de radiocommunication, y compris les services par satellite, et de procéder à
des études pour toutes les gammes de fréquences, à partir desquelles les Recommandations seront élaborées et adoptées.
Les fonctions réglementaires et politiques du Secteur des radiocommunications sont remplies par les Conférences
mondiales et régionales des radiocommunications et par les Assemblées des radiocommunications assistées par les
Commissions d'études.
Séries Titre
BO Diffusion par satellite
BR Enregistrement pour la production, l'archivage et la diffusion; films pour la télévision
BS Service de radiodiffusion sonore
BT Service de radiodiffusion télévisuelle
F Service fixe
M Services mobile, de radiorepérage et d'amateur y compris les services par satellite associés
P Propagation des ondes radioélectriques
RA Radio astronomie
RS Systèmes de télédétection
S Service fixe par satellite
SA Applications spatiales et météorologie
SF Partage des fréquences et coordination entre les systèmes du service fixe par satellite et du service
fixe
SM Gestion du spectre
SNG Reportage d'actualités par satellite
TF Emissions de fréquences étalon et de signaux horaires
V Vocabulaire et sujets associés
Note: Cette Recommandation UIT-R a été approuvée en anglais aux termes de la procédure détaillée dans
la Résolution UIT-R 1.
Publication électronique
Genève, 2018
UIT 2018
Tous droits réservés. Aucune partie de cette publication ne peut être reproduite, par quelque procédé que ce soit, sans l'accord écrit
préalable de l'UIT.
Rec. UIT-R BS.2051-1 1
Domaine d'application
La présente Recommandation spécifie un système sonore évolué avec ou sans image associée, surpassant les
systèmes spécifiés dans la Recommandation UIT-R BS.775. Un système sonore évolué utilise les données
audio en association avec un ensemble approprié de métadonnées pour spécifier une scène sonore destinée à
être diffusée. Les spécifications comprennent les exigences à respecter pour signaler les propriétés d'un
contenu sonore évolué et la configuration des haut-parleurs à utiliser par les systèmes sonores évolués pour la
production de contenus. Le système sonore évolué peut être utilisé pour la composante son de programmes de
télévision et d'imagerie numérique sur grand écran (LSDI) à hiérarchie élargie, ainsi que pour les programmes
comportant uniquement du son.
Mots clés
Système sonore évolué, système sonore basé sur des canaux, système sonore basé sur des objets,
système sonore basé sur des scènes, son multicanaux, configuration des haut-parleurs, son en
immersion
Annexe 1
(normative)
1 Introduction
Le système sonore spécifié dans la présente Recommandation est défini comme un système sonore
évolué qui permet aux métadonnées associées à chaque flux audio d'être statiques ou dynamiques
pendant la durée d'un programme. Ainsi, un programme peut par exemple être représenté par des
éléments constitués d'une combinaison de signaux d'objet et de signaux de canal.
1 Par élément audio, on entend un signal avec des métadonnées qui sont soit statiques soit dynamiques
pendant la durée d'un programme. Ainsi, il est possible de diffuser des contenus basés sur des canaux, sur
des objets ou sur des scènes.
Rec. UIT-R BS.2051-1 3
Les signaux de canal sont définis comme des signaux audio qui sont mixés pour un nombre prédéfini
de canaux et accompagnés de métadonnées qui sont statiques pendant la durée d'un programme.
Chacun de ces canaux est associé à un haut-parleur particulier. Afin de restituer un canal, on
l'achemine vers l'éventuel haut-parleur associé, s'il y a lieu, ou vers un ou plusieurs haut-parleurs
disponibles (par exemple, par un sous-mixage de canal) afin de reproduire au mieux ce qu'aurait
restitué le haut-parleur souhaité. Les procédés de production, les réseaux de radiodiffusion et les
systèmes de reproduction sont définis par un ensemble de positions de haut-parleurs. On peut citer
comme exemples les systèmes conformes à la Recommandation UIT-R BS.775.
Les signaux d'objet sont des signaux audio qui, lorsqu'ils sont accompagnés de métadonnées
dynamiques pendant la durée d'un programme, représentent des éléments audio permettant à un
système de restitution de lire les objets audio de la façon la plus appropriée pour le système de lecture
et l'environnement d'écoute. Une approche basée sur des objets peut aussi offrir aux utilisateurs une
interaction avec le contenu audio.
Des éléments basés sur des objets et des éléments basés sur des canaux peuvent être associés les uns
aux autres ou exister de manière indépendante. Pour pouvoir combiner de quelque manière que ce
soit des éléments basés sur des canaux ou des objets, tous les signaux devraient être accompagnés des
métadonnées/descripteurs nécessaires, y compris la position spatiale de l'événement auditif souhaité
indépendante du temps (statique) ou dépendante du temps (dynamique). Ces signaux peuvent être
reproduits via une configuration de haut-parleurs au moyen de diverses techniques de restitution et/ou
de mappage.
Les programmes sonores évolués sont constitués des signaux audio et des métadonnées associées.
La section 2 spécifie les exigences relatives aux métadonnées pour le contenu sonore du système
sonore évolué.
La section 3 décrit les configurations des haut-parleurs des systèmes dans un environnement de
production. Etant donné qu'un processus de restitution ou de mappage est nécessaire pour la
reproduction des signaux audio, il est nécessaire de définir parfaitement le nombre et la position des
haut-parleurs. Ces informations permettent de restituer les signaux audio conformément à une
configuration prédéfinie des haut-parleurs dans un scénario de reproduction.
– Etre spécifié dans un schéma XML ouvert pour pouvoir représenter les métadonnées en XML
(en tant que méthode principale, une conversion dans d'autres formats tels que JSON pourrait
bien entendu être effectuée).
– Pouvoir être inséré dans un format de fichier audio existant.
– Permettre aux définitions couramment utilisées (en particulier les configurations existantes
basées sur les canaux) d'être librement accessibles depuis un ensemble de définitions de
référence.
TABLEAU 1
Liste de positions possibles des haut-parleurs pour le système sonore évolué, identification des configurations des haut-parleurs
sous la forme «haut-parleurs supérieurs + haut-parleurs intermédiaires + haut-parleurs inférieurs»
A B C D E F G H I J
Etiquette SP Azimut Elévation
0+2+0 0+5+0 2+5+0 4+5+0 4+5+1 3+7+0 4+9+0 9+10+3 0+7+0 4+7+0
M+000 0 0 X X X X X X X X X
M+022 +22,5 0
M-022 −22,5 0
Bord gauche
M+SC 0 X
de l'affichage
Bord droit
M-SC 0 X
de l'affichage
M+030 +30 0 X X X X X X X X X X
M-030 −30 0 X X X X X X X X X X
M+045 +45 0
M-045 −45 0
M+060 +60 0 X
M-060 −60 0 X
M+090 +90 0 X X X X X
M-090 −90 0 X X X X X
M+110 +110 0 X X X X
M-110 −110 0 X X X X
M+135 +135 0 X X X X X
M-135 −135 0 X X X X X
M+180 +180 0 X
U+000 0 +30 X
U+022 +22,5 +30
U-022 −22,5 +30
U+030 +30 +30 X X X
U-030 −30 +30 X X X
6 Rec. UIT-R BS.2051-1
TABLEAU 1 (suite)
A B C D E F G H I J
Etiquette SP Azimut Elévation
0+2+0 0+5+0 2+5+0 4+5+0 4+5+1 3+7+0 4+9+0 9+10+3 0+7+0 4+7+0
U+045 +45 +30 X X X X
U-045 −45 +30 X X X X
U+060 +60 +30
U-060 −60 +30
U+090 +90 +30 X
U-090 −90 +30 X
U+110 +110 +30 X X
U-110 −110 +30 X X
U+135 +135 +30 X X X
U-135 −135 +30 X X X
U+180 +180 +30 X
UH+180 +180 +45 X
T+000 – +90 X
B+000 0 −30 X X
B+022 +22,5 −30
B-022 −22,5 −30
B+030 +30 −30
B-030 ‒30 −30
B+045 +45 −30 X
B-045 −45 −30 X
B+060 +60 −30
B-060 −60 −30
B+090 +90 −30
B-090 −90 −30
B+110 +110 −30
B-110 −110 −30
B+135 +135 −30
B-135 −135 −30
Rec. UIT-R BS.2051-1 7
TABLEAU 1 (fin)
A B C D E F G H I J
Etiquette SP Azimut Elévation
0+2+0 0+5+0 2+5+0 4+5+0 4+5+1 3+7+0 4+9+0 9+10+3 0+7+0 4+7+0
B+180 +180 −30
LFE1 +45 −30 X X X X X X X X X
LFE2 ‒45 −30 X X
NOTE – Les haut-parleurs sont supposés être sur une sphère. Lorsque ce n'est pas le cas, il est préférable de les aligner temporellement (au niveau de la position
d'écoute centrale) avec une précision de 100 s.
Les configurations des haut-parleurs indiquées dans le Tableau 1 sont illustrées dans le Tableau 2.
8 Rec. UIT-R BS.2051-1
TABLEAU 2
Configurations des haut-parleurs pour le système sonore évolué
Couche inférieure
Inclut les haut-parleurs LFE
Couche intermédiaire
Même niveau que la personne qui
écoute
Couche supérieure
Inclut le haut-parleur du dessus
(T+000)
Rec. UIT-R BS.2051-1 9
TABLEAU 3
Configuration des haut-parleurs pour le système sonore A (0+2+0)
TABLEAU 4
Configuration des haut-parleurs pour le système sonore B (0+5+0)
(d'après la Recommandation UIT-R BS.775)
TABLEAU 5
Configuration des haut-parleurs pour le système sonore C (2+5+0)
Position du haut-parleur,
Canal coordonnées polaires
Etiquette
SP Azimut Elévation
Etiquette Nom Plage Plage
M+030 L Gauche +30 0
M-030 R Droite –30 0
M+000 C Centre 0 0
LFE1 LFE Effets basse fréquence – –
M+110 Ls Ambiophonique gauche +100 .. +120 0 .. +15
M-110 Rs Ambiophonique droit −100 .. −120 0 .. +15
U+030 Ltf Supérieur avant gauche +30 .. +45 +30 .. +55
U-030 Rtf Supérieur avant droit −30 .. −45 +30 .. +55
TABLEAU 6
Configuration des haut-parleurs pour le système sonore D (4+5+0)
Position du haut-parleur,
Canal coordonnées polaires
Etiquette
SP Azimut Elévation
Etiquette Nom Plage Plage
M+030 L Gauche +30 0
M-030 R Droite −30 0
M+000 C Centre 0 0
LFE1 LFE Effets basse fréquence – –
M+110 Ls Ambiophonique gauche +100 .. +120 0
M-110 Rs Ambiophonique droit −100 .. −120 0
U+030 Ltf Supérieur avant gauche +30 .. +45 +30 .. +55
U-030 Rtf Supérieur avant droit −30 .. −45 +30 .. +55
U+110 Ltr Supérieur arrière gauche +100 .. +135 +30 .. +55
U-110 Rtr Supérieur arrière droit −100 .. −135 +30 .. +55
Rec. UIT-R BS.2051-1 11
TABLEAU 7
Configuration des haut-parleurs pour le système sonore E (4+5+1)
Position du haut-parleur,
Canal coordonnées polaires
Etiquette
SP Azimut Elévation
Etiquette Nom Plage Plage
M+030 L Gauche +30 0
M-030 R Droite –30 0
M+000 C Centre 0 0
LFE1 LFE Effets basse fréquence – –
M+110 Ls Ambiophonique gauche +100 .. +120 0
M-110 Rs Ambiophonique droit −100 .. −120 0
U+030 Ltf Supérieur avant gauche +30 .. +45 +30 .. +55
U-030 Rtf Supérieur avant droit −30 .. −45 +30 .. +55
U+110 Ltr Supérieur arrière gauche +100 .. +135 +30 .. +55
U-110 Rtr Supérieur arrière droit −100 .. −135 +30 .. +55
B+000 Cbf Inférieur avant central 0 −15 .. −30
TABLEAU 8
Configuration des haut-parleurs pour le système sonore F (3+7+0)
TABLEAU 9
Configuration des haut-parleurs pour le système sonore G (4+9+0)
Position du haut-parleur,
Canal coordonnées polaires
Etiquette
SP Azimut Elévation
Etiquette Nom Plage Plage
M+030 L Gauche +30 .. +45 0
M-030 R Droite −30 .. −45 0
M+000 C Centre 0 0
LFE1 LFE Effets basse fréquence – –
M+090 Lss Ambiophonique +85 .. +110 0
latéral gauche
M-090 Rss Ambiophonique −85 .. −110 0
latéral droit
M+135 Lrs Ambiophonique +120 .. +150 0
arrière gauche
M-135 Rrs Ambiophonique −120 .. −150 0
arrière droit
U+045 Ltf Supérieur avant gauche +30 .. +45 +30 .. +55
U-045 Rtf Supérieur avant droit −30 .. −45 +30 .. +55
U+135 Ltb Supérieur arrière gauche +100 .. +150 +30 .. +55
U-135 Rtb Supérieur arrière droit −100 .. −150 +30 .. +55
M+SC Lsc Gauche de l'écran Côté gauche 0
de l'écran
M-SC Rsc Droite de l'écran Côté droit de l'écran 0
L'angle entre deux haut-parleurs ambiophoniques situés du même côté (c'est-à-dire à gauche ou
à droite) doit être compris entre 30 et 60 degrés pour la couche intermédiaire.
Rec. UIT-R BS.2051-1 13
TABLEAU 10
Configuration des haut-parleurs pour le système sonore H (9+10+3)
TABLEAU 11
Configuration des haut-parleurs pour le système sonore I (0+7+0)
L'angle entre deux haut-parleurs ambiophoniques situés du même côté (c'est-à-dire à gauche ou
à droite) doit être compris entre 30 et 60 degrés pour la couche intermédiaire.
TABLEAU 12
Configuration des haut-parleurs pour le système sonore J (4+7+0)
L'angle entre deux haut-parleurs ambiophoniques situés du même côté (c'est-à-dire à gauche ou
à droite) doit être compris entre 30 et 60 degrés pour la couche intermédiaire.
Les configurations des haut-parleurs indiquées dans les Tableaux 3 à 12 sont illustrées dans
le Tableau 13.
Rec. UIT-R BS.2051-1 15
TABLEAU 13
Configurations des haut-parleurs pour le système sonore évolué
Système Couche supérieure Couche intermédiaire Couche inférieure
sonore
A (0+2+0)
Couche
supérieure
0/0/0 (Note)
Couche
intermédiaire
2/0/0
Couche
inférieure
0/0/0
B (0+5+0)
Couche
supérieure
0/0/0
Couche
intermédiaire
3/0/2
Couche
inférieure
0/0/0.1
C (2+5+0)
Couche
supérieure
2/0/0
Couche
intermédiaire
3/0/2
Couche
inférieure
0/0/0.1
16 Rec. UIT-R BS.2051-1
TABLEAU 13 (suite)
Système Couche supérieure Couche intermédiaire Couche inférieure
sonore
D (4+5+0)
Couche
supérieure
2/0/2
Couche
intermédiaire
3/0/2
Couche
inférieure
0/0/0.1
E (4+5+1)
Couche
supérieure
0/0/0
Couche
intermédiaire
3/0/2
Couche
inférieure
0/0/0.1
F (3+7+0)
Couche
supérieure
2/0/1
Couche
intermédiaire
3/2/2
Couche
inférieure
0/0/0.2
G (4+9+0)
Couche
supérieure
2/0/2
Couche
intermédiaire
5/2/2
Couche
inférieure
0.0.0.1
Rec. UIT-R BS.2051-1 17
TABLEAU 13 (fin)
Système Couche supérieure Couche intermédiaire Couche inférieure
sonore
H (9+10+3)
Couche
supérieure
3/3/3
Couche
intermédiaire
5/2/3
Couche
inférieure
3/0/0.2
I (0+7+0)
Couche
supérieure
0/0/0
Couche
intermédiaire
3/2/2
Couche
inférieure
0.0.0.1
J (4+7+0)
Couche
supérieure
2/0/2
Couche
intermédiaire
3/2/2
Couche
inférieure
0.0.0.1
NOTE – X/Y/Z.LFE donne le nombre de haut-parleurs avant/latéraux/arrière (plus LFE) pour chaque couche.
18 Rec. UIT-R BS.2051-1
Pièce jointe 1
à l'Annexe 1
Dans le processus de mixage, un certain nombre d'éléments qui dépendent de la nature du processus
de production et d'acquisition du signal, généralement déterminés par l'ingénieur du son, sont ramenés
à une représentation selon l'intention du créateur, avec seulement un nombre réduit d'éléments
distincts. La différence dans la production entre une approche basée sur des canaux, une approche
basée sur des objets, une approche basée sur des scènes et une combinaison de ces approches tient
aux méthodes de mixage utilisées pour le pré-mix préalable et le mix final. Dans l'approche basée sur
des canaux, tous les éléments sont mixés dans un ensemble prédéfini de canaux, tandis que dans
l'approche hybride qui associe l'approche basée sur des canaux et celle basée sur des objets, ces
derniers peuvent soit être mixés dans des canaux, soit être gardés sous la forme d'objets distincts.
De même, dans l'approche hybride qui associe l'approche basée sur des scènes et celle basée sur des
objets, les éléments sont soit enregistrés sous un format basé sur des scènes (exemple: HOA), soit
gardés sous la forme d'objets distincts. Dans une approche entièrement basée sur des objets, tous les
éléments servant à recréer une certaine expérience sont gardés de manière séparée.
Les processus de production, de mixage en direct et de post-production sont les mêmes pour les
systèmes basés sur des canaux et pour le modèle hybride comportant d'une part un sous-mix basé sur
des canaux et d'autre part des objets. Le mix final est acheminé sous une forme différente selon qu'il
s'agit du modèle basé sur des canaux ou du modèle hybride, lequel achemine des signaux relatifs au
sous-mix basé sur des canaux et des signaux relatifs aux objets.
Rec. UIT-R BS.2051-1 19
FIGURE 1
Sources Pré-mix Mix final
Objets
Microphones
Musique
Mix pour les scènes et les objets
Bibliothèques
Mix basé sur les scènes
Objets
BS.2051-01
La Figure 2 illustre un exemple de chaîne de radiodiffusion type pour un système sonore évolué.
La production peut utiliser n'importe quel type de source ou de contenu audio, mais il convient de
procéder à une annotation complète au moyen des métadonnées correctes pour décrire les signaux
audio, et on utilise pour le stockage un format de fichier qui peut prendre en charge ces métadonnées.
A l'étape de la distribution, les représentations issues de la production sont adaptées pour donner une
représentation plus compacte qui conserve les métadonnées existantes ou en génère de nouvelles en
vue d'une restitution plus poussée. Le fichier ou le flux de distribution est ensuite transmis à l'étape
de radiodiffusion qui le restitue dans un format de radiodiffusion particulier. Les émissions à grande
largeur de bande permettront d'acheminer et de restituer de nombreux objets et canaux, tandis que les
émissions à faible largeur de bande devront peut-être se limiter à la restitution de formats stéréo plus
traditionnels. Le format de radiodiffusion devrait conserver autant de métadonnées que nécessaire
pour l'extrémité récepteur.
Chaque dispositif de réception aura son propre système de restitution conçu pour les configurations
de haut-parleurs possibles pour ledit dispositif. Par exemple, une chaîne Hi-fi aura besoin d'une
grande souplesse pour permettre de positionner les divers haut-parleurs en des endroits différents,
tandis qu'un téléviseur aura ses haut-parleurs internes placés dans des positions fixes connues. Pour
l'acheminement de contenus dans l'avenir, une représentation pourra être reçue qui procurera une
souplesse totale pour l'interaction ou la personnalisation par les utilisateurs.
20 Rec. UIT-R BS.2051-1
FIGURE 2
Production Distribution
Contenu basé
sur des canaux Format
Adaptation de sonore
la distribution
Format de évolué
Contenu basé fichier
sur des objets sonore
évolué
Contenu basé Radiodiffusion
sur des scènes Pour les émissions à
Pour les émissions à grande
largeur de bande faible largeur de
bande
Adaptation Restitution
des émissions des émissions
Format de Format de
flux de flux
radiodiffusion classique
BS.2051-02
Pièce jointe 2
à l'Annexe 1
(informative)
Comme indiqué dans la Recommandation UIT-R BS.775, les écrans de télévision présentent
différentes tailles et sont souvent plus étroits que l'espacement angulaire défini entre les haut-parleurs
principaux gauche et droit (par exemple, M+030 et M-030). Du fait de cette incohérence entre la
largeur de l'écran et la largeur du système sonore, il est impossible d'assurer un alignement
audiovisuel fiable.
Les systèmes sonores basés sur des objets peuvent surmonter ce problème en décrivant la position
des objets par rapport à l'écran. A l'aide de métadonnées indiquant la position de l'écran, un système
de restitution d'objets peut reproduire convenablement des objets localisés par rapport à l'écran au
moyen des haut-parleurs disponibles de sorte que le son soit spatialement aligné avec les éléments
visuels associés.
Il est possible d'atteindre un résultat similaire dans le plan horizontal avec un programme sonore
entièrement basé sur des canaux si les éléments sonores basés sur l'écran sont créés et acheminés au
moyen d'une paire de canaux d'écran (Lsc et Rsc). En théorie, les canaux d'écran sont restitués par
une paire de haut-parleurs situés sur les bords gauche et droit de l'écran (M+SC et M-SC). Dans la
pratique, la paire de canaux d'écran (Lsc et Rsc) peut être restituée par les haut-parleurs existants
(par exemple, M+030, M+000 et M-030): si l'écran est large et recouvre l'espace entre M+030
et M-030, les canaux Lsc et Rsc peuvent être ajoutés aux canaux L et R pour la restitution; si l'écran
Rec. UIT-R BS.2051-1 21
est plus petit, ce qui est souvent le cas des écrans à usage domestique, les canaux Lsc et Rsc peuvent
être répartis de façon adéquate (en fonction de la taille de l'écran) entre les canaux L et C et,
respectivement, C et R, puis acheminés vers les haut-parleurs appropriés. Les écrans des systèmes
destinés au grand public ne comprennent généralement pas de haut-parleurs, toutefois, dans un
contexte de production, on peut choisir d'utiliser un écran équipé de haut-parleurs pour la restitution
des canaux d'écran au cours de la création et de la validation du contenu.