Iec 61937-11-2010

Download as pdf or txt
Download as pdf or txt
You are on page 1of 36

IEC 61937-11

®
Edition 1.0 2010-05

INTERNATIONAL
STANDARD
NORME
INTERNATIONALE

Digital audio – Interface for non-linear PCM encoded audio bitstreams applying
IEC 60958 –
Part 11: MPEG-4 AAC and its extensions in LATM/LOAS

Audionumérique – Interface pour les flux de bits audio à codage MIC non
linéaire conformément à la CEI 60958 –
Partie 11: MPEG-4 AAC et ses extensions en LATM/LOAS
IEC 61937-11:2010
THIS PUBLICATION IS COPYRIGHT PROTECTED
Copyright © 2010 IEC, Geneva, Switzerland
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by
any means, electronic or mechanical, including photocopying and microfilm, without permission in writing from either IEC or
IEC's member National Committee in the country of the requester.
If you have any questions about IEC copyright or have an enquiry about obtaining additional rights to this publication,
please contact the address below or your local IEC member National Committee for further information.

Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite
ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie
et les microfilms, sans l'accord écrit de la CEI ou du Comité national de la CEI du pays du demandeur.
Si vous avez des questions sur le copyright de la CEI ou si vous désirez obtenir des droits supplémentaires sur cette
publication, utilisez les coordonnées ci-après ou contactez le Comité national de la CEI de votre pays de résidence.

IEC Central Office


3, rue de Varembé
CH-1211 Geneva 20
Switzerland
Email: [email protected]
Web: www.iec.ch

About the IEC


The International Electrotechnical Commission (IEC) is the leading global organization that prepares and publishes
International Standards for all electrical, electronic and related technologies.
About IEC publications
The technical content of IEC publications is kept under constant review by the IEC. Please make sure that you have the
latest edition, a corrigenda or an amendment might have been published.
 Catalogue of IEC publications: www.iec.ch/searchpub
The IEC on-line Catalogue enables you to search by a variety of criteria (reference number, text, technical committee,…).
It also gives information on projects, withdrawn and replaced publications.
 IEC Just Published: www.iec.ch/online_news/justpub
Stay up to date on all new IEC publications. Just Published details twice a month all new publications released. Available
on-line and also by email.
 Electropedia: www.electropedia.org
The world's leading online dictionary of electronic and electrical terms containing more than 20 000 terms and definitions
in English and French, with equivalent terms in additional languages. Also known as the International Electrotechnical
Vocabulary online.
 Customer Service Centre: www.iec.ch/webstore/custserv
If you wish to give us your feedback on this publication or need further assistance, please visit the Customer Service
Centre FAQ or contact us:
Email: [email protected]
Tel.: +41 22 919 02 11
Fax: +41 22 919 03 00

A propos de la CEI
La Commission Electrotechnique Internationale (CEI) est la première organisation mondiale qui élabore et publie des
normes internationales pour tout ce qui a trait à l'électricité, à l'électronique et aux technologies apparentées.
A propos des publications CEI
Le contenu technique des publications de la CEI est constamment revu. Veuillez vous assurer que vous possédez
l’édition la plus récente, un corrigendum ou amendement peut avoir été publié.
 Catalogue des publications de la CEI: www.iec.ch/searchpub/cur_fut-f.htm
Le Catalogue en-ligne de la CEI vous permet d’effectuer des recherches en utilisant différents critères (numéro de référence,
texte, comité d’études,…). Il donne aussi des informations sur les projets et les publications retirées ou remplacées.
 Just Published CEI: www.iec.ch/online_news/justpub
Restez informé sur les nouvelles publications de la CEI. Just Published détaille deux fois par mois les nouvelles
publications parues. Disponible en-ligne et aussi par email.
 Electropedia: www.electropedia.org
Le premier dictionnaire en ligne au monde de termes électroniques et électriques. Il contient plus de 20 000 termes et
définitions en anglais et en français, ainsi que les termes équivalents dans les langues additionnelles. Egalement appelé
Vocabulaire Electrotechnique International en ligne.
 Service Clients: www.iec.ch/webstore/custserv/custserv_entry-f.htm
Si vous désirez nous donner des commentaires sur cette publication ou si vous avez des questions, visitez le FAQ du
Service clients ou contactez-nous:
Email: [email protected]
Tél.: +41 22 919 02 11
Fax: +41 22 919 03 00
IEC 61937-11
®
Edition 1.0 2010-05

INTERNATIONAL
STANDARD
NORME
INTERNATIONALE

Digital audio – Interface for non-linear PCM encoded audio bitstreams applying
IEC 60958 –
Part 11: MPEG-4 AAC and its extensions in LATM/LOAS

Audionumérique – Interface pour les flux de bits audio à codage MIC non linéaire
conformément à la CEI 60958 –
Partie 11: MPEG-4 AAC et ses extensions en LATM/LOAS

INTERNATIONAL
ELECTROTECHNICAL
COMMISSION

COMMISSION
ELECTROTECHNIQUE
INTERNATIONALE PRICE CODE
CODE PRIX P
ICS 33.160.30; 33.170 ISBN 978-2-88912-321-6

® Registered trademark of the International Electrotechnical Commission


Marque déposée de la Commission Electrotechnique Internationale
–2– 61937-11  IEC:2010

CONTENTS
FOREWORD ........................................................................................................................... 3
INTRODUCTION ..................................................................................................................... 5
1 Scope ............................................................................................................................... 6
2 Normative references ....................................................................................................... 6
3 Terms, definitions and abbreviations ................................................................................ 6
3.1 Terms and definitions .............................................................................................. 6
3.2 Abbreviations .......................................................................................................... 8
4 Mapping of the audio bit stream on to IEC 61937-1 .......................................................... 8
4.1 General ................................................................................................................... 8
4.2 Burst-info for MPEG-4 AAC and its extensions in LATM/LOAS ................................ 8
5 Format of data-burst for MPEG-4 AAC and its extensions in LATM/LOAS ......................... 9
5.1General ................................................................................................................... 9
5.2Pause data-bursts for MPEG-4 AAC and its extensions in LATM/LOAS ................... 9
5.3Audio data-bursts .................................................................................................. 10
5.3.1 MPEG-4 AAC and its extensions in LATM/LOAS ........................................ 10
5.3.2 LATM/LOAS framing .................................................................................. 12
5.3.3 Latency ..................................................................................................... 12
Annex A (informative) Calculation of delay and data-burst repetition rates – guidelines ....... 14
Bibliography .......................................................................................................................... 16

Figure 1 – Data-burst structure ............................................................................................. 10


Figure 2 – Latency diagram for burst reception and decoding ............................................... 13

Table 1 – Values for data-type and sub-data-type ................................................................... 9


Table 2 – Repetition period of pause data-bursts .................................................................... 9
Table 3 – Data-type-dependent information .......................................................................... 11
Table A.1 – Examples – Calculation of delay and data-burst repetition rates ......................... 14
61937-11  IEC:2010 –3–

INTERNATIONAL ELECTROTECHNICAL COMMISSION


____________

DIGITAL AUDIO –
INTERFACE FOR NON-LINEAR PCM ENCODED
AUDIO BITSTREAMS APPLYING IEC 60958 –

Part 11: MPEG-4 AAC and its extensions in LATM/LOAS

FOREWORD
1) The International Electrotechnical Commission (IEC) is a worldwide organization for standardization comprising
all national electrotechnical committees (IEC National Committees). The object of IEC is to promote
international co-operation on all questions concerning standardization in the electrical and electronic fields. To
this end and in addition to other activities, IEC publishes International Standards, Technical Specifications,
Technical Reports, Publicly Available Specifications (PAS) and Guides (hereafter referred to as “IEC
Publication(s)”). Their preparation is entrusted to technical committees; any IEC National Committee interested
in the subject dealt with may participate in this preparatory work. International, governmental and non-
governmental organizations liaising with the IEC also participate in this preparation. IEC collaborates closely
with the International Organization for Standardization (ISO) in accordance with conditions determined by
agreement between the two organizations.
2) The formal decisions or agreements of IEC on technical matters express, as nearly as possible, an international
consensus of opinion on the relevant subjects since each technical committee has representation from all
interested IEC National Committees.
3) IEC Publications have the form of recommendations for international use and are accepted by IEC National
Committees in that sense. While all reasonable efforts are made to ensure that the technical content of IEC
Publications is accurate, IEC cannot be held responsible for the way in which they are used or for any
misinterpretation by any end user.
4) In order to promote international uniformity, IEC National Committees undertake to apply IEC Publications
transparently to the maximum extent possible in their national and regional publications. Any divergence
between any IEC Publication and the corresponding national or regional publication shall be clearly indicated in
the latter.
5) IEC itself does not provide any attestation of conformity. Independent certification bodies provide conformity
assessment services and, in some areas, access to IEC marks of conformity. IEC is not responsible for any
services carried out by independent certification bodies.
6) All users should ensure that they have the latest edition of this publication.
7) No liability shall attach to IEC or its directors, employees, servants or agents including individual experts and
members of its technical committees and IEC National Committees for any personal injury, property damage or
other damage of any nature whatsoever, whether direct or indirect, or for costs (including legal fees) and
expenses arising out of the publication, use of, or reliance upon, this IEC Publication or any other IEC
Publications.
8) Attention is drawn to the Normative references cited in this publication. Use of the referenced publications is
indispensable for the correct application of this publication.
9) Attention is drawn to the possibility that some of the elements of this IEC Publication may be the subject of
patent rights. IEC shall not be held responsible for identifying any or all such patent rights.

International Standard IEC 61937-11 has been prepared by technical area 4: Digital system
interfaces and protocols, of IEC technical committee 100: Audio, video and multimedia
systems and equipment.

This bilingual version, published in 2011-02, corresponds to the English version.

The text of this standard is based on the following documents:

CDV Report on voting


100/1491/CDV 100/1580/RVC

Full information on the voting for the approval of this standard can be found in the report on
voting indicated in the above table.
–4– 61937-11  IEC:2010

The French version of this standard has not been voted upon.

This publication has been drafted in accordance with the ISO/IEC Directives, Part 2.

A list of all parts of IEC 61937, under the general title Digital audio – Interface for non-linear
PCM encoded audio bitstreams applying IEC 60958 can be found on the IEC website.

The committee has decided that the contents of this publication will remain unchanged until
the stability date indicated on the IEC web site under "http://webstore.iec.ch" in the data
related to the specific publication. At this date, the publication will be

• reconfirmed,
• withdrawn,
• replaced by a revised edition, or
• amended.
61937-11  IEC:2010 –5–

INTRODUCTION

Modern digital video broadcasting standards such as DVB include support for the MPEG-4
HE AAC and/or HE AAC v2 audio codecs as specified in ISO/IEC 14496-3. An increasing
number of countries are adopting these new codecs for their standard definition and high
definition digital video broadcasting services and have started with implementations.

For MPEG-2 AAC audio (ISO/IEC 13818-7) the specified framing format for the audio bit
stream is ADTS and its transport over an IEC 60958 interface is specified in IEC 61937-6.

However, the MPEG-4 (ISO/IEC 14496-3) audio codecs introduce new features and
capabilities that require a framing format that supports more flexible signaling and delivery
mechanisms. Therefore, MPEG-2 Systems (ISO/IEC 13818-1) specifies the MPEG-4
LATM/LOAS framing format for MPEG-4 audio codecs to overcome the limitations of ADTS.

In order to be able to pass the MPEG-4 audio bit stream from a Set Top Box to an A/V
receiver connected via the IEC 60958 interface without needing to reframe the audio bit
stream within ADTS, the MPEG-4 LATM/LOAS framing format needs to be supported by
IEC 61937.
–6– 61937-11  IEC:2010

DIGITAL AUDIO –
INTERFACE FOR NON-LINEAR PCM ENCODED
AUDIO BITSTREAMS APPLYING IEC 60958 –

Part 11: MPEG-4 AAC and its extensions in LATM/LOAS

1 Scope

This part of IEC 61937 describes the method to convey non-linear PCM bitstreams encoded
according to the MPEG-4 AAC format and its extensions spectral band replication, parametric
stereo and MPEG surround, framed in MPEG-4 LATM/LOAS.

2 Normative references

The following referenced documents are indispensable for the application of this document.
For dated references, only the edition cited applies. For undated references, the latest edition
of the referenced document (including any amendments) applies.

IEC 60958 (all parts), Digital audio interface

IEC 61937-1, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 1: General

IEC 61937-2, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 2: Burst-info

ISO/IEC 14496-3:2009, Information technology – Coding of audio-visual objects – Part 3:


Audio

3 Terms, definitions and abbreviations

For the purposes of this document the terms, definitions and abbreviations of IEC 61937-1,
IEC 61937-2 and the following apply.

3.1 Terms and definitions

3.1.1
access unit
smallest entity to which timing information can be attributed; an access unit is the smallest
individually decodable unit; a decoder consumes access units

3.1.2
AudioMuxElement(1)
LATM element that carries payload data for at least one audio elementary stream, related
payload length information and multiplex configuration information

NOTE This element carries payload data in form of PayloadMux elements. The number in brackets indicates
multiplexing configuration (StreamMuxConfig) is multiplexed into AudioMuxElements, that is in-band transmission.

3.1.3
AudioSpecificConfig
configuration structure used to convey parameters to initialize the MPEG-4 audio decoder
61937-11  IEC:2010 –7–

3.1.4
low overhead MPEG-4 audio transport multiplex
LATM
multiplexing layer defined by ISO/IEC 14496-3; used for multiplexing of audio elementary
streams

3.1.5
low overhead audio stream
LOAS
synchronisation layer defined by ISO/IEC 14496-3; three different formats of LOAS are
defined, each of which is designed to address the specific characteristics of the underlying
transmission layer

3.1.6
MPEG-4 AAC profile
contains only the MPEG-4 AAC low complexity audio object type; MPEG-4 AAC low
complexity object type is the counterpart to the MPEG-2 AAC low complexity profile; in
addition to the MPEG-2 AAC LC profile the MPEG-4 AAC low complexity object type enables
the usage of the PNS tool

NOTE The MPEG-4 AAC Low Complexity object type is used when there are restrictions on the usage of RAM
and processing complexity.

3.1.7
MPEG-4 high efficiency AAC profile
contains the spectral band replication object type in conjunction with the MPEG-4 AAC low
complexity object type

NOTE For further information please refer to ISO/IEC 14496-3. The MPEG-4 high efficiency AAC profile is a
superset of the MPEG-4 AAC profile.

3.1.8
MPEG-4 high efficiency AAC profile version 2
contains the parametric stereo object type and the spectral band replication object type in
conjunction with the AAC low complexity object type

NOTE The MPEG-4 high efficiency AAC profile version 2 is a superset of the MPEG-4 high efficiency AAC profile.

3.1.9
MPEG surround
technology used for coding of multichannel signals based on a downmixed signal of the
original multichannel signal, and associated spatial parameters

NOTE MPEG surround is defined in ISO/IEC 23003-1.

3.1.10
PayloadMux
payload data chunk in an AudioMuxElement that contains potentially multiplexed payload data
for multiple audio elementary streams; in general PayloadMux elements can be concatenated
inside AudioMuxElements

3.1.11
SpatialSpecificConfig
configuration structure used to initialize the MPEG surround decoder

3.1.12
StreamMuxConfig
configuration structure that describes the structure of the LATM payload multiplex
–8– 61937-11  IEC:2010

3.1.13
Sub-data-type
reference to the type of payload of the data-bursts defined for the use with the specified data-
type

3.1.14
modified discrete cosine transformation
MDCT
transformation schema used by AAC

3.1.15
transformation length (of the AAC codec or core codec)
AAC can operate in two modes using either a 960 lines or 1 024 lines MDCT transformation
for long blocks; an MDCT line is a spectral component described by frequency, amplitude and
phase

3.2 Abbreviations
AAC Advanced Audio Coding
AAC LC MPEG-4 AAC Low Complexity
HE AAC MPEG-4 High Efficiency AAC and MPEG-4 High Efficiency AAC Version 2
ADTS Audio Data Transport Stream
DVB Digital Video Broadcasting
MDCT Modified Discrete Cosine Transformation
MPEG Moving Picture Experts Group
MPS MPEG Surround
PNS Perceptual Noise Substitution
PS Parametric Stereo
SBR Spectral Band Replication
TL AAC Transformation Length

4 Mapping of the audio bit stream on to IEC 61937-1

4.1 General

The coding of the bit stream and data-burst is in accordance with IEC 61937-1 and
IEC 61937-2.

4.2 Burst-info for MPEG-4 AAC and its extensions in LATM/LOAS

The 16-bit burst-info contains information about the data which will be found in the data-burst
(see Table 1).
61937-11  IEC:2010 –9–

Table 1 – Values for data-type and sub-data-type

Data-type
according to Sub-data-type Repetition period
IEC 61937-2 Reference
Value of Pc Contents of data-bursts
point R
Value of bits 5–6 in IEC 60958 frames
Pc bits 0–4
0–22 0–3 According to IEC 61937
23 0 According to Definition specific to
IEC 61937-10 IEC 61937-10
1 AAC LC Bit 0 of Pa 960 / 1 024
2 HE AAC Bit 0 of Pa 1 920 / 2 048
3 Reserved for future reserved Reserved for future definition
definition of other of other applications
applications
24–31 0–3 According to IEC 61937

Bits 0–4 of the burst-info (Pc) signal the data-type used for transmission. For MPEG-4 AAC-based audio in
LATM/LOAS, the signaled data-type is 23.

The Pc bits 5–6 indicate if the transmitted data stream contains audio encoded in AAC LC or HE AAC (including
high efficiency AAC version 2). Only values 1 and 2 refer to the transmission of AAC LC or HE AAC based audio.
The values 0 and 3 are used for indication of codec types which are described by other or future parts of
IEC 61937.

5 Format of data-burst for MPEG-4 AAC and its extensions in LATM/LOAS

5.1 General

This clause specifies the data-burst for MPEG-4 AAC audio and its extensions in LATM/LOAS.
Specific properties such as reference points, repetition period, the method of filling stream
gaps and decoding latency are specified.

The decoding latency (or delay), indicated for the sub-data-types, should be taken into
account by the transmitter to schedule data-bursts as necessary to establish synchronisation
between picture and decoded audio.

5.2 Pause data-bursts for MPEG-4 AAC and its extensions in LATM/LOAS

Pause data-bursts for MPEG-4 AAC and its extensions in LATM/LOAS are defined in Table 2.

Table 2 – Repetition period of pause data-bursts

Repetition period of pause data-burst


Data-type of audio data-burst
Mandatory Recommended
Sub-data-type for MPEG-4 audio in LATM/LOAS
— 64 IEC 60958 frames
based on MPEG-4 AAC core codec

If regular audio data-bursts are not being transmitted due to for example a PAUSE condition,
it is recommended to use pause data-bursts to fill such stream gaps. The repetition period of
the pause data-bursts should be selected according to Table 2. If other repetition periods are
necessary to precisely fill the stream gap length, or to meet the requirement on audio data-
bursts spacing (see IEC 61937) pause data-bursts may have other lengths which may not be
an integer multiple of 64 IEC 60958 frames.
– 10 – 61937-11  IEC:2010

When a stream gap in an audio stream is filled by a sequence of pause data-bursts, the Pa of
the first pause data-burst shall occur after exactly that amount of IEC 60958 frames as
indicated by the AAC transformation length in conjunction with the codec type information
from Table 3. It is recommended that the sequence(s) of pause data-bursts which fill the
stream gap should continue from this point up to the Pa of the first audio data-burst which
follows the stream gap, or as close as possible considering the specific IEC 60958 frame
length of the pause data-burst with respect to the AAC core codec transformation length. The
repetition-period-length parameter contained in the pause data-burst is intended to be
interpreted by the receiver as an indication of the number of decoded PCM samples that are
missing (due to the resulting audio gap).

5.3 Audio data-bursts

5.3.1 MPEG-4 AAC and its extensions in LATM/LOAS

The stream of data-bursts consists of sequences of MPEG-4 AAC and its extensions in
LATM/LOAS frames. Each data-burst consists of a preamble followed by the payload and
stuffing. The data-type of a data-burst according to this specification is 23.

MPEG-4 LOAS framed MPEG-4 LOAS framed


Pa Pb Pc Pd Pa Pb Pc Pd
burst payload burst payload

Bit 0 of Pa MPEG-4 LOAS frame Stuffing Bit 0 of Pa MPEG-4 LOAS frame

Burst repetition period


IEC 1057/10

Figure 1 – Data-burst structure

The length of the audio payload data in the data-burst depends on the bit rate and other
parameters of the encoded audio. The size of the data-burst payload is indicated by the Pd
preamble word and is measured in bits.

P AD = 4 × 16 bit (P AD is the size of the preamble words P A – P D measured in bits)

BS = 4 × 16 bit (B S is the size of the burst spacing measured in bits)

TL = 1 024 or 960 lines (TL is the used MDCT transformation length in MDCT lines)

The maximum data-burst payload size for AAC not utilizing SBR is calculated according to the
following equation:

2 × 16 bit × TL – ( P AD + B S ) = maximum payload size in bits.

If HE AAC is used the maximum data-burst payload size is calculated according to the
following equation:

4 × 16 bit × TL – ( P AD + B S ) = maximum payload size in bits.

The data-type-dependent information for MPEG-4 AAC and its extensions in LATM/LOAS is
given in Table 3. Bits 8–12 of Pc contain information about the audio codec used and about
the LATM configuration.
61937-11  IEC:2010 – 11 –

Table 3 – Data-type-dependent information

Bits of Pc
Value Definition Description
LSB…MSB
8 0 AAC Transformation Length 1 024 lines
1 960 lines
9 0 PS PS data not present
1 PS data present
10–11 0 MPS MPS data not present
1 Embedded MPS data present / LATM single layer
transport mode (implicit MPS signaling)
2 Embedded MPS data present / explicit signaling of
MPS in second LATM layer
3 Do not use until further definition
12 0 Reserved Set to “0” until further definition
1 Do not use until further definition

The Pc bit 8 indicates the transformation length of the AAC core codec which is used to
encode the transmitted audio stream. Information from Pc bit 8 does not define the repetition
period of data-bursts on its own. This information is required in conjunction with the codec
signaled by the sub-data-type to calculate the data-burst repetition period. Receivers shall
read the sub-data-types as well as the data-type-dependent information in order to compute
the repetition period of data bursts. Examples can be found in Annex A.

The Pc bit 9 indicates whether PS data is present in the encoded audio stream.

The two Pc bits 10–11 indicate the presence and transport configuration of MPS data in the
encoded audio stream. The value 0 indicates that no MPS data is present. Values 1 and 2
indicate that MPS data is present in the audio bit stream. Pc bits 10-11 signaling 1 indicates
that the MPS payload as well as the MPS SpatialSpecificConfig is embedded inside the
payload of the first LATM layer which conveys the AAC LC or HE AAC data stream. Pc bits
10–11 signaling 2 indicates that the MPS payload is also embedded inside the payload of the
first layer. But in this case the MPS SpatialSpecificConfig is signaled explicitly associated to
the second layer inside the LATM StreamMuxConfig. The value 3 signaled by the Pc bits 10–
11 is reserved for future use.

This specification does not allow the transmission of MPS payload which is not embedded
inside the AAC LC or HE AAC payload but resides separated from the AAC LC or HE AAC
payload inside another LATM layer.

The presence of the PS or MPS extensions does not influence the data-burst repetition rate or
the calculation of the transmission and decoding latency as described in 5.3.3.

The Pc bit 12 is reserved for future use. This bit shall be set to 0.

One complete AAC access unit represents a time interval of 1 024 or 960 audio samples
embedded into the data-burst payload. When transmitting MPEG-4 HE AAC encoded audio
programs, SBR is used as an extension to AAC. In this case the sampling frequency of the
MPEG-4 AAC core component is usually half the sampling frequency of the SBR tool and
audio program. One complete HE AAC access unit represents a time interval of 2 048 or
1 920 audio samples embedded into the data-burst payload.
– 12 – 61937-11  IEC:2010

HE AAC bit streams with downsampled SBR shall be transmitted signaling AAC LC in the sub-
data-type. Therefore one access unit corresponds to 1 024 or 960 AAC encoded audio
samples.

If HE AAC is signaled by the sub-data-type the IEC 60958 frame rate shall be equal to the
sampling frequency of the SBR tool. If AAC LC is signaled the IEC 60958 frame rate shall
correspond to the sampling frequency of AAC.

The reference point of a data-burst is bit 0 of Pa and occurs exactly once every number of
IEC 60958 sampling periods which is computed using the information from Table 1 and
Table 3. The data-burst containing one LATM/LOAS audio frame shall occur at a constant rate.
The intervals for data-bursts sharing the same bit-stream-number shall correspond exactly to
the amount of IEC 60958 frames which is calculated using the information from Table 1 and
Table 3.

It is not allowed to transmit audio data streams using IEC 60958 frame rates below 32 kHz.

5.3.2 LATM/LOAS framing

The LOAS frame as described in ISO/IEC 14496-3 shall be mapped directly to the payload
section, right after the preamble words of the data-burst. The first bit of the LOAS frame shall
always correspond to the first bit after the preamble section in the data-burst.

The payload in a data-burst consists of one complete LOAS frame containing one LATM
AudioMuxElement. It is not allowed to convey one LATM/LOAS frame using multiple data-
bursts. LOAS frames exceeding the payload capacity of a data-burst shall be dropped and the
actual data-burst shall be replaced by a sequence of pause-bursts to match the duration of
that data-burst.

The parameter numSubFrames from the LATM StreamMuxConfig shall be 0. The parameter
numProgram from the LATM StreamMuxConfig shall be 0. The parameter numLayer from the
LATM StreamMuxConfig shall be 0 except for audio streams signaling the availability of MPS
with payload embedding and explicit signaling of MPS in the second LATM layer. In such
cases the presence of a second layer in LATM frames is allowed and therefore numLayer
shall be 1 indicating 2 layers. In this configuration there exists no payload associated to the
second LATM layer and therefore the payload size indication for the second layer in LATM is
set to zero.

Only the LOAS AudioSyncStream() scheme shall be used in the context of this specification.

The LATM StreamMuxConfig structure shall be conveyed inside the LATM multiplex. This is
the main structure that is utilized by the decoder for configuration. The StreamMuxConfig may
not be present in each LATM frame in order to save bandwidth. It may be sent in intervals to
allow decoders to tune in to a running stream.

5.3.3 Latency

The latency of an external audio decoder to decode MPEG-4 AAC and its extensions in
LATM/LOAS is defined as the sum of the receiving time of the audio payload in one data-burst
and the time used for decoding of one access unit.

Each data-burst contains a minimum of 4 stuffing words (Pz of 16 bits). The repetition period
of data-bursts in IEC 60958 frames is computed according to information from Table 1 and
Table 3. The reception delay for one audio access unit is calculated as the time elapsed
counting from the first bit of the data-burst until the last bit of the actual audio payload inside
the data-burst received. Subsequent stuffing is not taken into account. After a complete frame
is received immediate decoding and subsequent rendering of the audio frame is not
recommended as the size of the next audio frame and therefore time required for receiving it
completely cannot be determined accurately.
61937-11  IEC:2010 – 13 –

In order to simplify the timing mechanism for receiving and decoding of content of data-bursts,
the receiving delay should be calculated as the time necessary to receive the complete data-
burst including the stuffing. The maximum time available to decode (the decoding delay)
should be selected to correspond to the length of one full data-burst. This results in an overall
delay corresponding to two complete data-bursts for reception and decoding.

For synchronisation (for example with video), the recommended value for latency corresponds
to the time necessary to receive two complete data-bursts. Figure 2 shows the simplified and
recommended method for calculating the latency for reception and decoding.

A shorter latency may be acceptable if synchronisation is not required.

LOAS framed LOAS framed


Pa Pb Pc Pd Pa Pb Pc Pd Pa
burst payload burst payload

Bit 0 of Pa LOAS frame Bit 0 of Pa LOAS frame Stuffing

Burst repetition period Stuffing

Receiving delay Decoding delay

Latency of receiving and decoding

IEC 1058/10

NOTE This diagram shows the recommended method.

Figure 2 – Latency diagram for burst reception and decoding


– 14 – 61937-11  IEC:2010

Annex A
(informative)

Calculation of delay and data-burst repetition rates – guidelines

A.1 Examples

Some examples for the calculation of data-burst-repetition rates and latencies can be found in
Table A.1.

Table A.1 – Examples – Calculation of delay and data-burst repetition rates

Data-burst
Bits 5-6 Bit 8 of Pc AAC sampling SBR sampling IEC 60958 Overall
repetition rate
of Pc codec TL rate rate frame rate latency
indication IEC 60958
lines kHz kHz kHz ms
frames
32 n/a 32 64
1 024 44,1 n/a 44,1 1 024 46,44
48 n/a 48 42,67
96 n/a 96 21,33
AAC LC
32 n/a 32 60
960 44,1 n/a 44,1 960 43,54
48 n/a 48 40
96 n/a 96 20
16 32 32 128
22,05 44,1 44,1 2 048 92,88
1 024
24 48 48 85,33
48 96 96 42,67
HE AAC
16 32 32 120
960 22,05 44,1 44,1 1 920 87,07
24 48 48 80
48 96 96 40

The presence of the PS or MPS extensions signaled by Pc bits 9–11 does not influence the
data-burst repetition rate or the calculation of the transmission and decoding latency as
described in 5.3.3.

A.2 Guidelines

The following guidelines should be taken into account.

a) Receivers which receive an indication in the data-burst-dependent information that


signals the presence of MPS, but that are not capable of decoding MPS, should not
refuse decoding of that stream. It is highly recommended that non-MPS capable decoders
decode just the AAC LC / HE AAC channel configuration as indicated by the downmix
codec configuration record and ignore the MPS extension in the bit stream.

b) The IEC 60958 frame rate may be calculated by making use of the audio sampling rate
indication from the AudioSpecificConfig inside the LATM StreamMuxConfig. It is highly
61937-11  IEC:2010 – 15 –

recommended that the correct codec indication as well as the matching sampling
frequency or IEC 60958 frame rate indication is available before starting transmission of
IEC 61937-11 data bursts. In case of signaled audio configuration changes upstream it is
highly recommended that audio data-bursts referring to the new program are only
transmitted after the relevant information (new codec and new sampling frequency) is
available to the transmitter and signaled properly.

c) It is highly recommended that decoders do not attempt to decode an audio stream before
they have received the corresponding decoder configuration records (e.g.
AudioSpecificConfig).
– 16 – 61937-11  IEC:2010

Bibliography

IEC 61937 (all parts), Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958

IEC 61937-6, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 6: Non-linear PCM bitstreams according to the MPEG-2 AAC and
MPEG-4 AAC audio formats

IEC 61937-10, Digital audio – Interface for non-linear PCM encoded audio bitstreams applying
IEC 60958 – Part 10: Non-linear PCM bitstreams according to the MPEG-4 Audio Lossless
Coding (ALS) format (under consideration)

ISO/IEC 13818-1, Information technology – Generic coding of moving pictures and


associated audio information – Part 1: Systems

ISO/IEC 13818-7, Information technology – Generic coding of moving pictures and


associated audio information – Part 7: Advanced Audio Coding (AAC)

ISO/IEC 23003-1:2007, Information technology – MPEG audio technologies – Part 1: MPEG


Surround 1

_____________

—————————
1 NOTE Technical corrigendum 1 from 2008 has to be applied.
– 18 – 61937-11  CEI:2010

SOMMAIRE
AVANT-PROPOS .................................................................................................................. 19
INTRODUCTION ................................................................................................................... 21
1 Domaine d’application .................................................................................................... 22
2 Références normatives ................................................................................................... 22
3 Termes, définitions et abréviations ................................................................................. 22
3.1 Termes et définitions ............................................................................................. 22
3.2 Abréviations .......................................................................................................... 24
4 Cartographie du flux de bits audio avec la CEI 61937-1 .................................................. 25
4.1 Généralités............................................................................................................ 25
4.2 Info-de-salve pour le profil MPEG-4 AAC et ses extensions en LATM/LOAS .......... 25
5 Format de la salve de données pour le profil MPEG-4 AAC et ses extensions en
LATM/LOAS ................................................................................................................... 25
5.1Généralités............................................................................................................ 25
5.2Salves de données " pause" pour le profil MPEG-4 AAC et ses extensions en
LATM/LOAS" ......................................................................................................... 25
5.3 Salves de données audio ...................................................................................... 26
5.3.1 MPEG-4 AAC et ses extensions en LATM/LOAS ....................................... 26
5.3.2 Trames LATM/LOAS .................................................................................. 28
5.3.3 Temps de latence ...................................................................................... 29
Annexe A (informative) Calcul du retard et des taux de répétition des salves de
données – lignes directrices ................................................................................................. 30
Bibliographie ......................................................................................................................... 32

Figure 1 – Structure d'une salve de données ........................................................................ 26


Figure 2 – Diagramme du temps de latence pour la réception et le décodage d’une
salve ..................................................................................................................................... 29

Tableau 1 – Valeurs pour les types de données et les sous-types de données...................... 25


Tableau 2 – Période de répétition des salves de données "pause" ........................................ 26
Tableau 3 – Informations dépendant du type-de-données ..................................................... 27
Tableau A.1 – Exemples – Calcul du retard (ou temps de latence) et des taux de
répétition des salves de données .......................................................................................... 30
61937-11  CEI:2010 – 19 –

COMMISSION ÉLECTROTECHNIQUE INTERNATIONALE


____________

AUDIONUMÉRIQUE –
INTERFACE POUR LES FLUX DE BITS AUDIO À CODAGE MIC
NON LINÉAIRE CONFORMÉMENT À LA CEI 60958 –

Partie 11: MPEG-4 AAC et ses extensions en LATM/LOAS

AVANT-PROPOS
1) La Commission Electrotechnique Internationale (CEI) est une organisation mondiale de normalisation
composée de l'ensemble des comités électrotechniques nationaux (Comités nationaux de la CEI). La CEI a
pour objet de favoriser la coopération internationale pour toutes les questions de normalisation dans les
domaines de l'électricité et de l'électronique. A cet effet, la CEI – entre autres activités – publie des Normes
internationales, des Spécifications techniques, des Rapports techniques, des Spécifications accessibles au
public (PAS) et des Guides (ci-après dénommés "Publication(s) de la CEI"). Leur élaboration est confiée à des
comités d'études, aux travaux desquels tout Comité national intéressé par le sujet traité peut participer. Les
organisations internationales, gouvernementales et non gouvernementales, en liaison avec la CEI, participent
également aux travaux. La CEI collabore étroitement avec l'Organisation Internationale de Normalisation (ISO),
selon des conditions fixées par accord entre les deux organisations.
2) Les décisions ou accords officiels de la CEI concernant les questions techniques représentent, dans la mesure
du possible, un accord international sur les sujets étudiés, étant donné que les Comités nationaux de la CEI
intéressés sont représentés dans chaque comité d’études.
3) Les Publications de la CEI se présentent sous la forme de recommandations internationales et sont agréées
comme telles par les Comités nationaux de la CEI. Tous les efforts raisonnables sont entrepris afin que la CEI
s'assure de l'exactitude du contenu technique de ses publications; la CEI ne peut pas être tenue responsable
de l'éventuelle mauvaise utilisation ou interprétation qui en est faite par un quelconque utilisateur final.
4) Dans le but d'encourager l'uniformité internationale, les Comités nationaux de la CEI s'engagent, dans toute la
mesure possible, à appliquer de façon transparente les Publications de la CEI dans leurs publications
nationales et régionales. Toutes divergences entre toutes Publications de la CEI et toutes publications
nationales ou régionales correspondantes doivent être indiquées en termes clairs dans ces dernières.
5) La CEI elle-même ne fournit aucune attestation de conformité. Des organismes de certification indépendants
fournissent des services d'évaluation de conformité et, dans certains secteurs, accèdent aux marques de
conformité de la CEI. La CEI n'est responsable d'aucun des services effectués par les organismes de
certification indépendants.
6) Tous les utilisateurs doivent s'assurer qu'ils sont en possession de la dernière édition de cette publication.
7) Aucune responsabilité ne doit être imputée à la CEI, à ses administrateurs, employés, auxiliaires ou
mandataires, y compris ses experts particuliers et les membres de ses comités d'études et des Comités
nationaux de la CEI, pour tout préjudice causé en cas de dommages corporels et matériels, ou de tout autre
dommage de quelque nature que ce soit, directe ou indirecte, ou pour supporter les coûts (y compris les frais
de justice) et les dépenses découlant de la publication ou de l'utilisation de cette Publication de la CEI ou de
toute autre Publication de la CEI, ou au crédit qui lui est accordé.
8) L'attention est attirée sur les références normatives citées dans cette publication. L'utilisation de publications
référencées est obligatoire pour une application correcte de la présente publication.
9) L’attention est attirée sur le fait que certains des éléments de la présente Publication de la CEI peuvent faire
l’objet de droits de brevet. La CEI ne saurait être tenue pour responsable de ne pas avoir identifié de tels droits
de brevets et de ne pas avoir signalé leur existence.

La Norme internationale CEI 61937-11 a été établie par le domaine technique 4: Interfaces et
protocoles pour les systèmes numériques, du comité d’études 100 de la CEI: Systèmes et
appareils audio, vidéo et multimédia.

La présente version bilingue, publiée en 2011-02, correspond à la version anglaise.

Le texte anglais de cette norme est issu des documents 100/1491/CDV et 100/1580/RVC

Le rapport de vote 100/1580/RVC donne toute information sur le vote ayant abouti à
l’approbation de cette norme.

La version française de cette norme n’a pas été soumise au vote.


– 20 – 61937-11  CEI:2010

Cette publication a été rédigée selon les Directives ISO/CEI, Partie 2.

Une liste de toutes les parties de la CEI 61937, dont le titre général est Audionumérique –
Interface pour les flux de bits audio à codage MIC non-linéaire conformément à la CEI 60958
peut être consultée sur le site web de la CEI.

Le comité a décidé que le contenu de cette publication ne sera pas modifié avant la date de
stabilité indiquée sur le site web de la CEI sous « http://webstore.iec.ch » dans les données
relatives à la publication recherchée. A cette date, la publication sera

• reconduite,
• supprimée,
• remplacée par une édition révisée, ou
• amendée.
61937-11  CEI:2010 – 21 –

INTRODUCTION

Les normes de radiodiffusion vidéonumérique moderne comme le DVB incluent le support des
codecs audio MPEG-4 HE AAC et/ou HE AAC v2 tels que spécifiés dans l’ISO/CEI 14496-3.
Un nombre croissant de pays est en train d’adopter ces nouveaux codecs pour leur définition
de normes et leurs services de radiodiffusion vidéonumérique à haute définition et commence
à les mettre en œuvre.

Pour le format audio MPEG-2 AAC (ISO/CEI 13818-7), le format de trame spécifié pour le flux
de bits audio est l’ADTS et son transport via une interface CEI 60958 est spécifié dans la
CEI 61937-6.

Toutefois, les codecs audio MPEG-4 (ISO/CEI 14496-3) introduisent de nouvelles


caractéristiques et de nouvelles capacités qui exigent un format de trame supportant des
mécanismes de signalisation et de livraison plus souples. Par conséquent, les systèmes
MPEG-2 (ISO/CEI 13818-1) spécifient le format de trames MPEG-4 LATM/LOAS pour les
codecs audio MPEG-4 afin de dépasser les limitations de l’ADTS.

Le format de trames MPEG-4 LATM/LOAS doit être supporté par la CEI 61937 pour pouvoir
acheminer le flux de bits audio MPEG-4 d’un décodeur vers un récepteur A/V connecté via
l’interface CEI 60958 sans qu’il y ait besoin de reconstituer les trames du flux de bits audio
dans l’ADTS.
– 22 – 61937-11  CEI:2010

AUDIONUMÉRIQUE –
INTERFACE POUR LES FLUX DE BITS AUDIO À CODAGE MIC
NON LINÉAIRE CONFORMÉMENT À LA CEI 60958 –

Partie 11: MPEG-4 AAC et ses extensions en LATM/LOAS

1 Domaine d’application

La présente partie de la CEI 61937 décrit la méthode à utiliser pour acheminer les flux de bits
à codage MIC non-linéaire selon le format MPEG-4 AAC et ses extensions, reconstruction de
bandes spectrales, stéréo paramétrique et MPEG ambiophonique, avec des trames en MPEG-
4 LATM/LOAS.

2 Références normatives

Les documents de référence suivants sont indispensables pour l'application du présent


document. Pour les références datées, seule l'édition citée s'applique. Pour les références
non datées, la dernière édition du document de référence s'applique (y compris les éventuels
amendements).

CEI 60958 (toutes les parties), Digital audio interface (disponible uniquement en anglais)

IEC 61937-1, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 1: General (disponible uniquement en anglais)

IEC 61937-2, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 2: Burst-Info (disponible uniquement en anglais)

ISO/IEC 14496-3:2009, Information technology – Coding of audio-visual objects – Part 3:


Audio (disponible uniquement en anglais)

3 Termes, définitions et abréviations

Pour les besoins du présent document, les termes, définitions et abréviations donnés dans la
CEI 61937-1, la CEI 61937-2 ainsi que les suivants s’appliquent.

3.1 Termes et définitions

3.1.1
unité d’accès
plus petite entité à laquelle des informations de synchronisation peuvent être attribuées; une
unité d’accès est l’unité la plus petite qui soit décodable individuellement; un décodeur
consomme des unités d’accès

3.1.2
AudioMuxElement(1)
élément LATM qui transporte des données-utiles (payload data) pour au moins un flux
élémentaire audio, les informations associées "longueur des données-utiles" et les
informations de configuration du multiplex

NOTE Cet élément transporte les données-utiles sous forme d’éléments PayloadMux. Le nombre entre crochets
indique que la configuration de multiplexage (StreamMuxConfig) est multiplexée en AudioMuxElements, c'est-à-
dire en transmission intrabande.
61937-11  CEI:2010 – 23 –

3.1.3
AudioSpecificConfig
structure de configuration utilisée pour acheminer les paramètres servant à initialiser le
décodeur audio MPEG-4

3.1.4
multiplex de transport audio MPEG-4 à faible surdébit 1
LATM 2
couche de multiplexage définie par l’ISO/CEI 14496-3; utilisée pour le multiplexage de flux
élémentaires audio

3.1.5
flux audio à faible surdébit
LOAS 3
couche de synchronisation définie par l’ISO/CEI 14496-3; trois formats différents de LOAS
sont définis, chacun conçu pour les caractéristiques spécifiques de la couche de transmission
d’arrière-plan

3.1.6
profil MPEG-4 AAC
contient seulement le type d’objet "audio à faible complexité MPEG-4 AAC"; le type d’objet à
"faible complexité MPEG-4 AAC" est la contrepartie du profil à faible complexité MPEG-2
AAC; en plus du profil MPEG-2 AAC LC, le type d’objet à faible complexité MPEG-4 AAC
permet l’usage de l’outil PNS

NOTE Le type d’objet à faible complexité MPEG-4 AAC est utilisé quand il y a des limitations en mémoire RAM et
en capacité de calcul.

3.1.7
profil MPEG-4 AAC à haut rendement
contient le type d’objet "reconstruction de bande spectrale" en conjonction avec le type
d’objet "MPEG-4 AAC à faible complexité"

NOTE Pour plus d’informations, voir l’ISO/CEI 14496-3. Le profil MPEG-4 AAC à haut rendement est un
surensemble du profil MPEG-4 AAC.

3.1.8
version 2 de profil MPEG-4 AAC à haut rendement
contient le type d’objet "stéréo paramétrique" et le type d’objet "reconstruction de bande
spectrale" lié au type d’objet" AAC à faible complexité"

NOTE La version 2 de profil MPEG-4 AAC à haut rendement est un surensemble du profil MPEG-4 AAC à haut
rendement.

3.1.9
MPEG ambiophonique
technologie utilisée pour le codage de signaux sonores multicanaux; ces signaux sont
ramenés ou condensés en un équivalent stéréo, complété par le codage des écarts entre les
différents canaux et ce résumé

NOTE Le MPEG ambiophonique est défini dans l’ISO/CEI 23003-1.

—————————
1 Surdébit (overhead): Quantité d'informations de gestion qui s'ajoute au contenu d'une communication et en
accroît le débit.
2 LATM = Low overhead Audio Transport Multiplex
3 LOAS = Low Overhead Audio Stream
– 24 – 61937-11  CEI:2010

3.1.10
PayloadMux
bloc de données-utiles dans un AudioMuxElement qui contient des données-utiles,
potentiellement multiplexées pour de multiples flux élémentaires audio; en général, les
éléments PayloadMux peuvent être concaténés à l’intérieur des AudioMuxElements

3.1.11
SpatialSpecificConfig
structure de configuration utilisée pour initialiser le décodeur ambiophonique MPEG

3.1.12
StreamMuxConfig
structure de configuration qui décrit la structure du multiplex utile (payload multiplex) du
LATM

3.1.13
Sous-type de données
référence au type de données-utiles des salves de données défini pour être utilisé avec le
type-de-données spécifié

3.1.14
transformation en cosinus discrète modifiée
MDCT 4
schéma de transformation utilisé par l’AAC

3.1.15
longueur de transformation (du codec AAC ou du codec de cœur)
l’AAC peut fonctionner dans deux modes utilisant une transformation MDCT avec 960 lignes
ou avec 1 024 lignes dans le cas de blocs longs; une ligne MDCT est une composante
spectrale décrite par sa fréquence, son amplitude et sa phase

3.2 Abréviations
AAC Advanced Audio Coding (Codage audio avancé)
AAC LC Profil MPEG-4 AAC à faible complexité
HE AAC Profil MPEG-4 AAC à haut rendement et Profil MPEG-4 AAC à haut rendement
Version 2
ADTS Audio Data Transport Stream (flux de transport de données audio)
DVB Digital Video Broadcasting (consortium européen préparant des normes
publiées par l'ETSI)
MDCT Modified Discrete Cosine Transformation (transformation en cosinus discrète
modifiée)
MPEG Moving Picture Experts Group
MPS MPEG Surround (MPEG ambiophonique)
PNS Perceptual Noise Substitution (substitution imperceptible par du bruit)
PS Parametric Stereo (stéréo paramétrique)
SBR Spectral Band Replication (Reconstruction de bande spectrale)
TL AAC Transformation Length (longueur de transformation ACC)

—————————
4 MDCT = Modified Discrete Cosine Transformation
61937-11  CEI:2010 – 25 –

4 Cartographie du flux de bits audio avec la CEI 61937-1

4.1 Généralités

Le codage du flux de bits et de la salve de données se fait conformément à la CEI 61937-1 et


à la CEI 61937-2.

4.2 Info-de-salve pour le profil MPEG-4 AAC et ses extensions en LATM/LOAS

L’info-de-salve 16-bits contient des informations sur les données qui seront trouvées dans la
salve de données (voir Tableau 1).

Tableau 1 – Valeurs pour les types de données et les sous-types de données

Type-de-données
Sous-type de-
selon la Période de répétition des
données Point de
CEI 61937-2 Contenu salves de données dans les
Valeur des référence R
Valeur des trames CEI 60958
bits Pc 5–6
bits Pc 0–4
0–22 0–3 Selon la CEI 61937
23 0 Selon la CEI 61937-10 Définition spécifique à la
CEI 61937-10
1 AAC LC Bit 0 de Pa 960 / 1 024
2 HE AAC Bit 0 de Pa 1 920 / 2 048
3 Réservé pour une future réservé Réservé pour une future
définition d’autres définition d’autres
applications applications
24–31 0–3 Selon la CEI 61937

Les bits 0–4 de l’info de salve (Pc) signalent le type de données utilisé pour la transmission. Pour l’audio en
MPEG-4 AAC de LATM/LOAS, le type de donnée signalé est 23.

Les bits Pc 5–6 indiquent si le flux de données transmis contient de l’audio codé en AAC LC ou HE AAC (y
compris AAC à haut rendement version 2). Seules les valeurs 1 et 2 font référence à la transmission d’audio AAC
LC ou HE AAC. Les valeurs 0 et 3 sont utilisées pour l’indication de types de codec qui sont décrits par d’autres
parties ou des parties futures de la CEI 61937.

5 Format de la salve de données pour le profil MPEG-4 AAC et ses extensions


en LATM/LOAS

5.1 Généralités

Ce paragraphe spécifie la salve de données pour le profil audio MPEG-4 AAC et ses
extensions en LATM/LOAS. Les caractéristiques particulières, telles que les points de référence,
la période de répétition, la méthode pour combler les intervalles entre flux et le temps de
latence au décodage, sont spécifiées.

Le temps de latence (ou retard) au décodage indiqué pour les sous-types-de-données doit
être pris en compte par l'émetteur pour planifier les instants d'émission des salves de
données autant que nécessaire pour assurer une synchronisation entre l’image et les
données audio décodées.

5.2 Salves de données " pause" pour le profil MPEG-4 AAC et ses extensions en
LATM/LOAS"

Les salves de données "pause" pour le profil MPEG-4 AAC et ses extensions en LATM/LOAS
sont données au Tableau 2.
– 26 – 61937-11  CEI:2010

Tableau 2 – Période de répétition des salves de données "pause"

Période de répétition d'une salve de données "pause"


Type-de- donnée des salves de données audio
Obligatoire Recommandée
Sous-type-de-données pour audio MPEG-4 en
LATM/LOAS fondée sur le codec de cœur MPEG-4 — 64 trames CEI 60958
AAC

Si des salves de données audio habituelles ne sont pas émises, par exemple à cause d’une
condition PAUSE, il est recommandé d’utiliser des salves de données "pause" pour combler
ces trous dans le flux. Il convient de choisir la période de répétition des salves de données
"pause" conformément au Tableau 2. Si d’autres périodes de répétition sont nécessaires pour
combler exactement la longueur du trou dans le flux ou pour satisfaire à l’exigence sur
l’espacement des salves de données audio (voir CEI 61937) les salves de données "pause"
peuvent avoir d’autres longueurs qui peuvent n'être pas un multiple entier de 64
trames CEI 60958.

Lorsqu’un trou dans le flux audio est comblé par une suite de salves de données "pause", le
Pa de la première salve de données "pause" doit apparaître après juste le nombre de trames
CEI 60958 indiqué par la longueur de transformation AAC en conjonction avec l’information
de type de codec tirée du Tableau 3. Il est recommandé que la ou les séquences de salves de
données "pause" remplissant le trou dans le flux continue(nt) à partir de ce point jusqu'au Pa
de la première salve de données audio qui suit le trou dans le flux, ou aussi près que possible
vu la longueur de la trame CEI 60958 spécifique de la salve de données "pause" par rapport à
la longueur de transformation de codec de cœur AAC. Le paramètre fixant la longueur de
période de répétition, paramètre contenu dans la salve de données "pause", sera à interpréter
par le récepteur comme une indication du nombre d'échantillons MIC décodés manquants (en
raison du trou audio qui en résulte).

5.3 Salves de données audio

5.3.1 MPEG-4 AAC et ses extensions en LATM/LOAS

Le flux de salves de données se compose de séquences de profil MPEG-4 AAC avec ses
extensions en trames LATM/LOAS. Chaque salve de données se compose d’un préambule
suivi par les données-utiles et du bourrage. Le type de donnée d’une salve de données selon
la présente spécification est 23.

Données-utiles d’une salve Données-utiles d’une salve


Pa Pb Pc Pd au format de la trame Pa Pb Pc Pd au format de la trame
MPEG-4 LOAS MPEG-4 LOAS
Bit 0 de Pa Trame MPEG-4 LOAS Bourrage Bit 0 de Pa Trame MPEG-4 LOAS

Période de répétition des salves


IEC 1057/10

Figure 1 – Structure d'une salve de données

La longueur des données-utiles audio dans la salve de données dépend du débit binaire et
d’autres paramètres de l’audio codé. La taille des données-utiles d'une salve de données est
indiquée par le mot Pd du préambule et est mesurée en bits.

P AD = 4 × 16 bits (P AD est la taille des mots du préambule, P A – P D mesurée en bits)

BS = 4 × 16 bits (B S est la taille de l’espacement entre salves mesuré en bits)

TL = 1 024 ou 960 lignes (TL est la longueur de transformation MDCT utilisée dans les
lignes MDCT)
61937-11  CEI:2010 – 27 –

La taille maximale du paquet de données-utiles des salves de données pour un codage AAC
n’utilisant pas la reconstitution de bandes spectrales (SBR) 5 se calcule par l’équation
suivante:

2 × 16 bits × TL – ( P AD + B S ) = taille maximale de données-utiles en bits.

Si HE AAC est utilisé, la taille maximale de données-utiles de la salve de données est


calculée avec l’équation suivante:

4 × 16 bits × TL – ( P AD + B S ) = taille maximale de données-utiles en bits.

Les informations dépendant du type-de-données pour le profil MPEG-4 AAC et ses extensions
en LATM/LOAS sont données au Tableau 3. Les bits 8–12 du Pc contiennent des informations
sur le codec audio utilisé et sur la configuration LATM.

Tableau 3 – Informations dépendant du type-de-données

Bits de Pc
Valeur Définition Description
LSB…MSB
8 0 Longueur de transformation 1 024 lignes
ACC
1 960 lignes
9 0 PS Données PS absentes
1 Données PS présentes
10–11 0 MPS Données MPS absentes
1 Données MPS intégrées présentes / mode de
transport à couche unique LATM (signalisation
MPS implicite )
2 Données MPS intégrées présentes / signalisation
explicite de MPS dans la deuxième couche LATM)
3 A ne pas utiliser avant plus ample définition
12 0 Réservé Fixer à “0” jusqu’à plus ample définition
1 A ne pas utiliser avant plus ample définition

Le bit 8 de Pc indique la longueur de transformation du codec de cœur AAC utilisée pour


coder le flux audio transmis. Les informations du bit 8 de Pc ne définissent pas à elles seules
la période de répétition des salves de données. Cette information est exigée en conjonction
avec le codec signalé par le sous-type-de-données pour calculer la période de répétition des
salves de données. Les récepteurs doivent lire les sous-types-de-données ainsi que les
informations dépendant du type-de-données afin de calculer la période de répétition des
salves de données. Des exemples sont donnés à l’Annexe A.

Le bit 9 de Pc indique si les données PS sont présentes dans le flux audio codé.

Les deux bits 10–11 de Pc indiquent la présence et la configuration de transport des données
MPS dans le flux audio codé. La valeur 0 indique l’absence de données MPS. Les valeurs 1
et 2 indiquent que les données MPS sont présentes dans le flux de bits audio. Les bits Pc 10-
11 signalant 1 indiquent que les données-utiles MPS ainsi que le SpatialSpecificConfig MPS
sont intégrés à l’intérieur des données-utiles de la première couche LATM qui transporte le
flux de données AAC LC ou HE AAC. Les bits 10–11 de Pc signalant 2 indiquent que les
données-utiles MPS sont aussi intégrées à l’intérieur des données-utiles de la première
couche. Mais dans ce cas, le SpatialSpecificConfig MPS est signalé explicitement associé à
la deuxième couche à l’intérieur du StreamMuxConfig LATM. La valeur 3 signalée par les bits
Pc 10–11 est réservée pour une utilisation future.

—————————
5 SBR = Spectral Band Replication
– 28 – 61937-11  CEI:2010

La présente spécification n’autorise pas la transmission de données-utiles MPS non intégrées


à l'intérieur des données-utiles AAC LC ou HE AAC et qui se trouveraient à l’intérieur d’une
autre couche LATM, séparées des données-utiles AAC LC ou HE AAC..

La présence des extensions PS ou MPS n'a pas d'effet sur le taux de répétition des salves de
données ou le calcul des retards la transmission et du temps d’attente de décodage comme
décrit en 5.3.3.

Le bit 12 du Pc est réservé pour une utilisation future. Ce bit doit être mis à 0.

Une unité d’accès AAC complète représente un intervalle de temps de 1 024 ou 960
échantillons audio intégrés dans les données-utiles de salves de données. Lors de la
transmission de programmes audio codés en MPEG-4 HE AAC, la SBR est utilisée comme
une extension de l’AAC. Dans ce cas, la fréquence d’échantillonnage du composant de cœur
MPEG-4 AAC est généralement de la moitié de la fréquence d’échantillonnage de l’outil SBR
et du programme audio. Une unité d’accès HE AAC complète représente un intervalle de
temps de 2 048 ou 1 920 échantillons audio intégrés dans les données-utiles de salves de
données.

Les flux de bits HE AAC avec des SBR sous-échantillonnée doivent être émis en signalant
AAC LC dans le sous-type de données. Par conséquent, une unité d’accès correspond à
1 024 ou 960 échantillons audio codés AAC.

Si le profil HE AAC est signalé par le sous-type de données, la fréquence de trame CEI 60958
doit être égale à la fréquence d’échantillonnage de l’outil SBR. Si AAC LC est signalé, la
fréquence de trames CEI 60958 doit correspondre à la fréquence d’échantillonnage de AAC.

Le point de référence d’une salve de données est le bit 0 de Pa et il apparaît une fois
exactement à chaque groupe de périodes d’échantillonnage CEI 60958; le nombre de période
dans le groupe est calculé en utilisant les informations tirées des Tableaux 1 et 3. La salve de
données contenant une trame audio LATM/LOAS doit apparaître à un rythme constant. Les
intervalles pour les salves de données du même groupe partagent le même numéro de flux de
bits doivent correspondre exactement à la quantité de trames CEI 60958 qui est calculée en
utilisant les informations tirées des Tableaux 1 et 3.

Il n’est pas permis d'émettre des flux de données audio en utilisant des fréquences de trames
CEI 60958 inférieures à 32 kHz.

5.3.2 Trames LATM/LOAS

La trame LOAS telle qu’elle est décrite dans l’ISO/CEI 14496-3 doit être directement placée
dans la section de données-utiles, immédiatement après les mots de préambule de la salve
de données. Le premier bit de la trame LOAS doit toujours correspondre au premier bit après
la section préambule dans la salve de données.

Les données-utiles dans une salve de données se composent d’une trame LOAS complète
contenant un AudioMuxElement LATM. Il n’est pas permis de transporter une trame
LATM/LOAS en utilisant plusieurs salves de données. Les trames LOAS qui dépassent la
capacité en données-utiles d’une salve de données doivent être rejetées et cette salve de
données doit être remplacée par une suite de salves "pause" pour égaler la durée de la salve
de données concernée.

Le paramètre numSubFrames du StreamMuxConfig LATM doit être 0. Le paramètre


numProgram du StreamMuxConfig LATM doit être 0. Le paramètre numLayer du
StreamMuxConfig LATM doit être 0 sauf pour les flux audio qui signalent la disponibilité des
MPS avec intégration dans les données-utiles et signalisation explicite des MPS dans la
deuxième couche LATM. Dans de tels cas, la présence d’une deuxième couche dans les
trames LATM est autorisée et donc le numLayer doit être 1 ce qui indique 2 couches. Dans
cette configuration, il n’existe aucune donnée-utile associée à la deuxième couche LATM et
61937-11  CEI:2010 – 29 –

par conséquent, l’indication de taille des données-utiles pour la deuxième couche dans le
LATM est mise à zéro.

Seul le schéma LOAS AudioSyncStream() doit être utilisé dans le contexte de la présente
spécification.

La structure StreamMuxConfig LATM doit être transportée à l’intérieur du multiplex LATM. Il


s’agit de la structure principale utilisée par le décodeur pour se configurer. Le
StreamMuxConfig peut ne pas être présent dans chaque trame LATM, afin de réduire le
débit. Le StreamMuxConfig peut être émis de temps en temps pour permettre aux décodeurs
de se syntoniser sur un flux courant.

5.3.3 Temps de latence

Le temps de latence d’un décodeur audio externe qui décode un profil MPEG-4 AAC et ses
extensions en LATM/LOAS se définit comme la somme du temps de réception des données-
utiles audio dans une salve de données et du temps nécéssaire au décodage d’une unité
d’accès.

Chaque salve de données contient un minimum de 4 mots de bourrage (Pz de 16 bits). La


période de répétition des salves de données dans les trames CEI 60958 se calcule
conformément aux informations des Tableaux 1 et 3. Le délai de réception pour une unité
d’accès audio se calcule comme le temps qui s’écoule entre le premier bit de la salve de
données et le dernier bit des données-utiles audio effectivement trouvées dans la salve de
données reçue. Le bourrage qui suit n’est pas pris en compte. Il n’est pas recommandé de
faire, immédiatement après réception d’une trame complète, un décodage suivi d’un rendu de
cette trame audio parce que la taille de la trame audio suivante et par conséquent le temps
nécessaire pour la recevoir complètement ne peuvent pas être déterminés avec précision.

Afin de simplifier le mécanisme de synchronisation pour la réception et le décodage du


contenu des salves de données, le délai de réception sera calculé comme le temps
nécessaire pour recevoir la salve de données complète y compris le bourrage. Le temps
maximum disponible pour décoder (délai de décodage) sera choisi pour correspondre à la
longueur d’une salve de données entière. Ceci donne, pour la réception et le décodage, un
délai total correspondant à deux salves de données complètes.

Pour la synchronisation (par exemple avec la vidéo), la valeur recommandée pour le temps de
latence correspond au temps nécessaire pour recevoir deux salves de données complètes. La
Figure 2 montre la méthode simplifiée recommandée pour calculer le temps de latence pour la
réception et le décodage.

Un temps de latence plus court peut être acceptable si la synchronisation n’est pas exigée.

Données-utiles de la salve Données-utiles de la salve


Pa Pb Pc Pd dans la trame LOAS Pa Pb Pc Pd dans la trame LOAS Pa

Bit 0 de Pa Trame LOAS Bit 0 of Pa Trame LOAS Bourrage

Période de répétition des salves Bourrage

Retrad de réception Retard de décodage

Temps de latence de réception et de décodage

IEC 1058/10

NOTE Ce schéma montre la méthode recommandée.

Figure 2 – Diagramme du temps de latence pour la réception et le décodage d’une salve


– 30 – 61937-11  CEI:2010

Annexe A
(informative)

Calcul du retard et des taux de répétition


des salves de données – lignes directrices

A.1 Exemples

Des exemples de calcul des taux de répétition des salves de données et des temps de
latence sont donnés au Tableau A.1.

Tableau A.1 – Exemples – Calcul du retard et des taux de répétition


des salves de données

Taux de
Taux Taux Rythme de répétition des Temps de
Bits 5-6 Bit 8 de Pc
d’échantillon- d’échantillon- la trame salves de latence
d’indication TL
nage AAC nage SBR CEI 60958 données total
de codec Pc lignes
kHz kHz kHz Trames ms
CEI 60958
32 n/a 32 64
1 024 44,1 n/a 44,1 1 024 46,44
48 n/a 48 42,67
96 n/a 96 21,33
AAC LC
32 n/a 32 60
960 44,1 n/a 44,1 960 43,54
48 n/a 48 40
96 n/a 96 20
16 32 32 128
22,05 44,1 44,1 2 048 92,88
1 024
24 48 48 85,33
48 96 96 42,67
HE AAC
16 32 32 120
960 22,05 44,1 44,1 1 920 87,07
24 48 48 80
48 96 96 40

La présence des extensions PS ou MPS signalées par les bits PC 9-11 est sans importance
pour le taux de répétition des salves de données ou le calcul des temps de latence de la
transmission et du décodage comme décrit en 5.3.3.

A.2 Lignes directrices

Les lignes directrices suivantes sont à prendre en considération.

a) Il convient que, les récepteurs qui dans les informations dépendant de la salve de
données reçoivent une indication signalant la présence de MPS mais qui sont incapables
de décoder des MPS, ne refusent pas de décoder ce flux. Il est vivement recommandé
que les décodeurs incapables de traiter les MPS décodent seulement la configuration de
61937-11  CEI:2010 – 31 –

voie AAC LC / HE AAC, comme indiqué par l’enregistrement de configuration de codec


relatif à la condensation (downmix) des voies ambiophoniques réalisée par le codeur et
ignorent l’extension MPS dans le flux de bits.

b) La fréquence des trames CEI 60958 peut être calculée en utilisant l’indication du taux
d’échantillonnage audio provenant du AudioSpecificConfig à l’intérieur du
StreamMuxConfig LATM. Il est vivement recommandé qu'une indication de codec
correcte et une indication de la fréquence d’échantillonnage associée à ce codec ou
encore l’indication de fréquence de trame CEI 60958 soit disponible avant de commencer
à émettre des salves de données CEI 61937-11. En cas de modifications de la
configuration audio signalées en amont, il est vivement recommandé que les salves de
données audio en rapport avec le nouveau programme ne soient transmises qu’une fois
les informations pertinentes (nouveau codec et nouvelle fréquence d’échantillonnage)
disponibles pour l’émetteur et correctement signalées.

c) Il est vivement recommandé que les décodeurs n'essaient pas de décoder un flux audio
avant d’avoir reçu les données de configuration du décodeur (par exemple
AudioSpecificConfig) correspondant à ce flux.
– 32 – 61937-11  CEI:2010

Bibliographie

CEI 61937 (toutes les parties), Audionumérique – Interface pour les flux de bits audio à
codage MIC non-linéaire conformément à la CEI 60958

IEC 61937-6, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 6: Non-linear PCM bitstreams according to the MPEG-2 AAC and
MPEG-4 AAC audio formats (disponible uniquement en anglais)

IEC 61937-10, Digital audio – Interface for non-linear PCM encoded audio bitstreams
applying IEC 60958 – Part 10: Non-linear PCM bitstreams according to the MPEG-4 Audio
Lossless Coding (ALS) format (à l’étude)

ISO/IEC 13818-1, Information technology – Generic coding of moving pictures and


associated audio information – Part 1: Systems (disponible uniquement en anglais)

ISO/IEC 13818-7, Information technology – Generic coding of moving pictures and


associated audio information – Part 7: Advanced Audio Coding (AAC) (disponible uniquement
en anglais)

ISO/IEC 23003-1:2007, Information technology – MPEG audio technologies – Part 1: MPEG


Surround (disponible uniquement en anglais) 6

_____________

—————————
6 NOTE Le Corrigendum technique 1 de 2008 doit être appliqué.
INTERNATIONAL
ELECTROTECHNICAL
COMMISSION

3, rue de Varembé
PO Box 131
CH-1211 Geneva 20
Switzerland

Tel: + 41 22 919 02 11
Fax: + 41 22 919 03 00
[email protected]
www.iec.ch

You might also like