コンテンツにスキップ

「線スペクトル対」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
説明を追加
IEEEマイルストーン賞の記述追加
 
(6人の利用者による、間の11版が非表示)
1行目: 1行目:
'''線スペクトル対'''(せんスペクトルつい、{{lang-en-short|''line spectral pairs''}}、LSP)、あるいは'''線スペクトル周波数'''(せんスペクトルしゅうはすう、{{lang-en-short|''line spectral frequencies''}}、LSF)は、[[線形予測法|線形予測]]係数を表現するために用いられるもので、その優れた特性のため[[線形予測法|線形予測]]を用いる[[音声符号化]]方式の多くで使われている。線スペクトル対の考え方は1975年に板倉文忠が発表した
'''線スペクトル対'''(せんスペクトルつい、{{lang-en-short|''line spectral pairs''}}、'''LSP''')、あるいは'''線スペクトル周波数'''(せんスペクトルしゅうはすう、{{lang-en-short|''line spectral frequencies''}}、'''LSF''')は、[[線形予測法|線形予測]]係数を表現するために用いられるもので、その優れた特性のため[[線形予測法|線形予測]]を用いる[[音声符号化]]方式の多くで使われている。
線スペクトル対の考え方は1975年に[[板倉文忠]]が発表した<ref>F. Itakura, ''[http://link.aip.org/link/?JASMAN/57/S35/2 Line spectrum representation of linear predictor coefficients of speech signals,]'' J. Acoust. Soc. Am., Volume 57, Issue S1, pp.S35-S35, 1975.</ref>。
線スペクトル対は全世界の携帯電話での音声符号化に欠かせない基礎技術であり、その重要性のため2014年に[[IEEEマイルストーン]]賞に認定された。


== 概要 ==
== 概要 ==
[[携帯電話]]や[[VoIP]]などで[[音声符号化]]を行う際、音声の特徴の1つである声道の周波数特性を[[線形予測法|線形予測]][[フィルター]]の係数としてパラメータ化し、送信を行う。しかし[[線形予測法|線形予測]][[フィルター]]の係数は[[量子化誤差]]に敏感で、誤差が大きいとフィルターが[[発振回路|発振]]する問題がある。
[[携帯電話]]や[[VoIP]]などで[[音声符号化]]を行う際、音声の特徴の1つである声道の周波数特性を[[線形予測法|線形予測]][[フィルター]]の係数としてパラメータ化し、送信を行う。しかし[[線形予測法|線形予測]][[フィルター]]の係数は[[量子化誤差]]に敏感で、誤差が大きいとフィルターが[[発振回路|発振]]する問題がある。


線スペクトル対は線形予測係数と等価な[[周波数領域]]の係数で、線スペクトル対で表現されたフィルターは[[量子化誤差]]の影響が少なく、また線形予測係数と比較して時間方向の変化が滑らかで補間を行いやすい。そのため、音声符号化に用いた場合より少ない情報量で同等の音声品質が得られ、多くの[[音声符号化]]方式で用いられている。
線スペクトル対は線形予測係数と等価な[[周波数領域]]の係数で、線スペクトル対で表現されたフィルターは[[量子化誤差]]の影響が少なく、また線形予測係数と比較して時間方向の変化が滑らかで[[補間]]を行いやすい。そのため、音声符号化に用いた場合より少ない情報量で同等の音声品質が得られ、多くの[[音声符号化]]方式で用いられている。


== 数学的基礎 ==
== 数学的基礎 ==
声道を固定長で一定の直径を持つ音響管の並びとしてモデル化した時、線スペクトル対は[[声門]]を開いたときと閉じたときそれぞれでの共振周波数の組にあたるパラメータである。くちびる側は完全開放のため反射係数が1、[[声門]]側は開いたときの反射係数を1、閉じたときの反射係数を-1とモデル化すると、声道全体無損失系となり、音響管の[[伝達関数法|伝達関数]]は線スペクトル状になる。この線スペクトルの周波数のペアで線形予測係数を表現するため、線スペクトル対という名称で呼ばれる。
声道を固定長で一定の直径を持つ音響管の並びとしてモデル化した時、線スペクトル対は[[声門]]を開いたときと閉じたときそれぞれでの共振周波数の組にあたるパラメータである。くちびる側は完全開放のため反射係数が-1と見なし、[[声門]]側は開いたときの反射係数を1、閉じたときの反射係数を-1とモデル化すると、両端でのエネルギー損失が無いため声道全体無損失系となり、音響管の[[伝達関数法|伝達関数]]は線スペクトル状になる。この線スペクトルの周波数のペアで線形予測係数を表現するため、線スペクトル対という名称で呼ばれる。


[[Z変換]]を使って表した[[線形予測法|線形予測]][[多項式]]は次の式で表される。
[[Z変換]]を使って表した[[線形予測法|線形予測]][[多項式]]は次の式で表される。
:<math>A(z) = 1- \sum_{k=1}^p a_k z^{-k}</math>
:<math>A(z) = 1- \sum_{k=1}^p a_k z^{-k}</math>


ここで <math>a_k</math> は線形予測係数である。
ここで実数の係数 <math>a_k \,</math> は線形予測係数である。
この式は以下の2つの式に分解できる。
この式は以下の2つの式に分解できる。
:<math>\begin{cases}
:<math>\begin{cases}
P(z) = A(z) + z^{-(p+1)}A(z^{-1})\\
P(z)=A(z)+ z^{-(p+1)}A(z^{-1})\\
Q(z) = A(z) - z^{-(p+1)}A(z^{-1})
Q(z)=A(z)- z^{-(p+1)}A(z^{-1})
\end{cases}</math>
\end{cases}</math>
ここで P(z) は[[声門]]が完全に閉じたとき(反射係数 -1)に対応し、 Q(z) は[[声門]]が完全に開いたとき(反射係数 1)に対応する。この式が LSP [[多項式]]である。線スペクトル対多項式のれる。
ここで P(z) は[[声門]]が完全に閉じたとき(反射係数 -1)に対応し、Q(z) は[[声門]]が完全に開いたとき(反射係数 1)に対応する。この式が LSP [[多項式]]である<ref>P(z)、Q(z) の式が逆に記載されている文献もある。表記上問題でありどちらでも構わない。海外の文献で本文の式が、国内文献は逆の式が使われることが多い。</ref>
線スペクトル対の値はこの多項式の根で表される。


元の多項式 A(z) は以下の式から容易に復元できる。
元の多項式 A(z) は以下の式から容易に復元できる。
:<math>A(z) = \frac{1}{2} \left( P(z) + Q(z)\right)</math>
:<math>A(z)= \frac{1}{2} \left( P(z)+Q(z)\right)</math>


多項式 A(z) のすべての根が[[z平面]]上の <math>|z| = 1 </math> の[[単位円]]内にある時、P(z) = 0, Q(z) = 0 の根は単位円上にあることが分かっおり、これを利用して線スペクトル対の各周波数 ω<sub>i</sub> を求める。
多項式 A(z) のての根が[[z平面]]上の <math>|z|=1</math> の[[単位円]]にある時、P(z) = 0 の根と Q(z) = 0 の根はどちらもすべて単位円上にあることが示せて、これを利用して根の実部cos ωと対応する線スペクトル対の各周波数 ω<sub>i</sub> を求める。

P(z) と Q(z) の根はそれぞれ必ず交互に対になって並ぶ。
P(z) と Q(z) の根にそれぞれ対応するωは必ず交互に相手のものを間に挟むので,以下のように並べることができる。
:<math>0 < \omega_1 < \omega_2 < \omega_3 < \cdots < \omega_p < \pi</math>
:<math>0 < \omega_1 < \omega_2 < \omega_3 < \cdots < \omega_p < \pi</math>


また、この条件は線スペクトル対を使った合成フィルターが安定であるための必要十分条件であることが示されている。
また、この条件は線スペクトル対を使った合成フィルターが安定であるための必要十分条件であることが示されている<ref name=sagayama>[[嵯峨山茂樹]]. ''[https://web.archive.org/web/20111210021726/http://ocw.u-tokyo.ac.jp/wp-content/uploads/lecture-notes/Engin_01/C4-LSP.PDF 応用音響学: 音声分析(5) LSP分析]''.(pdf) 東京大学 応用音響学 講義資料.</ref><ref name=sagayama1982>嵯峨山 茂樹, ''LSP音声合成フィルタの安定性条件,'' 日本音響学会, 昭和57年度春季研究発表会講演論文集, pp.153-154, 1982.</ref>

== LSP 分析 ==
線形予測係数を線スペクトル対に変換するためには、P(z) = 0, Q(z) = 0 の根を求める必要がある。以下では単純化のために[[線形予測法|線形予測]][[多項式]] A(z) の次数が偶数 <math>N</math> の場合を考える。この時 LSP [[多項式]]の P(z)、Q(z) は <math>N+1</math> 次の多項式になる。

LSP [[多項式]]の P(z) と Q(z) はそれぞれ <math>(1+ z^{-1} )</math> と <math>(1- z^{-1} )</math> で割り切れる。残りの多項式は <math>(z+ z^{-1} ) / 2</math> で割り切れ、[[単位円]]上では <math>(z+ z^{-1} ) / 2= \cos \omega</math> と表現できる。すなわち、P(z) と Q(z) は以下のように因数分解できる。
:<math>
P(z) = \left( 1+ z^{-1} \right) \prod_{i=1,3, ..., N-1} \left( 1-2 \cos \omega_i z^{-1} + z^{-2} \right)
</math>
:<math>
Q(z) = \left( 1- z^{-1} \right) \prod_{i=2,4, ..., N} \left( 1- 2 \cos \omega_i z^{-1} + z^{-2} \right)
</math>

この式の根を求めることで線スペクトル対 ω<sub>i</sub> が計算できる。

もう少し具体的には以下のようになる<ref name=sagayama></ref>
<ref name=Kabal1986>Peter Kabal, Ravi P. Ramachandran. ''[http://www.ece.mcgill.ca/~pkabal/papers/1986/Kabal1986.pdf The Computation of Line Spectral Frequencies Using Chebyshev Polynomials]''.(pdf) IEEE Trans. Acoustics, Speech, Signal Processing, vol.34, no. 6, pp.1419-1426, Dec. 1986.</ref><ref name=Chu2003>Wai C. Chu. ''Speech Coding Algorithms: Foundation and Evolution of Standardized Coders''. pp.239-250, 2003.</ref>。

(1) 線形予測係数 <math>a_i</math> から P(z)、Q(z) の各係数を計算
:P(z)、Q(z) の定義を用い以下の式で計算。多項式の係数を <math>p_i , q_i</math> とすると、
::<math>p_0 = p_{N+1} =1 \,</math>
::<math>p_i = p_{N-i+1} = a_i + a_{N-i+1} \,</math>
::<math>q_0 = - q_{N+1} = 1 \,</math>
::<math>q_i = - q_{N-i+1} = a_i - a_{N-i+1} \,</math>
(2) P(z)、Q(z) それぞれを <math>(1+ z^{-1} )</math>、<math>(1- z^{-1} )</math> で割る
:単位円上の根からの実根除去に相当。
:この多項式の除算は係数の加減算により計算可能で、除算後の多項式の係数を <math>p' , q'</math> とすると、
::<math>p'_0 = 1 \,</math>
::<math>p'_i = p_i - p'_{i-1} \,</math>
::<math>q'_0 = 1 \,</math>
::<math>q'_i = q_i + q'_{i-1} \,</math>
(3) 除算後の多項式 P'(z)、Q'(z) を <math>x=(z+ z^{-1} ) / 2</math> で置き換え
:残った[[複素共役|複素共役根]]の実軸への射影に相当。置き換え後の式は[[チェビシェフ多項式]]で表現できる<ref name=Kabal1986></ref>。
:P'(z)、Q'(z) は x に関する N/2 次の多項式になり、多項式の係数は <math>p' , q'</math> から機械的に計算できる。
(4) x を変数とする2つの方程式を[[ニュートン・ラプソン法]]で解く
:区間(-1, 1)内に根 <math>x_i</math> が交互に存在し、2つの方程式を交互に解くことで高速に求めることが可能。
(5) 求めた根から線スペクトル対 ω<sub>i</sub> を計算
:求めた N 個の根 <math>x_i</math> から以下の式で ω<sub>i</sub> を求める。
::<math>\omega_i = \arccos( x_i ) \,</math>

線スペクトル対を線形予測係数に変換する場合はより単純で、上記とは逆に、線スペクトル対 ω<sub>i</sub> から P(z)、Q(z) の各係数を計算し、
:<math>A(z)= \frac{1}{2} \left( P(z)+Q(z)\right)</math>
を求めればよい。

P(z)、Q(z) の各係数は、<math>( 1 - 2 \cos \omega_i z^{-1} + z^{-2} )</math> の形式の2次多項式の積を求め、さらに <math>(1+ z^{-1} )</math> あるいは <math>(1- z^{-1} )</math> を掛けた式の係数として機械的に計算できる。

P(z)、Q(z) の係数には対称性があるため、N/2 次の係数から以下の式で線形予測係数に変換できる<ref name=Chu2003></ref>。
:<math>
\begin{array}{lcl}
a_i & = & \frac{1}{2} \left( p_i + q_i \right)\\
a_{N-i+1} & = & \frac{1}{2} \left( p_i - q_i \right)
\end{array}
</math>


== 特性 ==
== 特性 ==
線スペクトル対にはいくつかの優れた特性がある。
線スペクトル対にはいくつかの優れた特性がある<ref name=sagayama></ref>
* [[量子化誤差]]の影響が少なく、少ないビット数(4 bit/parameter)に量子化してもフィルターの発振などの問題が起きにくい。
* [[量子化誤差]]の影響が少なく、少ないビット数(4 bit/parameter)に量子化してもフィルターの発振などの問題が起きにくい。
* 時間方向の変化が滑らかで補間を行いやすいため、パラメータの更新周期を減らすことができ、情報量の削減が可能である。
* 時間方向の変化が滑らかで[[補間]]を行いやすいため、パラメータの更新周期を減らすことができ、情報量の削減が可能である。
* 安定性の必要十分条件が分かっており、それを満たせば合成フィルターが安定であることが理論的に保証されている。
* 安定性の必要十分条件が分かっており、それを満たせば合成フィルターが安定であることが理論的に保証されている。
* 総合的に、少ない情報量で同等の音声品質が得られる。
* 総合的に、少ない情報量で同等の音声品質が得られる。
これらの特性により、[[CELP]]に代表される多くの[[音声符号化]]方式で、線形予測係数の表現のために利用されている。
これらの特性により、[[CELP]]に代表される多くの[[音声符号化]]方式で、線形予測係数の表現のために利用されている。

== 脚注 ==
{{Reflist}}


== 参考文献 ==
== 参考文献 ==
* Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). ''Springer Handbook of Speech Processing''. Springer, 2007. ISBN 978-3540491255.
* Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). ''Springer Handbook of Speech Processing''. Springer, 2007. ISBN 978-3540491255.
* Wai C. Chu. ''Speech Coding Algorithms: Foundation and Evolution of Standardized Coders''. Wiley-Interscience, 2003. ISBN 978-0471373124.
* Peter Kabal, Ravi P. Ramachandran. ''[http://www.ece.mcgill.ca/~pkabal/papers/1986/Kabal1986.pdf The Computation of Line Spectral Frequencies Using Chebyshev Polynomials]''.(pdf) IEEE Trans. Acoustics, Speech, Signal Processing, vol. 34, no. 6, pp. 1419-1426, Dec. 1986.
* Peter Kabal, Ravi P. Ramachandran. ''[http://www.ece.mcgill.ca/~pkabal/papers/1986/Kabal1986.pdf The Computation of Line Spectral Frequencies Using Chebyshev Polynomials]''.(pdf) IEEE Trans. Acoustics, Speech, Signal Processing, vol. 34, no. 6, pp. 1419-1426, Dec. 1986.
* 板倉 文忠. ''[http://www.murase.m.is.nagoya-u.ac.jp/fm-kenkyukai/event/FM06-2-1.pdf 音声分析合成の基礎技術とその音声符号化への応用]''.(pdf) フェロー&マスターズ未来技術時限研究専門委員会 第6回研究会資料, 電子情報通信学会. 2006.
* 板倉 文忠. ''[http://www.murase.m.is.nagoya-u.ac.jp/fm-kenkyukai/event/FM06-2-1.pdf 音声分析合成の基礎技術とその音声符号化への応用]''.(pdf) フェロー&マスターズ未来技術時限研究専門委員会 第6回研究会資料, 電子情報通信学会. 2006.
* 嵯峨山 茂樹. ''[http://ocw.u-tokyo.ac.jp/wp-content/uploads/lecture-notes/Engin_01/C4-LSP.PDF 応用音響学: 音声分析(5) LSP分析]''.(pdf) 東京大学 応用音響学 講義資料.
* 嵯峨山 茂樹. ''[https://web.archive.org/web/20111210021726/http://ocw.u-tokyo.ac.jp/wp-content/uploads/lecture-notes/Engin_01/C4-LSP.PDF 応用音響学: 音声分析(5) LSP分析]''.(pdf) 東京大学 応用音響学 講義資料.


== 関連項目 ==
== 関連項目 ==
* [[Log Area Ratio]]
* [[音声符号化]]
* [[音声符号化]]
* [[線形予測符号]]
* [[線形予測符号]]
* [[デジタル信号処理]]
* [[デジタル信号処理]]


{{データ圧縮}}


{{DEFAULTSORT:せんすへくとるつい}}
{{DEFAULTSORT:せんすへくとるつい}}
[[Category:音声処理]]
[[Category:音声処理]]
[[Category:信号処理]]
[[Category:信号処理]]

[[en:Line spectral pairs]]

2018年8月4日 (土) 11:47時点における最新版

線スペクトル対(せんスペクトルつい、: line spectral pairsLSP)、あるいは線スペクトル周波数(せんスペクトルしゅうはすう、: line spectral frequenciesLSF)は、線形予測係数を表現するために用いられるもので、その優れた特性のため線形予測を用いる音声符号化方式の多くで使われている。 線スペクトル対の考え方は1975年に板倉文忠が発表した[1]。 線スペクトル対は全世界の携帯電話での音声符号化に欠かせない基礎技術であり、その重要性のため2014年にIEEEマイルストーン賞に認定された。

概要

[編集]

携帯電話VoIPなどで音声符号化を行う際、音声の特徴の1つである声道の周波数特性を線形予測フィルターの係数としてパラメータ化し、送信を行う。しかし線形予測フィルターの係数は量子化誤差に敏感で、誤差が大きいとフィルターが発振する問題がある。

線スペクトル対は線形予測係数と等価な周波数領域の係数で、線スペクトル対で表現されたフィルターは量子化誤差の影響が少なく、また線形予測係数と比較して時間方向の変化が滑らかで補間を行いやすい。そのため、音声符号化に用いた場合より少ない情報量で同等の音声品質が得られ、多くの音声符号化方式で用いられている。

数学的基礎

[編集]

声道を固定長で一定の直径を持つ音響管の並びとしてモデル化した時、線スペクトル対は声門を開いたときと閉じたときそれぞれでの共振周波数の組にあたるパラメータである。くちびる側は完全開放のため反射係数が-1と見なし、声門側は開いたときの反射係数を1、閉じたときの反射係数を-1とモデル化すると、両端でのエネルギー損失が無いため声道全体が無損失系となり、音響管の伝達関数は線スペクトル状になる。この線スペクトルの周波数のペアで線形予測係数を表現するため、線スペクトル対という名称で呼ばれる。

Z変換を使って表した線形予測多項式は次の式で表される。

ここで実数の係数 は線形予測係数である。 この式は以下の2つの式に分解できる。

ここで P(z) は声門が完全に閉じたとき(反射係数 -1)に対応し、Q(z) は声門が完全に開いたとき(反射係数 1)に対応する。この式が LSP 多項式である[2]。 線スペクトル対の値はこの多項式の根で表される。

元の多項式 A(z) は以下の式から容易に復元できる。

多項式 A(z) の全ての根がz平面上の 単位円の内部にある時、P(z) = 0 の根と Q(z) = 0 の根はどちらもすべて単位円周上にあることが示せて、これを利用して根の実部cos ωと対応する線スペクトル対の各周波数 ωi を求める。

P(z) と Q(z) の根にそれぞれ対応するωは必ず交互に相手のものを間に挟むので,以下のように並べることができる。

また、この条件は線スペクトル対を使った合成フィルターが安定であるための必要十分条件でもあることが示されている[3][4]

LSP 分析

[編集]

線形予測係数を線スペクトル対に変換するためには、P(z) = 0, Q(z) = 0 の根を求める必要がある。以下では単純化のために線形予測多項式 A(z) の次数が偶数 の場合を考える。この時 LSP 多項式の P(z)、Q(z) は 次の多項式になる。

LSP 多項式の P(z) と Q(z) はそれぞれ で割り切れる。残りの多項式は で割り切れ、単位円上では と表現できる。すなわち、P(z) と Q(z) は以下のように因数分解できる。

この式の根を求めることで線スペクトル対 ωi が計算できる。

もう少し具体的には以下のようになる[3] [5][6]

(1) 線形予測係数 から P(z)、Q(z) の各係数を計算

P(z)、Q(z) の定義を用い以下の式で計算。多項式の係数を とすると、

(2) P(z)、Q(z) それぞれを で割る

単位円上の根からの実根除去に相当。
この多項式の除算は係数の加減算により計算可能で、除算後の多項式の係数を とすると、

(3) 除算後の多項式 P'(z)、Q'(z) を で置き換え

残った複素共役根の実軸への射影に相当。置き換え後の式はチェビシェフ多項式で表現できる[5]
P'(z)、Q'(z) は x に関する N/2 次の多項式になり、多項式の係数は から機械的に計算できる。

(4) x を変数とする2つの方程式をニュートン・ラプソン法で解く

区間(-1, 1)内に根 が交互に存在し、2つの方程式を交互に解くことで高速に求めることが可能。

(5) 求めた根から線スペクトル対 ωi を計算

求めた N 個の根 から以下の式で ωi を求める。

線スペクトル対を線形予測係数に変換する場合はより単純で、上記とは逆に、線スペクトル対 ωi から P(z)、Q(z) の各係数を計算し、

を求めればよい。

P(z)、Q(z) の各係数は、 の形式の2次多項式の積を求め、さらに あるいは を掛けた式の係数として機械的に計算できる。

P(z)、Q(z) の係数には対称性があるため、N/2 次の係数から以下の式で線形予測係数に変換できる[6]

特性

[編集]

線スペクトル対にはいくつかの優れた特性がある[3]

  • 量子化誤差の影響が少なく、少ないビット数(4 bit/parameter)に量子化してもフィルターの発振などの問題が起きにくい。
  • 時間方向の変化が滑らかで補間を行いやすいため、パラメータの更新周期を減らすことができ、情報量の削減が可能である。
  • 安定性の必要十分条件が分かっており、それを満たせば合成フィルターが安定であることが理論的に保証されている。
  • 総合的に、少ない情報量で同等の音声品質が得られる。

これらの特性により、CELPに代表される多くの音声符号化方式で、線形予測係数の表現のために利用されている。

脚注

[編集]
  1. ^ F. Itakura, Line spectrum representation of linear predictor coefficients of speech signals, J. Acoust. Soc. Am., Volume 57, Issue S1, pp.S35-S35, 1975.
  2. ^ P(z)、Q(z) の式が逆に記載されている文献もある。表記上の問題でありどちらでも構わない。海外の文献では本文の式が、国内の文献では逆の式が使われることが多い。
  3. ^ a b c 嵯峨山茂樹. 応用音響学: 音声分析(5) LSP分析.(pdf) 東京大学 応用音響学 講義資料.
  4. ^ 嵯峨山 茂樹, LSP音声合成フィルタの安定性条件, 日本音響学会, 昭和57年度春季研究発表会講演論文集, pp.153-154, 1982.
  5. ^ a b Peter Kabal, Ravi P. Ramachandran. The Computation of Line Spectral Frequencies Using Chebyshev Polynomials.(pdf) IEEE Trans. Acoustics, Speech, Signal Processing, vol.34, no. 6, pp.1419-1426, Dec. 1986.
  6. ^ a b Wai C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. pp.239-250, 2003.

参考文献

[編集]

関連項目

[編集]