線スペクトル対
線スペクトル対(せんスペクトルつい、英: line spectral pairs、LSP)、あるいは線スペクトル周波数(せんスペクトルしゅうはすう、英: line spectral frequencies、LSF)は、線形予測係数を表現するために用いられるもので、その優れた特性のため線形予測を用いる音声符号化方式の多くで使われている。線スペクトル対の考え方は1975年に板倉文忠が発表した。
概要
携帯電話やVoIPなどで音声符号化を行う際、音声の特徴の1つである声道の周波数特性を線形予測フィルターの係数としてパラメータ化し、送信を行う。しかし線形予測フィルターの係数は量子化誤差に敏感で、誤差が大きいとフィルターが発振する問題がある。
線スペクトル対は線形予測係数と等価な周波数領域の係数で、線スペクトル対で表現されたフィルターは量子化誤差の影響が少なく、また線形予測係数と比較して時間方向の変化が滑らかで補間を行いやすい。そのため、音声符号化に用いた場合より少ない情報量で同等の音声品質が得られ、多くの音声符号化方式で用いられている。
数学的基礎
声道を固定長で一定の直径を持つ音響管の並びとしてモデル化した時、線スペクトル対は声門を開いたときと閉じたときそれぞれでの共振周波数の組にあたるパラメータである。くちびる側は完全開放のため反射係数が1、声門側は開いたときの反射係数を1、閉じたときの反射係数を-1とモデル化すると、声道全体は無損失系となり、音響管の伝達関数は線スペクトル状になる。この線スペクトルの周波数のペアで線形予測係数を表現するため、線スペクトル対という名称で呼ばれる。
ここで は線形予測係数である。 この式は以下の2つの式に分解できる。
ここで P(z) は声門が完全に閉じたとき(反射係数 -1)に対応し、 Q(z) は声門が完全に開いたとき(反射係数 1)に対応する。この式が LSP 多項式である。線スペクトル対の値はこの多項式の根で表わされる。
元の多項式 A(z) は以下の式から容易に復元できる。
多項式 A(z) のすべての根がz平面上の の単位円内にある時、P(z) = 0, Q(z) = 0 の根は単位円上にあることが分かっており、これを利用して線スペクトル対の各周波数 ωi を求める。 P(z) と Q(z) の根はそれぞれ必ず交互に対になって並ぶ。
また、この条件は線スペクトル対を使った合成フィルターが安定であるための必要十分条件であることが示されている。
特性
線スペクトル対にはいくつかの優れた特性がある。
- 量子化誤差の影響が少なく、少ないビット数(4 bit/parameter)に量子化してもフィルターの発振などの問題が起きにくい。
- 時間方向の変化が滑らかで補間を行いやすいため、パラメータの更新周期を減らすことができ、情報量の削減が可能である。
- 安定性の必要十分条件が分かっており、それを満たせば合成フィルターが安定であることが理論的に保証されている。
- 総合的に、少ない情報量で同等の音声品質が得られる。
これらの特性により、CELPに代表される多くの音声符号化方式で、線形予測係数の表現のために利用されている。
参考文献
- Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
- Peter Kabal, Ravi P. Ramachandran. The Computation of Line Spectral Frequencies Using Chebyshev Polynomials.(pdf) IEEE Trans. Acoustics, Speech, Signal Processing, vol. 34, no. 6, pp. 1419-1426, Dec. 1986.
- 板倉 文忠. 音声分析合成の基礎技術とその音声符号化への応用.(pdf) フェロー&マスターズ未来技術時限研究専門委員会 第6回研究会資料, 電子情報通信学会. 2006.
- 嵯峨山 茂樹. 応用音響学: 音声分析(5) LSP分析.(pdf) 東京大学 応用音響学 講義資料.