コンテンツにスキップ

線スペクトル対

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。Phw (会話 | 投稿記録) による 2010年5月20日 (木) 00:38個人設定で未設定ならUTC)時点の版 (説明を追加)であり、現在の版とは大きく異なる場合があります。

線スペクトル対(せんスペクトルつい、: line spectral pairs、LSP)、あるいは線スペクトル周波数(せんスペクトルしゅうはすう、: line spectral frequencies、LSF)は、線形予測係数を表現するために用いられるもので、その優れた特性のため線形予測を用いる音声符号化方式の多くで使われている。線スペクトル対の考え方は1975年に板倉文忠が発表した。

概要

携帯電話VoIPなどで音声符号化を行う際、音声の特徴の1つである声道の周波数特性を線形予測フィルターの係数としてパラメータ化し、送信を行う。しかし線形予測フィルターの係数は量子化誤差に敏感で、誤差が大きいとフィルターが発振する問題がある。

線スペクトル対は線形予測係数と等価な周波数領域の係数で、線スペクトル対で表現されたフィルターは量子化誤差の影響が少なく、また線形予測係数と比較して時間方向の変化が滑らかで補間を行いやすい。そのため、音声符号化に用いた場合より少ない情報量で同等の音声品質が得られ、多くの音声符号化方式で用いられている。

数学的基礎

声道を固定長で一定の直径を持つ音響管の並びとしてモデル化した時、線スペクトル対は声門を開いたときと閉じたときそれぞれでの共振周波数の組にあたるパラメータである。くちびる側は完全開放のため反射係数が1、声門側は開いたときの反射係数を1、閉じたときの反射係数を-1とモデル化すると、声道全体は無損失系となり、音響管の伝達関数は線スペクトル状になる。この線スペクトルの周波数のペアで線形予測係数を表現するため、線スペクトル対という名称で呼ばれる。

Z変換を使って表わした線形予測多項式は次の式で表わされる。

ここで は線形予測係数である。 この式は以下の2つの式に分解できる。

ここで P(z) は声門が完全に閉じたとき(反射係数 -1)に対応し、 Q(z) は声門が完全に開いたとき(反射係数 1)に対応する。この式が LSP 多項式である。線スペクトル対の値はこの多項式の根で表わされる。

元の多項式 A(z) は以下の式から容易に復元できる。

多項式 A(z) のすべての根がz平面上の 単位円内にある時、P(z) = 0, Q(z) = 0 の根は単位円上にあることが分かっており、これを利用して線スペクトル対の各周波数 ωi を求める。 P(z) と Q(z) の根はそれぞれ必ず交互に対になって並ぶ。

また、この条件は線スペクトル対を使った合成フィルターが安定であるための必要十分条件であることが示されている。

特性

線スペクトル対にはいくつかの優れた特性がある。

  • 量子化誤差の影響が少なく、少ないビット数(4 bit/parameter)に量子化してもフィルターの発振などの問題が起きにくい。
  • 時間方向の変化が滑らかで補間を行いやすいため、パラメータの更新周期を減らすことができ、情報量の削減が可能である。
  • 安定性の必要十分条件が分かっており、それを満たせば合成フィルターが安定であることが理論的に保証されている。
  • 総合的に、少ない情報量で同等の音声品質が得られる。

これらの特性により、CELPに代表される多くの音声符号化方式で、線形予測係数の表現のために利用されている。

参考文献

関連項目