もうひとつの認識

音声情報処理では、隠れマルコフモデルを使った音声認識について。ある音声波形Xがある単語Wを示している確率P(X|W)を求めます。これは高校で習った条件付き確率。これにはベイズの公式が適用できます。P(X|W) = \frac{P(X,W)}{P(W)} = \frac{P(W|X) P(X)}{P(W)}なので、単語Wから音声波形Xが発声される確率P(W|X)を求めれば、事前確率(単語Wの出現頻度と波形Xの観測頻度)をかけたり割ったりするだけで求まることになります。
発声される確率にマルコフ連鎖モデルを使います。発声過程を、状態変化とそれが単位時間内に起こる確率とで表現すれば、各音声パターンが出現する確率が求まる。有限の状態で表現できるように、音声スペクトルはいくつかのカテゴリに分類(量子化)してしまいます。音声スペクトルをグループ分けして量子化するアルゴリズムがLBGアルゴリズム。