あり得な〜い

音声情報処理では、N-グラムによる文章の尤度算出。N-グラムとは、N個の単語の列の出現頻度からその最後の単語について、「前に続く単語列がこうならこの単語の出現頻度は何%」という風に確率を求めるもの。
ある文章がどの程度「あり得るか」は、出てくるすべての単語について出現頻度を掛け合わせたものとなります。ただしその出現頻度をまず求めるにしても、どんなにたくさん文例を用意したって、あるシチュエーションでは出現頻度が0になってしまう単語がでてきます。そこで工夫するのが確率の平滑化。線形補完、バックオフ、なんて手法があります。今回の課題は頻度の算出とその線形補完を実際にやってみること。