【書籍:音声言語処理と自然言語処理】二章 音声言語処理のモデル①
概要
- "音声の音響分析技術" - 音声とは
- "音声の認識技術" - speech2text
- "音声の合成技術" - text2speech
ポイント
4月8日
- (p16)音声生成は3段階のプロセス(発声、調音、口から放射)からなる。
- 発声:元となる音源を生成する。母音なら声帯の振動が音源に、子音の場合はそれに加え声道の狭めによる乱流や、閉鎖した声道を開放させて得られる突発的な音などが(場合によっては組み合わさり)音源になる。
※母音ア〜オの音源は一緒らしい - 調音:音源に対し様々な言語的特徴を付与する。主に声道
- 発声:元となる音源を生成する。母音なら声帯の振動が音源に、子音の場合はそれに加え声道の狭めによる乱流や、閉鎖した声道を開放させて得られる突発的な音などが(場合によっては組み合わさり)音源になる。
- (p17)音声の心理学的特性4つ
- 高さ(ピッチ):周波数に対応 / 強さ(デシベル):波形振幅に対応 / 長さ / 音色
- (p19)「2つの音が同じ高さ、強さ、長さをもつにも関わらずその2音を区別できる場合、それは音色が異なっている。」
- 同じ高さ強さ長さで「あー」「いー」と声を出した時、この2つの違いは音色なんだ
- (p22)基準母音:国際基準の母音
- 母音は国によって違う。そこでIPAは世界中のあらゆる子音を発音できる18種類の母音、基準母音を定義した。
4月9日
※書き方を変えました
2.2 音声認識
音響的難しさと2つの音響モデル
- 「文字"あ"に変換されるべき発声が無限に存在する」
- 発声スタイル・話者の性別や年齢や体格・雑音やマイクといった環境 … これらの違いによる音響的変動が原因
- 不特定話者音響モデル : 大量の話者によって発声された音声コーパスが必要
- 特定話者音響モデル : 不特定話者音響モデルを構成し、特定の話者による少数サンプルからパラメータチューニング
言語的難しさ
- 未知語の対処
- 話し言葉特有の問題(ill-formedness : 前記事参照)
音声認識問題の定式化
- 音声認識は、発話系列Oが与えられた時に、単語系列Wが意図されたとする確率P(W|O)を最大化するWを求める問題である。
- つまり、W' = argmax P(W|O)
- ここで、事後確率P(W|O)やP(O|W)は音響モデル、事前確率P(W)は言語モデルと呼ばれる。言語モデルは実際の発話行為とは独立に、各言語表現がどのくらいの確率で生成されるのかを表す。
- 音声認識とは、音響モデルと言語モデルの積を最大化するWを探索する問題である。
- P(W|O)をベイズ定理で変形するとP(O|W)とP(W)の積が現れる!
音響モデル
隠れマルコフモデルとか。次回