概要

ポイント

(p16)音声生成は3段階のプロセス（発声、調音、口から放射）からなる。
- 発声：元となる音源を生成する。母音なら声帯の振動が音源に、子音の場合はそれに加え声道の狭めによる乱流や、閉鎖した声道を開放させて得られる突発的な音などが（場合によっては組み合わさり）音源になる。
  ※母音ア〜オの音源は一緒らしい
- 調音：音源に対し様々な言語的特徴を付与する。主に声道
(p17)音声の心理学的特性4つ
- 高さ（ピッチ）：周波数に対応　/　強さ（デシベル）：波形振幅に対応　/　長さ　/　音色
(p19)「2つの音が同じ高さ、強さ、長さをもつにも関わらずその2音を区別できる場合、それは音色が異なっている。」
- 同じ高さ強さ長さで「あー」「いー」と声を出した時、この2つの違いは音色なんだ
(p22)基準母音：国際基準の母音
- 母音は国によって違う。そこでIPAは世界中のあらゆる子音を発音できる18種類の母音、基準母音を定義した。

※書き方を変えました

音声認識は、発話系列Oが与えられた時に、単語系列Wが意図されたとする確率P(W|O)を最大化するWを求める問題である。
つまり、W' = argmax P(W|O)
ここで、事後確率P(W|O)やP(O|W)は音響モデル、事前確率P(W)は言語モデルと呼ばれる。言語モデルは実際の発話行為とは独立に、各言語表現がどのくらいの確率で生成されるのかを表す。
音声認識とは、音響モデルと言語モデルの積を最大化するWを探索する問題である。
- P(W|O)をベイズ定理で変形するとP(O|W)とP(W)の積が現れる！