きっと続かんブログ

勉強したことや人に言いたいことを書く。

【書籍:音声言語処理と自然言語処理】二章 音声言語処理のモデル①

概要

  • "音声の音響分析技術" - 音声とは
  • "音声の認識技術" - speech2text
  • "音声の合成技術" - text2speech

ポイント

4月8日
  • (p16)音声生成は3段階のプロセス(発声、調音、口から放射)からなる。
    • 発声:元となる音源を生成する。母音なら声帯の振動が音源に、子音の場合はそれに加え声道の狭めによる乱流や、閉鎖した声道を開放させて得られる突発的な音などが(場合によっては組み合わさり)音源になる。
      ※母音ア〜オの音源は一緒らしい
    • 調音:音源に対し様々な言語的特徴を付与する。主に声道
  • (p17)音声の心理学的特性4つ
    • 高さ(ピッチ):周波数に対応 / 強さ(デシベル):波形振幅に対応 / 長さ / 音色
  • (p19)「2つの音が同じ高さ、強さ、長さをもつにも関わらずその2音を区別できる場合、それは音色が異なっている。」
    • 同じ高さ強さ長さで「あー」「いー」と声を出した時、この2つの違いは音色なんだ
  • (p22)基準母音:国際基準の母音
    • 母音は国によって違う。そこでIPAは世界中のあらゆる子音を発音できる18種類の母音、基準母音を定義した。
4月9日

※書き方を変えました

2.2 音声認識

音響的難しさと2つの音響モデル

  • 「文字"あ"に変換されるべき発声が無限に存在する」
    • 発声スタイル・話者の性別や年齢や体格・雑音やマイクといった環境 … これらの違いによる音響的変動が原因
  • 不特定話者音響モデル : 大量の話者によって発声された音声コーパスが必要
  • 特定話者音響モデル  : 不特定話者音響モデルを構成し、特定の話者による少数サンプルからパラメータチューニング

言語的難しさ

  1. 未知語の対処
  2. 話し言葉特有の問題(ill-formedness : 前記事参照)

音声認識問題の定式化

  • 音声認識は、発話系列Oが与えられた時に、単語系列Wが意図されたとする確率P(W|O)を最大化するWを求める問題である。
  • つまり、W' = argmax P(W|O)
  • ここで、事後確率P(W|O)やP(O|W)は音響モデル、事前確率P(W)は言語モデルと呼ばれる。言語モデルは実際の発話行為とは独立に、各言語表現がどのくらいの確率で生成されるのかを表す。
  • 音声認識とは、音響モデルと言語モデルの積を最大化するWを探索する問題である。
    • P(W|O)をベイズ定理で変形するとP(O|W)とP(W)の積が現れる!

音響モデル

隠れマルコフモデルとか。次回