Published onJanuary 14, 2024

音声期末复习

音素(phoneme): 言語学的な意味での音声の最小単位

音素記号: /a/, /i/, /k/, ...
母音(vowel): 定常的な特徴を持つ。日本語では５種類
子音(consonant): 過渡的な特徴を持つ。日本語では約２０種類

音節(syllable) ＝(いくつかの子音＋) 母音 (＋いくつかの子音)。日本語では１０１音節

サブワード(subword): 単語より短い単位。

具体的な例としては，音素や音節。

音声記号

単音: 実際に発声したときに生じる音声学的な最小単位
表記: [a], [i], [k], ...

音の三属性(三要素)は音の

大きさ
高さ
音質(音色)

韻律 (prosody): パラ言語情報の伝達

三要素:
- 音声の強さ (intensity / power)
- 音声の高さ (fundamental frequency(f0) / pitch)
- 音声の長さ (duration)，話速 (speech rate）

アクセント (accent): 他の単語との区別を明確にする

強勢 (stress): 単語内のある音節を強調

抑揚 (イントネーション, intonation): 意味，疑問，強調，話し手の感情の付加

韻律: 超分節的特徴 (supra-segmental feature)

音質（音色）の違い: 分節的特徴 (segmental feature)

音声が伝える情報を3つに分類

言語情報
非言語情報
パラ言語情報

音声の生成過程において，音素の違いは主に声道の形状とその変化

有声音と無声音の違い: 発声時の声帯振動の有無

母音は定常的な特徴を持っている: その特性が時間とともに変化しない

子音を分類する3つの観点の一つとして音源が挙げられる: 発声時の声帯振動の有無

基本周波数 (fundamental frequency)

声帯の振動周期の逆数
F0あるいはピッチ(pitch)とも呼ばれる。
声の高さに対応

調音 (articulation): 様々な言語音を発するために声道の形を調整すること

音色が変わる
調音結合 (co-articulation)
- 前後の音素の影響を受けて，音素と音素の中間部において音響的性質が連続的に変化する現象。

音声の生成: 声門で生成された音源波形が声道で共振し，口から放射される。

声道の形状が共振 (音色) を決める。

子音の分類:

音源 : 声帯振動の有無で分類
- 有声音：声帯振動を伴う音素
- 無声音：声帯振動を伴わない音素
- 子音：
- 母音
調音様式：「狭め」の作り方で分類
ン音
- 撥音（はつおん）と呼ばれる

音声の生成過程のモデル化: 三つの作用の組み合わせ

音源
- 有声音源：パルスまたは三角波の繰り返し
- 無声音源：白色雑音
調音
- 複数個の単一共振・反共振回路の直列／並列接続（多段ディジタルフィルタ）
放射

線形分離等価回路モデル (ソースフィルタモデル): 音声の生成過程のモデル

音源 $G(\omega)$ と調音 $H(\omega)$ が独立
$S(\omega) = G(\omega) \cdot H(\omega)$

母音の振幅は大きく，子音では小さい。ダイナミックレンジ（最大値と最小値の比）が大きい (５０ｄB以上)

有声音では周期性がある

フーリエ変換: 時間領域 -> 周波数領域

スペクトル (spectrum): 時間波形をフーリエ変換して得られる。結果は複素数になる

パワースペクトル: 複素数の絶対値の２乗を計算。周波数成分の強度を示す

音声のパワースペクトルの例: X軸：周波数，Ｙ軸：強度 [dB]

スペクトル包絡: 周波数とともにゆるやかに変化する成分

スペクトルの大局的な特徴:

声道における共振特性
放射特性

スペクトル微細構造

細かく周期的に変化 (有声音の場合)
音源の周期性
- 声の高さ
- 声帯音源のスペクトル
スペクトル調波構造ともいう

サウンドスペクトログラム (あるいはスペクトログラム): 音信号におけるスペクトルの時間変化

Ｘ軸: 時間，Y軸: 周波数
スペクトル強度は，濃淡，あるいは色で表現する

有声音区間では

基本周期に対応した縦縞が見られる
横縞も見られる

無声音区間: 不規則な模様

フォルマント (formant) （あるいはフォルマント周波数)

声道の共振周波数
有声音には３～４個のフォルマント
- 周波数の低いほうから第１フォルマント，第２フォルマント，…
スペクトル包絡のピークに対応

無声化 : 母音が無声音化する現象、声帯が振動せずに発声される

無声化しやすい母音 /i/, /u/

基本周波数

声の高さ
ピッチ(周波数)，F0 ともいう

違いが起こる主な理由が「声帯の振動の違い」よりも「声道の形状の違い」によると考えられる:

フォルマント
スペクトル包絡

母音 /a/ を発声するとき，声が高くなるとスペクトルはどのように変化するか。

スペクトルの細かい山の間隔が広がる

片方の端が開放されもう片方の端は閉鎖された長さ17cmの円筒管がある。この円筒管で共振する音の最も低い周波数を求めよ。空気中の音速は340m/sとする

管の長さL=0.17m
音速 v=340m/s
波長 λ=L×4=0.17×4=0.68 m
周波数 $f = \frac{v}{\lambda} = \frac{340}{0.68} = 500 Hz$

音声のスペクトルの傾斜について

高い周波数の強度は低い周波数に比べて小さい

音声は，

長い時間 (1秒程度) を考えると非定常
短い時間 (20ms程度) では定常と考える

フレーム (分析フレーム)：分析を行う短い区間

フレーム長：フレームの長さ
フレーム周期（シフト間隔）：フレームと次フレームの間隔

音声の基本的な分析手順

フレーム単位での音声
高域強調 (行わないこともある)
窓掛け
分析

スペクトル分析，線形予測分析，ケプストラム分析，など
フレームにおける特徴ベクトルを得る。

分析すべきデータがなくなれば終了

特徴ベクトルの時系列を得る

フレームをずらして 1) へ

高域強調を行う

周波数の高い成分の強度が増す。
スペクトルのダイナミックレンジ (最大値と最小値の差) を小さくすることにより分析の安定性を確保する。
差分演算を行う

窓掛け

音声データの真のスペクトルを求めることはできない
なるべく真のスペクトルに近いスペクトルを得るために窓掛けを行なう
歪みをなるべく減らすために窓掛けを行う

窓関数として望ましい性質

メインローブが狭く鋭い
サイドローブの減衰が大きい。畳み込みによる他の周波数から生じるスペクトル歪が少ない

窓関数の例

方形(Rectangular)窓 (矩形窓)(周波数分解能は高い)
三角(Bartlett)窓
ハミング(Hamming)窓(音声の分析でよく用いられる)
ハニング(Hanning)窓

音声の分析に関して正しい記述: 分析のフレームごとに特徴ベクトルが求められる。

10秒の音声波形をフレーム長20ms，フレーム周期10msで分析すると，総フレーム数はいくつになるか？: 999(1s = 1000ms)

滤波器可能改变振幅和相位(ディジタルフィルタの周波数特性は，2つの特性)，但不能改变频率

无法准确求得输入信号数据的真实频谱的原因中正确的一项是：限られた長さのデータしか使えないため。这个选项指出了一个关键问题：在实际应用中，我们只能处理有限长度的数据。这意味着在进行傅立叶变换（Fourier Transform）以求得频谱时，我们只能使用信号的一个片段，而不是整个无限长的信号。这种情况下，频谱分析会受到所谓的“窗口效应”的影响，可能导致频谱泄露（Spectral Leakage）或分辨率不足等问题，从而无法准确反映出信号的真实频谱特性。

スペクトルの周波数分解能

長い区間のデータを使えば，周波数分解能が高くなる。

音声波形から調音の特徴を表現したパラメータをフレームごとに取り出す。

線形予測分析
ケプストラム分析

線形予測モデル

音声波形における標本値 (サンプル)の間に高い相関がある
過去の標本値によって次の標本値が決められれる

$y_n = -\alpha_1 y_{n-1} - \alpha_2 y_{n-2} - \cdots - \alpha_p y_{n-p}$

標本値が過去 p 個の標本値の線形結合で予測できる

$\alpha$ 是線形予測係数

予測残差(線形予測残差)

予測残差の二乗和を最小化する

自己相関関数

ケプストラム (cepstrum)

波形の短時間振幅スペクトルの対数の逆フーリエ変換
スペクトル包絡とスペクトル微細構造を容易に分離できる

ケフレンシ

ケプストラムの図の横軸
時間の次元を持つ

ケプストラム分析によってスペクトル包絡を得る手順

波形の切り出し
窓掛けを行う
フーリエ変換
対数化
フーリエ逆変換
リフタリング
フーリエ変換

スペクトル微細構造

音源の基本周期
スペクトルでは比較的細かい周期のパターン
ケプストラムでは高ケフレンシ部のピーク

スペクトル包絡

声道における共振の特性
スペクトルでは周波数による変化のゆるやかなパターン
ケプストラムでは低ケフレンシ部

メル (mel)：感覚的な音の高さ (または，その単位)

MFCC

メルフィルタバンク出力に基づいたケプストラム
音声認識に最もよく用いられるパラメータ

音声の線形予測分析は何を決定するため: 線形予測係数

音声の分析などに関わる自己相関関数は何と何の相関か: 音声波形と音声波形

音声の線形予測分析から得られる予測誤差は何とみなされるか: 音源波形

ケプストラムの説明として正しい記述: 波形の短時間振幅スペクトルの対数の逆フーリエ変換である。

ケフレンシーの単位: [s]

メル周波数で等間隔に帯域を分割した場合，線形な周波数軸ではどのように帯域の分割になるか: 高い周波数では広い間隔，低い周波数では狭い間隔になる

声波形の基本周波数を求める手法:

自己相関関数のピークの位置から算出する
ケプストラム分析における高ケフレンシー部のピークの位置から算出する

パターン認識とは: ある記号（シンボル）に対応したパターンの集合をクラス（あるいはカテゴリ）と言う

確率モデルに基づいたパターン認識: パターンが生成される確率 (パターンが生起する確率) を算出する(各クラスの確率モデルが入力パターンの確率を算出する。)
距離尺度に基づいたパターン認識: 距離の計算の目的はは入力パターンと参照パターンの比較

特徴抽出: 特徴パターン（特徴ベクトル，特徴パラメータ）が得られる

各クラスをそのクラスに属する特徴パターンによって代表させる。

クラスを代表する特徴パターン(典型例)を参照パターン（テンプレート）という。

マルチテンプレート法: データを複数のグループ (クラスタ) に分割する処理をクラスタリングという

クラスタリング: 与えられた多数のデータを類似したグループ(クラスタ)に分割する処理

k-平均アルゴリズム(k-means)：データを与えられた数のクラスタに分割する

音声認識の難しさ

セグメンテーション(区分化)の難しさ
調音結合による変動
周囲の雑音
話者による変動

一般に，会話音声は読み上げ音声よりも認識が難しい

母国語は正しく聞き取れても，外国語を聞き取ることは難しい

孤立単語認識

連続音声認識

ＤＰマッチングによる音声認識

孤立単語認識でよく用いられる認識手法
認識の対象は孤立発声された単語音声
距離尺度に基づいたパターン認識

see all posts