英語のL/Rは画像で聞き分け!?

2019.03.15

Lab研究員 尾見

音を画像でディープラーニング

唐突ですが、日本人は英語のLRの聞き分けが苦手と言われています。
語頭や単独のL / R
例えば、lice / rice belly / berry などであれば区別できる人もいますが、子音とセットになった、clown / crown などは聞き分けることは難しいです。

当たり前ですが、これらの音はネイティブには容易く区別がつきます。
われわれ日本人には同じ音に聞こえる音でも、実は何かしら特徴量に差があり、それに着目すれば欧米人のように聞き分けられる、はず。
ということで、これらcrownclownの特徴量を画像に可視化し、これをディープラーニングで判定してみました。

特徴量の可視化

早速、Audacityというフリーソフトを使って、crownclownの音声を読み込んでみます。

まずは波形を確認してみましょう。

L20190310-11.jpg

X軸が時間でY軸が振幅です。でも、いまひとつ両者の違いがわかりません。

そこで、スペクトログラム表示に変えてみます。

L20190310-22.jpg

するとY軸が周波数、音の高低に変わります。そして周波数毎の音の強さが色で表示されるようになります、
強い順に、白、赤→青となります。
つまり、時間の経過にあわせX軸方向に、どの高さの音が強くでているか、可視化されたわけです。

なんとなく可視化に成功した気はしますが、両者に、明確な特徴の差が画像に現れたとは言い難いです。

しかし、私たち人間に識別し難い画像も、AIだったら上手く判別してくれるかもしれません。
ですが、前述のサンプル画像2枚ではさすがにディープラーニングは試せません。

検証するには画像が100枚程度は欲しいところですが、今回は手始めとして10枚程度で試してみることにします。

ネイティブが発音する crown / clown の音声サンプルを12本入手しました。しかし、出身地・性別・録音状況が違うこともあり、果たしてこのスペクトログラムからRLの特徴量の差を見つけられるでしょうか?

L20190310-3.jpg

ディープラーニング(CNN)で学習

では早速、この画像でディープラーニング(CNN)してみましょう。学習用8枚、テスト用2枚で学習を繰り返します。
すると意外とあっさり
正解率100%のモデルが出来ました。さらにこのモデルで、別人の音声データ crown / clown を判定したところ、なんと当たりました。

L20190310-4.jpg

今回はサンプル数が少なく、これで検証したとは言い難い状況ですが、このようなアプローチ自体には期待が持てそうです。

画像とは無縁なデータを、あえて画像にして分類してみる

今回のような音声データではなくとも、3次元データであればヒートマップバブルチャートに可視化できます。4次元、5次元、あるいはそれ以上のデータであっても、主成分分析したトップ3成分でヒートマップという手段もあります。

そして今回のように、性別や話すスピードなど話者によってゆらぎが生じるデータは、CNNとの相性もよさそうな気がします。

いろいろ試してみることがまだまだありそうです。

本日はここまです。

引き続き調査し、『やれば出来た!驚きの結果』をお伝えします。こうご期待!

※本記事に掲載されている Audacity®はDominic Mazzoniの登録商標です。

  • LINE
  • Mail