分かった気になる自然言語処理概観 その1

2019.09.13

Lab研究員 山本

今私は、自然言語処理を研究テーマにしたいと思っています。きっかけは、YDCラボ企画で開催された機械学習研修の中で後輩が生み出した、自然言語AIのビジネスアイディアに突き動かされたためです。

自然言語処理といえば、AIができることの1分野で、もちろん注目度の高い領域です。本コラムでは、自然言語処理の基本から、最新技術といわれるBERTまで、調査結果を紹介します。
本コラムではプログラミングには触れてませんので、気軽に読んでもらえると思います。
「分かった気になる自然言語処理概観」のタイトルで2回に分けてお話しします。今回は第1回目となります。

もくじ

  1. 1.自然言語処理って何やってるの?
  2. 2.コーパス
  3. 3.解析のための辞書Unidec
  4. 4.WordNetのシソーラス
  5. 5.形態素解析
  6. 6.係り受け解析MST法
  7. 8.情報抽出の例
  8. 9.テキストマイニングの例

自然言語処理って何やってるの?

自然言語処理って、色んなことやってました。表にまとめてみました。

Lab_column_1_190913.png
参考:萩原正人著「自然言語処理の基本と技術」

沢山ありますね、、
1つ1つ辿ろうとすると、奥も深いもので、しんどいです。
そこで、何となくでも十分理解できる図を挙げてみました。さらっとご覧ください。

コーパス

コーパスとは、実際のテキストをもとに蓄積された言語情報のことです。
京都大学からは、毎日新聞の記事をもとにしたコーパスが公開されています。

Lab_column_2_190913.png
引用:形態素・構文情報のタグ付け基準マニュアル(京都大学テキストコーパス)

解析のための辞書Unidec

解析に必要な情報(意味や品詞や読みなど)が構造化された辞書です。

Lab_column_3_190913.png
参考:現在書き言葉UniDic

WordNetのシソーラス

同義語や包含関係など、単語の関係を体系化した言語資源を、シソーラスといいます。
図は、包含関係を表していますね。

Lab_column_4_190913.jpg
出典:Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力

形態素解析

Web茶まめというサイトが、文章「私は山本です」を分解・解析してくれました。
形態素とは、言語を構成する最小単位のことです。

Lab_column_5_090913.png
参考:Web茶まめ:各種のUniDicを使って形態素解析ができます

係り受け解析MST法

「太郎は自転車で前を走る怪しい男を追いかけた」、あなたはどう解釈しますか?

Lab_column_6_190913.png
出典:講義「自然言語理論」のウェブページ

情報抽出の例

製品発売ニュースからイベント情報を、コンピュータが活用できる形で抽出するイメージ図です。

Lab_column_7_190913.png

テキストマイニングの例

自由回答のアンケート文から文章を分類し、特徴的なものを抽出しています。
機械学習研修アンケートでイメージ図をかきました。

Lab_column_8_190913.png

以上、ざっとみてきましたが、

自然言語処理では、これらあらゆる基礎的な言語資源や解析構造を、目的に応じて使うこ
とにより、文章を理解もしくは出力することを行っているのです。

(例)チャットボットの処理の流れのイメージ

Lab_column_9_190913.png

次回へ続きます。
次回は、AIによる自然言語処理の変遷についてお話ししたいと思います。

  • LINE
  • Mail