- ホーム
- コラム
- YDC Labコラム
- 分かった気になる自然言語処理概観 その1

分かった気になる自然言語処理概観 その1
2019.09.13
Lab研究員 山本
今私は、自然言語処理を研究テーマにしたいと思っています。きっかけは、YDCラボ企画で開催された機械学習研修の中で後輩が生み出した、自然言語AIのビジネスアイディアに突き動かされたためです。
自然言語処理といえば、AIができることの1分野で、もちろん注目度の高い領域です。本コラムでは、自然言語処理の基本から、最新技術といわれるBERTまで、調査結果を紹介します。
本コラムではプログラミングには触れてませんので、気軽に読んでもらえると思います。
「分かった気になる自然言語処理概観」のタイトルで2回に分けてお話しします。今回は第1回目となります。
もくじ
- 1.自然言語処理って何やってるの?
- 2.コーパス
- 3.解析のための辞書Unidec
- 4.WordNetのシソーラス
- 5.形態素解析
- 6.係り受け解析MST法
- 8.情報抽出の例
- 9.テキストマイニングの例
自然言語処理って何やってるの?
自然言語処理って、色んなことやってました。表にまとめてみました。
参考:萩原正人著「自然言語処理の基本と技術」
沢山ありますね、、
1つ1つ辿ろうとすると、奥も深いもので、しんどいです。
そこで、何となくでも十分理解できる図を挙げてみました。さらっとご覧ください。
コーパス
コーパスとは、実際のテキストをもとに蓄積された言語情報のことです。
京都大学からは、毎日新聞の記事をもとにしたコーパスが公開されています。
引用:形態素・構文情報のタグ付け基準マニュアル(京都大学テキストコーパス)
解析のための辞書Unidec
解析に必要な情報(意味や品詞や読みなど)が構造化された辞書です。
参考:現在書き言葉UniDic
WordNetのシソーラス
同義語や包含関係など、単語の関係を体系化した言語資源を、シソーラスといいます。
図は、包含関係を表していますね。
形態素解析
Web茶まめというサイトが、文章「私は山本です」を分解・解析してくれました。
形態素とは、言語を構成する最小単位のことです。
参考:Web茶まめ:各種のUniDicを使って形態素解析ができます
係り受け解析MST法
「太郎は自転車で前を走る怪しい男を追いかけた」、あなたはどう解釈しますか?
情報抽出の例
製品発売ニュースからイベント情報を、コンピュータが活用できる形で抽出するイメージ図です。

テキストマイニングの例
自由回答のアンケート文から文章を分類し、特徴的なものを抽出しています。
機械学習研修アンケートでイメージ図をかきました。
以上、ざっとみてきましたが、
自然言語処理では、これらあらゆる基礎的な言語資源や解析構造を、目的に応じて使うこ
とにより、文章を理解もしくは出力することを行っているのです。
(例)チャットボットの処理の流れのイメージ
次回へ続きます。
次回は、AIによる自然言語処理の変遷についてお話ししたいと思います。