重回帰分析の課題2 ~多重共線性~

2013.07.08

重回帰分析の課題2 ~多重共線性~


◎重回帰分析の課題

前回から2回にわたって重回帰分析の課題をご紹介しています。 前回の「重回帰分析の課題1~過剰適合~」では、要因系データの種類を増やした場合に見せかけの予測精度が向上してしまう「過剰適合」について説明しました。今回は「多重共線性」についてです。どんなに優れた手法も課題はあり、課題を理解して活用しましょう。

■重回帰分析の課題

1.過剰適合:オーバーフィッティング
要因系データの種類を増やした場合の見せかけの予測精度の向上
2.多重共線性
要因系データの中に相関関係が強いものが含まれている場合に発生する予測精度の低下

今回は「多重共線性」についてお話します。

◎多重共線性

重回帰分析においては要因系データの種類を増やすと予測精度が向上する傾向にありますが、要因系データの中に「要因系データ同士で相関関係が強いもの」が含まれていると「多重共線性」という現象が起き、予測精度が低下します。例えば、「駅らかの距離」と相関関係がありそうな、「徒歩xx分」のような要因系データを入れて解析すると多重共線性が発生します。ただしその度合いを数値化し、ある程度の判断ができるようになっています。重回帰解析のメリットを享受するためにも、これらの現象、回避法を理解して活用しましょう。

【実験】多重共線性について:
多重共線性と呼ばれる現象をイメージしやすくするために、ある要因系データと相関のある要因系データを追加した実験を行ってみました。具体的には、下記のような「正解の式」を作り、実験フローに従って予測式を作成、予測値を求めます。

販売価格 = 2000(切片)
 - 20(傾き) x (駅からの距離:乱数100個)
 + 10(傾き) x (専有面積:乱数100個)
 - 5(傾き) x (築年数:乱数100個)
 + P1 (築年数の値の2倍+乱数100個)
 + D1(乱数:100個) + D2(乱数:100個) + D3(乱数:100個)
 + 乱数:100個

【結果】実験の結果: 
実験の詳細な結果を説明する前に、P1とした築年数の2倍+乱数と定義した新たな要因系データはどのような特徴を持つか説明します。下記は、上記「正解の式」の個々の要因系データ、結果系データについて、全ての組み合わせの相関関係を示しています。グラフ中のPrice1は販売価格、Distanceは駅からの距離、Areaは専有面積、Ageは築年数、P1はAge(築年数)と相関のある要因系データ、D1~D3はダミー変数に対応します。グラフからは、Price(販売価格)とDistance(駅からの距離)、とPrice(販売価格)とArea(専有面積)の間にうっすらとした相関関係が確認できます。そしてAge(築年数)とP1(追加された要因系データ)にははっきりとした相関関係があることが確認できます。

04image020.png

このようなデータにおいて、前回の過剰適合と同様に決定係数と自由度調整済み決定係数はどうなるでしょうか? 結果は下記となります。

04image022.png
04image024.png

結果は前回の過剰適合で扱った多重共線性のないデータと同様に、自由度調整済み決定係数の中央値(ボックスプロットの中心線)を見ると、データ数、要因系データ数に依存しない値となっています。しかし、値のバラツキを見ると、データ数の少ない条件においてゼロやマイナスの値が発生します。このように、相関関係を持つ要因系データを含むデータにおいては、予測精度に異常が発生します。これが多重共線性と呼ばれる現象です。非常に危険な現象です。試行によってバラツキが発生するということは、取得されたデータのセットによって予測の結果が大きく異なってしまうことを意味しています。

予測式の係数について:
ここで多重共線性の危険度についてさらに理解するために、予測式がどうなるか? つまり予測式の係数(切片と傾き)がどうなるかについて検証します。多重共線性が発生していない条件と発生している条件において、正解の式の係数と、予測式の係数を比較します。比較の方法は、実験で行った全ての試行から算出された係数について統計的に有意となった値をヒストグラムにて表示、係数のバラツキ(分布)まで評価できるようにしました。(有意水準は5%としました)

まずは切片の比較です。正解の式では2000でした。切片については多重共線性の有無で大きな差異は生じないようです。

04image026.png

次は駅からの距離です。正解の式では-20でした。これも多重共線性の有無による大きな差異は見られませんでした。

04image028.png

次は専有面積です。正解の式では+10でした。これも多重共線性の有無による大きな差異は見られませんでした。

04image030.png

最後は築年数です。正解の式では-5でした。この要因系パラメータについては、多重共線性がない条件においてもあまり精度の良い係数となりませんでした。多重共線性がある条件においては、本来マイナスの係数となるはずが、プラスにも分布しています。こうなると全く予測式として機能しないことになります。(プラスとなった条件はデータ数が少ない条件でした)

04image032.png

◎まとめ

結果はシンプルだったので安心したのではないでしょうか? 多重共線性については予測式の係数が大きく乱れる致命的な現象なので、予測式を作る前に要因系データ間の相関関係がないことを確認することがポイントとなります。

重回帰分析のシリーズは本編にて一旦終了とします。今回はご紹介できませんでしたが重回帰分析を理解する王道は線形代数、統計理論となります。その前段階として、重回帰分析とは何か? メリット、課題は何か? を勉強してきました。業務に活用できるものがあれば、一度取り入れてみてください。