重回帰分析を使ってみよう! ~メリットを知る~

2013.03.05

重回帰分析を使ってみよう! ~メリットを知る~


◎重回帰分析のメリット

前回の「多変量解析を攻略しよう! ~身近なものに適用して考える~」では複数の要因系データから結果系データの予測値を求める方法として、 重回帰分析 を紹介しました。簡単な方法と説明しましたが、実際に使うにはそれなりの勉強が必要となります。勉強したくない? そりゃそうです。しかし、勉強するかどうかの判断は、重回帰分析のメリットを知ってからでも遅くありません。そこで今回は重回帰分析のメリットを中心に説明したいと思います。

■重回帰分析のメリット

1.単回帰分析と比較して、予測の精度が向上する。
2.複数の要因系データについて、結果系データに対する影響度を分離できる。

◎マンション販売価格の影響要因

前回からマンションの販売価格を結果系データ、駅からの距離、専有面積、築年数を要因系データとして話を進めていますが、下記のようなデータが取得できたとします。データの数はマンション_001から始まって、全部で100件です。

image001.jpg

重回帰分析に使用できるデータは、基本的に全て連続的な数値データです。要因系データ、結果系データのいずれかが数値データでない場合は別の手法を適用する必要があります。例えば要因系データとして「マンションの色」「管理人の有無」なども販売価格に影響を及ぼすかもしれませんが、今回は考慮しないこととします。

◎単回帰分析を使ってみる

さてデータは集まりました。重回帰分析を知らない人は最初に何をするでしょうか? おそらく最初に個々の要因系データについてグラフを書くと思います。X軸が要因系データ、Y軸が結果系データのグラフを実際に描画しました。

image002.png

何となく傾向は見えてきました。グラフの傾きを見る限り、どうやら販売価格に大きく影響するのは駅からの距離と専有面積で、築年数の影響度合いは小さいようです。しかし、このままではあまりに直感的過ぎます。そこで、グラフ内の全ての点に「当てはまりの良い直線」(回帰線と呼ぶ直線)を描いてみることにします。
このように要因系データと結果系データの関係を調べるために、個々に回帰線を書く方法を「単回帰分析」と呼びます。各要因系データについて単回帰分析を行ったグラフを下記に示します。

image004.png

単回帰分析では、「当てはまりの良い直線」の式、つまり式の係数(切片と傾き)が求まります。式の "切片" は、要因系データがゼロであった時の結果系データの値、 "傾き" は要因系データの影響度合いを示します。単回帰分析にて求まった「当てはまりの良い直線」の式は予測値を求める式となります。

販売価格(予測値) = 2638(切片) - 16.95(傾き) x (駅からの距離)
販売価格(予測値) = 1890(切片) + 8.95(傾き) x (専有面積)
販売価格(予測値) = 2566(切片) - 5.09(傾き) x (築年数)

これらの式に各要因系データを入力すれば販売価格の予測値が求まります。

◎単回帰分析から求める予測の精度

さて、各要因系データについて販売価格の予測値を求める式ができました。ここで実際に上の式にそれぞれの値を入力して予測値を求めます。「駅からの距離」を例にして、実際の値と比較しました。

「駅からの距離」の予測式 : 2638(切片) - 16.95(傾き) x (駅からの距離)

image005.jpg

このような感じで「駅からの距離」「専有面積」「築年数」の全ての予測式から予測値を求め、実際の値と比較してみましょう。比較の方法はX軸に販売価格の予測値、Y軸を実際の販売価格としてグラフを書きます。予測値と実際の価格が完全に一致すれば、Y = X(原点を通る傾き1の直線)に全ての点が乗るはずです。

image006.png

駅からの距離、専有面積については Y = X の式の上に乗っているように見えることから、予測式の当てはまりが良いように思えます。しかし、築年数についてはどうでしょうか? 

image012.png

築年数から求めた予測値(2500万円)と実際の値は大きなバラツキ(差異として300万円以上)があることがわかります。このようなグラフが書かれた場合、築年数は販売価格に影響しない、又はモデル式として使えない、という判断をすべきなのでしょうか? ですが実際には築年数は販売価格に影響があります。
そこで、築年数の予測式で計算された予測値と実際の値になぜ大きな差異が生じたかについて考えてみます。

その理由はこのバラツキには他の要因系データ(駅からの距離、専有面積)の影響が全て混ざり合ってしまっているからです。上記の予測値2500万円のポイントにおいては、駅からの距離が最大の時と最小の時のデータ、専有面積が最大の時と最小の時のデータが混じりあっているために築年数の影響が見えにくくなっているのです。
ではこの例を重回帰分析を使って要因系データの影響を分離してみましょう。

◎重回帰分析による予測

重回帰分析は要因系データの影響度を分解して下記のような式を導き出します。単回帰と同じように式の切片と傾きの係数を算出します。

販売価格(予測値)=2021(切片)
 - 19.45(傾き) x (駅からの距離)
 + 9.82(傾き) x (専有面積)
 - 5.28(傾き) x (築年数)

先ほどの3つのグラフに「重回帰による予測」を加えました。

image007.png

重回帰による予測のグラフの差異を見ると、単回帰による予測のグラフと比べ、差異が小さくなっています。グラフからも重回帰による予測精度は非常に高くなっていることがわかります。

◎終わりに

今回は重回帰分析のメリットを予測値と実際の値の差異という側面から説明しましたが、いかがだったでしょうか?  実は今回の事例で使用したデータは人工的なもので、下記のモデル式から作られていました。これが単回帰、重回帰で求めた予測式(切片と傾き)の「正解」となります。

販売価格 = 2000(切片)
 - 20(傾き) x (駅からの距離)
 + 10(傾き) x (専有面積)
 - 5(傾き) x (築年数)
 + 乱数

単回帰で予測された築年数の係数は -5.09 となっており、まんざらでもない予測でしたし、統計的にも有意でした。しかし、予測値と実際の値に関係に大きな差異が発生していたために、モデルの性能としては良くありませんでした。原因は上記に述べたように、バラツキの中に他の要因系データの影響が混ざっていたためです。
重回帰分析はこのような場合に予測精度を向上させるだけでなく、要因の分離が簡単できることから、バラツキの中で見落としてしまいそうな意味のある要因を見つけることができる手法とも言えます。もしかしたら今までも単変量でグラフを書き、「影響ない」と判断された要因の中にも実は影響があるデータが含まれていたかもしれません。そのような見落としをしないためにも、重回帰分析を活用することをお勧めします。