多変量解析を攻略しよう! ~身近なものに適用して考える~

2013.02.04

◎はじめに:

「予想」と「予測」を使い分けていますか?

「そういえば....」と思いネットで調べてみると、どうやら「予想」は個人的な見解、「予測」は客観的な見解と説明できるようです。「予想」にせよ「予測」にせよ、それが正確にできたらどんなに便利でしょう。

思えば日々「予想」「予測」として色々な情報が溢れています。株価予想、競馬予想、渋滞予測、景気予測...。「予想」と書いてあっても実際には客観的な見解として「予測」が行われているようです。

ではどうやって予測しているのでしょう?

個々について詳しくは分かりませんが、予測のためには、過去に蓄積したデータがあり、そこから数学のモデルが作られ、モデルから予想値が計算されています。そして予測のもとになるデータ(要因系データ)と、予想されるデータ(結果系データ)が定義されています。通常、要因系データは沢山の種類が必要であることから、その数学モデルを作る作業は「多変量解析」と呼ばれています。

多変量解析には多くの種類が存在しますが、今回は最初のトピックとして「重回帰分析」と呼ばれる予測モデルを作る方法について説明します。

◎重回帰分析:

重回帰分析は予測モデルを作成する手法として一番簡単で一番有名な手法です。予測モデルを作る過程は複雑ですが、求まる結果は非常にシンプルです。何か事例があった方が分かり易いと思いますので、マンションの販売価格を例にして説明します。

(質問)もし、あなたがマンションを購入したいと考えたらどうするでしょうか?

・ まずは展示場に行く?
・ 不動産屋に駆け込む?
・ とりあえず、ネットで検索?

しかし、ここで問題が発生します。

(問題)一体マンションの相場はどのぐらいなのか?

そこであなたはネットを調べまくり、知人に話を聞き、「なるほど、駅から10分、3LDK、築5年ならXXXX万円、駅から5分、2LDK、築10年ならYYYY万円」といった感じで直感を鍛えることになると思います。
10件も話を聞けば、頭の中で下記のような式ができるでしょう。

(式)販売価格(万円)=駅からの距離(㎞)+専有面積(㎡)+築年数(年)

もちろん式には係数が必要です。係数A,B,C,Dで表現すると下の式になります。

販売価格(万円)=
係数 A x 駅からの距離+係数 B x 専有面積+係数 C x 築年数+係数 D

この係数 A, B, C, D を求めるのが「重回帰分析」です。

重回帰分析は、上記のように各要因系データ(駅からの距離、専有面積、築年数)に係数を掛けて、全ての足し算を行い、結果系データ(販売価格)の予測式を作ることです。色々なマンションのカタログを入手して、この式ができたら便利です。

掘り出し物件、割高物件はどれか?

数式モデルが出来たら早速、要因系データを入力してみます。計算から出てくるのは販売価格の予測値です。予測値が実際の価格より安ければ割高物件、予測値が実際の価格より高ければ割安物件となります。

予算に合わせるには、何を調整(我慢)すべきか?
(駅からの距離?広さ?築年数?)

数式モデルに仮の値を入力してみます。駅から遠かったら幾らになるか? 狭くしたら幾らになるか? 古いマンションなら幾らになるか? そこで計算された価格の予測値も実際の価格と照らし合わせて掘り出し、割高を判断できます。

◎終わりに:

現実の問題として、数式モデルからマンションを選ぶ人はいないでしょう。しかし、直感に頼った「予想」から、客観的な「予測値」を計算してみることによって、検討がしやすくなると思います。重回帰分析はシンプルな方法ですが、色々な場面で使われており、多変量解析の基本となっています。使いこなすには幾つかのコツが必要ですので、それらは次回以降に説明することとします。