製造業のデータ活用:グラフで理解する機械学習(2)~回帰係数~

ビジネスディベロップメント事業本部 間宮

はじめに

前回は「グラフで理解する機械学習」シリーズの初回として、重回帰分析の課題(多重共線性が発生した場合とサンプル数が少ない場合に回帰係数のバラツキが発生すること)について説明しました。第二回からは他の機械学習手法との比較としていましたが、一旦、基本に戻って重回帰分析の回帰係数について基本的な特徴をおさらいすることにしました。

重回帰分析には、2種類の回帰係数があります。1つ目は目的変数、説明変数を標準化しない回帰係数:偏回帰係数、2つ目は目的変数、説明変数ともに標準化する回帰係数:標準化偏回帰係数(または標準偏回帰係数)です。

データを標準化する、標準化しない、でどのような特徴の差異があるのでしょうか?使い方にも差があるのでしょうか?今回もサンプルデータを作って説明します。

サンプルデータと実験方法

前回の重回帰分析と同様に下記の要領でサンプルデータを作りました。

前回は多重共線性を評価するために、X7を意図的にX6と相関させ、その相関の度合いをstd_valueと名前を付けた変数で調整しました。

つまり、std_valueが小さければX6とX7は近い値となり、相関係数が大きくなり、std_valueが大きければX6とX7は遠い値となり、相関係数が小さくなるようにしました。

今回の実験でも、同じようにstd_valueを変化させましたが、目的はX6を変えずに、X7のバラツキを変化させるためです。(もちろん結果的にX6とX7の相関係数も変化しますが、殆どの場合で相関係数は小さいので、その影響は無視することにします)

このようにサンプルを作り、X6とX7について、データの分布、Yとの相関関係(相関係数)、重回帰分析を行った場合の回帰係数を"標準化なし"、"標準化あり"で比較することにしました。

20190513_0005-1.png

データ分布とYとの相関関係(標準化なし)

まずは"標準化なし"の場合について、データの分布とYとの相関関係をヒストグラムと散布図で見てみることにします。std_valueを0.5, 2, 5と変化させると、X7のデータ分布が広がり、それに伴いYの分布が広がるために、X6とYの相関係数は低下し、X7とYの相関係数が上昇することが分かります。

20190513_0005-2.png

データ分布とYとの相関関係(標準化あり)

次は"標準化あり"の場合です。データを標準化するとデータの分布は殆どプラスマイナス3以内に収まるので"標準化なし"のヒストグラム、散布図のイメージは異なりますが、目的変数Yとの相関係数に注目すると"標準化なし", "標準化あり"で差異はありません。

20190513_0005-3.png

相関係数と重回帰の回帰係数の関係(標準化なし):偏回帰係数

上記のデータ分布と相関関係のグラフでは、ピンポイントでstd_value=0.5, 2, 5の3つについて調べましたが、std_valueを0.5, 1, 2, 3, 4, 5と増やし、それぞれについて目的変数Yとの相関係数と重回帰分析の回帰係数をY軸としたグラフを書いて傾向を調べてみました。

まずは"標準化なし"の場合ですが、X6, X7とYとの相関係数はstd_valueが大きくなるにつれて、低下、上昇しますが、回帰係数(ここでは偏回帰係数)は、それぞれの設定値である6と7で一定でした。

20190513_0005-4.png

相関係数と重回帰の回帰係数の関係(標準化あり):標準化偏回帰係数

同様に"標準化あり"の場合です。目的変数Yとの相関係数の傾向は"標準化なし"の場合と同様にstd_valueが大きくなるにつれて、X6は低下、X7は上昇しますが、回帰係数(ここでは標準化偏回帰係数)もX6は低下、X7は上昇します。"標準化なし"の場合では一定だったのに比べると大きな違いです。

20190513_0005-5.png

まとめ

重回帰分析の2つの回帰係数、偏回帰係数と標準化偏回帰分析の違いについて、サンプルデータを使って説明してみました。データの標準化をしない偏回帰係数は、説明変数Xと目的変数Yの相関係数に寄らない係数、データの標準化を行う標準化偏回帰係数は、説明変数Xと目的変数Yの相関係数が大きくなると、大きくなる係数であることが確認できました。この特徴から、偏回帰係数は、

目的変数Y=回帰係数1 x 説明変数X1 + 回帰係数2 x 説明変数X2 ...のようなモデルを作った時に、説明変数の変化量に対して、目的変数の変化量の見積もりに役立てることができます。しかし、どの説明変数の影響度が高いかは分かりません。もちろん説明変数の単位が異なれば、回帰係数どうしの比較も無意味です。

標準化偏回帰係数は、データを標準化していることから、説明変数の単位が異なっていても目的変数への影響度として比較することができます。これによって変数選択や、要因分析に役立てることができます。

いかがだったでしょうか?

prog-detection2019-5.png

  • LINE
  • Mail