製造業のデータ活用:グラフで理解する機械学習(3)~PLS(Partial Least Squares)~

2019.07.19

ビジネスディベロップメント事業本部 間宮

もくじ

  1. 1.はじめに
  2. 2.PLSを使うには
  3. 3.サンプルデータと実験方法
  4. 4.多重共線性の回避について
  5. 5.回帰係数の値について
  6. 6.予測値の精度
  7. 7.まとめ

はじめに

グラフで理解する機械学習シリーズの第三回はPLS (Partial Least Squares)です。
PLSは重回帰分析と同様に線形回帰手法の1つですが、重回帰分析で問題となった多重共線性を回避できるというメリットから多くの産業において予測モデルのアルゴリズムとして活用されています。数学的な説明は専門書を読んで頂くとして、今回もサンプルデータを使ってその特徴を説明します。

PLSを使うには

PLSを使う場合、潜在変数の数を決める必要があります。潜在変数の数は、1から説明変数の個数だけ選択することができます。つまり説明変数の数が10個であれば、潜在変数の数は1~10の値を選択することができます。潜在変数の数を変化させると何がどのように変わるのでしょうか。

サンプルデータと実験方法

サンプルデータの作り方は初回の重回帰分析、第二回の回帰係数と同じです。目的変数Yは7個の説明変数(X1~X7)から作られています。多重共線性を意図的に発生させるために、説明変数X7とX6を相関させています。(相関の度合いを調整しています) 回帰係数等のバラツキを評価する場合、乱数を50回発生させて標準偏差を計算しています。

多重共線性の回避について

まずは潜在変数の数が変わると多重共線性がどのように変わるかを見てみます。重回帰分析の時と同じように、サンプル数による影響も同時に評価します。多重共線性の発生については、回帰係数のバラツキで評価します。

下のグラフのX軸は説明変数X6とX7の相関係数、Y軸は標準化偏回帰係数のバラツキ(標準偏差)を示しています。サンプル数によって程度は異なりますが、重回帰分析では相関係数が0.8以上になってくると、標準化偏回帰係数のバラツキが増えることが確認できます。

PLSについて潜在変数の数を1、3、7とした時はどうでしょう。潜在変数の数が1と3の時は、多重共線性が無くなり、相関係数が高くなっても安定した回帰係数になります。これがPLSのメリットです。しかしながらPLSであっても潜在変数の数が説明変数の数と同じになった場合(ここでは7)には、重回帰分析と全く同じになり、多重共線性が発生することが分かります。

20190716pls-1.png

20190716pls-2.png

20190716pls-3.png

回帰係数の値について

次は潜在変数の数を変化させると、回帰係数の値がどのように変わるか見てみます。下の個々のグラフは各説明変数(X1~X7)の偏回帰係数が潜在変数の数によってどのように変化するかを示しています。さらに重回帰分析の偏回帰係数と比較しています。これを見ると、潜在変数の数が1の時は、X7を除く全ての説明変数でゼロに近い値となってしまい、潜在変数の数が3より大きな時には重回帰分析の値に近づいていることが分かります。

20190716pls-4.png

予測値の精度

最後は予測値の精度です。潜在変数の数が変わると予測値はどうなるのでしょうか。下の個々のグラフは各サンプル数の時の実測値と予測値の相関係数の値のバラツキを標準偏差で示しています。グラフのX軸は潜在変数の数として、潜在変数の数によって予測精度がどうなるか、さらに重回帰分析と比較するとどうなるか、を示しています。これを見ると、潜在変数の数が1の時は、予測値に大きなバラツキがあり、精度の低い回帰モデルであることが分かります。

20190716pls-5.png

まとめ

PLSの潜在変数の数を変化させた時に、多重共線性はどうなるか、回帰係数はどうなるか、予測値の精度はどうなるか、を調べてみました。簡単にまとめると、潜在変数の数が小さい場合、多重共線性は完全に回避できるが、回帰係数は理想的な値から外れ、予測精度も悪くなる傾向にあり、潜在変数の数が大きくなると、重回帰分析に似てきて、多重共線性も発生するが、回帰係数は理想的な値となり、予測精度も良くなることが分かりました。(潜在変数が説明変数の数と同じにした場合、重回帰分析と同じ多重共線性が発生する) つまりは予測精度、回帰係数の精度は、多重共線性とのトレードオフになっています。この点に留意してPLS回帰のモデルを作る必要があります。

いかがだったでしょうか?

予兆検知セミナー.png
  • LINE
  • Mail