製造業のデータ活用:散布図に相関関係が見えなかった時に考えるべきこと(1) ~2次式を含む場合~

ビジネスディベロップメント事業本部 間宮

製造業でもっとも多く使われるデータ解析手法は、散布図ではないでしょうか?

品質特性や歩留まりに効く要因を調べたい場合、散布図を描くことによって、因果関係の有無を調べるのは基本中の基本です。しかし、相関があると期待して書いた散布図でも相関が見られないケースは沢山あります。そんな時、どうしたら良いでしょうか?

このシリーズでは、製造業のデータの特徴を踏まえて、散布図に相関が見られなかった時に何を考えるかべきかをシリーズ化してまとめます。第1回は説明変数の1つに2次式が含まれる場合です。

サンプルデータ
説明を簡単にするために、人工的なデータを2種類作りました。
ケース1は、品質特性となる目的変数Yに対して、要因となる説明変数X1, X2, X3がともに1次式の場合です。重回帰分析のモデル式はY=X1-X2+X3です。
ケース2は、説明変数の1つX2の項を上に凸の2次式にしました。
重回帰分析のモデル式はY=X1-(20-X2)^2 +X3です。X2=20の時に第2項はピークになります。

データ分布の3次元イメージ
今回のデータは、目的変数Yが1つ、説明変数が3つの合計4次元のデータになっています。4次元のデータはグラフ化できないので、YとX1, X2だけ選んで3次元のイメージを書いてみました。ケース2ではX2が2次式なので、Yに対して湾曲した分布になっています。

20190118s_1.png

なぜ2次式?
ケース2において、X2の値が20の時にピークを持つ2次式を入れた理由は、目標値に対して実際の値が大きすぎても、小さすぎても品質特性が低下する項目を再現するためです。

取得されているデータ、取得されていないデータ
ここで実際に取得されているのは(観察できるのは)YとX1だけとします。X2、X3は取得されておらず、解析者はX1とYの相関を見て、相関の大きさを判断していることになります。

グラフの説明
X2のデータは取得されていませんが、工程内では常に変動していて、解析者はそれに気が付きません。下にケース1とケース2において、X2が変動した時のX1とYの相関係数Rが変化してゆく様子を示しました。同時にYとX2, YとX3のグラフも書いてみました。

結果はグラフの後にまとめます。

ケース1: 説明変数であるX1, X2, X3ともに1次式の場合
20190118s_2.png
20190118s_3.png
20190118s_4.png

ケース2: 説明変数X1, X3は1次式. X2は2次式の場合
20190118s_5.png
20190118s_6.png
20190118s_7.png

結果と考察
ケース1でX2の平均値を20, 10, 0と変化させた場合、X1とYの相関係数Rは0.833と常に同じでした。つまりは、解析者は測定していないX2が変動していても気が付かず、常に同じ結果を得ていたことになります。

これに対して、ケース2ではX2の平均値を20, 17, 15と変化させたところ、X1とYの相関係数Rは、0.660, 0.349, 0.227と低下していきました。X2は測定していないので、解析者は何が起こったか理解できません。品質特性に効く全ての要因を測定しているかどうかは誰にも分からないので、これは良くある話のはずです。相関係数が変化した数学的な理由は、ケース2の説明変数X2が2次式だったために、目的変数Yの分布が歪んでしまい、テール部のバラツキが増えたためですが、結局のところX2が測定されていないので、何が原因かは分かりません。


20190118s_8.png

どうすれば良かったのか?
どんなデータを集めれば良いか?という議論になると思いますが、2次式になりそうなデータは優先的に取得すべきです。2次式のデータが1つ含まれているだけで、その存在に気が付かなければ、散布図を描いた場合に判断を誤る可能性があります。さらには重回帰分析やPLS回帰のような線形のモデリング手法もそのままでは使えません。

参考になったでしょうか?次回も「散布図に相関が見えなかった時に考えるべきこと」シリーズを続けます。

prog-detection2019-5.png

  • LINE
  • Mail