製造業のデータ活用:散布図に相関関係が見えなかった時に考えるべきこと(2) ~層別因子を含む場合~

ビジネスディベロップメント事業本部 間宮

前回の「散布図に相関関係が見えなかった時に考えるべきこと」では、2次式を含む場合について説明しました。今回は層別因子を含む場合です。

層別については、昔ながらのQC七つ道具の1つにもあげられていますが、多変量解析や機械学習にもつながる重要な手法、考え方です。なぜ層別因子を含む場合が、相関関係が見えなかった時に考えるべきことなのか、今回も簡単なサンプルデータを使って説明してみます。

層別因子・層別散布図とは?

製造業のデータ解析、品質解析、歩留まり解析で層別因子と言えば、下記のような工程名、処理装置名、レシピ名、材料、作業者など数値以外でデータの特徴を示すものです。

mi20190208-1.jpg

品質データ(Y)と検査データ(X)で散布図を描いた場合、層別因子(例えば装置ID)で色分けしたものを層別散布図と呼びます。

mi20190208-2.jpg

なぜ層別が重要なのか?

製造業のデータ解析の重要な目的の1つは、バラツキの要因を調べることにありますが、層別はグループごとに色分けをするという簡単な手法にも関わらず、新たなバラツキ要因を見つける可能性がある強力な手法とも言えます。人間の目は優秀で、色分けしたグラフからパターン(仮説)を見つけることが得意だからです。まずは取得している全ての層別因子で色分けすることが解析の第一歩といっても過言ではありません。

サンプルデータ

4パターンの層別散布図を作り、左側にはまさに層別したもの(層別あり)、右には同じデータで層別しないもの(層別なし)を配置しました。

ケース1では3つの層別間は同じ傾き、ケース2では3つの層別間は異なる傾きになっています。さらに同じケースのなかでバラツキの小さいもの(バラツキ小)と大きなもの(バラツキ大)の散布図を作りました。

ここで調べたかったのは、相関の有無ですが、層別したものについては、モデル式

「Y=X1+層別因子」の重回帰分析を行い決定係数・相関係数を求め、回帰線の当てはまり度合いを評価しています。層別しなかったものについては、モデル式「Y=X1」の単回帰分析を行い、同様に決定係数・相関係数から当てはまり度合いを評価しています。

結果はグラフの後に示します。

ケース1:層別間は同じ傾き

mi20190208-3.jpg

mi20190208-4.jpg

ケース2: 層別間は異なる傾き

mi20190208-5.jpg

mi20190208-6.jpg

結果

全体的には、層別を行えば回帰線の当てはまり度合いを示す決定係数が高くなり、バラツキが小さければ更に決定係数が高くなる、という結果です。

ケース別では、ケース1の「層別間は同じ傾き」の場合、層別ができなかったとしても殆ど問題は起きないと思います。相関係数も高く、相関があるという判断は変わることがありません。しかし問題なのはケース2の「層別間は異なる傾き」の場合です。層別因子を入れた重回帰分析では決定係数、相関係数ともに高い値となりますが、層別をしなかった場合、見た目にも数値的にも相関は低く、バラツキの大きな場合では、この散布図には相関が見えないという結論になってしまいそうです。

このように層別因子によってグループ化される散布図において、層別間の傾きが異なる場合には相関が見えないケースが生じます。相関が見えなかった場合には、まず層別を行ってみることが必要です。

どうすれば良かったのか?

これも前回同様にどんなデータを集めれば良かったのか?の議論になりますが、層別因子は主に履歴データに含まれています。履歴データには製品履歴と装置履歴の2種類ありますが、少なくとも製品履歴(その製品が何時にどの装置でどんな処理をされたか)は優先して収集しておくべきです。参考になりましたでしょうか?

prog-detection2019-5.png

  • LINE
  • Mail