製品品質に影響がある変数の選び方【前編】

2018.04.16

京都大学 教授 加納 学

「ビッグデータの正体」(ショーンベルガー、クキエ、講談社、2013)には、「ビッグデータの時代には、暮らし方から世界との付き合い方まで問われることになる。特に顕著なのは、相関関係が単純になる結果、社会が因果関係を求めなくなる点だ。『結論』さえわかれば、『理由』はいらないのである」と書かれています。

相関関係が確認できれば、それを積極的に利用するという方策が有効なビジネスシーンも多いでしょう。しかし、製造現場は因果関係を明らかにすることで進化してきました。これからもそうでしょう。現象を深く理解しなければ、革新は生まれないためです。

製品品質の向上や不良品の削減を実現するために、製品品質に影響を与える要因を明らかにしたい。そう願う技術者や研究者は多いと思います。しかし、複雑な製造プロセスを対象とした要因解析は容易ではありません。それでも、トレーサビリティを確保したデータ収集環境を構築し、要因解析に取り組む企業が増えています。

stockfoto_48175792_XS.jpg

単純な要因解析手法としては、製品品質とプロセス変数(あるいは特徴量)の単相関を調べる方法や、線形回帰モデルの回帰係数を用いる方法があります。相関係数の絶対値や回帰係数の絶対値が大きな変数が製品品質への影響の大きな変数だと推測できます。また、前回紹介したPLSを用いる場合には、変数選択指標として登場したVIP(Variable Importance in Projection)を用いて影響の大きさを評価することもよく行われています。確かに、これらの手法は有効ですが、必ずしも影響の大きさを正確に把握できるわけではありません。

以前、このコラムで、時系列データを用いた因果推論手法として、グレンジャー因果(Granger Causality)を紹介しました。理論や仮説に囚われず、時系列データから簡便に変数間の因果関係を把握したいという動機から生み出された手法です。複数の変数の時系列データが与えられているとき、変数xから変数qへの因果があるかどうかを調べるために、変数xを入力変数として用いるモデルと用いないモデルを構築し、用いるモデルによって変数qの予測誤差が小さくなれば、変数xから変数qへのグレンジャー因果があると判断します。

では、データが時系列でない場合にはどうすればよいでしょうか。もちろん様々な方法がありますが、一旦それらは脇へ置いておくとして、グレンジャー因果と同じ発想で、2種類のモデルの予測誤差に基づいて要因解析を行う方法を考えてみましょう。
構築するモデルは

201804-0032.png

になります。ここで、qは製品品質、xyzは製品品質への影響の有無やその大きさを把握したい変数であり、装置の製造条件を代表する変数です。温度や流量と考えておけばいいでしょう。時系列データでも、平均値や標準偏差といった特徴量でも構いません。xを入力変数として用いるモデル1と用いないモデル2の予測誤差を比較して、e1e2よりも小さければ、変数xは品質qに影響があると判断できます。このとき、Varを分散として、変数xの品質qに対する変数重要度を

201804-0031.png

で求めることができます。変数xを用いることで予測誤差e1が0に近くなれば、変数重要度は1に近付きます。逆に、変数xを用いても予測誤差e1が小さくならなければ、変数重要度は0になります。この指標を、予測誤差に基づく変数重要度と呼ぶことにします。

モデル構築にはどのような手法を用いても構いません。対象プロセスの非線形性が強くないなら、線形回帰でよいでしょう。そうでないなら、非線形回帰を用いるとよいでしょう。サポートベクトル回帰やガウス過程回帰といったカーネル関数を用いて非線形性を効率的に扱うことのできる方法も人気です。実際、サンプル数が少なくても比較的高い精度で予測してくれます。

stockfoto_64901613_XS.jpg

また、非線形モデルに基づいて変数重要度を算出するために、ランダムフォレストの変数重要度を活用しているという方もおられるでしょう。 ランダムフォレストは、バギングを用いることで比較的高い精度の非線形モデルを構築することができて、しかも手軽に変数重要度も計算してくれるため、人気を博しているようです。しかし、非線形システムにおける変数の重要度とは一体何であるかをしっかりと考えてから使うべきだと思います。線形モデルならその傾きが変数の重要性を表していそうですが、非線形モデルではどうでしょうか。

ちなみに、企業から提供していただいたプロセスデータを用いて、いくつかの変数重要度を比較してみたところ、予測誤差に基づく変数重要度と比較して、ランダムフォレストの変数重要度があまり的確に要因を言い当ててくれないという結果になりました。どのような解析を行う場合もそうですが、安易な使用と過信は禁物です。手法の長所や短所を把握して、適材適所で用いることを心掛けたいものです。