異常検出の考え方:古典的な管理図

京都大学 教授 加納 学

先日、ある研究会に参加したところ、講演スライドに「正常データのみを使う新しい異常検知方法」という言葉がありました。何か凄い方法なのだろうなとは思いましたが、しかし、1924年にW. A. Shewhartが管理図を提案したことはご存じなかったのかもしれません。というわけで、今回は管理図を取り上げます。

シューハートはWestern Electric Company(AT&Tの製造部門)の検査技術部門に配属されました。当時は、完成製品を検査して問題のあるものを取り除くことで品質を管理していたそうです。シューハートは、製造工程における変動を削減することの重要性を指摘し、管理図を提案しました。提案したと言っても、論文を書いたとかいう大袈裟なものではなく、職場の上司にメモを渡したそうです。これがシューハート管理図のはじまりです。

その考え方はシンプルで、現在の統計的プロセス管理(Statistical Process Control: SPC)の基礎となっています。

1.品質はばらつく。
2.ばらつきには偶然原因と特殊原因がある。
3.偶然原因だけなら統計的管理状態(正常状態)にある。
4.確率分布を考慮し、特殊原因によるばらつきを検知する。

これだけです。

stockfoto_24861979_XS.jpg

どれだけ精巧に作られた製造装置を用いても、かつ正しく作業をしても、まったく同一の品質を常に実現することは困難です。どうしても品質はばらついてしまいます。このばらつきの原因が偶然原因です。偶然原因は不可避的原因とも言われ、現実的に取り除くことが困難で、どうしようもない原因です。一方、いち早く見付けて取り除くべきものが特殊原因です。生産性を高めるためには、偶然原因によるばらつきと特殊原因によるばらつきを見分けて、後者を素早く検出することが求められます。

この特殊原因によるばらつきの検出、すなわち異常検出を行うための道具として提案されたのが管理図です。管理図は、偶然原因によるばらつきが従う確率分布に基づいて作成され、正常な状態と異常な状態の識別を可能にします。

例えば、正常状態で変数xは正規分布に従うとします。あるいは、偶然原因によるばらつきが正規分布で表されるとします。このとき、変数xの確率密度関数は

数式1.bmp

となります。ここで、µは平均、記号.bmpは分散です。xを観測するとp(x)が計算できますが、このp(x)が大きければ大きいほど、そのxは観測されやすい値だと言えます。つまり、正常な状態で観測されたと判断して間違いなさそうだというわけです。一方、p(x)が小さければ、正常な状態で観測されたのか怪しくなり、特殊原因によるばらつきの発生が疑われます。そこで、p(x)の負の対数尤度を「異常度」と定義します。つまり、

異常度: 数式2.bmp

とします。cは定数であることから、xの観測値が平均µから離れれば離れるほど異常度が大きくなります。そこで、記号2.bmp (あるいは 記号3.bmp の絶対値)がある閾値を超えたら異常が発生したと判断することにします。これが異常検出の基本的な考え方です。特に、記号3.bmp の絶対値が記号4.bmpを超えたら異常が発生したと判断する方法は記号4.bmp法と呼ばれます。

shutterstock_188537615.jpg

変数が2つ以上ある場合には、それらが多次元正規分布に従うのであれば、1変数のときとまったく同様にして、xの観測値のマハラノビス距離がある閾値を超えたら異常が発生したと判断することにします。この考え方をさらに発展させたのが多変量統計的プロセス管理(MSPC)です。MSPCについては回を改めて紹介します。

このように、シューハートが提案した管理図やその発展形では、正常な状態で観測されたデータを用いて正常な状態を定義することで、異常を検出します。このため、正常データのみを使う異常検知方法は決して新しくはありません。新しくはありませんが、とても役に立つ方法です。というのも、異常データの取得が困難な場合には、比較的取得しやすい正常データのみを用いて異常を検出できることが大きな利点になるからです。実際、筆者らは製造プロセスの異常検出のみならず、てんかん発作予知などの医療分野での異常検出も行っています。発作発生時のデータは取得が難しいため、正常データのみを用いて異常検出できることが役立つわけです。このコラムでは、そのような応用についても紹介していきます。

  • LINE
  • Mail