時系列データから手っ取り早く変数間の因果関係を調べる

2017.08.14

京都大学教授 加納 学

製造業では、製品の品質を良くするため、あるいは不良品の発生を抑制するために、製品特性に影響を与える要因を明らかにしたいというニーズがあります。もちろん、何らかの対策を取る必要があることから、要因となる操業条件を明らかにしたいというのが本音です。これができれば、操業条件をうまく調整することで、製品の品質や歩留りを改善することができます。

stockfoto_12862931_XS.jpg

製品が製造される過程で起こる現象を精査し、操業条件と製品品質の因果関係を明らかにする取り組みは重要ですが、複雑なプロセスに対しては決して容易ではありません。そこで、大量に保存されているデータを活用できないかと考えるわけです。

時系列データから手っ取り早く変数間の因果関係を調べることができれば、嬉しいですよね。

 できます。それも簡単に。

今回紹介するのはグレンジャー因果(Granger Causality)です。2003年にノーベル経済学賞を受賞したC.W.J. Granger教授が提唱した概念であるため、こう呼ばれています。グレンジャー因果を提案するに至ったのは、理論や仮説に囚われず、ササッと時系列データから変数間の因果関係を把握したいという願望です。共感できますね。

それでは早速、2つの変数xyの時系列データがあるときに、xyという因果関係があるかどうかを調べてみましょう。そのために、次の2つのモデルを構築します。

20170820_1.png

モデル1は、変数yについての自己回帰モデル(ARモデル)で、yをそれ自身の過去値で表現します。モデル2は、yをそれ自身の過去値だけでなく、xの過去値も用いて表現します。Pはラグ次数で、どれだけ過去まで考慮するかを決めています。eはノイズです。もしxyに何も影響を与えていないなら、xの過去値を追加してもモデルの予測精度は向上しません。つまり、モデル1の予測誤差とモデル2の予測誤差は同じになります。一方、xyに影響を与えているなら、xの過去値を追加することで、モデル2の予測誤差は小さくなるはずです。したがって、モデル1とモデル2の予測誤差を比べて、モデル2の予測誤差が小さければ、xからyへのグレンジャー因果が存在すると言えます。

 グレンジャー因果は時系列データから変数間の因果関係をあばく

ここで、因果が存在すると言わずに、グレンジャー因果が存在すると言っているのは、グレンジャー因果は通常の意味での因果と異なるためです。この違いを説明するためによく用いられるのは、雷光と雷鳴の例です。落雷時には雷光の後に雷鳴が響きますが、雷光が雷鳴の原因ではありません。このように、グレンジャー因果は通常の因果が存在する必要条件ですが、十分条件ではないことに注意する必要があります。

 グレンジャー因果あるところに因果あり

もう1つ、重要なことを指摘するために、x→z→yという因果関係が存在する場合を考えます。上述のグレンジャー因果を用いて、xyとz→yの2つの因果関係について調べてみると、どちらもグレンジャー因果が存在するという結論が得られます。しかし、zyに直接影響していますが、xzを介してしかyに影響しません。2変数に対するグレンジャー因果は、この違いを見抜くことができません。そこで、3変数の場合に拡張します。具体的には、次のようなモデルを考えます。

20170820_2.png

式をじっと見詰めて下さい。もうおわかりですね。モデル3とモデル4の予測誤差を比べて、モデル4の予測誤差が小さければ、xからyへのグレンジャー因果が存在すると言えます。x→z→yという因果関係が存在する場合、モデル3とモデル4にzが含まれており、モデル4でxの過去値を追加してもモデルの予測精度は向上しないため、xからyへのグレンジャー因果は存在しないという結論が得られます。以上より、グレンジャー因果が存在するかどうかは、モデル構築にどの変数を使うか、あるいは使わないか、に依存することがわかります。グレンジャー因果を使用する際には、この点にも注意する必要があります。なお、簡単のために3変数の場合で説明しましたが、3変数以上の多変数の場合にも拡張できます。その場合には、ベクトル自己回帰モデル(VARモデル)を使用します。

グレンジャー因果の使用上の注意としては、時系列データに基づく方法であることから、解析に使用するデータ(どの期間のデータを使うか)によって結果が異なる恐れがあること、非定常時系列には使用すべきではないこと、などがあります。

 グレンジャー因果は変数やサンプルに依存する

stockfoto_5020336_XS.jpg

製造プロセスを対象とする場合、操業条件を説明変数、製品品質を目的変数として線形回帰モデルを構築し、その回帰係数で影響の有無や大きさを評価することも多いでしょう。

また、対象の非線形性が強ければ、ランダムフォレストの変数重要度を用いるケースもあると思います。しかし、それらの方法はいつも有効とは限りません。自分のデータ解析道具箱に、グレンジャー因果を入れておくことも検討してみて下さい。

今回説明に用いたのは線形モデルですが、グレンジャー因果の計算に非線形モデルを用いることもできます。グレンジャー因果は、経済学だけでなく、様々な分野で活用されていますので、気になった方は是非調べてみて下さい。