製造業のデータ活用:散布図に相関関係が見えなかった時に考えるべきこと(3) ~サンプル数が少ない場合~

2019.03.07

ビジネスディベロップメント事業本部 間宮

前回の「散布図に相関関係が見えなかった時に考えるべきこと」では、層別因子を含む場合について説明しました。今回はサンプル数が少ない場合です。

サンプル数が豊富な量産時には色々なデータが混ざっていることから、層別をしないと相関が見えにくいケースがありますが、製品開発時はデータの層別が不要なケースであっても純粋にサンプル数が少ないために相関が見えないケースがあります。今回も簡単なサンプルデータを使って説明してみます。

サンプル数が多い時の相関係数

まずはサンプル数が多いときに、相関の有無を判断する相関係数がどのような振る舞いをするか調べてみます。サンプルデータは下記のように作成しました。

Y = 傾き* X + 誤差

ここで、
・「傾き」については、「Slope設定値」として1, 2, 3の値
  (Slope設定値が大きくなると散布図が急峻になり、相関係数が大きくなる)
・「X」については、平均値50, 標準偏差5の正規分布乱数 (ここは固定)
・「誤差」については、平均値0, 標準偏差は「STD」の正規分布乱数。STDは3,5,7,9の値
  (STDを大きくすると散布図にバラツキが増え、相関係数が小さくなる)

20190303m-1.jpg

下の3つのグラフは、サンプル数を1000として、Slope設定値を1から3に変更した場合、STDを7から3に変更した場合の散布図です。相関係数と回帰分析から求めたSlope予測値(傾きの係数)も同時に比較しています。左上のグラフでは、相関係数が0.6程度でしたが、Slope設定値を大きくした場合、STD(誤差の標準偏差)を小さくした場合に予想通り散布図の傾きが急峻になったり、バラツキが減ったりした理由で相関係数は大きくなっています。また、乱数の発生を毎回変えた試行をしても、結果は殆ど同じでした。

20190303m-2.jpg

サンプル数が少ない時の相関係数

次はサンプル数が少ない時です。ここではXや誤差(STD)に使われている正規分布乱数を毎回変えて試行を行い、特徴的なグラフをピックアップしてみました。下の3つのグラフはSlope設定値1、誤差の標準偏差7と同じ設定値でしたが、散布図の様子、相関係数、Slope予測値は全く異なっています。この相関係数が小さい時が、サンプル数が少ない場合の「相関関係が見えなかった時」となります。逆に相関係数が大きくなりすぎる時も問題です。

20190303m-3.jpg

サンプル数と相関係数、Slope予測値の関係

上のように特徴的なグラフをピックアップしただけでは傾向が分かりにくいので、各試行を行った時に相関係数とSlope予測値を抽出し、グラフにしてみました。試行の数は200回です。これを見ると、サンプル数が多い300個の時は、相関係数(R)もSlope予測値(estimated_slope)もバラツキは小さく安定しており、サンプル数が少ない10個の時は、両方ともバラツキが大きく、相関係数が0や1に近づいた試行もありました。サンプル数が1000の時には相関係数が0.6程度だったので、大きな差異です。

20190303m-4.jpg

実験

傾向は分かったものの、ここで知りたいのは「サンプル数が幾つ以上あれば、安定した相関係数、Slope予測値となるのか?」です。そこで実験を行ってみました。実験のパラメータは、サンプル数、Slope設定値、誤差の標準偏差(STD)です。各条件で200回の試行を行い、相関係数とSlope予測値のバラツキを標準偏差で比較してみました。下のグラフのX軸がサンプル数、Y軸が各条件の標準偏差となります。結果はグラフの後に記載します。

20190303m-5.jpg

20190303m-6.jpg

結果

グラフから判断すると、全ての条件において、サンプル数が100より大きい場合は安定した値(標準偏差)となっていました。サンプル数が50以下の場合は急峻に標準偏差が上昇します。

つまり、結果はシンプルに、サンプル数は最低でも50、できれば100以上が望ましい、といった感じでしょうか。サンプル数が50以下の場合は、バラツキが大きく、本当は正の相関があるのに相関係数0となる場合や、最悪の場合、負の相関となるケースもあるので注意が必要です。直感と合っていたでしょうか?

prog-detection2019-5.png

  • LINE
  • Mail