便利な線形回帰手法PLSの使い方【前編】

2017.12.13

京都大学 教授 加納 学

私がPartial Least Squares (PLS)を使い始めたのは1990年代はじめ、大学院修士課程に在学していたときです。1996年に化学工学論文集に掲載された論文「物理モデルとPLSモデルを併用したナフサ分解炉スキン温度推定システムの開発」が、自分が第一著者として書いた初めての論文になりました。それからもう20年も経ちましたが、いまだにPLSを使っています。

shutterstock_756968005.jpg

その研究では、石油化学プラントにあるナフサ分解炉を対象に、熱分解によって生じるコーク層の成長をモデル化し、反応管内壁温度(スキン温度)を推定するという問題に取り組みました。そこで使用したモデルは、今ではグレーボックスモデルと呼ばれたりするもので、現象論に基づく物理モデル(ホワイトボックスモデル)とデータに基づく統計モデル(ブラックボックスモデル)を併用して、高精度化を実現したモデルです。

1990年代はじめと言えば、製造業でエキスパートシステムやニューラルネットワークが大流行していた時期です。猫も杓子も状態でした。当時の熱狂と昨今の人工知能や深層学習ブームが重なって見えている方も少なくないのではないでしょうか。そのような時代に、私はニューラルネットワークには見向きもせず、PLSに向き合っていたわけです。

PLSは線形回帰手法の一種で、重回帰分析と主成分分析を掛け合わせた手法です。線形回帰なので入力変数と出力変数の関係をモデル化するわけですが、その際に、入力変数をそのまま用いるのではなく、目的変数と潜在変数の共分散が最大となるような潜在変数を入力変数の線形結合で作り出し、その潜在変数を用いて出力変数を表現します。これにより、入力変数間に強い相関関係があったとしても、潜在変数の数を適切に選択することで、精度の高いモデルを構築することができます。いわゆる多重共線性の問題をPLSは巧妙に解決しているわけです。

shutterstock_188537615.jpg

さらに、PLSを用いれば、入力変数の数がサンプルの数よりも少なくてもモデルが構築できます。このため、例えば、近赤外分光分析において検量線を構築する場合にPLSが使われます。この場合、波長の数だけ入力変数が存在するため、その数は数百から数千にもなり、サンプルの数よりも多くなることが普通です。このような状況では、変数を絞り込まずに重回帰分析でモデルを構築することはできませんが、PLSなら可能です。

後編はこちら