179データ解析
IoT化が進むとデータ解析へ向けてのデータ処理の流れを作る必要があります。データ解析について、住友金属鉱山㈱ 佐藤健司氏の「製造業におけるIoTから(データ解析)に繋げる為の技術者教育と組織の作り方」といった記事が技術情報協会出版の書籍に掲載されています。ここでその一部を取り上げ、自らの経験と見解を記載したいと思います。
<記事の抜粋>
説明変数選択:データ解析の初期は関係しそうな説明変数を数多く取りそろえるが、過剰適合や多重共線性リスクを下げたり、物理化モデルでの説明性を上げたりする為に、最終的にはLASSO回帰などを利用して主要な説明変数群に絞り込むことになる。
特徴を掴むためにデータを眺める:多次元グラフでデータの偏りを見つけたり、主成分分析で仮想的に区別する軸を決めてクラスタリングを施したりして、データの特徴ができるだけ顕著となるようにデータの再加工を必要に応じて行う。特徴を見い出せないと解析の結果は往々にして芳しくならない。目的変数の変化に関与する説明変数の値を得るためには、センシングから見直さなければならない事を覚悟するべきである。
多変量回帰:製造業では原因と結果による説明性が常に求められる。この目的に適しているのが多変量回帰である。ディープ・ラーニングを利用すると予想精度は上がる可能性は高いが、説明変数との因果関係を説明することができずに窮することになる。
工学理論の理解と改善:データ解析だけでは十分な精度の予測に至らない場合がある。しかし、工学的な理論による予測と現実の比較をまず行い、その「差をデータ解析で予想する」手順にすれば従来よりも確実に精度が向上する。この為にはデータ解析技術者もまた工学的な専門知識を理解する必要がある。~以下略~
<経験と見解>
以前、プリント基板製造のデータ活用に関するフィージビリティースタディーに取り組んだことがあります。当初は説明変数項目を300余り収集して解析をしていましたが、現地製造担当者やベテランの意見を取り入れ、予測精度を評価するR2値が高くなるように試行錯誤を繰り返しました。最終的には10項目ほどの説明変数に落ち着きましたが、十分なR2値を示すまでには至りませんでした。ただ、試行錯誤を繰り返す中で感じたのは、目的変数に変動があるのに対し、説明変数に変動がない場合は相関が無いものとみて外しても問題が無いといった点です。
市販の解析ツールの中には、一つの目的変数に対して多くの説明変数をセットして、相関が強い順に変数を表示する機能があります。この機能を使うことで逆に仮説を立てたり、立てた仮説があっていたかの判断をしたりすることができます。また、説明変数にするか否かの判断基準の一つとしても使えます。
尚、以上が成り立つためには、データの品質が保証されている場合です。例えば、あるプロセスの温度のデータ収集が1日に1回程度で、毎日同じ時刻に収集すると変化が無い様に見えます。ある時、数分間隔で24時間データを採ったことがあります。1日の中での周期性の変化、薬剤投入時の急激な温度変化があることが分かり、目的変数に影響を与える可能性があることが分かったことがあります。
以前、プリント基板へのチップ実装製造設備のチョコ停の分析にビッグデータを使って行ったことがあります。何回かのクラスタリング後、ある種のチップ部品の中に強い相関を示すものがありました。データの解析はここまでです。真の原因を突き止めるために、工学的な分析を行いました。対象となったチップ部品を電子顕微鏡で観察すると、直方体の形状であると思われたチップ部品が、かまぼこ形状であるといった事が判りました。チップ部品の把持には吸着パッドが使用されます。吸着する面が曲面ではミスする確率は高くなります。真の原因が判れば、対策は立てられます。
AI分析や統計解析と併せて工学的な分析を行う事で、初めて真の対策が立てられます。
0コメント