SPSS Modeler ヒモトク
データ分析者達の教訓 #10- 因果を軽視した機械的な予測モデルはたちまち劣化する
2023年10月12日
カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス
記事をシェアする:
皆さんこんにちはIBMの西牧です。SPSSを含むデータサイエンス製品の技術を担当しています。
このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で忘れられない教訓をインタビュー形式で伺い、これからデータ分析に取り組む皆様に参考にしていただくことを目的にしています。
今回インタビューをお願いしたデータ分析者は
今回のインタビュー対象はJFEテクノリサーチでデータサイエンスプロジェクトを数多く手掛ける津田様です。
津田様はこのブログ記事公開と同じ月の2023年10月31日にベルサール東京日本橋で開催するSPSS秋のユーザーイベントでも登壇いただく予定です。私もデモンストレーションを通じて津田様のセッションをサポートいたします。
東京開催ではありますが、参加費無料ですので興味のある方はぜひご参加ください。
津田 和呂様
JFEテクノリサーチ株式会社
計測・プロセスソリューション本部
データサイエンスセンター長
-日頃のデータ活用業務について教えてください
私はJFEスチールのグループ会社に所属しており、DX/IoT/データサイエンスを推進する部署のリーダーを務めております。
メンバー達とともに、主に製造プロセスの製造条件データ・製造時時系列データ・画像データを活用した、①生産効率向上、②不具合発生検知・予兆検知、③不具合発生原因究明、④画像AIによる、監視業務代替・センサ代替などにも取り組んでおります。
①は製造業としての基本であり、また②はお客様に不良品を納めることなく、またプロセスのダウンタイムを最小化するために必須です。近年は④の発展が目覚ましく、当社でも積極活用しています。
-データ活用業務で味わった苦い経験を教えてください
鉄鋼製造プロセスは、高品質から低品質までレンジの広い原料(鉄鉱石・石炭・その他)を配合して扱う点、高炉という、広大な炉内で必ずしも全ての反応状況をセンサで追うことのできない高温化学反応が出発プロセスである点など、プロセス現象や製品品質などの因果関係が十分には把握できていないという特徴があります。
そのせいもあり、データ解析者としての駆け出しの頃から、例えば過去3年分のデータから導きだしたプロセスモデルが徐々に外れていく、1年経つと使い物にならなくなるなどの苦い経験をしてきました。
-その苦い経験から得られた教訓はなんでしょうか
その苦い経験の原因は数多くあると思いますが、一番大きいと考えるのは、まずは当該現象の裏に隠された物理原理を把握できていない点、つまり現象を言い表すために必要な因果関係を把握できていない点にあります。そのため、説明変数として必要なデータ種別の一部が欠けた状態で、そうとは知らないままモデリングをしているケースが多いと感じています。
「風吹けば桶屋が儲かる」ということわざがあり、これは無理にこじつけることへの皮肉という意味もありますが、小さな因果関係は全て正しいが、それが多段に積み重なると想像もつかない結果を引き起こすという真理も意味しており、世の中のデータサイエンス分野に携わる人は常にそこを意識する必要があると思っています。いわゆるその業界のドメイン知識を深く追求することが真のデータ解析には必要です。
深層学習の世界でもデータを「訓練」「検証」「テスト」と3分割して学習を進めますが、従来の統計解析手法を用いる場合も同様な手続きが必要であり、それでも汎化モデルが構築できないときは背後の因果関係への鋭い洞察こそが大事な手続きになると考えます。
-これからのデータ活用領域でのチャレンジについて教えてください
先に述べた苦い経験やそこで得られた教訓とも大きく関連しますが、近年、深層学習を応用した因果推論の分野が発展しつつあります。これまでの統計的解析手法は主に相関関係を扱うまでに留まっていましたが、因果関係、つまり原因と結果の方向性までもが、数値データから推論できる手法です。これによりモデリングの精度をさらに上げていきたいです。ぜひ将来的にSPSSにも実装されれば良いなと思います。
また、ベテラン世代の製造業エンジニアとして、ツールやアルゴリズムに依らずに、解析した結果を丁寧に解釈していく考え方や必要性を啓蒙していきたいと考えています。
インタビューのお礼と感想
津田様、貴重なお話をありがとうございました。
皆様、いかがでしたでしょうか?
SPSSでもモデルの自動化をサポートする機能を持ち、すぐにモデリングできる簡便さを私自身がアピールしてきました。
確かに製造業における不良や設備異常には物理的な現象であり、そもそもそのメカニズムを捉えていないと
現場の説得も含めて、実装までの道のりが長いとは承知していました。
ですが、実装しても早晩役に立たなくなることもあるという津田様のご経験は印象的で、その理由を含めてこれからデータ活用を始めるお客様にも共有したいと思いました。
次回はネイチャーインサイトの中野様から「テスト段階で油断せず運用を見据えたした予測モデル開発を」を伺います。
→これまでのSPSS Modelerブログ連載のバックナンバーはこちらから
→SPSS Modelerノードリファレンス(機能解説)はこちらから
→ SPSS Modeler 逆引きストリーム集(データ加工)
西牧 洋一郎
日本アイ・ビー・エム株式会社
テクノロジー事業本部 データ・AI・オートメーション事業部
Data & AI 第一テクニカルセールス
著書に「実践IBM SPSS Modeler 顧客価値を引き上げるアナリティクス」
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む
Women in Data Science Tokyo @ IBM 2024 開催レポート
Data Science and AI, IBM Data and AI
こんにちは。IBM西戸です。 今年で5回目のWomen in Data Science (WiDS) Tokyo @ IBM が2024年6月14日に初の会場とオンラインのハイブリッド開催されました。会場は2024年2月 ...続きを読む