AutoMLとは

自動化された機械学習（AutoML）は、近年、産業界や学術界における人工知能（AI）研究のトレンド・トピックとなっています。AutoMLは、規制産業のAIに対して、説明可能で再現性のある結果を実現する際のソリューションを提供できる、という優れた力を発揮します。AutoMLを使用することで、現在データサイエンスに携わるために必要な理論的背景の知識を有していない多くの人も、AI開発に参加できるようになります。

データの前処理、特徴量エンジニアリング、ハイパーパラメーターの最適化など、現在の典型的なデータサイエンス・パイプラインの各ステップは、機械学習の専門家が手作業で行う必要があります。一方で、AutoMLを採用した場合は、数行のコードで機械学習モデルの開発に必要なコードを生成でき、よりシンプルな開発プロセスを実現できます。

分類子の構築や回帰のトレーニングのどちらであるかに関係なく、AutoMLは一般化された検索概念と考えることができ、MLパイプラインの各構成要素に最適なソリューションを見つけるための特別な検索アルゴリズムを備えています。特徴量エンジニアリング、ハイパーパラメーターの最適化、ニューラル・アーキテクチャー検索という3つの重要な部分だけを自動化できるシステムを構築することで、AutoMLは、機械学習の民主化が実現する未来を約束します。

watsonx.aiのご紹介

基礎モデルと機械学習モデルを簡単にトレーニング、検証、調整、導入

AutoMLの種類

データサイエンス・パイプラインでは、データサイエンス・チームが予測モデルを構築するために、多くの段階が必要になります。経験豊富なデータ・サイエンティストやMLエンジニアのチームでも、AutoMLがもたらすスピードと透明性の向上からメリットを得られます。データ・サイエンティストは、仮説から始め、正しいデータ・セットを収集し、データの可視化を試し、使用可能なすべての信号を使用するための追加の特徴量を設計し、ハイパーパラメーター（ibm.com外部へのリンク）を使用してモデルをトレーニングする必要があります。また、最先端のディープ・ラーニングのために、ディープ・ニューラル・ネットワークに最適なアーキテクチャーを使用可能であれば、GPU上で設計する必要があります。

自動化された特徴量エンジニアリング

データ特徴量とは、機械学習モデルの入力データの一部であり、特徴量エンジニアリングとは、データ・サイエンティストが既存のデータから新たな情報を導き出す変革のプロセスを意味します。特徴量エンジニアリングは、MLワークフローにおける重要な付加価値プロセスの1つであり、許容できるパフォーマンスのモデルと優れたパフォーマンスのモデルの違いが優れた特徴量となります。これらの生データの数学的変換は、モデルに読み込まれ、機械学習プロセスの心臓部となります。自動化された特徴量エンジニアリング（AFE）（PDF 1.7 MB）（IBM外部へのリンク）は、実行可能な特徴量を組み合わせた空間を、手作業ではなく機械的に探索するプロセスです。

手動の特徴量エンジニアリングは、現代の錬金術と言えますが、所要時間を考えると大きなコストがかかります。単一の特徴量の構築には数時間かかることが多く、本番レベルの精度のベースラインは言うまでもありませんが、最低限の精度スコアに必要な特徴量の数は数百に達する可能性があります。特徴量空間の探索を自動化することで、AutoMLは、データサイエンス・チームがこのフェーズに費やす時間を数日から数分までに短縮します。

自動化された特徴エンジニアリングのメリットは、データ・サイエンティストによる手動で介入する時間を短縮することだけではありません。生成された特徴量は、多くの場合、明確に解釈できます。ヘルスケアや金融のような規制の厳しい業界では、その説明可能性は、解釈可能性経由でのAI導入の障壁を下げる意味でも重要です。さらに、データ・サイエンティストやアナリストにとって、これらの特徴量が明確になることで、高品質なモデルがより説得力を持ち、実用的なものになるというメリットがあります。また、自動生成された特徴量は、組織がモニタリングし、対応すべき新たなKPIを発見する可能性もあります。データ・サイエンティストは、特徴量エンジニアリングを完了次第、戦略的な特徴量の選択によってモデルを最適化する必要があります。

自動化されたハイパーパラメーターの最適化

ハイパーパラメーターは、モデルのパフォーマンスを微調整するための手段の例えとして最もよく理解される機械学習アルゴリズムの一部ですが、増分調整が大きな影響を与えることがあります。小規模なデータサイエンスのモデリングでは、ハイパーパラメーターを簡単に手動で設定し、トライ・アンド・エラーを繰り返すことで最適化することができます。

ディープ・ラーニング・アプリケーションでは、ハイパーパラメーターの数は指数関数的に増加し、データサイエンス・チームが手動でタイムリーに達成できる能力を超えた最適化を実行できます。自動化されたハイパーパラメーターの最適化（HPO）（IBM外部へのリンク）は、ハイパーパラメーターのイベント・スペース全体を探索して最適化するという責任からチームを解放し、代わりにチームは特徴量やモデルを反復して実験することに集中できます。

また、機械学習のプロセスを自動化することで、データ・サイエンティストはモデル作成の方法ではなく理由に集中することができます。多くの企業が利用できる膨大な量のデータと、このデータで回答できる膨大な数の質問を考慮しながら、分析チームは、医療検査における検出漏れを最小限に抑えるという従来の問題など、モデルのどの側面を最適化すべきかに注意を払うことができます。

ニューラル・アーキテクチャー検索（NAS）

ディープ・ラーニングで最も複雑で時間のかかるプロセスは、ニューラル・アーキテクチャーの作成です。データサイエンス・チームは、適切な層や学習率の選択に長い時間をかけていますが、多くの言語モデルのように、最終的にはモデルの重みだけを選択することになります。ニューラル・アーキテクチャー検索（NAS）（IBM外部へのリンク）は、「ニューラル・ネットを使用したニューラル・ネットの設計」と呼ばれており、最も明瞭に自動化のメリットを享受するMLの領域の1つです。

NASの検索は、どのアーキテクチャーを試すかという選択から始まります。 NASの結果は、各アーキテクチャーの評価基準によって決定されます。ニューラル・アーキテクチャー検索には、いくつかの一般的なアルゴリズムが使用されます。アーキテクチャーの潜在的な数が少ない場合は、テストの選択をランダムに行うことができます。離散的な検索スペースを連続表現に変える勾配ベースのアプローチが非常に有効であることがわかっています。データサイエンス・チームは、アーキテクチャーをランダムに評価し、変更をゆっくりと適用して、より成功した「子」アーキテクチャーを普及させ、そうでないものを淘汰するという進化的アルゴリズムを試すことも可能です。

ニューラル・アーキテクチャー検索は、AIの汎用化を約束するAutoMLの重要な要素の1つです。ただし、これらの検索ではしばしば、カーボン・フットプリントが非常に高くなります。このようなトレードオフの検討はまだ行われておらず、エコロジカル・コストの最適化はNASのアプローチにおいて現在進行形の検索領域となっています。

関連リンク

データサイエンス

機械学習

AutoAI

AutoMLを使用するための戦略

自動化された機械学習というと、組織がコストのかかるデータ・サイエンティストの代わりに使える技術的な技術的ソリューションの万能薬のように聞こえますが、実際に使用するには、組織の知的な戦略が必要です。データ・サイエンティストは、実験を設計し、結果をビジネスの成果に結びつけ、機械学習モデルのライフサイクル全体を維持するのに不可欠な役割を担っています。では、機能横断的チームは、どのようにしてAutoMLを利用して、時間の使用を最適化し、モデルから価値を実現するまでの時間を短縮するのでしょうか。

AutoML APIを搭載する最適なワークフローは、ワークロードを並列化し、手動で集中的に行う作業にかかる時間を短縮します。データ・サイエンティストは、ハイパーパラメーターの調整に何日も費やす代わりに、複数のタイプのモデルでこのプロセスを同時に自動化し、どのモデルが最もパフォーマンスが高いかを後からテストすることができます。

さらに、AutoMLの特徴量により、異なるスキル・レベルのチーム・メンバーがデータサイエンスのパイプラインに貢献できるようになりました。 Pythonの専門知識を持たないデータ・アナリストは、Watson StudioのAutoAIのようなツールキットを活用し、照会によって自分で抽出できたデータを使って予測モデルをトレーニングすることができます。データ・アナリストは、AuotMLを使用することで、データの前処理と機械学習パイプラインの構築を実行でき、そしてデータサイエンス・チームの力を借りなくても、自身の仮説の検証に使用できる完全に訓練されたモデルを作成することができます。

AutoMLとIBM Research

IBMの研究者や開発者は、AutoMLの成長と発展に貢献しています。 IBM Watsonに搭載されたAutoAIによる継続的な製品開発や、オープンソースの自動化されたデータサイエンス・ライブラリーであるLale（IBM外部へのリンク）に対するIBMの研究者の取り組みなどは、次世代のAIアプローチの創出を支援するIBMの取り組みの一例です。 Laleはオープンソースのプロジェクトですが、実はAutoAIの多くの機能の中核をなします。

PythonをMLスタックのコアとして使用しているデータサイエンス・チームのために、Laleは、scikit-learn（英語）（IBM外部へのリンク）のパイプラインにシームレスに統合される半自動ライブラリーを提供します。これは、auto-sklearn（英語）（IBM外部へのリンク）やTPOT（英語）（IBM外部へのリンク）のようなライブラリーとは異なります。 Laleはscikit-learnを超えた自動化、正しさのチェック、そして相互運用性を実現します。 scikit-learnのパラダイムをベースにしながらも、使用できる他のPythonライブラリーや、JavaやRなどの言語のライブラリーからのトランスフォーマーや演算子の数が増えています。