AI API のデータ品質

私の見解では、作業の80%がデータ準備である場合、データ品質を確保することは機械学習チームの重要な作業です。 Andrew Ng,

Professor of AI at Standford University and founder of DeepLearning.AI

March 2021 https://www.deeplearning.ai/the-batch/issue-84/

IBMリサーチのAIのためのデータ品質

このData Quality for AI（略してDQAI）サービスのフレームワークは、モデル開発者やデータサイエンティストが、モデル開発ライフサイクルの中で最も時間がかかる前段階であるデータ準備の正式かつ体系的なプログラムを実施できるようにするためのすべてのツールを提供します。このフレームワークは、教師あり分類タスクまたは回帰タスクのために準備されたデータに適しています。これには、次の目的に必要なソフトウェアが含まれています。

— 品質チェックを実施します。
— 修復を実行します。
- 監査レポートを生成します。
— 上記をすべて自動化します。

タスクのパイプライン化はスケーラビリティと再現性にとって不可欠ですが、含まれている機能はカスタム・データの探索や人によるモデルの改善にも使用できます。含まれるサービスの利用は、モデル開発ライフサイクルのどの段階でも生産的です。このサービスは、データ処理の初期段階、つまりデータ準備段階で特に価値があるように設計されています。

元のデータソースで実現できるすべてのことに加えて、入力データセットから開始して、元のデータの制約を学習するか、開発者が制約を指定することによって、補足または置換のために新しいデータを合成するのに役立つ方法があります。これは、規制または契約上の問題によりモデリング作業でのデータの直接使用が禁止されている場合、さまざまな制約を持つデータセットを探索することが望ましい場合、またはトレーニングにさらに多くのデータが必要な場合に役立ちます。

この製品は、表形式データと時系列データの両方、および開発中の新しいサポート対象モダリティでの使用に適しています。

ケイパビリティー

データ検証

品質スコアとそれらの品質スコアに関する洞察。スコアを低下させる原因となっているデータの特定の領域を指摘し、そのようなデータ領域を改善する方法も推奨します。

データ修復

品質分析手法によって提供された推奨事項を実行します。このツールキットは、表形式データや時系列データなど、さまざまなデータ・タイプをサポートしています。

データ制約

システムはデータの特性 (境界、ギャップなど) を学習することも、ユーザーが指定することもできます。

データ合成

最初のデータセットの特性と分布を持つ新しいデータセットを生成します。

パイプライン

バリデーターとリメディエーターを制約と組み合わせて、ユースケースまたはアプリケーションのワークフローに対処し、全体的なデータ品質スコアを出力します。

レポート

品質メトリクスの差分変化と適用されたデータ変換を記録する、変更の自動文書化

モデリング操作でどのようなメリットを実現できますか?

包括的で互換性のあるツール

Data Quality for AIは、多くの公的に利用可能なアルゴリズムや、IBM Researchが独占的に開発した新しい手法に対する単一の互換性のあるソースとして機能します。

時間とコストの節約

下流のタスクで試行される実験と実現された回帰の数を減らすことで、モデリング作業の価値を実現するまでの時間を短縮します。

形式化および簡素化された操作

データ準備のプロセスを形式化および簡素化するツールを提供することで、企業全体でのAI導入の障壁を低くします。

チームの標準化と調整

AIスチュワード、データサイエンティスト、対象分野の専門家、AIリスク責任者、ビジネス・ユーザーの定義された役割の業務効率と生産性を横断的に改善します。

付属のユーティリティのサンプル

データ検証

— ラベル純度チェック — データ均一性チェック — クラスパリティチェック — 完全性チェック — 外れ値検出チェック — 特徴相関チェック — データバイアスチェック — 特徴冗長性チェック — など

データ修復

— 純度の修復 — 不均一性の修復 — クラスの不均衡の修復 — 不完全な修復 — 異常値の除去 — 特徴相関の除去 — データバイアスの除去 — 特徴の冗長性の除去 — その他多数