データ削減とは| IBM

公開日：2024年1月8日
寄稿者：Phill Powell、Ian Smalley

データ削減とは

データ削減とは組織が保管しているデータ量を制限するためのプロセスです。

データ削減のための各種技法では、元のデータ・セットで見つかった冗長性を軽減することで、元のソース・データから取得された膨大な量のデータを、削減された形でより効率的に保管することを目指します。

本第に入る前に強調しておきたいのは、「データ削減」という用語が必ずしも情報の喪失と同義であるとは限らないという点です。大抵は、単にデータがよりスマートな形で保管されていることを意味し、最適化プロセスを経たうえで、より実用的な構成で関連データが再構築されるのが通例です。

データ削減とは、同じデータの余分なコピーを消去して合理化を図る、データ重複排除とも同義ではありません。より正確に言うと、データ削減では、データ重複排除やデータ統合といったさまざまな活動の異なる側面を組み合わせて、その目標を達成します。

エンタープライズAIを拡張するために、AIのガバナンスがビジネス上不可欠である理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ

基盤モデルについてのガイドに登録する

データをより包括的にとらえる

データについて論じる場合、一般的に複数形の概念としてとらえられます。ところがデータ削減では、一般的にデータを単体としてとらえます。例えば、データ削減のタスクの1つに、個々のデータ・ポイントの実際の物理的次元を定義することが挙げられます。

データ削減活動にはデータサイエンスが深くかかわりますが、データの内容はかなり複雑で、短くまとめるのが難しいことがあります。この難しい状態を表現するために、「解釈可能性」という用語が生まれており、平均的な知能を持つ人間が特定の機械学習モデルを理解する能力と説明されます。

こうした用語の中には、意味をつかみにくいものがあります。非常に細かい視点からデータをとらえているためです。通常データは、「マクロ（全体）」的形態で論じられますが、データ削減では多くの場合、最も「ミクロ（個別）」的形態のデータが議論の対象となります。厳密に言うと、このトピックを取りあげる場合、マクロとミクロの両方のレベルでの議論が必要となることがほとんどです。

データ削減のメリット

組織は保有データ量の削減により、通常、大幅なコスト節減を実現します。使用する保管スペースの減少に伴い保管コストが減少するためです。

データ削減手法がもたらす利点は他にもあり、例えばデータ効率性が向上します。データ削減が達成されると、削減後のデータは人工知能（AI）手法を多様な方法で使用するのにより適した形態になります。意思決定タスクの大幅な合理化を可能にするデータ分析アプリケーションはその一例です。

例えば、ストレージ仮想化を効果的に使用すると、サーバーとデスクトップの各環境間での連携が促進され、全体的な効率性の強化と信頼性の向上につながります。

データ削減は、データ・マイニング活動でも重要な役割を果たします。データ分析のためにデータをマイニングし、使用する前に、できるだけクリーンな状態になるようにデータを準備する必要があります。

データ削減のタイプ

組織がデータ削減を達成するために使用可能な方法をいくつか以下に挙げます。

次元削減

この概念全体の基盤となるのがデータ次元です。次元とは単一データ・セットに割り当てられる属性（または特徴量）の数を指します。ただし、両者はデータ・セットの次元数が多いほど、必要とされるデータ・ストレージは多くなるというトレードオフの関係にあります。しかも、データ・セットの次元が大きくなるほど、データの分散化が進む傾向があり、必要な外れ値分析が複雑になります。

次元削減では、データの「ノイズ」を制限し、かつデータの可視化度を高めることでこの短所を軽減します。次元削減の代表例である「ウェーブレット変換」手法では、解像度が異なる複数のオブジェクト間の相関距離を維持することで画像を圧縮しやすくします。

別のデータ変換手法として考えられるのが特徴量抽出です。この手法では、元のデータを数値的特徴量に変換して機械学習で利用しやすくします。大量データ・セットの次元を減らす別の手法に主成分分析（PCA）があります。この手法では、ある程度のサイズの変数セットは小さなサイズのセットに変換されますが、大きなセットのほとんどのデータは保持されます。

多重度の削減

この方法では、データの表象形式として、密度の小さいコンパクトなものを選択します。多重度の削減方法には、パラメトリック手法に基づくものとノンパラメトリック手法に基づくものの2種類あります。パラメトリック手法で重視するのは、データ自体でなくモデルのパラメーターであり、回帰はこの手法の一例です。同様にデータ内のサブスペースに焦点を当てる、ログ・リニア・モデルが採用される場合もあります。一方、ノンパラメトリック手法では一切モデルを基準にしません。数値データの分散方法を示すヒストグラムはこの手法の一例です。

データ・キューブの集合体

データ・キューブとは視覚的なデータ保管方法です。「データ・キューブ」という用語は、実際には整然と並べられた小さな直方体で構成される多次元の大きな球体を指しますが、単数形を連想させるため誤解を招く恐れがあります。これら直方体はそれぞれ、データ・キューブ内の合計データのある側面、具体的には、測定値と次元に関するデータ小片を表します。そのため、データ・キューブの集合体とは、データを多次元の球体形にまとめたものであり、データ・サイズを縮小するために、その目的専用に構築された独自のコンテナがあてがわれます。

データの離散化

データの離散化もデータ削減手法の1つです。この手法では、所定のデータ値にそれぞれ対応する定義された間隔に基づき、直線的なデータ値のセットが作成されます。

データ圧縮

ファイルのサイズを制限してデータ圧縮を成功させるには、さまざまなタイプのエンコーディングを使用できます。よく使用されるデータ圧縮技法は、可逆圧縮と非可逆圧縮のいずれかと考えられ、この2タイプを基準にグループ分けされます。可逆圧縮ではエンコーディング技法とアルゴリズムを通じてデータ・サイズを縮小します。必要な場合、圧縮前のデータを完全に復元できます。対照的に非可逆圧縮では、他の方法で圧縮を実行します。処理されたデータは保持する価値があるかもしれませんが、可逆圧縮で得られるように圧縮前のデータの完全なコピーではありません。

データの前処理

データの中には、分析プロセスと削減プロセスを通過する前に、クリーニング、処置、処理が必要なものがあります。前処理の一環として、アナログからデジタルにデータの性質を変換します。ビニングもデータの前処理手法の1つです。中央値を活用してさまざまなタイプのデータを正常化し、データの全体的な整合性を確保します。