PCA の背景

PCA は、データ探索のための高度なアルゴリズムです。これを使用して、データ中のパターンを特定し、それらのパターンを強調するように変換したデータ表現を導出できます。

PCA の基本は、データを新しい表現空間の直交線に変換することです。これは、元の属性を新しい属性 (いわゆる主成分) に置き換えていると考えることができます。それらの主成分は、元の属性空間の最大分散を示す方向に対応しています。

使用できる主成分の数は、最大で元の属性の数と同じです。ただし、多くの場合は、かなり少ない数にします。次元数を減らすことが PCA の 1 つの目的であるからです。一般に、単一の属性または属性のペアの探索にはデータ探索用の単純なアルゴリズムで十分ですが、複数の属性を持つ多次元データには PCA が最も有用です。多次元データの場合、単純なアルゴリズムでは十分ではありません。

分析したデータ・セットに強いパターンが見られた場合は、PCA を使用して得られた新しい表現の次元を、情報をあまり失うことなく大幅に縮約できます。