PCA、LDA、t-SNEなどの次元削減技術は、機械学習モデルを強化します。一般化可能性を高めるために予測変数の数を減らすことで、複雑なデータ・セットの重要な特徴を維持します。
次元削減とは、元のデータの意味のあるプロパティーを把握しながら、少ない特徴(つまり、次元)を使用して特定のデータセットを表現する手法です。1これは、無関係な特徴や冗長な特徴、あるいは単にノイズの多いデータを取り除き、より少ない変数数のモデルを作成することです。次元削減には、前処理中に使用されるさまざまな特徴選択およびデータ圧縮方法が対象となります。次元削減の手法はオペレーションによって異なりますが、いずれも変数抽出や組み合わせによって高次元空間を低次元空間に変換します。
機械学習 では、次元(または特徴)はモデルのアウトプットを決定する予測変数です。これらは、インプット変数と呼ばれることもあります。高次元データとは、多数の予測変数を含むあらゆるデータセットを指します。このようなデータセットは、生物統計学や社会科学の観察研究に頻繁に登場し、データポイントの数(つまり、オブザベーション)は予測子変数の数を上回ります。
高次元データセットは、計算時間の延長、ビッグデータ用の増大したストレージ・スペース、など、機械学習アルゴリズムにとって多くの実用的な問題を引き起こします。一方最も大きな懸念は予測モデルの精度が低下していることでしょう。高次元のデータセットでトレーニングされた統計モデルや機械学習モデルは、一般化が不十分であることが多いのです。
次元の呪いとは、モデルの次元の増加と一般化可能性の低下との間の逆関係を指します。モデルの入力変数の数が増えると、モデルの空間が拡大します。一方で、データ・ポイントの数が変わらないとしたら、データは希薄になります。この場合、モデルの特徴量空間の大部分は空であり、つまり観測可能なデータ・ポイントがないことを意味します。データの希薄性が高まると、データ・ポイント間の違いがあまりに大きくなり、予測モデルが説明パターンを効果的に特定できなくなります。2
希薄なデータに含まれるパターンを適切に説明するために、モデルがトレーニング・データに対して過剰適合となる可能性があります。このように、次元が大きくなると、一般化可能性が低下することが考えられます。高次元性が多重共線性につながって、モデルの解釈可能性がさらに阻害される可能性があります。モデルの変数の量が増えるにつれて、一部の変数が冗長または相関関係となる可能性も高まります。
収集するデータを増やせば、データの希薄性を緩和し、それによって次元の呪いを相殺できます。モデルの次元の数が増えると、次元の呪いを防ぐために必要なデータ・ポイントの数が指数関数的に増加します。3当然ながら、十分なデータの収集が常に可能であるとは限りません。したがって、データ分析を改善するために、次元削減が必要となります。
次元削減の手法では一般に、モデルの特徴量を抽出または組み合わせて、モデルを低次元空間に縮小します。しかし、この基本的な共通点を除けば、次元削減のアルゴリズムはそれぞれ違いがあります。
主成分分析(PCA)はおそらく最も一般的な次元削減の手法です。これは特徴量抽出の一種であるため、データセットの元の特徴量を組み合わせて変換することで、主成分と呼ばれる新しい特徴量を生成します。基本的にPCAでは、モデルの元の変数セットに存在する分散の大部分またはすべてを構成する変数サブセットをモデルから選択します。PCAでは続いて、この変数サブセットで定義される新しい空間にデータを射影します。4
例えば、ヘビに関するデータセットに5つの変数があるとします。体長(X1)、最大部分での体の太さ(X2)、牙の長さ(X3)、体重(X4)、年齢(X5)です。言うまでもなく、これら5つの特徴量のうち、例えば体長、太さ、体重のような特徴量は相関関係にあると考えられます。このような特徴量の冗長性から、データの希薄性や過剰適合が生じる可能性があり、こうしたデータから生成するモデルの分散(または一般化可能性)が低下することが考えられます。PCAでは、このデータの複数の変数を統合して、データ分散を最大化する新しい変数(PC1)を算出します。またPCAでは、冗長な可能性がある変数を組み合わせて、最初のモデルよりも変数が少ないモデルも作成します。したがって、私たちのデータセットは5つの変数(つまり5次元)で始まったので、低次元化されたモデルには1~4つの変数(つまり1次元から4次元)の任意の変数を含めることができます。その後、データが新しいモデルにマッピングされます。5
この新しい変数は、元の5つの変数のいずれでもなく、元のデータの共分散行列の線形変換を通じて計算した合成特徴量です。具体的には、統合した主成分は、共分散行列内の最大の固有値に対応する固有ベクトルです。また、他の変数を組み合わせて追加の主成分を作成することもできます。2番目の主成分は2番目に大きい固有値の固有ベクトルで、その他も同様です。6
線形判別分析(LDA)は、データを新しい低次元空間に射影するという点でPCAに似ており、その空間の次元は最初のモデルから派生します。LDAはデータセットに分類ラベルを保持することに関してPCAと異なります。PCAはデータの分散を最大化するための新しい構成変数を生成するのに対し、LDAはデータのクラスの差異を最大化する構成変数を生成します。 7
LDAを実装する手順はPCAと似ています。主な違いは、前者は散布行列を使用するのに対し、後者は共分散行列を使用することです。それ以外の点に関しては、LDAはPCAと同様に、データの元の特徴量のうちで、散布行列の最大の固有値に対応する特徴量の線形結合を計算します。LDAの目標の1つは、クラス間の差異を最大化しつつ、クラス内の差異を最小化することです。8
LDAとPCAは線形次元削減アルゴリズムです。一方、t分布型確率的近傍埋め込み(t-SNE)は、非線形次元削減(または多様体学習)の一形態です。LDAとPCAは、モデルの分散を基本的に保持することを目標とし、低次元化した表現において、異なるデータ・ポイント間の距離を維持することに重点を置いています。対照的にt-SNEは、低次元化したモデルで局所的なデータ構造を維持することを目標としています。t-SNEとLDAやPCAとの違いはほかにもあります。LDAやPCAは、生成するモデルの次元が元のデータよりも少ないという点を満たしていれば、3次元を超えるモデルを生成する場合もあります。一方t-SNEは、すべてのデータ・セットを3次元または2次元で視覚化します。
t-SNEは非線形変換の手法であり、データ行列を使用しません。代わりにt-SNEはガウス・カーネルを使用して、データ・ポイントのペアワイズ類似度を計算します。元のデータセットで距離が近いポイント同士が、離れたポイントよりも近くにある確率が上がるようにします。t-SNEは、データ・ペアを保持するように努めながら、すべてのデータ・ポイントを3次元または2次元空間にマッピングします。9
次元削減の手法はほかにもいくつかあります。例えばカーネルPCA、因子分析、ランダム・フォレスト、特異値分解(SVD)などです。PCA、LDA、t-SNEは特に広く利用され、論じられています。なお、scikit-learnなど、いくつかのパッケージやライブラリーには、これらの手法を実装するための関数が事前に組み込まれています。
次元削減は、データの可視化を目的としてよく使用されています。
次元削減は、遺伝的変数の数が測定データの数を上回る生物学的研究で頻繁に生じます。だから、いくつかの研究では、さまざまな次元削減手法を比較し、t-SNEとカーネルPCAがさまざまなゲノム・データセットに対して最も効果的であると指摘しています。10また、計算生物学研究における次元削減手法の選択に関して、より具体的な基準を提示している研究もあります。11最近の研究では、祖先に関する遺伝子解析用にPCAの改良版を提案し、偏りのない予測を得るための推奨策を示しています。12
潜在意味解析(LSA)はテキスト文書の自然言語処理に適用されるSVDの一種です。LSAは、単語の類似性が、言語の部分空間または小規模なサンプルでの単語の共起度によって現れる原理に基づいて機能します。13医療従事者が提供する心理的支援の言語を比較するために、LSAは最適な終末期的な表現手法について論じることを目的として使用されます。14他の研究では、他の機械学習テクニックによって提供される洞察と効果を確認するために、LSAを評価メトリクスとして使用しています。15
IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
サポート・ベクトル・マシンや確率的分類器などの教師あり学習アプローチを調査します。
ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 Lih-Yuan Deng、Max Garzon、Nirman Kumar著、 「Dimensionality Reduction in Data Science」、出版社:Springer、 2022年。
2 Ian Goodfellow、Yoshua Bengio、Aaron Courville著、 「Deep Learning」、出版社:MIT Press、2016年。
3 Richard Bellman著、 「Adaptive Control Processes: A Guided Tour」、出版社:Princeton University Press、1961年。
4 I.T. Jollife著、 「Principal Component Analysis」、出版社:Springer、2002年。
5 Chris Albon著、 「Machine Learning with Python Cookbook」、出版社:O’Reilly、2018年。Nikhil Buduma著、 「Fundamentals of Deep Learning」、出版社:O’Reilley、2017年。
6 I.T. Joliffe著、 「Principal Component Analysis」、出版社:Springer、2002年。Heng Tao Shen著、「Principal Component Analysis」、 Encyclopedia of Database Systems、出版社:Springer、2018年。
7 Chris Albon著、 「Machine Learning with Python Cookbook」、出版社:O’Reilly、2018年。
8 Chris Ding著、「Dimension Reduction Techniques for Clustering」、 Encyclopedia of Database Systems、出版社:Springer、2018年。
9 Laurens van der Maaten、Geoffrey Hinton著、「Visualizing Data Using t-SNE」、 「Journal of Machine Learning Research」誌、vol. 9、no. 86、2008年、2579~2605ページ、 https://www.jmlr.org/papers/v9/vandermaaten08a.html 。
10 Shunbao Li、Po Yang、Vitaveska Lanfranchi著、「Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data」、 17th International Conference on Mobility, Sensing and Networking (MSN)、2021年、687~693ページ、 https://ieeexplore.ieee.org/abstract/document/9751471。Ruizhi Xiang、Wencan Wang、Lei Yang、Shiyuan Wang、Chaohan Xu、Xiaowen Chen著、「A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data」、 「Frontiers in Genetics」誌、vol. 12、2021年、 https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full。
11 Shiquan Sun、Jiaqiang Zhu、Ying Ma、Xiang Zhou著、「Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis」、 「Genome Biology」誌、vol. 20、2019年、 https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6。Lan Huong Nguyen、Susan Holmes著、「Ten quick tips for effective dimensionality reduction」、 「PLoS Computational Biology」誌、vol. 15、no. 6、2019年、 https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907。
12 Daiwei Zhang、Rounak Dey、Seunggeun Lee著、「Fast and robust ancestry prediction using principal component analysis」、 「Bioinformatics」誌、vol. 36、no. 11、2020年、3439~3446ページ、 https://academic.oup.com/bioinformatics/article/36/11/3439/5810493。
13 Nitin Indurkhya 、Fred Damerau著、 「Handbook of Natural Language Processing」、第2版 出版社:CRC Press、2010年。
14 Lauren Kane、Margaret Clayton、Brian Baucom、Lee Ellington、Maija Reblin著、「Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis」、 「Cancer Nursing」誌、vol. 43、no. 6、2020年、506~513ページ、 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/。
15 Daniel Onah、Elaine Pang、Mahmoud El-Haj著、「Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling」、 2022 IEEE International Conference on Big Data、2022年、2771~2780ページ、 https://ieeexplore.ieee.org/abstract/document/10020259。