マイIBM

ログイン

ニュースレター

特徴量エンジニアリングとは

2024年1月20日

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

特徴量エンジニアリングでは、未加工データを前処理して、機械で読み取り可能な形式に変換します。適切な特徴量を変換し選択することによって、MLモデルの性能を最適化します。

特徴量エンジニアリングとは、未加工データを機械学習モデルで使用するための適切な情報に変換するプロセスです。別の言い方で表現すると、特徴量エンジニアリングは予測モデルの特徴量を作成するプロセスです。特徴量は、モデルの予測を生成するために使用する入力変数で、次元とも呼ばれます。モデルの性能はトレーニング中に使用するデータの品質によって大きく変わるため、特徴量エンジニアリングは非常に重要な前処理の手法です。未加工のトレーニング・データのうちで、検討中の予測タスクとモデル・タイプの両方に対して最も関連性の高い側面を選択する必要があります。¹

先へ進む前に、用語について簡単に説明しておきます。多くの資料では、モデル変数を作成する処理を示すために、特徴量エンジニアリングと特徴量抽出を同じ意味で用いています。²元の特徴量空間をより低次元の特徴量空間に再マッピングすることを表すために特徴量抽出という言葉を用いている場合もあります。³一方で、特徴量選択は次元削減の一形態です。具体的には、多重共線性を抑えることを目的として新しいモデルを作成し、それによってモデルの一般化可能性と最適化を最大限に確保するために、変数のサブセットを選択する処理を表します。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

今すぐ登録

特徴量エンジニアリングのプロセス

モデルの性能は基盤となるデータの品質によって左右されるため、データサイエンティストは高品質のモデルを作成するためのデータ準備と特徴量作成に多くの時間を費やします。未加工データの複雑さと目的の予測モデルに応じて、特徴量エンジニアリングには多くの試行錯誤が必要になる場合があります。

特徴量エンジニアリングを個別のステップに分解して説明している資料やオンライン・チュートリアルもいくつかありますが、通常はステップの数や名称がそれぞれ異なっています。これらのステップには、特徴量の理解、構造化または構築、変換、評価、最適化などが含まれる場合があります。⁴このように階層化することは、特徴量エンジニアリングで必要になるタスクの概要を説明するうえでは役立つ可能性があるものの、特徴量エンジニアリングが直線的なプロセスであるかのような印象を与えます。実際には、特徴量エンジニアリングは反復的なプロセスです。

特徴量エンジニアリングはコンテキストに依存します。その実行にはかなりのデータ分析とドメイン知識が必要です。なぜなら、特徴量の効果的なエンコーディングは、使用するモデルの種類、予測変数と出力の関係、モデルが取り組む問題によって決まるためです。⁵これに加えて、異なる種類のデータセット（例：テキストと画像）は、異なる特徴エンジニアリング手法に適している可能性があるという事実もあります。⁶したがって、特定の機械学習アルゴリズムの中で特徴量エンジニアリングを実施する最適な方法を具体的に述べるのは難しい場合があります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

事例を見る

特徴量エンジニアリングの手法

特徴量エンジニアリングに普遍的な手法やパイプラインはないものの、さまざまなデータ・タイプからさまざまなモデル向けに特徴量を作成するために使用される共通のタスクがいくつかあります。しかし、こうした手法を導入する前に、徹底的なデータ分析を行って、目的の問題に対処するうえで関連する特徴量と、適切な特徴量の数を判断する必要があります。さらに、例えば欠損データや欠損値の補完など、データ・クリーニングや前処理のさまざまな手法を導入することと、モデルの予測に悪影響を及ぼす可能性のある外れ値に対処することが最善です。

特徴量変換

特徴量変換とは、ある種類の特徴量を、特定のモデルにとっての可読性がより高い、別の形式に変換するプロセスです。連続データからカテゴリー・データへの変換や、その逆の変換で構成されています。

ビニング。この手法では基本的に、連続した数値をカテゴリー別の特徴量に変換します。具体的には、ビニングではそれぞれの値を周囲の値の区域と比較し、データ・ポイントをいくつかのビンに分類します。ビニングの基本的な例としては、年齢層統計があります。年齢層統計では、連続した年齢が、18～25歳、25～30歳などの年齢グループに分割されます。値をビンに分類したら、さらに平均値や中央値、境界値を用いてビンを平滑化できます。ビンの平滑化では、ビンに含まれる値をビンから導き出した値に置き換えます。例えば、18～25歳の年齢値を含むビンを、平均を用いて平滑化する場合、そのビンに含まれるそれぞれの値を、ビンの値の平均値に置き換えます。ビニングでは、連続する値からカテゴリー値を作成します。ビンの平滑化は、入力データのノイズを減らすことを目的とした局所的な平滑化の一種です。⁷

ワンホット・エンコーディング。これはビニングの逆で、カテゴリー変数から数値特徴量を作成します。ワンホット・エンコーディングは、カテゴリー特徴量をバイナリー表現に対応付け、それらを使って特徴量を行列またはベクトル空間でマッピングします。文献では、このバイナリー表現は主にダミー変数と呼ばれています。ワンホット・エンコーディングは順序を無視するため、名義カテゴリーでの使用に最適です。Bag of Wordsモデルは、自然言語処理のタスクで頻繁に用いられるワンホット・エンコーディングの例です。ワンホット・エンコーディングの別の例にはスパム・フィルタリングの分類があり、スパムとスパム以外のカテゴリーをそれぞれ1と0に変換します。⁸

特徴量抽出と特徴量選択

特徴量抽出は、モデルの新しい次元空間を作成する手法です。これは、複数の変数を新しい代理変数に統合することによって行うか、またはモデルの特徴量空間の次元を削減する目的で行います。⁹一方、特徴量選択は、モデルを表現するうえで最も関連性が高い特徴量のサブセットを選択するための手法を指します。特徴量抽出と特徴量選択はどちらも次元削減の一種であるため、多数の特徴量が関係し利用可能なデータ・サンプルが限られている回帰の問題に適しています。

主成分分析。主成分分析（PCA）は一般的な特徴抽出手法であり、データセットの元の複数の特徴を組み合わせて変換することで、主成分と呼ばれる新しい特徴を生成します。PCAでは、モデルの元の変数セットに存在するバリアンスの大部分またはすべてを構成する変数サブセットをモデルから選択します。PCAはデータを、この変数サブセットによって定義される新しい空間へ射影します。¹⁰

線形判別分析。線形判別分析（LDA）は表面上、モデルデータを新しい低次元空間に投影するという点でPCAとは似ています。PCAと同様、このモデル空間の次元（または特徴）は、初期モデルの特徴から派生します。ただし、LDAは、元のデータセットに分類ラベルを保持することに関して、PCAとは異なります。PCAでは、データのバリアンスを最大化するために新しいコンポーネント変数を生成しますが、LDAでは、データのクラス差異を最大化することを主目的としてコンポーネント変数を生成します。¹¹

特徴量スケーリング

ある特定の特徴では、データに内在する上限値や下限値によって、可能な特徴値が制限されます。時系列データや年齢などがこれにあたります。しかし、モデル特徴の可能な値には制限がないことも多く、そのような場合に特徴のスケール（特徴の最低値と最高値の差）が大きいと、特定のモデルに悪影響を及ぼすことがあります。特徴量スケーリング（特徴正規化と呼ばれることもある）は1つの標準化技法であり、特徴量を再スケーリングして、スケールが大きいことによるモデルへの影響を制限するものです。¹²特徴変換では、データをあるタイプから別のタイプに変換しますが、特徴量スケーリングはデータを範囲と分布の観点から変換するものであり、元のデータタイプは維持されます。¹³

ミニマックス・スケーリング。ミニマックス・スケーリングでは、所与の特徴のすべての値を再スケーリングして、指定した最小値と最大値（多くの場合0と1）の間に入るようにします。各データポイントで選択した特徴の値（xで表される）は、決定した最小特徴値と最大特徴値（ min(x)とmax(x)）に対して計算され、そこからそのデータポイントの新しい特徴値（x̃で表される）が生成されます。ミニマックス・スケーリングは次の式で計算できます。¹⁴

Zスコアスケーリング。文献では、これを標準化、バリアンススケーリングと呼ぶこともあります。ミニマックススケーリングでは、特徴値をスケーリングして指定の最小値と最大値の範囲内に収まるようにしますが、Zスコアスケーリングでは、特徴量を再スケーリングして共通標準偏差1の平均が0になるようにします。Zスコアスケーリングは次の式で表されます。

ここでは、所与の特徴量（x）を、再スケーリングした特徴量の平均に対して計算し、標準化した標準偏差（sqrt(var(x))と表現）で除算します。Zスコアスケーリングは、PCAやLDAのような特徴抽出手法を導入する場合に有用です。この2つの手法では、特徴間で同じスケールが共有されることを要するためです。¹⁵

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

教師あり学習モデル

サポート・ベクトル・マシンや確率的分類器などの教師あり学習アプローチを調査します。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

脚注

¹ Alice Zheng、Amanda Casari、Feature Engineering for Machine Learning、O’Reilly社、2018年。Sinan Ozdemir、Divya Susarla、Feature Engineering Made Easy、Packt社、2018年。

² Yoav Goldberg、Neural Network Methods for Natural Language Processing、Springer社、2022年。

³ Suhang Wang、Jiliang Tang、Huan Liu、「Feature Selection」、 Encyclopedia of Machine Learning and Data Mining、Springer社、2017年。

⁴ Sinan Ozdemir、Feature Engineering Bookcamp、Manning Publications社、2022年。Sinan Ozdemir、Divya Susarla、Feature Engineering Made Easy、Packt社、2018年。

⁵ Max Kuhn、Kjell Johnson、Applied Predictive Modeling、Springer社、2016年。

⁶ Alice Zheng、Amanda Casari、Feature Engineering for Machine Learning、O’Reilly社、2018年。

⁷ Jaiwei Han、Data Mining: Concepts and Techniques（第3版）、2012年。

⁸ Kevin Murphy、Machine Learning: A Probabilistic Perspective、MIT Press社、2012年。Soledad Galli、Python Feature Engineering Cookbook（第2版）、Packt社、2022年。

⁹ Max Kuhn、Kjell Johnson、Applied Predictive Modeling、Springer社、2016年。

¹⁰ I.T. Jollife、Principal Component Analysis、Springer社、2002年。

¹¹ Chris Albon、Machine Learning with Python Cookbook、O’Reilly社、2018年。

¹² Alice Zheng、Amanda Casari、 Feature Engineering for Machine Learning 、O’Reilly社、2018年。

¹³ Zahraa Abdallah、Lan Du、Geoffrey Webb、「Data preparation」、 Encyclopedia of Machine Learning and Data Mining、Springer社、2017年。

¹⁴ Alice Zheng、Amanda Casari、Feature Engineering for Machine Learning、O’Reilly社、2018年。

¹⁵ Zahraa Abdallah、Lan Du、Geoffrey Webb、「Data preparation」、Encyclopedia of Machine Learning and Data Mining、Springer社、2017年。Alice Zheng、Amanda Casari、Feature Engineering for Machine Learning、O’Reilly社、2018年。

¹⁶ James KanterおよびKalyan Veeramachaneni、「Deep feature synthesis: Towards automating data science endeavors」、 IEEE International Conference on Data Science and Advanced Analytics、2015年、 https://ieeexplore.ieee.org/document/7344858。

¹⁷ Udayan Khurana、Deepak Turaga、Horst Samulowitz、Srinivasan Parthasrathy『Cognito: Automated Feature Engineering for Supervised Learning』、IEEE 16th International Conference on Data Mining Workshops、2016年、1304～130ページ、 https://ieeexplore.ieee.org/abstract/document/7836821 。Franziska Horn、Robert Pack、Michael Rieger、「The autofeat Python Library for Automated Feature Engineering and Selection」、Joint European Conference on Machine Learning and Knowledge Discovery in Databases、2019年、111～120ページ、 https://link.springer.com/chapter/10.1007/978-3-030-43823-4_10 。

¹⁸ Ahmad Alsharef、Karan Aggarwal、Sonia、Manoj Kumar、Ashutosh Mishra、「Review of ML and AutoML Solutions to Forecast Time‑Series Data」、Archives of Computational Methods in Engineering、Vol. 29、2022年、5297～5311, https://link.springer.com/article/10.1007/s11831-022-09765-0。Sjoerd Boeschoten、Cagatay Catal、Bedir Tekinerdogan、Arjen Lommen、Marco Blokland、「The automation of the development of classification models andimprovement of model quality using feature engineering techniques」、Expert Systems with Applications、Vol. 213、2023年、 https://www.sciencedirect.com/science/article/pii/S0957417422019303。Shubhra Kanti Karmaker、Mahadi Hassan、Micah Smith、Lei Xu、Chengxiang Zhai、Kalyan Veeramachaneni、「AutoML to Date and Beyond: Challenges and Opportunities」、ACM Computing Surveys、Vol. 54、No. 8、2022年、1～36ページ、 https://dl.acm.org/doi/abs/10.1145/3470918。

¹⁹ Yoav Goldberg、Neural Network Methods for Natural Language Processing、Springer社、2022年。

²⁰ Ian Goodfellow、Yoshua Bengio、Aaron Courville、 Deep Learning、MIT Press社、2016年、 https://www.deeplearningbook.org/

²¹Xinwei Zhang、Yaoci Han、Wei Xu、Qili Wang、「HOBA: A novel feature engineering methodology for credit card fraud detection with a deep learning architecture」、Information Sciences、Vol. 557、2021年、302～316ページ、 https://www.sciencedirect.com/science/article/abs/pii/S002002551930427X。Daniel Gibert、Jordi Planes、Carles Mateu、Quan Le、「Fusing feature engineering and deep learning: A case study for malware classification」、Expert Systems with Applications、Vol. 207、2022年、https://www.sciencedirect.com/science/article/pii/S0957417422011927。Ebenezerm Esenogho、Ibomoiye Domor Mienye、Theo Swart、Kehinde Aruleba、George Obaido、「A Neural Network Ensemble With Feature Engineering for Improved Credit Card Fraud Detection」、IEEE Access、Vol. 10、2020年、16400～16407ページ、https://ieeexplore.ieee.org/abstract/document/9698195。