テキスト・マイニングとは

テキスト・マイニングはテキスト・データ・マイニングとも呼ばれ、構造化されていないテキストを構造化された形式に変換し、意味のあるパターンと新しい洞察を特定するプロセスです。ナイーブ・ベイズ、サポート・ベクター・マシン（SVM）、その他のディープ・ラーニング・アルゴリズムなどの高度な分析技術を適用することで、企業は非構造化データの中に隠れた関係を探り、発見することができるようになります。

テキストは、データベースで最も一般的なデータ型のひとつです。データベースの種類によって、このデータは以下のように分類できます。

構造化データ：このデータを膨大な行と列を持つ表形式に標準化することで、データが保管しやすくなるだけでなく、分析や機械学習アルゴリズムの処理も容易になります。構造化データには、名前、住所、電話番号などの入力データがあります。
非構造化データ ：このデータには事前に定義されたデータ・フォーマットがありません。ソーシャル・メディアや製品レビュー、またはビデオや音声ファイルなどのリッチ・メディア形式のソースに含まれるテキストが、これに含まれます。
半構造化データ：名前が示すように、このデータは構造化データと非構造化データの形式をブレンドしたものです。データの一部は編成されていますが、リレーショナル・データベースの要件を満たすほどは構造化されていません。半構造化データの例として、XML、JSON、HTMLファイルがあります。

世界中に存在するデータの80％が非構造化フォーマット（ibm.com外部へのリンク）であるため、テキスト・マイニングは様々な組織にとって大変重要な手法です。テキスト・マイニング・ツールや情報抽出（PDF、131 KB）（IBM外部へのリンク）などの自然言語処理（NLP）技術を利用することにより、非構造化文書を構造化し、データの分析や質の高い洞察の取得が可能になります。結果として組織の意思決定が改善され、ビジネス成果の向上につながります。

テキスト・マイニングとテキスト解析の比較

テキスト・マイニングとテキスト解析という言葉は、一般的な会話の中ではどちらもほぼ同義ですが、ニュアンスは少し異なります。テキスト・マイニングとテキスト分析は、機械学習、統計学、言語学などを用いて、非構造化データの中からテキストのパターンと傾向を特定します。データをより構造化された形式に変換するのがテキスト・マイニングやテキスト分析で、そこからより定量的な洞察を得ることができるのがテキスト解析です。そしてデータ可視化技術を活用することで、より多くの人にその成果を伝えることができます。

テキスト・マイニング技術

テキスト・マイニングのプロセスは、構造化されていないテキスト・データから情報を推論するためのいくつかの処理から構成されています。各種のテキスト・マイニングの技術を適用する前に、最初にテキスト・データのクリーニングと、テキスト・マイニングに使用できるフォーマットへの変換を行う、テキストの前処理から始める必要があります。この作業が自然言語処理（NLP）における本質で、一般的には言語識別、トークン化、品詞タグ付け、チャンキング、構文解析などの技術を使用して、解析できるようにデータを適切にフォーマットします。テキストの前処理が完了したら、テキスト・マイニング・アルゴリズムを適用して、データから洞察を導き出せます。このような一般的なテキスト・マイニングには、以下の技術があります。

情報検索

情報検索（IR）は、事前に設定されたクエリやフレーズに基づいて、関連する情報や文書を検索します。 IRシステムはアルゴリズムを使用してユーザーの行動を追跡し、その行動に関連するデータを識別します。情報検索は図書館の目録システムやGoogleなどの一般的な検索エンジンで多く利用されています。一般的なIRサブタスクには以下の処理が含まれます:

トークン化：これは、長文のテキストを「トークン」と呼ばれる文章や単語に分解する作業です。そして、分解されたトークンをbag-of-wordsのように、テキストのクラスタリングや文書照合タスクのモデルとして使用します。
ステミング：これは、単語から接頭辞や接尾辞を分離して、語根の形や意味を導き出す作業です。この技術により索引ファイルのサイズが小さくなり、情報検索能力が向上します。

自然言語処理（NLP）

自然言語処理は計算言語学から発展したもので、コンピューター・サイエンス、人工知能、言語学、データサイエンスなどさまざまな分野の手法を用いて、人間の言語を文書と音声の両方でコンピューターが理解できるようにする技術です。 NLPのサブタスクで文の構造や文法を解析することで、コンピューターは「読む」ことが可能になります。一般的なサブタスクには以下の技術がありあす:

サマライズ：長い文章を要約することで、文書の要点を簡潔かつ首尾一貫してまとめる技術です。
品詞（PoS）タグ付け：この技術手法では、文書中のすべてのトークンに品詞（名詞、動詞、形容詞など）に基づいてタグ付けをします。このステップにより、非構造化テキストの意味分析が可能になります。
文書カテゴライズ：文書分類とも呼ばれるこのタスクは、テキスト文書を分析し、事前に定義されたトピックやカテゴリーに基づいて分類します。このサブタスクは、同義語と略語を分類するときに特に役立ちます。
センチメント分析：このタスクは社内外のデータソースからお客様のポジティブなセンチメントやネガティブなセンチメントを検出するため、お客様の感情の変化を時系列で追跡することができます。一般的にはブランド、製品、サービスに対する認識に関する情報を得るために使用されています。ここで得られた洞察は企業とお客様をつなげ、プロセスやユーザー体験を改善するための推進力となります。

情報抽出

情報抽出（IE）は、様々な文書を検索する際に、関連する各種のデータを抽出します。また、フリー・テキストから構造化された情報を抽出して、それらの固有表現、属性、関連情報をデータベースに格納することも、その重要な目的です。一般的な情報抽出サブタスクには以下の処理があります。

特徴選択（または属性選択）は、予測分析モデルの出力に最も影響する重要な特徴（ディメンション）を選択するプロセスです。
特徴抽出は、分類タスクの精度を向上させるために、特徴のサブセットを選択するプロセスです。これは次元削減では特に重要です。
固有表現認識（NER）は、固有表現識別や固有表現抽出とも呼ばれ、テキスト中の名前や場所などの固有表現を見つけ出して分類することを目的とした技術です。例えばNERは、「California」を場所、「Mary」を女性の名前として識別します。

データ・マイニング

データ・マイニングは、ビッグ・データから各種のパターンを識別して、有用な洞察を抽出するプロセスです。この手法は構造化データと非構造化データの両方を評価して新しい情報を見出すもので、一般的にはマーケティングやセールスにおいて消費者行動の分析によく利用されます。テキスト・マイニングは非構造化データを構造化して分析することで新たな洞察を得ることに主眼を置いており、本質的にはデータ・マイニングのサブフィールドといえます。上記の技術はデータ・マイニングの形態ですが、テキスト・データ解析の範囲に含まれます。

テキスト・マイニング・アプリケーション

テキスト分析ソフトウェアは、これまでに数多くの業界の業務形態を改善し、製品のユーザー体験を向上させ、より迅速でより良いビジネス上の意思決定を行うことを可能にしてきました。以下のようなユースケースがあります。

カスタマー・サービス：お客様の声は様々な方法で募集されています。チャットボット、顧客調査、NPS（ネット・プロモーター・スコア）、オンライン・レビュー、サポート・チケット、ソーシャル・メディア・プロファイルなどのフィードバック・システムをテキスト分析ツールと組み合わせることで、企業は顧客体験を迅速に向上させることができます。テキスト・マイニングとセンチメント分析を併用することにより、企業は顧客の重要な課題にプライオリティーを置くことで、緊急の問題にリアルタイムで対応して顧客満足度を高めることが可能になります。 Verizonがカスタマー・サービスでテキスト分析をどのように活用しているかをご紹介します。

リスク管理：テキスト・マイニングはリスク管理にも応用されており、センチメントの変化をモニタリングしたり、アナリストのレポートやホワイト・ペーパーから情報を抽出することで、業界のトレンドや金融市場に関する洞察を得ることができます。特に銀行業界にとっては、様々な分野への事業投資の検討において、ここで得られたデータを活用することで、より確信を持って検討ができます。 CIBCとEquBotがリスク軽減のためにテキスト解析をどのように活用しているかをご紹介します。

メンテナンス：テキスト・マイニングを利用すれば、製品や機械の動作や機能に関する豊富で包括的な情報が提供されます。テキスト・マイニングを継続使用することで、問題や予防・事後保守の手順のパターンが数多く明らかになり、やがて自動的な意思決定が可能となります。テキスト分析により、保守担当者は課題や故障の根本原因をより迅速に解明することができます。

ヘルスケア：テキスト・マイニングの技術は、特に情報のクラスタリングにおいて、バイオメディカル分野の研究者にとってますます貴重なものとなってきています。膨大な医学研究資料を手作業で調査するにはコストも時間もかかりますが、テキスト・マイニングを活用すれば医学文献から貴重な情報を自動的に抽出できます。

スパム・フィルター：多くのスパム・メールは、ハッカーがコンピューター・システムをマルウェアに感染させるための入り口となります。テキスト・マイニングを利用すれば、スパム・メールをフィルタリングして受信ボックスから除外できるだけでなく、ユーザー体験全般を向上させ、エンド・ユーザーへのサイバー攻撃のリスクを最小限に抑えることができます。