テキスト マイニングについて
現在、顧客の電子メール、コール センターのメモ、自由記述式のアンケート回答、ニュース フィード、Web フォームなど、非構造化または半構造の形式で保持された情報量が増加しています。この情報過多によって、多くの組織に「この情報をどのように収集、検証そして活用するのか」という問題をもたらします。
テキスト マイニングとは、テキスト形式の素材のコレクションを分析するプロセスで、作者がこれらのコンセプトの表現に使用した正確な単語またはキーワードを知らなくても、主要なコンセプトやテーマをキャプチャーし、隠れた関連性や傾向を明らかにします。テキスト・マイニングと情報検索は全く異なりますが、これらが混同される場合があります。正確な情報検索および保存は大きな問題ですが、高品質のコンテンツ、情報に含まれる高品質な内容、用語集、および関連性の抽出および管理は非常に重要なプロセスです。
テキスト マイニングおよびデータ・マイニング
テキストの各項目について、言語学的テキスト マイニングによりコンセプトのインデックス、およびこれらのコンセプトについての情報を返します。この抜き出された、構造化された情報は、その他のデータ・ソースと組み合わせて、次のような質問を処理することができます。
- 一緒に出現するのはどのコンセプトですか ?
- コンセプトが他に何かリンクしているものがありますか ?
- 抽出した情報から作成できる高レベルのカテゴリーは何ですか ?
- コンセプトまたはカテゴリーから予測するのは何ですか ?
- コンセプトまたはカテゴリーからどのように動作を予測しますか ?
テキスト マイニングとデータ・マイニングを組み合わせると、構造化データまたは非構造化データだけで行うよりも、すぐれた洞察が可能です。この処理には通常、次のステップが含まれます。
- マイニングするテキストを特定する。 マイニングするテキストを準備します。テキストが複数のファイルにある場合、ファイルを 1 つの場所に保存します。データベースについては、テキストが含まれているフィールドを決定します。
- テキストをマイニングして構造化データを抽出する。 テキスト マイニング アルゴリズムをソース・テキストに適用します。
- コンセプト モデルおよびカテゴリー モデルを作成する。 主要なコンセプトを特定し、カテゴリーを作成します (あるいは、そのいずれか)。非構造化データから返されるコンセプト数は通常、非常に多くなります。スコアリングに最適なコンセプトおよびカテゴリーを特定します。
- 構造化データを分析する。 クラスタリング、分類、予測モデル作成など、従来のデータ マイニング手法を採用して、コンセプト間の関連性を検出します。抽出されたコンセプトを他の構造化データに結合し、コンセプトに基づいて今後の動作を予測します。
テキスト分析およびカテゴリー化
定性的分析の形式であるテキスト分析では、テキストからの役立つ情報を抽出し、このテキスト内の主要なアイデアまたはコンセプトを適切な数のカテゴリーにグループ化します。テキスト分析はすべての種類および長さのテキストに実行できますが、分析へのアプローチは若干異なります。
比較的短いレコードまたはドキュメントは、それほど複雑でなく、通常不明確な単語や回答があまり含まれていないため、最も容易にカテゴリー化されます。例えば、短い自由記述式のアンケートで好きな休日の過ごし方を 3 つ挙げるよう質問した場合、ビーチに行く、国立公園に行く、または何もしない などの多くの短い回答が見られることが予想される場合があります。一方、比較的長い自由記述式のアンケートの回答は、特に回答者が高学歴で意欲があり、またアンケートを記入するのに十分な時間がある場合、非常に複雑で長くなることがあります。アンケートで政治に関する考えを尋ねたり、または政治に関するブログ フィードがあったりする場合、あらゆる種類の問題および立場について、長いコメントがいくつかあると予想されることがあります。
非常に短い時間で長いテキスト・ソースから主要キーワードを抽出して洞察に満ちたカテゴリーを作成する機能は、IBM® SPSS® Modeler Text Analytics を使用するうえでの重要な利点です。この利点は、自動化された言語学的手法と統計的手法を組み合わせて得られるもので、テキスト分析プロセスの段階ごとに最も信頼できる結果を生成します。
言語処理および NLP
すべての構造のないテキスト・データの管理における主な問題は、コンピューターが理解できるようなテキストを作成するための標準的な規則がないという点です。言語、すなわち意味はすべてのドキュメントおよびすべてのテキストの部分で異なります。そのような非構造化データを正確に取得し構成する唯一の方法は、言語を分析してその意味を明らかにすることです。非構造化情報からコンセプトを抽出するには、いくつかの異なる自動化されたアプローチがあります。これらのアプローチは、言語学的アプローチと非言語学的アプローチの 2 種類に分けられます。
いくつかの組織が、統計およびニューラル・ネットワークに基づく自動化された非言語学的ソリューションを採用しようとしました。これらのソリューションでは、コンピューター技術を駆使して、人間が読み込むよりはるかに迅速に主要キーワードをスキャンおよびカテゴリー化できます。しかし、こうしたソリューションの精度は非常に低くなります。多くの統計的システムでは、単語が出現する回数をただカウントし、関連するコンセプトへの統計的近接性を計算するだけです。これにより関連性の低い多くの結果、すなわちノイズを生み出し、見つけるべき結果や無視すべき結果を見逃したりすることになります。
限られた精度を補うために、いくつかのソリューションで複雑な非言語的規則を組み込み、関連性のある結果および関連性のない結果とを区別します。これを、規則に基づくテキスト マイニングといいます。
一方、言語学に基づくテキスト マイニングでは、人間の言語をコンピューターによる支援で分析する自然言語処理 (NLP) の原則をテキストの単語、句、構文、または構造に適用します。NLP を組み込むシステムは、複合句などのコンセプトを効率的に抽出できます。さらに、基底となる言語の情報を使用して、コンセプトを製品、組織、人物など、意味や状況に応じて関連グループに分類できます。
言語学に基づくテキスト マイニングでは、さまざまな単語の形式が類似した意味を持っていることを認識し、文の構造を分析してテキストを理解するための枠組みを提供することによって、人間と同じようにテキストの意味を検出します。このアプローチでは、統計的システムの速度およびコストの効率の点を利用し、人間の手をほとんど必要とせず、精度がはるかに高くなります。
抽出プロセス時における統計的アプローチと言語学的アプローチとの違いを説明するために、reproduction of documents (ドキュメントの複製) についての質問に対する回答について考えてみましょう。統計的ソリューションおよび言語学的ソリューションのいずれも、reproduction (複製)という単語を展開して、copy (コピー)やduplication (重複)などの類義語を含めるようにする必要があります。展開しない場合、関連情報が見落とされてしまいます。ただし、統計的ソリューションによって、こうした種類の類義語集、同じ意味を持つ他のキーワードを検索使用する場合、birth (誕生)というキーワードも加わり、関連しない多くの結果を生成する場合があります。言語の理解により、テキストの曖昧さが無くなり、本質的に、言語学に基づくテキスト マイニングをより信頼できるアプローチにします。
抽出プロセスがどのように機能するのかを理解しておくと、言語リソース (ライブラリー、タイプ、類義語など) を微調整する際に主要な決定を下すのに役立ちます。抽出プロセスのステップには以下のものがあります。
- ソース・データの標準フォーマットへの変換
- 候補となる用語の特定
- 類義語の等価クラスおよび統合の特定
- タイプの割り当て
- 二次分析によるインデックスの付与、および必要に応じてパターン・マッチ
手順 1: ソース・データの標準フォーマットへの変換
最初のステップでは、後続の分析に利用できるように、インポートしたデータを決まった形式に変換します。この変換は内部的に実行され、元のデータは変更されません。
手順 2: 候補となる用語の特定
言語学的抽出において、候補となるキーワードを特定する際の言語リソースの役割を理解しておくのは大切なことです。言語リソースは、抽出が実行されるごとに使用されます。言語リソースは、テンプレート、ライブラリー、およびコンパイル済みリソースの形式で保存されています。ライブラリーには、語のリスト、関係性、また抽出の特定や調整に使用されるその他の情報が含まれています。基幹辞書は表示・編集ができません。ただし、残りのリソースを テンプレート・エディターで、またはインタラクティブ ワークベンチ セッションの場合はリソース・エディターで編集できます。
コンパイル済み辞書は、 IBM SPSS Modeler Text Analytics の抽出エンジンの主要な、内部コンポーネントです。これらのリソースには、品詞コード (名詞、動詞、形容詞など) を含む基本形のリストを収めた一般辞書が含まれています。
これらコンパイル済み辞書のほか、製品にはいくつかのライブラリーが付属し、それらを使用して、コンパイル済み辞書のタイプ定義およびコンセプト定義を補い、また類義語を提供することができます。これらのライブラリー、および作成したユーザー指定のライブラリーは、いくつかの辞書で構成されています。これらには、キーワード辞書、類義語辞書、および不要語辞書が含まれています。
データがインポートおよび変換されると、抽出エンジンは抽出の候補のキーワードの特定を開始します。候補となるキーワードとは、テキスト内の概念を特定するのに使用される語や、語の集まりのことです。テキストを処理しているとき、単語 (ユニターム) および複合語 (マルチターム) は、品詞パターン抽出を使用して特定されます。そして、候補の感性キーワードは、感性テキスト・リンク分析を使用して特定されます。
手順 3: 類義語の等価クラスおよび統合の特定
候補のユニタームおよびマルチタームが特定された後、ソフトウェアは正規化辞書を使用して、等価クラスを特定します。等価クラスとは、ある語句の基本形式、つまり同じ語句の 2 つの異なる表現を 1 つの形式で表わしたものです。句を等価クラスに割り当てる目的は、例えば、「side effect」と「副作用」を別のコンセプトとして処理しないようにすることです。 等価クラスについてどのコンセプトを使用するか (つまり、「side effect」と「副作用」のどちらを代表語として使用するか) を判断するために、抽出エンジンは、次の規則を上から順に適用します。
- ライブラリーのユーザー指定の形式。
- コンパイル済みリソースで定義されている最も頻度の高い形式。
手順 4: タイプの割り当て
次に、抽出されたコンセプトにタイプを割り当てます。タイプは、コンセプトの意味上のグループ化です。基幹辞書ならびにライブラリーの両方がこのステップで使用されます。タイプには、上位レベルのコンセプト、肯定的な単語および否定的な単語、人名、地名、組織名などが含まれます。詳しくは、キーワード辞書のトピックを参照してください。
言語学的なシステムは、知識に依存します。つまり、辞書に含まれている情報が多いほど、より高い品質の結果が得られます。類義語の定義など、辞書の内容の変更は、そのまま結果の改善につながります。これは、通常、対話的な処理で、正確なコンセプトの検索に不可欠です。NLP は IBM SPSS Modeler Text Analytics の主要な要素です。