頻出用語分析

頻出用語分析では、一連の文書内での用語の出現数をカウントし、各用語の頻度を判別します。
頻度は次のように計算されます。
絶対頻度
用語が 1 つの文書内に複数回出現する場合、各出現がカウントされます。
文書頻度
1 つの用語が含まれている文書 (複数) の割合が計算されます。

データを理解する段階で頻出用語分析を使用でき、入手可能なテキストの中で関連する概念を把握できます。 また、頻出用語分析を使用すると、ビジネス問題について関連する頻出用語のサブセットを選択でき、ディクショナリー参照演算子で使用できる用語からディクショナリーを作成できます。

例えば、オンライン・ショップの小売業者が、顧客からの返品の最も一般的な理由を把握したいとします。小売業者はまず、配送伝票の返品理由欄に記述されている頻出用語を調べます。次に、有効な返品理由である用語のサブセットを選択します。この用語のサブセットから、小売業者は、ディクショナリーを作成して、テキストから有効な返品理由タイプを自動的に抽出でき、理由タイプ別にソートされた集約ビューを表示できます。

さらに、小売業者は、個々の理由を理由タイプ別にグループ化する分類法を作成できます。これらの理由タイプを使用して、長期に渡って収集した理由タイプの構造化されたレポートを作成できます。長期の構造化レポートでは、理由タイプから個々の理由用語および出現数までドリルダウンできます。

Design Studio では、頻出用語分析を使用して、データベース表のテキスト列で頻出用語を見つけることができます。頻出用語分析を開始するには、データウェアハウジング・プロジェクトを作成し、Text Analysis フォルダーから頻出用語分析結果を作成する必要があります。頻出用語ビューアーを使用すると、頻出用語を探索できます。

Data warehousing in Db2 では、次のタイプの頻出用語分析が提供されます。
例えば、「形容詞 - 名詞」というパターンでは、次の頻出用語が検出されます。

このアプローチでは、処理されて戻される用語候補の量が減少し、頻出用語分析のパフォーマンスが向上します。解決するビジネス問題に応じて、およびテキストの言語に応じて、異なる POS パターンによって、最も価値の高い結果が生成されます。

要確認:

文脈に応じて、一部の単語は、形容詞としても、名詞としても使用できます。例えば、current (現在) という単語は、最新という意味では形容詞として使用でき、時間の流れの中では名詞として使用できます。頻出用語抽出では、字句ディクショナリー内の最初の POS 項目が使用されます。これにより、予期しない結果が生じることがあります。

ディクショナリーを作成するための頻出用語

「頻出用語」ビューでは、概念に関連する用語のサブセットを選択でき、ディクショナリー参照演算子で使用できるドメイン・ディクショナリーを作成できます。オプションで、分類法を使用して、頻出用語を階層カテゴリーに編成できます。



フィードバック | 情報ロードマップ