データを理解する段階で頻出用語分析を使用でき、入手可能なテキストの中で関連する概念を把握できます。 また、頻出用語分析を使用すると、ビジネス問題について関連する頻出用語のサブセットを選択でき、ディクショナリー参照演算子で使用できる用語からディクショナリーを作成できます。
例えば、オンライン・ショップの小売業者が、顧客からの返品の最も一般的な理由を把握したいとします。小売業者はまず、配送伝票の返品理由欄に記述されている頻出用語を調べます。次に、有効な返品理由である用語のサブセットを選択します。この用語のサブセットから、小売業者は、ディクショナリーを作成して、テキストから有効な返品理由タイプを自動的に抽出でき、理由タイプ別にソートされた集約ビューを表示できます。
さらに、小売業者は、個々の理由を理由タイプ別にグループ化する分類法を作成できます。これらの理由タイプを使用して、長期に渡って収集した理由タイプの構造化されたレポートを作成できます。長期の構造化レポートでは、理由タイプから個々の理由用語および出現数までドリルダウンできます。
Design Studio では、頻出用語分析を使用して、データベース表のテキスト列で頻出用語を見つけることができます。頻出用語分析を開始するには、データウェアハウジング・プロジェクトを作成し、Text Analysis フォルダーから頻出用語分析結果を作成する必要があります。頻出用語ビューアーを使用すると、頻出用語を探索できます。
このアプローチでは、処理されて戻される用語候補の量が減少し、頻出用語分析のパフォーマンスが向上します。解決するビジネス問題に応じて、およびテキストの言語に応じて、異なる POS パターンによって、最も価値の高い結果が生成されます。
文脈に応じて、一部の単語は、形容詞としても、名詞としても使用できます。例えば、current (現在) という単語は、最新という意味では形容詞として使用でき、時間の流れの中では名詞として使用できます。頻出用語抽出では、字句ディクショナリー内の最初の POS 項目が使用されます。これにより、予期しない結果が生じることがあります。
「頻出用語」ビューでは、概念に関連する用語のサブセットを選択でき、ディクショナリー参照演算子で使用できるドメイン・ディクショナリーを作成できます。オプションで、分類法を使用して、頻出用語を階層カテゴリーに編成できます。