Db2 Text Search の言語学的処理

Db2 Text Search は、文書および照会の言語処理をサポートするディクショナリー・パックを提供します。また、中国語、日本語、韓国語などの言語の場合に N-gram セグメンテーションがサポートされます。中国語、日本語、韓国語などの言語の場合、検索エンジンでは、ディクショナリー・ベース・ワード・セグメンテーションの代わりに N-gram セグメンテーションを選択するオプションが提供されます。

テキスト文書がサポートされる言語の 1 つで記述されている場合、テキストが個別のワードに分割されるトークン化ステージの際に、言語学的処理が実行されます。サポートされない言語については、空白文字または N-gram セグメンテーションを使用して文書が構文解析されます。レンマ化 (ステミングのように、ワードの正規形を検索することを意味しますが、ワードの品詞の分析も行います) は、サポートされない言語については実行されません。

テキスト検索索引を検索するとき、索引付き文書に照会用語または照会用語の言語学的なバリエーションが含まれる場合に、一致が示されます。ワードのバリエーションは、照会の言語によって異なります。

中国語、日本語、および韓国語の文書の言語学的処理

検索エンジンでは、優れた検索結果を得られるかどうかはテキスト処理に使用された技法に大きく依存します。テキストが文書から抽出された後に、テキスト処理の最初のステップはテキスト内の個々のワードを識別することです。テキスト内の個々のワードを識別することは、セグメンテーションと呼ばれます。多くの言語で、空白文字 (ブランク、行末、および特定の句読点) がワード境界を認識するために使用されます。ただし、中国語、日本語、および韓国語では、ワードの分離に空白文字が使用されないので、他の技法を使用する必要があります。

Db2 Text Search では、中国語、日本語、および韓国語に対して、ディクショナリー・ベース・ワード・セグメンテーションとも呼ばれる形態素セグメンテーション・オプション、および N-gram セグメンテーション・オプション (デフォルト設定) の 2 つの処理オプションが提供されます。

形態素セグメンテーションでは、言語固有のディクショナリーを使用して、文書内の文字列の中からそれぞれの単語を識別します。この技法では、ディクショナリーを使用してワード境界を識別するため、正確な検索結果が得られます。

N-gram セグメンテーションは、ワード境界を識別する際の問題を回避し、代わりに、重なり合う文字のペアに索引を付けます。 2 つの文字が使用されるので、この技法は bi-gram セグメンテーションとも呼ばれます。 N-gram セグメンテーションでは、常に、検索語を含む一致するすべての文書を戻します。ただし、この技法では、照会に一致しない文書が戻されることがあります。

例

両方のタイプの言語処理がどのように機能するかを示すには、文書内のテキスト election for governor of Kanagawa prefectureを調べます。日本語では、このテキストは 8 文字で成り立っています。この例では、8 文字は A B C D E F G Hとして表されます。ユーザーが入力する可能性がある照会のサンプルとして、「知事選挙」が考えられます。これは 4 文字で、E F G Hとして表されます。 (文書テキストとサンプル照会は、類似した文字列が共通して含まれています。)

形態素セグメンテーションを使用して文書が索引付けされると、検索エンジンは、「 Kanagawa 県知事」というテキスト選択を「 ABC DEF GH」という文字セットにセグメント化します。

知事選挙のサンプル照会選択は、EF GHという文字セットにセグメント化されています。文字 EF は、文書テキストのトークンには現れません。文書には EFがありませんが、DEFがあります。

文書テキストには DEFが含まれていますが、照会には EFのみが含まれているため、文書がサンプル照会を使用して検出される可能性は低くなります。

形態素セグメンテーションを有効にすると、多くの場合、より正確な検索結果が得られますが、結果の数は減る可能性があります。
N-gram セグメンテーションを使用して文書が索引付けされた後、検索エンジンは、Kanagawa 都道府県知事のテキスト選択を次の文字列にセグメント化しますAB BC CD DE EF FG GH。

知事選挙のサンプル照会選択は、DE EF FG GHという文字セットにセグメント化されています。サンプル照会 election for governorを使用して検索する場合、文書テキストと照会の両方のトークンが同じ順序で表示されるため、文書は照会によって検出されます。

N-gram セグメンテーションを有効にすると、多くの場合、より多くの検索結果が得られますが、結果の精度は低下する可能性があります。例えば、日本語で照会 Kyoto を使用して検索し、索引内の文書にテキスト City of Tokyoが含まれている場合、照会 Kyoto はテキスト City of Tokyoを含む文書を返します。これは、City of Tokyo と Kyoto が同じ 2 つの日本語文字を共有しているためです。