Soporte lingüístico para la segmentación basada en diccionario

Si el idioma de un documento se detecta correctamente y existen diccionarios específicos del idioma, se aplica el proceso lingüístico adecuado.

La segmentación es el proceso mediante el cual un texto de entrada se descompone en unidades léxicas diferentes. Este proceso incluye algunas de las siguientes actividades de proceso lingüístico:

Segmentación de palabras

La segmentación de palabras se utiliza para idiomas que no utilizan espacios en blanco (ni delimitadores) entre las palabras, tales como el japonés y el chino.

Lematización

La lematización es una forma de proceso lingüístico que determina el lema de cada forma de palabra que aparece en el texto. El lema de una palabra comprende su forma base más las formas derivadas que comparten la misma categoría léxica. Por ejemplo, el lema de go comprende go, goes, went, gone y going. Los lemas de nombres abarcan las formas singular y plural (tales como calf y calves). Los lemas de adjetivos abarcan las formas comparativas y superlativas (tales como good, better y best). Los lemas de pronombres abarcan casos diferentes del mismo pronombre (tales como I, me, my y mine).

La lematización necesita un diccionario para la indexación y la búsqueda.

Watson Explorer Content Analytics indexa los lemas y las palabras derivadas y lematiza todas las palabras derivadas contenidas en una consulta. La lematización mejora la calidad de la búsqueda al encontrar documentos que contienen variantes de una palabra derivada incluida en la consulta. Por ejemplo, se encuentran documentos que contienen la palabra mice cuando una consulta incluye la palabra mouse.

Desglose de contracciones

La calidad de la búsqueda mejora mediante la identificación de contracciones y su desglose en componentes. Por ejemplo:

wouldn't se desglosa en would + not
Horse's se desglosa en Horse + 's

Identificación de clíticos

Los clíticos son una forma especial de contracciones, y la calidad de la búsqueda se mejora determinando los componentes del clítico. Un clítico es un elemento que se comporta como un afijo y una palabra. Pero los clíticos son difíciles de identificar porque son también parte de la formación de palabras. A diferencia de otros fenómenos morfológicos (estructura de las palabras), los clíticos aparecen en una estructura sintáctica y su asociación a las palabras no forma parte de las reglas de formación de palabras. Por ejemplo:

reparti-lo-emos tiene los componentes repartir + lo +
emos
l'avenue tiene los componentes le + avenue
dell'arte tiene los componentes dello + arte.

Reconocimiento de caracteres no alfabéticos

Los procesos lingüísticos reconocen los caracteres no alfabéticos. Dependiendo de la lógica interna dependiente del idioma, algunos caracteres no alfabéticos aparecen en los resultados de búsqueda como unidades léxicas separadas de tipos diferentes, y algunos están agrupados.

Por ejemplo, los apóstrofos se tratan como componentes de palabras en el caso de clíticos, y se tratan como puntos en el caso de abreviaturas desconocidas. Los URL, las direcciones de correo electrónico y las fechas se desglosan en varios tokens.

Reconocimiento de abreviaturas

Los procesos lingüísticos reconocen las abreviaturas contenidas en el diccionario como unidades léxicas individuales. Si la abreviatura no está en el diccionario, la abreviatura se reconoce como unidad léxica, pero la abreviatura no tendrá ninguna información de diccionario asociada.

El reconocimiento correcto de las abreviaturas es esencial para el reconocimiento de las oraciones. Por ejemplo, el punto al final de una abreviatura no es necesariamente el final de una oración.

Reconocimiento de marcadores de final de oración

Los procesos lingüísticos identifican correctamente los marcadores de final de oración para la segmentación de oraciones.