¿Qué es la recuperación de información?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

¿Qué es la recuperación de información?

La recuperación de información (IR) es un amplio campo de la informática y la ciencia de la información que aborda la recuperación de datos para las consultas de los usuarios. Impulsa herramientas de búsqueda, como catálogos de bibliotecas y motores de búsqueda web.

En general, podemos definir la IR como encontrar datos no estructurados dentro de una gran colección para satisfacer una necesidad de información particular.1 Un sistema IR (sistema de recuperación de información) proporciona material en respuesta a una consulta determinada. El sistema busca en las colecciones elementos relevantes a la consulta del usuario. Luego devuelve esos elementos al usuario, generalmente en forma de lista ordenada según la relevancia calculada.2

Los sistemas y técnicas de IR impulsan una variedad de herramientas de búsqueda, como los motores de búsqueda web y los catálogos de biblioteca digital.

Recuperación de información frente a recuperación de datos

Tenga en cuenta que muchas fuentes en línea contrastan los sistemas IR con la recuperación de datos: los sistemas IR recuperan información no estructurada, como documentos de texto y sitios web; la recuperación de datos, por el contrario, se ocupa de datos estructurados, como los que se encuentran en los sistemas de gestión de bases de datos relacionales. Por extensión, la recuperación de datos emplea un lenguaje de consulta estructurado (SQL) para realizar consultas de búsqueda.

Sin embargo, esta distinción entre la IR como no estructurada y no relacional frente a la recuperación de datos como estructurada y relacional es más equívoca de lo que sugieren muchas fuentes en línea. Los sistemas de IR indexan la información y, por lo tanto, la estructura. Por ejemplo, si bien es cierto que la IR tradicionalmente se ocupa de la recuperación de documentos de texto sin procesar, algunos sistemas de IR emplean XML para representar e indexar textos. La literatura de investigación a menudo describe los sistemas basados en XML como una rama de IR llamada recuperación estructurada o recuperación semiestructurada.3 Además, la literatura exploró el uso de modelos relacionales de IR durante décadas.4

Por lo tanto, la distinción entre IR y recuperación de datos es más ambigua de lo que tradicionalmente se sostuvo. De hecho, dado que los datos son, por definición, información, la recuperación de datos estructurados quizás se entienda mejor como un tipo de recuperación de información.

Recuperación de información frente a sistemas de recomendación

Tenga en cuenta que la IR es distinta de los sistemas de recomendación. Las técnicas de recomendación de machine learning, como el filtrado colaborativo y el filtrado basado en contenido,quizás puedan entenderse como una forma de filtrado de información, una subtarea de los sistemas de IR. Sin embargo, los sistemas de IR y de recomendación son distintos. Tradicionalmente, la IR requiere una consulta del usuario; normalmente, los motores de recomendación recuperan objetos sin una consulta del usuario.5

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funcionan los sistemas de recuperación de información

Los diferentes modelos de IR representan la información de diferentes maneras. La forma elegida de representación de documentos determina en gran medida cómo el modelo busca y recupera información. Sin embargo, la indexación, la ponderación y la retroalimentación de relevancia son tres técnicas de recuperación de información comunes en todos los modelos de IR.

Indexación

La indexación equivale básicamente a la creación de metadatos.6 Muchas personas se encontraron alguna vez con un índice al final de un libro impreso. Se trata de un conjunto estructurado de palabras compiladas a partir de un documento impreso determinado que permite a los lectores acceder fácilmente a pasajes sobre temas concretos. El índice IR es similar. Un índice IR (o índice invertido) es una estructura de datos obtenida a partir de un conjunto de documentos con el fin de mejorar los resultados de las consultas de búsqueda.7

La construcción de índices requiere primero el análisis de un documento para la extracción de características. Por ejemplo, supongamos que estamos creando un sistema de IR para documentos basados en texto. Como es habitual en el procesamiento de lenguaje natural (PLN), preparamos la colección de documentos con diversas técnicas de preprocesamiento, como la tokenización y la eliminación de palabras vacías. A continuación, el sistema IR representa esta colección procesada de documentos como una estructura de datos organizada. Una de estas estructuras es un diccionario en el que cada documento tiene un ID señalado por las palabras (o términos de índice) que aparecen en él.8 Otra estructura de datos potencial para un sistema de recuperación de texto es un modelo de espacio vectorial, como una bag of words.9 Ambos enfoques extraen palabras como características, que luego se emplean para recuperar y clasificar documentos en respuesta a las consultas de los usuarios.

Ponderación

¿Cómo clasifica un sistema de búsqueda las coincidencias aproximadas o exactas para una consulta determinada? Los enfoques para la clasificación y recuperación de información dependen tanto del tipo de modelo de recuperación de información como de la forma de representación del documento empleado en el sistema. Sin embargo, los términos de índice juegan un papel clave en cómo un sistema de IR clasifica los documentos en respuesta a las consultas. Pero no todos los términos de índice son iguales. De este modo, los sistemas de IR emplean métodos diferentes para ponderar los términos del índice según su importancia percibida.

Los sistemas IR que utilizan modelos de espacio vectorial, como bag of words, pueden usar la frecuencia de término inversa de frecuencia de documento (TF-IDF). TF-IDF es una variación de bag of words que da cuenta de la prevalencia de una palabra en cada documento del conjunto de texto. Cuantos mayor sea la cantidad de documentos en los que aparezca una palabra determinada, mayor será la reducción de TF-IDF del peso de esa palabra. Otros enfoques incluyen la descomposición de valores singulares (SVD) y el análisis semántico latente (LSA); este último es un enfoque común de modelado de temas. 10

Estos enfoques de ponderación afectan la manera en que los sistemas de IR clasifican los documentos en respuesta a las consultas. Pero los diferentes tipos de modelos de IR emplean estos pesos para clasificar de diferentes maneras.

Retroalimentación de relevancia

¿Cómo podría un sistema mejorar sus resultados de búsqueda? Es decir, ¿cómo podría un sistema ajustar la búsqueda de un usuario y aumentar el número de documentos relevantes devueltos?

La retroalimentación de relevancia es una técnica común de recuperación de información para mejorar los resultados de búsqueda. Básicamente, el feedback de relevancia recopila información sobre la respuesta del usuario a un conjunto inicial de resultados. Luego, el sistema vuelve a ponderar la relevancia del elemento en función de las respuestas del usuario. Luego, devuelve un nuevo conjunto de resultados que incorpora la consulta inicial y el feedback del usuario a ese conjunto inicial de resultados.

La retroalimentación de relevancia generalmente implica que el usuario proporcione respuestas explícitas sobre la relevancia de los documentos recuperados. La retroalimentación implícita es una variación que deduce la relevancia del elemento al observar el comportamiento del usuario, o por ejemplo, qué sitio web vincula a un usuario en una página de resultados de búsqueda. El feedback de pseudorelevancia asume que los primeros n documentos recuperados de una consulta inicial son relevantes. Luego reúne características adicionales comunes a todos esos documentos para modificar aún más la consulta.11

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Tipos de técnicas de recuperación de información

Existen numerosos tipos de modelos de recuperación de información. Para proporcionar cualquier cosa en forma de un resumen exhaustivo, se requiere un debate mucho más amplio. Sin embargo, los libros de texto de RI y los resúmenes enciclopédicos a menudo se superponen al mencionar tres metodologías generales de RI: booleana, algebraica y probabilística.

Modelo booleano

Los modelos booleanos son quizás los modelos de IR más directos, incluso simplistas. Emplean una estructura de diccionario de términos de índice como se describió anteriormente. Luego, el modelo clasifica los documentos según la presencia de palabras de la consulta de un usuario en los documentos recuperados. Por ejemplo, si un usuario realiza la consulta “jazz Y baile”, el modelo booleano recupera solo aquellos documentos que contienen las palabras jazz y baile en combinación. Los modelos booleanos solo tienen en cuenta la presencia o ausencia de palabras en un documento; no existen coincidencias parciales en los sistemas de recuperación booleanos. Las técnicas de preprocesamiento de texto, como stemming y lematización, pueden resolver este problema de variantes morfológicas, como documentos que contienen dancedancesdancer, en lugar de solo la consulta del usuario dancing.

Como ya se dijo, los modelos booleanos solo tienen en cuenta la presencia y la ausencia de palabras. Este criterio de decisión binario carece de una escala de graduación para determinar qué documentos son los más pertinentes para la consulta de un usuario. Una posible solución es clasificar los documentos en función de la frecuencia de los términos de consulta de los usuarios. En otras palabras, cuanto más menciona un documento  jazz y  baile, más pertinente lo considera el modelo para la consulta del usuario. Sin embargo, una mayor frecuencia de términos no indica necesariamente una mayor relevancia. A pesar de este posible inconveniente, los modelos booleanos se emplearon en muchos sistemas de IR dada su facilidad de aplicación.12

Modelo algebraico

La recuperación de documentos booleanos inhibe cualquier forma de coincidencia parcial. Los modelos algebraicos y probabilísticos abordan esta cuestión asignando ponderaciones no binarias a los términos del índice.

Un modelo algebraico representativo es el modelo de espacio vectorial. En este enfoque, el sistema de IR representa documentos y consultas como vectores en un espacio vectorial multidimensional. En este espacio, es probable que los términos del índice sean características del espacio vectorial, y las consultas y los documentos se trazan en este espacio según la presencia y la frecuencia con la que contienen términos del índice. El sistema de IR calcula la similitud entre una consulta de búsqueda y los documentos en función de su proximidad en el espacio vectorial.

Hay una serie de métricas para determinar la proximidad en un modelo de espacio vectorial, como Jaccard y producto punto. Quizás una de las más comunes; sin embargo, es la similitud del coseno, representada por la fórmula:

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

Aquí, x e y significan dos vectores en el espacio vectorial. El puntaje de similitud del coseno puede ser cualquier valor entre -1 y 1. Cuanto mayor sea el puntaje del coseno, más similares se considerarán dos elementos.

El modelo de espacio vectorial de IR devuelve los documentos ordenados según su grado de similitud medido. De este modo, los sistemas algebraicos de IR, como el modelo de espacio vectorial, permiten realizar correspondencias parciales, lo que puede proporcionar una forma más precisa o matizada de recuperación de la información.13

Modelo probabilístico

Los modelos probabilísticos también permiten establecer correspondencias parciales entre las consultas de los usuarios y los documentos. Los modelos probabilísticos parten del supuesto de que una consulta dada tiene un conjunto ideal de recursos del sistema de información recuperados. Este conjunto ideal es, sin duda, desconocido. Pero la semántica del término índice puede caracterizar las propiedades de este conjunto.

Al igual que los modelos algebraicos, los modelos probabilísticos utilizan el término índice presencia y frecuencia para determinar la similitud entre consultas y documentos. Pero los modelos probabilísticos difieren en que consideran factores adicionales. Por ejemplo, pueden tener en cuenta la cofrecuencia de términos de índice (la frecuencia con la que los términos de índice coexisten en un documento) en relación con la longitud del texto completo del documento, o la frecuencia con la que se produce un solo término de índice en todos los términos de consulta en una consulta determinada. Estos son solo algunos factores potenciales considerados; una discusión más detallada requiere una comprensión más profunda de la teoría de la probabilidad.

Tenga en cuenta que no todos los modelos probabilísticos consideran los mismos factores al calcular la similitud de documentos, o probabilidad. Por ejemplo, el modelo de independencia binaria (BIM), el primer modelo probabilístico de IR, no considera la frecuencia del término. Un modelo que incorpore la técnica de modelado tópico de asignación de Dirichlet latente (LDA), sin embargo, dará cuenta de la cofrecuencia de término.14

Investigación reciente

Sesgo. Los motores de búsqueda sitio web son quizás uno de los casos de uso de IR más conocidos. La herramienta de resumen de texto PageRank se emplea para recuperar y clasificar sitios web (documentos HTML). La investigación establece bien la desafortunada realidad de que los algoritmos de búsqueda perpetúan una serie de sesgos, como raciales y de género.15 En respuesta, los experimentos publicados exploran una serie de métodos para reducir el sesgo social en los sistemas IR, como el muestreo negativo16 y algoritmos conscientes de sesgo que incorporan sanciones por resultados sesgados.17 Mitigar el sesgo es un área primordial para que la investigación desarrolle una praxis ética en torno a las IR e incluso a la inteligencia artificial.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN
Notas de pie de página

1 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas and Ricardo Baeza-Yates, “Structured Document Retrieval,” Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, No. 1, 1981, pp. 51-64.

5 Alejandro Bellogín and Alan Said, “Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen, and Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan y Hinrich Schütze, Una introducción a la recuperación de información, Cambridge University Press, 2009.

9 Qiaozhu Mei y Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2.ª edición, Oxford University Press, 2016.

10 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, and Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan y Hinrich Schütze, Una introducción a la recuperación de información, Cambridge University Press, 2009.

13 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers,” Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022, pp. 47-55.

17 Dhanasekar Sundararaman and Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.