O que é recuperação de informações?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

O que é recuperação de informações?

A recuperação de informações (RI) é um amplo campo da ciência da computação e da ciência da informação que lida com a recuperação de dados para consultas do usuário. Ela alimenta ferramentas de pesquisa, como catálogos de bibliotecas e mecanismos de pesquisa na web.

Em geral, podemos defini-la como a busca de dados não estruturados em uma grande coleção para atender a uma necessidade específica de informações.1 Um sistema de IR (sistema de recuperação de informações) fornece material em resposta a uma determinada consulta. O sistema pesquisa coleções de itens relevantes para a consulta do usuário. Em seguida, ele retorna esses itens ao usuário, normalmente em forma de uma lista classificada por relevância computada.2

Os sistemas e técnicas de IR alimentam uma série de ferramentas de pesquisa, como mecanismos de pesquisa na web e catálogos de bibliotecas digitais.

Recuperação de informações versus recuperação de dados

Observe que muitas fontes online contrastam os sistemas de IR com a recuperação de dados: os sistemas de IR recuperam informações não estruturadas, como documentos de texto e páginas da web; a recuperação de dados, por outro lado, lida com dados estruturados, como os encontrados em sistemas de gerenciamento de bancos de dados relacionais. Por extensão, a recuperação de dados usa uma linguagem de consulta estruturada (SQL) para realizar consultas de pesquisa.

Essa distinção entre IR como não estruturada e não relacional versus recuperação de dados como estruturada e relacional, no entanto, é mais ambígua do que muitas fontes online sugerem. Os sistemas de IR indexam e, portanto, estruturam as informações. Por exemplo, embora seja verdade que o IR tradicionalmente lida com a recuperação de documentos de texto bruto, alguns sistemas de IR usam XML para representar e indexar textos. A literatura de pesquisa geralmente descreve os sistemas baseados em XML como um ramo da IR chamado de recuperação estruturada ou recuperação semiestruturada.3 Além disso, a literatura tem explorado o uso de modelos relacionais de IR há décadas.4

A distinção entre IR e recuperação de dados é, portanto, mais ambígua do que tradicionalmente se pensa. De fato, considerando-se que dados são, por definição, informações, a recuperação estruturada de dados talvez seja mais bem compreendida como um tipo de recuperação de informações.

Recuperação de informações versus sistemas de recomendação

Observe que a IR é diferente dos sistemas de recomendação. As técnicas de recomendação de aprendizado de máquina, como a filtragem colaborativa e a filtragem baseada em conteúdo, talvez possam ser entendidas como uma forma de filtragem de informações, uma subtarefa dos sistemas de IR. No entanto, os sistemas de IR e recomendação são distintos. O IR tradicionalmente requer uma consulta do usuário; os mecanismos de recomendação normalmente recuperam objetos sem uma consulta do usuário.5

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Como funcionam os sistemas de recuperação de informações

Diferentes modelos de IR representam informações de diferentes maneiras. A forma escolhida de representação de documentos determina em grande parte como o modelo pesquisa e recupera informações. No entanto, a indexação, a ponderação e o feedback de relevância são três técnicas de recuperação de informações comuns nos modelos de IR.

Indexação

A indexação equivale essencialmente à criação de metadados.6 Muitas pessoas já encontraram um índice no final de um livro impresso. É um conjunto estruturado de palavras compiladas a partir do documento impresso fornecido que permite aos leitores acessar prontamente passagens sobre determinados tópicos. O índice da IR é semelhante. Um índice da IR (ou índice invertido) é uma estrutura de dados proveniente de um conjunto de documentos destinados a melhorar os resultados de consultas de pesquisa.7

A construção do índice requer primeiro a análise de um documento para a extração de recursos. Por exemplo, digamos que estamos criando um sistema de IR para documentos baseados em texto. Como é comum no processamento de linguagem natural (NLP), preparamos a coleção de documentos com várias técnicas de pré-processamento, como tokenização e remoção de palavras irrelevantes. O sistema de IR representa essa coleção processada de documentos como uma estrutura de dados organizada. Uma dessas estruturas é um dicionário no qual cada documento tem uma ID apontada pelas palavras (ou termos do índice) que aparecem nele.8 Outra estrutura de dados potencial para um sistema de recuperação de texto é um modelo de espaço vetorial, como um bag of words.9 Ambas as abordagens extraem palavras como recursos, que são usadas para recuperar e classificar documentos em resposta às consultas do usuário.

Ponderação

Como um sistema de pesquisa classifica correspondências aproximadas ou exatas para uma determinada consulta? As abordagens para a classificação e recuperação de informações dependem tanto do tipo de modelo de recuperação de informações quanto da forma de representação de documentos usada no sistema. Os termos do índice, no entanto, desempenham um papel fundamental na forma como um sistema de IR classifica os documentos em resposta às consultas. Mas nem todos os termos do índice são iguais. Os sistemas de IR, portanto, utilizam métodos diferentes para ponderar os termos do índice de acordo com sua importância percebida.

Os sistemas de IR que usam modelos de espaço vetorial, como bag of words, podem usar a frequência de termos-frequência inversa de documentos (TF-IDF). O TF-IDF é uma variação do bag of words que considera a prevalência de uma palavra em cada documento do conjunto de textos. Em quanto mais documentos uma determinada palavra aparecer, maior será a redução do peso dessa palavra pelo TF-IDF. Outras abordagens incluem a decomposição do valor singular (SVD) e a análise semântica latente (LSA), sendo esta última uma abordagem comum da modelagem de tópicos. 10

Tais abordagens de ponderação afetam como os sistemas de IR classificam documentos em resposta às consultas. Mas diferentes tipos de modelos de IR usam esses pesos para classificação de maneiras diferentes.

Feedback de relevância

Como um sistema pode melhorar seus resultados de pesquisa? Ou seja, como um sistema pode fazer ajuste fino na pesquisa de um usuário e aumentar o número de documentos relevantes retornados?

O feedback de relevância é uma técnica comum de recuperação de informações para melhorar os resultados da pesquisa. A feedback de relevância coleta essencialmente informações sobre a resposta do usuário a um conjunto inicial de resultados de consultas. Em seguida, o sistema repondera a relevância do item à luz das respostas do usuário. Em seguida, ele retorna um novo conjunto de resultados incorporando a consulta inicial e o feedback do usuário a esse conjunto inicial de resultados de consultas.

O feedback de relevância normalmente envolve o fornecimento de respostas explícitas pelo usuário sobre a relevância dos documentos recuperados. O feedback implícito é uma variação que deduz a relevância do item ao observar o comportamento do usuário — por exemplo, em quais links do site o usuário clica em uma página de resultados de pesquisa. O feedback de pseudo-relevância pressupõe que os primeiros n documentos recuperados de uma consulta inicial sejam relevantes. Em seguida, ele reúne recursos adicionais comuns nesses documentos para modificar ainda mais a consulta.11

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de técnicas de recuperação de informações

Existem vários tipos de modelos de recuperação de informações. Fornecer algo que pareça um resumo exaustivo requer uma discussão muito mais ampla. No entanto, os livros didáticos de IR e as visões gerais enciclopédicas frequentemente se sobrepõem ao mencionar três metodologias gerais de IR: booleana, algébrica e probabilística.

Modelo booleano

Os modelos booleanos são talvez os modelos de IR mais diretos e até simplistas. Eles usam uma estrutura de dicionário de termos do índice conforme descrito anteriormente. O modelo, então, classifica os documentos de acordo com a presença de palavras da consulta de um usuário nos documentos recuperados. Por exemplo, se um usuário fornecer a consulta "jazz E dança", o modelo booleano recuperará somente os documentos que contêm as palavras "jazz e dança" combinadas. Os modelos booleanos, portanto, contabilizam somente a presença ou ausência de palavras em um documento; não existem correspondências parciais nos sistemas de recuperação booleana. Técnicas de pré-processamento de, como stemming e lematização , podem resolver esse problema de variantes morfológicas, como documentos que contêm dança, danças ou dançarinos, em vez de apenas a "dança" da consulta do usuário .

Conforme mencionado, os modelos booleanos consideram apenas a presença e a ausência de palavras. Esse critério de decisão binário não possui uma escala de classificação para determinar quais documentos são mais pertinentes à consulta de um usuário. Uma solução possível é classificar os documentos com base na frequência dos termos de consultas do usuário. Em outras palavras, quanto mais um documento menciona jazz e dança, mais pertinente o modelo o considera para a consulta do usuário. No entanto, o aumento da frequência dos termos não indica necessariamente maior relevância. Apesar dessa possível desvantagem, os modelos booleanos têm sido usados em muitos sistemas de IR devido à sua facilidade de implementação.12

Modelo algébrico

A recuperação de documentos booleanos inibe qualquer forma de correspondência parcial. Modelos algébricos e probabilísticos lidam com essa questão atribuindo pesos não binários aos termos do índice.

Um modelo algébrico representativo é o modelo de espaço vetorial. Nessa abordagem, o sistema IR representa documentos e consultas como vetores em um espaço vetorial multidimensional. Nesse espaço, os termos do índice provavelmente serão funcionalidades do espaço vetorial, e as consultas e os documentos são plotados nesse espaço de acordo com a presença e a frequência com que contêm termos do índice. O sistema IR calcula a similaridade entre uma consulta de pesquisa e documentos de acordo com sua proximidade no espaço vetorial.

Existem várias métricas para determinar a proximidade em um modelo de espaço vetorial, como Jaccard e produto escalar. Talvez um dos mais comuns, no entanto, seja a similaridade do cosseno, representada pela fórmula:

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

Aqui, x e y significam dois vetores no espaço vetorial. A pontuação de similaridade do cosseno pode ser qualquer valor entre -1 e 1. Quanto maior o valor do cosseno, mais semelhantes são considerados dois itens.

O modelo de espaço vetorial IR retorna documentos em ordem de acordo com seu grau medido de similaridade. Dessa forma, os sistemas algébricos de IR, como o modelo de espaço vetorial, permitem a correspondência parcial, podendo fornecer uma forma mais precisa ou diferenciada de recuperação de informações.13

Modelo probabilístico

Modelos probabilísticos também permitem a correspondência parcial entre consultas de usuários e documentos. Os modelos probabilísticos funcionam com base na suposição de que uma determinada consulta tem um conjunto ideal de recursos do sistema de informações recuperadas. Esse conjunto ideal é, reconhecidamente, desconhecido. Mas a semântica dos termos do índice pode caracterizar as propriedades desse conjunto.

Assim como os modelos algébricos, os modelos probabilísticos usam a presença e a frequência dos termos do índice para determinar a similaridade entre consultas e documentos. Mas os modelos probabilísticos diferem na medida em que consideram fatores adicionais. Por exemplo, eles podem levar em conta a cofrequência dos termos do índice (com que frequência os termos do índice ocorrem em um documento) em relação ao comprimento do texto completo do documento ou com que frequência um único termo do índice ocorre em todos os termos de consulta em uma determinada consulta. Esses são apenas alguns fatores potenciais considerados — uma discussão mais detalhada requer uma compreensão mais completa da teoria das probabilidades.

Observe que nem todos os modelos probabilísticos consideram os mesmos fatores ao calcular a similaridade ou a probabilidade dos documentos. Por exemplo, o modelo de independência binária (BIM), o primeiro modelo probabilístico de IR, não considera a frequência dos termos. Um modelo incorporando a técnica de modelagem de tópicos de alocação latente de Dirichlet (LDA), no entanto, contabilizará a cofrequência dos termos.14

Pesquisa recente

Viés. Os mecanismos de pesquisa na web talvez sejam um dos casos de uso de IR mais conhecidos. A ferramenta de sumarização de texto PageRank é usada para recuperar e classificar páginas da web (documentos HTML). A pesquisa estabelece bem a infeliz realidade de que os algoritmos de pesquisa perpetuam uma série de preconceitos, como raciais e de gênero.15 Em resposta a isso, os experimentos publicados exploram uma série de métodos para reduzir o viés social nos sistemas de IR, como amostragem negativa16 e algoritmos com reconhecimento de viés que incorporam penalidades para resultados tendenciosos.17 A atenuação do viés é uma área fundamental para a pesquisa, a fim de desenvolver a prática ética em relação à IR e, até mesmo, à inteligência artificial.

Soluções relacionadas
IBM watsonx Orchestrate

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate
Ferramentas e APIs de processamento de linguagem natural

Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.

Explore as soluções de PNL
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate Explore as soluções de PLN
Notas de rodapé

1 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas and Ricardo Baeza-Yates, “Structured Document Retrieval,” Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, “The relational model in information retrieval,” Journal of the American Society for Information Science, Vol. 32, No. 1, 1981, pp. 51-64.

5 Alejandro Bellogín and Alan Said, “Information Retrieval and Recommender Systems,” Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen, and Ophir Frieder, “Index Creation and File Structures,” Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

9 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016.

10 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke, and Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

13 Qiaozhu Mei and Dragomir Radev, “Information Retrieval,” The Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers,” Proceedings of the 44th European Conference on Advances in Information Retrieval, 2022, pp. 47-55.

17 Dhanasekar Sundararaman e Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.