A recuperação de documentos booleanos inibe qualquer forma de correspondência parcial. Modelos algébricos e probabilísticos lidam com essa questão atribuindo pesos não binários aos termos do índice.
Um modelo algébrico representativo é o modelo de espaço vetorial. Nessa abordagem, o sistema IR representa documentos e consultas como vetores em um espaço vetorial multidimensional. Nesse espaço, os termos do índice provavelmente serão funcionalidades do espaço vetorial, e as consultas e os documentos são plotados nesse espaço de acordo com a presença e a frequência com que contêm termos do índice. O sistema IR calcula a similaridade entre uma consulta de pesquisa e documentos de acordo com sua proximidade no espaço vetorial.
Existem várias métricas para determinar a proximidade em um modelo de espaço vetorial, como Jaccard e produto escalar. Talvez um dos mais comuns, no entanto, seja a similaridade do cosseno, representada pela fórmula:
Aqui, x e y significam dois vetores no espaço vetorial. A pontuação de similaridade do cosseno pode ser qualquer valor entre -1 e 1. Quanto maior o valor do cosseno, mais semelhantes são considerados dois itens.
O modelo de espaço vetorial IR retorna documentos em ordem de acordo com seu grau medido de similaridade. Dessa forma, os sistemas algébricos de IR, como o modelo de espaço vetorial, permitem a correspondência parcial, podendo fornecer uma forma mais precisa ou diferenciada de recuperação de informações.13