La recuperación de documentos booleanos inhibe cualquier forma de coincidencia parcial. Los modelos algebraicos y probabilísticos abordan esta cuestión asignando ponderaciones no binarias a los términos del índice.
Un modelo algebraico representativo es el modelo de espacio vectorial. En este enfoque, el sistema de IR representa documentos y consultas como vectores en un espacio vectorial multidimensional. En este espacio, es probable que los términos del índice sean características del espacio vectorial, y las consultas y los documentos se trazan en este espacio según la presencia y la frecuencia con la que contienen términos del índice. El sistema de IR calcula la similitud entre una consulta de búsqueda y los documentos en función de su proximidad en el espacio vectorial.
Hay una serie de métricas para determinar la proximidad en un modelo de espacio vectorial, como Jaccard y producto punto. Quizás una de las más comunes; sin embargo, es la similitud del coseno, representada por la fórmula:
Aquí, x e y significan dos vectores en el espacio vectorial. El puntaje de similitud del coseno puede ser cualquier valor entre -1 y 1. Cuanto mayor sea el puntaje del coseno, más similares se considerarán dos elementos.
El modelo de espacio vectorial de IR devuelve los documentos ordenados según su grado de similitud medido. De este modo, los sistemas algebraicos de IR, como el modelo de espacio vectorial, permiten realizar correspondencias parciales, lo que puede proporcionar una forma más precisa o matizada de recuperación de la información.13