Modelo Probabilístico
A raíz de la existencia del modelo booleano, encontramos una serie de problemas. La Recuperación de la Información no es un proceso exacto. El modelo booleano, nos da resultados de todo o nada (O pertenece al subonjunto de documentos con los términos de la expresión booleana, o no pertenece. Pero esto excluye documentos que sean relevantes pero estén fuera de los subconjuntos ya que los términos de búsqueda y los términos de indexación pueden divergir.
El problema radica en que en el subconjunto R de documentos relevantes a una query q la pertenencia de los documentos a R es incierta. Por ello se puede tomar una aproximación probabilística en la que los documentos se ordenen en orden decreciente de probabilidad de relevancia a la información requerida.
Este modelo plantea dos dificultades principales:
-
Las evidencias para la ordenación se basan en una representación difusa: El proceso consiste en evaluar la probabilidad de relevancia basándose en las ocurrencias de los términos de la búsqueda en los documentos (Parecido al modelo booleano). Normalmente se empieza con una estimación y más adelante se refinará a través del feedback de los usuarios.
-
No se puede computar la probabilidad exacta: Es un proceso demasiado complejo así que el modelo se basa en simplificaciones y aproximaciones.
El modelo se basa en:
-
D: Términos de la búsqueda, los términos se toman como ocurrencias booleanas (Presente - 1 / No presente - 0) en el documento.
-
R: Conjunto de documentos relevantes.
-
P(R | dj) Probabilidad de que el documento dado sea relevante
-
P(~R | dj) Probabilidad de que el documento dado sea relevante
En general el modelo se basa en el cálculo de una función rsv (Retrieval Status Value) que será el ratio entre la probabilidad de que sea relevante y la probabilidad de que no lo sea. A partir de esos ratios, podremos calcular un vector de probabilidades para todos los términos de D. Pero esto tiene un problema, R tiene un valor desconocido y dificil de calcular. Tomando valores estadísticos podemos tomar R = 0.5 y ~R como la Frecuencia Inversa del Documento (Calculable utilizando la fórmula log(d/dfj), donde d es el número total de documentos y dfj es el número de documentos que contienen el término. En esta primera aproximación se puede utilizar este valor IDF como pesos para hacer el ranking. A medida que el usuario utiliza el sistema, estos pesos se irán ajustando en función del feedback del usuario.
En resumen:
-
El modelo probabilístico utiliza la teoria de probabilidades para modelar la incertidumbre del proceso de recuperación de información.
-
En el modelo se hacen presunciones explícitas.
-
El peso de la relevancia de los términos es la frecuencia inversa de documento (IDF)
-
El feedback de relevancia puede mejorar el ranking dando mejores estimaciones de probabilidad de términos.
-
No se usan frecuencias de términos dentro del documento ni longitud de documentos