Recuperacion y organizacion de la informacion
MODELOS DE RECUPERACIÓN DE INFORMACIÓN

 ::--Wikipedia--:: 


Modelo de Espacio Vectorial

En el modelo de espacio vectorial, los documentos y las búsquedas se interpretan como vectores de términos. Representando cada término en el vector con un peso w dentro de ese documento. La función de similaridad entre el documento y una búsqueda será el coseno del ángulo entre los vectores que los representan.

Basándonos en esta representación la función de similaridad dará valores entre 1 (d = q) y 0 (cuando d y q no compartan términos.

La funcionalidad de este modelo estriba en la elección correcta de los pesos de cada termino. Para que la recuperación de información sea efectiva, tendremos que elegir unos pesos mayores para las palabras que tengan más relevancia en el documento (Palabras que aparecieran en búsquedas anteriores, por ejemplo).

Para modelizar este comportamiento, los documentos se pueden utilizar modelizando los documentos en Clusters. Los Clusters entroncan con la web semántica y permiten realizar búsquedas de términos parecidos a partir de una búsqueda (Google utiliza Clusters para realizar búsquedas de términos relacionados). En esta modelización el documento es una colección de C objetos. Las búsquedas se toman como descripciones vagas de un subconjunto A de la colección C. El objetivo es dividir C en dos subconjuntos (A y ~A) para lo que tendremos que determinar las características de los objetos que describen A de una forma más eficiente, así como las que diferencian A de ~A. En los documentos se utilizan las frecuencias de los términos en el documento así como la frecuencia en la colección.

  • Frecuencia del término (tf): Se calcula cuantas veces aparece una palabra en proporción con la longitud del término, normalmente las palabras frecuentes que no son stop-words(preposiciones, conjunciones...) son palabras del mismo tema, ya que en un documento se suele hablar mucho del mismo tema (En este documento, por ejemplo, modelo, recuperación de información, búsqueda, query...).

  • Frecuencia inversa de documento(tf-idf): También es importante la escasez de un término dentro de un documento. Basandose en esta medición la importancia de un término es inversa a la frecuencia de la ocurrencia. Por ejemplo si buscamos un término que sólo aparece en un documento, aunque sólo aparezca esa vez, ese documento será muy importante para la búsqueda.

Un modelo para el reparto de pesos típico sería tf-idf, donde el peso w sería wd,t = tfd,t x idft. Este modelo es el más típico para el reparto de pesos en el modelo vectorial. Es importante que aparte de este reparto de pesos se realice una normalización del tamaño de los documentos, si no los documentos más largos se verían beneficiados, gracias a que tienen más frecuencia de términos y más términos.

En resumen, como ventajas del modelo de Espacio Vectorial:

  • Obtiene documentos ordenados por un ranking

  • Los términos de búsqueda se usan con importancia baremada.

  • Se obtienen resultados de coincidencia parcial con la búsqueda.

 

© 2006 RAI - UC3M