Este libro surge de la necesidad de disponer de un material que, con un enfoque eminentemente didáctico, permita dar una visión general de la disciplina de la Recuperación de Información, abarcando desde los fundamentos hasta las propuestas de investigación actuales. La idea es
ofrecer al lector los entresijos de un área de conocimiento cuyos avances se trasladan directamente a programas que empleamos todos los días para diversas tareas cotidianas.
Para alcanzar estos objetivos se ha contado con la colaboración de un plantel de expertos reconocidos internacionalmente por su investigación en el campo de la Recuperación de Información. Cada uno de ellos se ha centrado en aquellos capítulos de cuyas temáticas son especialistas y ampliamente conocedores. Además, la gran mayoría de ellos posee una inestimable experiencia docente en asignaturas de Recuperación de Información, con lo que sus experiencias y conocimientos a la hora de diseminar esta disciplina se han exportado a sus capítulos de forma
directa, e implícitamente al libro completo.
5.1 INTRODUCCIÓN
5.2 LA WORLD WIDE WEB
5.2.1 Componentes
5.2.2 Conceptos básicos
5.2.3 Retos
5.3 RECOPILACIÓN DE PÁGINAS WEB
5.4 PROCESAMIENTO DE PÁGINAS WEB
5.5 ORDENACIÓN DE RESULTADOS BASADA EN EL ANÁLISIS DE ENLACES
5.5.1 HITS
5.5.2 PageRank
5.6 MEDIDAS ESPECÍFICAS DE EVALUACIÓN DE LA EFICACIA
CAPÍTULO 6. SISTEMAS DE BÚSQUEDA Y OBTENCIÓN DE INFORMACIÓN
Lluís Codina Bonilla
6.1 INTRODUCCIÓN
6.2 LA BÚSQUEDA COMO SECTOR ECONÓMICO Y SOCIAL
6.3 CARACTERÍSTICAS GENERALES Y ESTRATEGIAS EN LA BÚSQUEDA DE INFORMACIÓN COGNITIVA
6.3.1 Qué es la información cognitiva
6.3.2 La búsqueda de información en el ciclo de vida de un proyecto
6.3.3 Componentes universales de los sistemas de búsqueda
6.4 NECESIDADES DE INFORMACIÓN Y LENGUAJES DE BÚSQUEDA
6.4.1 Tipos de búsquedas
6.5 LA BÚSQUEDA DE INFORMACIÓN EN LA WEB
6.5.1 Los motores de búsqueda
6.5.2 Búsqueda avanzada
6.5.3 Motores de búsqueda especializados: buscadores académicos
6.6 BASES DE DATOS
6.6.1 El concepto de registro
6.6.2 Bases de datos profesionales
6.6.3 Bases de datos académicas
6.6.4 Búsqueda avanzada
6.7 LA BÚSQUEDA MULTIMEDIA
6.7.1 Bancos de imágenes y vídeo
6.7.2 Repositorios Creative Commons
6.7.3 Búsqueda avanzada
6.8 CONCLUSIONESCAPÍTULO 7. MOTORES DE BÚSQUEDA DE CÓDIGO ABIERTO
Sergio Cleger Tamayo, Carlos G. Figuerola y Julio César Rodríguez Cano
7.1 INTRODUCCIÓN
7.2 ¿POR QUÉ CÓDIGO ABIERTO?
7.2.1 Licencias de distribución
7.3 MOTORES DE BÚSQUEDA
7.3.1 Apache Lucene
7.3.2 Minion
7.3.3 Terrier
7.3.4 Indri
7.3.5 DataParkSearch
7.3.6 Swish-e
7.3.7 MG4J
7.3.8 mnGoSearch
7.3.9 Solr
7.4 HERRAMIENTAS COMPLEMENTARIAS
7.5 DESARROLLO DE SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN
7.6 CONCLUSIONES
CAPÍTULO 8. CONSTRUCCIÓN Y COMPRESIÓN DE ÍNDICES
Roi Blanco González
8.1 INTRODUCCIÓN
8.1.1 Restricciones hardware
8.2 CONSTRUCCIÓN DE ÍNDICES
8.2.1 Métodos básicos de construcción de índices
8.2.2 Inversión en memoria
8.2.3 Indexación incremental
8.3 COMPRESIÓN DE ÍNDICES
8.3.1 Compresión de datos
8.3.2 Modelos y códigos
8.3.3 Compresión de diccionarios
8.3.4 Compresión del fichero de ocurrencias
CAPÍTULO 9. MODELOS DE RECUPERACIÓN DE INFORMACIÓN II
David E. Losada
9.1 INTRODUCCIÓN
9.2 EXTENSIONES DE LOS MODELOS CLÁSICOS
9.2.1 Modelo vectorial con normalización por longitud basada en pivote
9.2.2 El modelo BM25
9.2.3 Los modelos basados en indexación por semántica latente
9.3 LOS MODELOS DE LENGUAJE ESTADÍSTICOS
CAPÍTULO 10. TÉCNICAS DE MODIFICACIÓN DE LA CONSULTA
Ángel Zazo Rodríguez, Carlos García-Figuerola Paniagua y José Luis Alonso Berrocal
10.1 INTRODUCCIÓN
10.2 REALIMENTACIÓN DE CONSULTAS
10.2.1 Realimentación de consultas para el modelo vectorial
10.2.2 Inconvenientes de la realimentación de consultas
10.2.3 Evaluación de la realimentación de consultas
10.3 EXPANSIÓN DE CONSULTAS
10.3.1 Pseudo-realimentación de consultas
10.3.2 Utilización de diccionarios y tesauros manuales
10.3.3 Clustering en expansión de consultas
10.4 TESAUROS AUTOMÁTICOS
10.4.1 Expansión de la consulta original
10.4.2 Tesauros construidos utilizando medidas de coocurrencia
10.4.3 Tesauros de similitud
10.4.4 Asociación de términos y frases: Phrase-finder
10.4.5 Tesauros de términos infrecuentes
CAPÍTULO 11. CLASIFICACIÓN DOCUMENTAL.
Luis M. de Campos Ibáñez y Alfonso E. Romero López
11.1 INTRODUCCIÓN A LA CLASIFICACIÓN DOCUMENTAL
11.1.1 El proceso de clasificación documental
11.1.2 Representaciones de documentos
11.1.3 El problema de la clasificación documental
11.1.4 Dificultades del problema
11.1.5 Notación
11.2 EVALUACIÓN
11.2.1 Medidas desde el punto de vista de las categorías
11.2.2 Medidas desde el punto de vista de los documentos
11.3 MÉTODOS PARA LA CLASIFICACIÓN DOCUMENTAL
11.3.1 El método k-NN
11.3.2 El método Rocchio
11.3.3 El método Naive Bayes multinomial
11.3.4 Otros métodos
11.4 COLECCIONES DOCUMENTALES
11.4.1 Reuters-21578
11.4.2 Ohsumed
11.4.3 20 Newsgroups
11.4.4 RCV1
CAPÍTULO 12. AGRUPAMIENTO DOCUMENTAL
M. Eduardo Ares Brea, Javier Parapar López y Álvaro Barreiro García
12.1 INTRODUCCIÓN
12.1.1 Una breve definición
12.1.2 Aplicaciones de técnicas de agrupamiento documental
12.2 REPRESENTACIÓN DE DOCUMENTOS Y MEDIDAS DE SIMILITUD
12.2.1 Representación de documentos textuales
12.2.2 Medidas de distancia
12.3 ALGORITMOS DE AGRUPAMIENTO
12.3.1 Batch k-Means
12.3.2 Algoritmos jerárquicos aglomerativos (*-link)
12.4 EVALUACIÓN DE LOS ALGORITMOS
12.4.1 Importancia de la evaluación
12.4.2 Metodología
12.4.3 Colecciones
12.4.4 Métricas
12.5 RECUPERACIÓN DE INFORMACIÓN BASADA EN CLUSTERS
12.6 OTROS ALGORITMOS DE AGRUPAMIENTO DE DOCUMENTOS
CAPÍTULO 13. RECUPERACIÓN XML
Juan Manuel Fernández Luna y Juan Francisco Huete Guadix
13.1 INTRODUCCIÓN
13.2 EXTENSIBLE MARKUP LANGUAGE (XML)
13.2.1 ¿Qué es XML?
13.2.2 Elementos XML
13.2.3 Declaración de tipo de documento
13.2.4 Conceptos básicos de XPath
13.3 INDEXACIÓN
13.4 CONSULTA
13.4.1 NEXI
13.5 RECUPERACIÓN
13.5.1 Propagación
13.5.2 Mezcla
13.5.3 Resolución de
PREFACIO
LISTA DE AUTORES
CAPÍTULO 1. INTRODUCCIÓN A LA RECUPERACIÓN DE INFORMACIÓN
Benjamin Piwowarski y Roi Blanco González (Traducido por Nahir Seijo Saavedra)
1.1 DEFINICIÓN DE RECUPERACIÓN DE INFORMACIÓN
1.1.1 Introducción
1.1.2 Las tres dimensiones de la Recuperación de Información
1.1.3 Componentes de un sistema de RI
1.2 BREVE HISTORIA DE LA RECUPERACIÓN DE INFORMACIÓN
1.2.1 Las bibliotecas se digitalizan
1.2.2 La web
1.3 CONCEPTOS IMPORTANTES
1.3.1 Relevancia
1.3.2 Representación
1.3.3 Modelo
1.3.4 Evaluación
1.3.5 Índices
CAPÍTULO 2. INDEXACIÓN DE DOCUMENTOS Y PROCESADO DE CONSULTAS
Roi Blanco González
2.1 INTRODUCCIÓN
2.1.1 Fuentes de datos y adquisición de documentos
2.1.2 Procesamiento de textos
2.1.3 Procesado de términos
2.2 INDEXACIÓN MEDIANTE FICHEROS INVERTIDOS
2.2.1 Diccionario
2.2.2 Fichero de ocurrencias
2.3 PROCESADO DE CONSULTAS
2.3.1 Modificación de los términos de la consulta.
2.3.2 Consultas booleanas y emparejamiento coordinado
2.3.3 Optimizaciones al procesado de consultas
2.3.4 Implementación del emparejamiento en un sistema real
CAPÍTULO 3. MODELOS DE RECUPERACIÓN DE INFORMACIÓN CLÁSICOS
Fidel Cacheda Seijo y Juan Antonio Martínez Comeche
3.1 INTRODUCCIÓN
3.2 MODELO BOOLEANO
3.3 MODELO VECTORIAL
3.3.1 Esquemas de ponderación
3.4 MODELO PROBABILÍSTICO
CAPÍTULO 4. EVALUACIÓN DE LA EFICACIA DE LA RECUPERACIÓN
Juan Antonio Martínez Comeche
4.1 INTRODUCCIÓN
4.2 CONCEPTOS BÁSICOS
4.2.1 Eficacia, eficiencia
4.2.2 Relevancia
4.2.3 Exhaustividad, precisión
4.3 MEDIDAS DE LA EFICACIA A PARTIR DE LA CURVA PRECISIÓN-EXHAUSTIVIDAD
4.3.1 Medidas basadas en puntos de la curva
4.3.2 Medidas que emplean interpolación y valores medios
4.4 MEDIDAS ORIENTADAS AL USUARIO
4.5 COLECCIONES DE PRUEBA
CAPÍTULO 5. RECUPERACIÓN DE INFORMACIÓN WEB
Juan Antonio Martínez Comeche y Fidel Cacheda Seijo