Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

FUNDAMENTOS DE RECUPERACIÓN DE LA INFORMACIÓN (Completos), Apuntes de Informática

Asignatura: Fundamentos de recuperación de información, Profesor: Ana Isabel Sanchez Casabón, Carrera: Información y Documentación, Universidad: UniZar

Tipo: Apuntes

2016/2017
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 16/11/2017

algalan73
algalan73 🇪🇸

4.7

(13)

4 documentos

1 / 63

Documentos relacionados


Vista previa parcial del texto

¡Descarga FUNDAMENTOS DE RECUPERACIÓN DE LA INFORMACIÓN (Completos) y más Apuntes en PDF de Informática solo en Docsity! FUNDAMENTOS DE RECUPERACIÓN DE LA INFORMACIÓN Alberto Galán Lahoz TABLA DE CONTENIDO TEMA 1: CONCEPTUALIZACIÓN DE LA DISCIPLINA. PROBLEMAS DE LA RECUPERACIÓN DE LA INFORMACIÓN. ............................................................ 1 Introducción .......................................................................................................... 1 Características de la Recuperación de Información .............................................. 4 Los Sistemas de Recuperación de la Información (SRI) ...................................... 5 Relaciones inter e intradisciplinares ..................................................................... 6 Los especialistas en Recuperación de Información. ............................................. 6 TEMA 2. MODELOS DE RECUPERACIÓN DE INFORMACIÓN ....................... 8 Consideraciones generales .................................................................................... 8 Objetivo de los modelos de RI .............................................................................. 8 Conceptos clave de los modelos de RI ................................................................. 9 Tipos de modelos .................................................................................................. 9 Otros modelos ..................................................................................................... 15 TEMA 3: LENGUAJES DE RECUPERACIÓN DE INFORMACIÓN ................. 17 Introducción. ....................................................................................................... 17 Lenguaje natural ................................................................................................. 17 Lenguaje documental - Lenguaje controlado ..................................................... 18 Lenguajes de interrogación. Tipos de operadores. ............................................. 19 Conclusión .......................................................................................................... 23 TEMA 4: ETAPAS EN LA BÚSQUEDA DE INFORMACIÓN ............................. 24 Concepto y objetivo de estrategia de búsqueda. ................................................. 24 Tipos de búsqueda de información ..................................................................... 24 Etapas de la búsqueda de información ................................................................ 25 Conclusión .......................................................................................................... 28 TEMA 5: EVALUACIÓN DE LOS SISTEMAS DE RECUPERACION DE INFORMACION .......................................................................................................... 29 Introducción. ....................................................................................................... 29 2  Visión Restrictiva Solo reconoce las operaciones encaminadas a la recuperación, sin especificar los pasos de preparación de los documentos o la información. Lancaster, Codina, Álvarez Pérez Ossorio 2. Proceso de búsqueda, representación, almacenamiento de la información.  Visión Amplia Engloban dentro de la recuperación las fases correspondientes a la preparación del documento para la búsqueda (preparación y almacenamiento). Cleverdon, Kowalski Cada corriente o tendencia se dirige a una audiencia diferente:  Biblioteconomía (Library Science)  Ciencia de la información (Información Science)  Informática (Computer science) Todas las definiciones derivan de la evolución de las tecnologías y se basan en la necesidad informativa, los documentos a obtener y la respuesta que uno tiene. La representación del documento se convierte en un aspecto clave. Orden y organización para recuperar. El proceso finaliza cuando el usuario ha recuperado todo, o por que no hay nada más. Pero no siempre es así, el usuario cree que lo ha recuperado todo pero no siempre es verdad. Aquí entrará el Feedback por relevancia que es la capacidad de saber si todo lo que ha obtenido es todo lo que hay. Para esto hay que conocer a la perfección la base de datos o el sistema. Los documentos tienen que estar organizados, almacenados, transformados, índice del texto, para poder realizar un intercambio hacia la indización para la consulta y para la respuesta. Indización es la otra cara de la Recuperación. Se indiza para recuperar y se recupera una vez indizado. Indización documento, permite su representación. Indización de búsqueda, obtengo una representación del documento. Todas estas representaciones de documentos pasa a una base de datos, que luego se compararan estas dos y obtendremos la respuesta. Cadena documental: el conjunto de operación que permiten obtener la información. 3 SRI (Sistemas de Recuperación de información): Sistemas que permiten dar una respuesta. 1. Los modelos presentan una serie de elementos. 2. La colección de registros representados en un SRI 3. Representación de la información 4. Los usuarios y su necesidad de información 5. Los intermediarios de búsqueda 6. La expresión de la necesidad en una secuencia de sentencias de búsqueda 7. El proceso de equiparación y búsqueda de los documentos que coincidan con la estrategia de búsqueda. 8. Evaluación de los documentos recuperados. Todos estos elementos indican una serie de problemas: - En la representación y en la entrada del sistema - En la fase de búsqueda recuperación o Comportamiento del buscador o Factores sociales y cognitivos del usuario (dependiendo de los conocimientos del usuario será mas fácil ver lo que quiero buscar) o Identificar la verdadera necesidad de información del usuario (a averiguar que es lo que se quiere, determinarlo). o Como construir estrategias de búsqueda eficientes (Como me organizo para poder encontrar que es lo que yo quiero). - En el propio SRI tanto en el diseño de hardware como de software. - No hay una opinión única. Si estos son los problemas de la RI, los investigadores traducen esos problemas en campos de investigación de la RI en: - ¿Cómo recuperar de manera eficaz y rápida información relevante para las necesidades de los usuarios? - ¿Cómo mejorar la indización del material con la implementación y el desarrollo de técnicas que ayuden a estructurar el texto no estructurado, mediante metatags, XML? - El uso del lenguaje documental. - La percepción de la relevancia. 4 Características de la Recuperación de Información Elemento condicionante: La Automatización, dentro de la recuperación encontraremos un elemento SRI, que tiene que poner en contacto 2 partes: el Usuario, y documentos (coincide con la base de datos) el objetivo recuperar solo la información relevante. Definición de la RI  Es un proceso de comunicación, permite comunicar y utiliza los lenguajes. Tiene elementos: 1. Comunicación entre usuario + intermediario 2. Comunicación entre el buscador y el SRI (Sistema R.I)  Es un proceso interactivo, el buscador reacciona en tiempo real. Se puede variar la búsqueda.  Es un proceso de investigación científica, establecemos variables, hipótesis, procedimientos y métodos. Establecemos sentencias de búsqueda, y resolvemos problemas.  Tiene una actividad clasificatoria, permite hacer grupos, en la indización como en la búsqueda. Definiciones de RI en el ámbito de la ciencia de la documentación. “Disciplina que se ocupa de la aplicación del conjunto de técnicas, métodos y actividades para buscar, localizar y recuperar de una manera eficiente en los diversos SRI la información relevante que requiere el usuario y satisfacer así su necesidad de información”. (Salvador Oliván, 2008, pp. 131) “Es el proceso por el cual, una vez preparado el documento e identificada la necesidad informativa, se produce una comparación entre ambas para producir unos resultados satisfactorios para el usuario” (Raquel Gómez Díaz, 2005, p.35) Objetivo de la RI Proporcionar información relevante al usuario para satisfacer su necesidad de información. SIGNIFICADO DEL TÉRMINO “INFORMACIÓN” Es el término que produce más problemas, plantea ambigüedad terminológica (habría cientos de definiciones). El mayor problema es que el entorno modifica el concepto, pero prescindiendo del entorno y de las definiciones, Buckland se plantea estos significados: 7 - Evaluar los resultados y modificar la estrategia de búsqueda - Ofrecer valor añadido a la información Características que debe poseer el especialista en búsquedas - Debe poseer conocimientos necesarios para usar adecuadamente las fuentes de información electrónicas y dar respuesta a las necesidades de información de los usuarios. - Debe conocer principios y técnicas para: Conocer las necesidades de los usuarios Los servicios y las bases de datos existentes Como acceder y buscar la información en esos lugares - Se han determinado un conjunto de habilidades. Aspectos a tener en cuenta por un documentalista: - La desintermediación - Adaptación: a las modificaciones, técnicas, nuevas, etc. - Adecuación: a las necesidades sociales del entorno, y a las del usuario. En definitiva debe “Conocer una serie de conceptos, principios y técnicas que le permiten comunicarse eficazmente con el usuario y con los SRI y que le permita identificar y resolver los problemas que surjan a lo largo del proceso” (Salvador Oliván, 2008, 131) 8 TEMA 2. MODELOS DE RECUPERACIÓN DE INFORMACIÓN Consideraciones generales En la actualidad los modelos de RI son una de las mejores herramientas para poder realizar las búsquedas de aquello que se ha consultado o aquello que se desea consultar. Así solventaran uno de los problemas más importantes en los SRI: como discernir entre los documentos relevantes y los no. Sin embargo, es conveniente recordar que el planteamiento de la búsqueda y su resolución no solo depende de los modelos que vamos a definir. Desarrollar un modelo adecuado nos permite determinar la estrategia de Recuperación más adecuada para subsanar nuestra necesidad informativa. Es más, nos deberá permitir rehacer la consulta si fuese necesario. Definición de modelo de Recuperación de Información: Es una representación simplificada que sirve para alcanzar una comprensión global de un sistema, sin necesidad de descender a los detalles concretos. Una simplificación que se realiza por abstracción o por generalización, cuanto más próxima a la realidad esté mejores serán las predicciones. (ABADAL Y CODINA) Objetivo de los modelos de RI Se pretende hacer grupos de necesidades de información coincidentes, y luego tenemos que representarlos, y esto es de lo que se ocupan los modelos. Formula estándar para definir un modelo de RI: [D, Q, F, R (q1, d1)] Donde: D: Representaciones de los documentos de la colección que se desea recuperar. Q: Representaciones de las consultas que plasman las necesidades de información del usuario F: Marco que permite establecer una relación entre las representaciones de los documentos y las de las consultas. 9 R (q1, d1): Función de relevancia que asigna un valor al documento i para una consulta dada j Un modelo de RI es: - La manera en la que se representan las consultas - La manera en la que se representan los documentos - La manera en la que se realiza el emparejamiento de consultas y documentos. Conceptos clave de los modelos de RI Términos índice: Términos que representan el contenido de los documentos y de las demandas de los usuarios y que no todos los términos tienen la misma importancia, y por lo tanto no todos tienen la misma precisión. Proceso de obtención: - Seleccionar documento - Eliminar palabras vacías - Ordenar alfabéticamente - Se obtiene un fichero inverso, siempre nos da el lugar de referencia del documento. Concepto de peso: La mayor o menor importancia o precisión de un término indicie frente a otro se denomina: “asignación de pesos” El término que se repite en todos los documentos deja de ser importante. Tipos de modelos 1. Modelo Booleano Primer modelo que se estableció, mas antiguo, y hoy por hoy se sigue utilizando. Modelo sencillo, y simple y muy difundido en información comercial. Todos los elementos del conjunto tienen que tener 3 características: a. Un atributo que permita saber si pertenece a ese conjunto b. Cada elemento debe ser distinto a los demás por lo tanto no aparecerá más de una vez. c. El orden de los elementos es irrelevante: es decir que dos conjuntos con los mismos elementos pero en diferente orden se consideran idénticos. 12 Un documento puede ser recuperado con una coincidencia parcial. Es decir, puede haber un emparejamiento parcial, asignando pesos binarios a los términos de las preguntas y de los documentos. En el sistema de pesos en una colección es posible crear grupos de documentos o clusters que quedan próximos entre si. “están formados por documentos similares, es decir, documentos que previsiblemente son relevantes para la misma necesidad de información. Se pueden organizar en estructuras jerárquicas….” Con este sistema se ponen en relación los objetos del texto. Cuando los vectores de un documento son similares se deduce que los documentos están semánticamente relacionados. Dos vectores tienen algún grado de similitud siempre y cuando tengan algún elemento en común = CONCURRENCIA. Debe ser usada con cuidado porque en cuanto descendemos perdemos precisión en la recuperación. Las ventajas de este sistema son las siguientes  Es muy usado, simple y rápido.  Permite incorporar pesos a la recuperación (pregunta y documento), mejorando la recuperación. Es decir, permite expresar la importancia de cada término índice en el documento y en la consulta  Se recuperan documentos cuya coincidencia con la pregunta es parcial (similitud)  Documentos similares entre sí (están en la misma zona….)  Podemos ordenar los documentos recuperados, según el grado de similitud entre documento y consulta  El tamaño del conjunto recuperado se puede adaptar a las necesidades del usuario. Por otra parte, los inconvenientes son:  Reconoce los “términos índice” como independientes.  Los documentos largos quedan pocos representados porque tienen pocos valores en común.  Es difícil para el usuario ponderar los términos en su pregunta. 13  Se pueden dar falsos positivos (coincidencia de las palabras no tiene que ser completa)  Se pueden dar falsos negativos, porque documentos con contextos similares pero con diferente vocabulario son serán asociados.  Presentan dificultades a la hora del crecimiento de la colección. 3. Modelo probabilístico Empieza sobre los años 60. Realmente se establecen en 1976. Tiene una base matemática más sólida que los modelos anteriores y su objetivo es determinar la probabilidad de que un usuario haga una consulta y recupere un documento que sea relevante para él. La base del modelo es el cálculo de la probabilidad de que un documento sea relevante para una pregunta dada o no. Es decir, posible calcular la probabilidad de que ese documento sea relevante para esa pregunta. Dada una consulta de un usuario, existe un conjunto de documentos, y no otro, que satisface dicha consulta, es decir que contiene los documentos relevantes a la consulta (Conjunto ideal). De ese conjunto no conocemos exactamente sus características. Esta suposición inicial (hipótesis) genera un primer subconjunto de documentos relevantes, y a continuación, se inicia una interacción con el usuario para mejorar la calidad de la respuesta: se recalcula. Es usuario no conoce los términos de indización ni los términos de respuesta. Si un documento es seleccionado aleatoriamente de una base de datos hay cierta probabilidad de que sea relevante a la pregunta. Los documentos no son elegidos aleatoriamente, sino que se eligen sobre la base de la equiparación con la pregunta. Si una base de datos contiene “n” documentos, es evidente que “n” de ellos son relevantes; para ello es preciso determinar las propiedades que definen el conjunto de documentos relevantes correctamente. Ahí reside el problema, porque no sabemos cómo. Todo lo que sabemos es que hay términos índice cuyo significado puede usarse para caracterizar estas propiedades. Todos los términos que definen a un documento son binarios y los términos que definen un documento son independientes entre sí. En este modelo también actúan los pesos pero no sabemos si son buenos o malos descriptores. 14 El usuario valora la respuesta y decide qué documentos son relevantes y cuales no. El sistema emplea esta información para refinar la respuesta. Por repetición de este proceso, se espera que la descripción de la respuesta evolucione aproximándose a la ideal porque cada paso realimenta la información de la que se dispone para calcular la relevancia de un documento. Este método es capaz de calcular el grado de similitud existente entre cada documento de la colección y la consulta ponderada y permite la equiparación parcial consiguiendo ordenar los documentos en orden decreciente de acuerdo a su probabilidad de relevancia en relación a la consulta. Las ventajas de este sistema son las siguientes  Los documentos de salida pueden ser ordenados de forma decreciente por su probabilidad de ser relevantes.  Es un desarrollo de los anteriores modelos, mejorando algún aspecto sobre todo en texto libre. Por otra parte, los inconvenientes son:  La necesidad de predecir inicialmente los conjuntos de documentos relevantes y no relevantes.  No todos los documentos seleccionados son relevantes.  No tienen en cuenta la frecuencia de aparición de los términos índice, porque los pesos son binarios.  Se asume la independencia mutua entre los términos índice. De este modelo otros como las redes de inferencia y las redes de confianza 4. Conclusión sobre los tres modelos: booleano, vectorial y probabilístico. El modelo booleano es el método clásico por excelencia. Se sigue usando por su sencillez, pero es el más flojo de todos. No permite relevancias parciales y ofrece problemas de rendimiento. El modelo vectorial ofrece mejores resultados que el probabilística para colecciones generalistas y peores resultados para las colecciones temáticas. Actualmente se usa más el vectorial y todas las variantes desarrolladas a partir de él. 17 TEMA 3: LENGUAJES DE RECUPERACIÓN DE INFORMACIÓN Introducción. Los lenguajes de RI sirven para la comunicación, expresar ideas, sentimientos entre personas, no hay un único lenguaje, hay escritos, orales, corporales, etc. El usuario tiene una necesidad informativa, y es incapaz de comunicarse con el sistema. Se tiene que traducir del lenguaje natural a lenguaje documental, y aun así reconoce los conceptos el sistema, pero estos tendrán que tener un orden, y aquí aparecerá el lenguaje de interrogación, este suele plantear problemas de tipo técnico se superan con la práctica. Lenguaje natural Definición: Conjunto de sonidos articulados con que el hombre manifiesta lo que piensa o siente. Es el sistema lingüístico que usamos de forma habitual para comunicarnos entre los seres humanos (autores, escritores…) y que se aprende de forma espontánea. Lo usan los usuarios con escaso nivel de ALFIN para satisfacer sus necesidades informativas. En la RI cada día está adquiriendo mayor protagonismo y es del que parte la indización. El lenguaje natural no es texto libre sino que son términos que se van a utilizar. Ventajas del lenguaje natural - Ilimitado. - Tiene un coste bajo para ser utilizado. - Permite usar en la búsqueda el Vocabulario del autor. - El acceso al contenido semántico de los términos (diccionario) es muy fácil y no hace falta manual de uso. - Para recuperar se puede hacer búsqueda poco elaboradas, pero precisas. - Es un tipo de lenguaje Flexible aunque eso le exige al usuario controlar todas las posibilidades. 18 - Presenta una alta precisión en la recuperación de información porque se puede nombrar a personas, instituciones, etc. - Facilita la recuperación a través de su exhaustividad y especificidad. Inconvenientes del lenguaje natural: - Se han sobrevalorado sus ventajas. - Sus inconvenientes se centran sobre todo en la recuperación, porque hay que tener en cuenta: o Sinonimia produce recuperaciones con silencio documental (no se recuperan todos los términos: sinónimos) o Los giros lingüísticos pueden producir ruidos y silencios. - Es un lenguaje ambiguo y por eso en este lenguaje el Contexto es de gran importancia: análisis semántico y sintáctico. o Esto exige un gran esfuerzo intelectual (sinónimos, generalidad, etc.) o Sin una sintaxis adecuada hay peligro de asociar términos incorrectos en la búsqueda - Intención con la que se hace la pregunta - La exhaustividad puede acarrear pérdida de precisión. Lenguaje documental - Lenguaje controlado No son términos realmente sinónimos pero se pueden encontrar de las dos maneras. Son un conjunto de signos con una serie de normas que permite la representación de los documentos. Sus principales características son: - Nace previamente, no lo utiliza nadie para hablar. - No es lenguaje natural, pero sí que utiliza términos del lenguaje natural. - Su objetivo básico es la recuperación de información en las mejores condiciones posibles. - Mejora la consistencia en la representación de la materia, porque controla los accidentes gramaticales: o Reduce las ambigüedades semánticas. o Permite el control de la sinonimia y la homonimia. o Ruido/Silencio - Reduce esfuerzo. - Reduce tiempo. - Reduce gasto. 19 Es un lenguaje intermedio que traduce la necesidad informativa del usuario y pone en relación las informaciones solicitadas por los usuarios en el proceso de entrada, con las informaciones contenidas en los documentos, en la ecuación de búsqueda. Se convierte en una especie de guía para el usuario, le orienta hacia donde tiene que moverse para solucionar un proceso informativo. Ventajas del lenguaje documental: - Reduce las ambigüedades semánticas. - Permite búsquedas amplias, por que indica una estructura que permite buscar a lo largo de la colección. - Se utiliza mucho en bases de datos - Es una guía para el usuario por lo tanto un punto de partida. Inconvenientes del lenguaje documental: - Tiene unas normas, y hay que conocerlas, si no no es posible trabajar. - Supone un alto coste de creación y mantenimiento. - Necesita realizar actualizaciones periódicas - El intercambio de material entre SRI es dificultoso debido a la incompatibilidad entre lenguajes controlados. - Lagunas de exhaustividad ya que pueden cometer errores de omisión. - Las palabras del autor no permite trabajar con ellas, o si trabaja con ellas puede inducir a errores. - Si las preguntas no están planteadas correctamente, se pierde la información. Encontramos dos tipos de Lenguajes documentales: Libres y controlados. Lenguajes de interrogación. Tipos de operadores. Es el conjunto de órdenes, operadores y estructuras (signos de puntuación) que, organizados según unas normas lógicas… Las normas que rigen estos lenguajes actúan como si fueran la sintaxis del propio lenguaje, por tanto: - Indican el orden en el que deben presentarse los elementos. - La disposición de las estructuras. (Forma en que hay que ponerse, etc.) - Las posibilidades de combinar los elementos - Las prioridades en la elección 22  NEAR/7: significa que entre dos palabras a buscar habrá hasta un total de 7 entre medio. Ej.: España NEAR Economy  Dos o más términos específicos en un mismo párrafo sin importar el orden.  Recupera registros que tienen ambos términos en el mismo campo.  W#, WHITIN/#: Trabajadores W/3 emigrantes  Términos entre los cuales existen el nº de palabras especificadas  Recupera: registros con ambos términos en un rango de tres palabras.  PRE/#: Trabajadores PRE/2 Emigrantes  Dos palabras en el orden exacto en el que se escriben y en un rango determinado de palabras.  Recupera: registros que tienen ambos términos en el orden establecido.  ADJ “….”: Están inmediatamente juntos y en este orden sin intermediarios y en una misma frase. c) Operadores de comparación-truncamiento Mayor, menor, menor o igual, mayor o igual, igual =. Se usan para recuperar información sobre criterios cuantitativos (Fechas, valores críticos) es decir con los campos numéricos en una Base de Datos. Permiten establecer condiciones de igualdad o de no igualdad (entre nº), se similitud o de divergencia (entre cadenas de caracteres), de presencia o ausencia (de valores). * ¿ ¡ ¿ $ Permiten las búsquedas en raíces semánticas, nos permite buscar eliminando prefijos, sufijos, o cadenas de caracteres en el interior de la palabra: obtenemos términos derivados. Se utilizan como comodines. Puede haber ruido documental en la RI. Tipos de truncamiento (identificar la raíz) - Izquierda es el más usado: *ierro (hierro, fierro) - Derecha: Mexic* (México, mexicanos, mexicanas, et.) 23 - Centro: wom*n (women, woman) Conclusión a) Se pueden recuperar documentos combinando todos los modelos entre sí. b) Se pueden utilizar paréntesis, como anteriormente, cambiaran los significados en las operaciones complejas. c) Los operadores aparecen más vinculados hacia las bases de datos. d) Hay que ajustarse al entorno, normalmente se indica en la BD como hay que hacer las búsquedas. e) Se deben limitar las búsquedas ya que permite reducir el número de registros. Utilizar el operador NOT con otros términos y el AND con otros términos: o Buscar por temas principales o Buscar por el termino mas especifico o Utilizar los operadores de proximidad o Limitadores por campos. f) Se deben ampliar las búsquedas ya sea para aumentar o reducir el número de registros. Utilizar el operador OR con otros términos o Truncar la palabra o Utilizar un término más amplio o Usar sinónimos o Buscar “en todos los campos” 24 TEMA 4: ETAPAS EN LA BÚSQUEDA DE INFORMACIÓN Concepto y objetivo de estrategia de búsqueda. El término estrategia de búsqueda se ha utilizado con diferentes sentidos en la Recuperación de la Información. Así, Hartes, en 1896 la define como un plan global para la resolución de un problema de búsqueda. Por otra parte, Lancaster agrega que la estrategia de búsqueda implica un análisis conceptual de la necesidad del usuario y su traducción a un conjunto de términos. Por ello, junto con la elaboración de la sentencia de búsqueda, es necesario hablar de la estrategia de búsqueda. Dicha estrategia debe ser un plan ideal de interrogación (bases de datos) que incluya el objetivo de la búsqueda, el plan general y el plan específico de operación. El objetivo de la estrategia de búsqueda se obtiene identificando el tipo de información que nos permite identificar el objetivo del usuario. En este mismo proceso entrara la selección de la base de datos, los procesos, etc. Teniendo muy claro un aspecto, nunca existe solo una estrategia de búsqueda si no varias, por tanto, el plan general de búsqueda, la estrategia de búsqueda no tiene un único camino, si no varios para solucionar la necesidad del usuario. Tendremos pues que actuar de manera diferente para solucionar cada tipo de búsqueda de información. Tipos de búsqueda de información - Búsqueda de un ítem conocido: buscar un documento del que sabemos sus datos. - Búsqueda temática: buscar y localizar material sobre un tema que ayude a resolver una pregunta concreta. Búsqueda de información que ayude a resolver una determinada pregunta o que ayude a la toma de decisiones. Búsqueda de literatura publicada o del cuerpo de conocimiento existente sobre un determinado tema. Búsqueda de conocimiento actualizado. Atendiendo a los objetivos, la búsqueda puede ser: 1. Búsqueda de elemento conocido. 2. Búsqueda de información específica. 3. Búsqueda de información general. 27 Se deben verificar y valorar las herramientas a manejar por el especialista para elegir la adecuada y buscar un equilibrio entre su relevancia con el tema y la accesibilidad. 4. Formulación de la estrategia de búsqueda Concretar sobre el papel toda la necesidad informativa. Se tiene que seguir tres pasos: - Análisis conceptual: Determinar cuáles son los conceptos más relevantes. (Indizar) - Traducción de los conceptos: Una vez determinados es aconsejable añadir más términos para poder buscar. Identificados los conceptos importantes hay que generar todos los posibles términos a usar (buscar sinónimos que me sirvan para hacer las búsquedas). - Planteamiento en la estrategia: Se debe realizar lo siguiente. o Escribir en el lenguaje que conozca el sistema o Establecer las relaciones lógicas o Conocer la organización de la información o Conocer los fundamentos de las técnicas de recuperación (comandos, códigos, etc.) Todo esto es lo que se denominan perfiles de búsqueda. La petición de información se debe traducir a sentencias. Para ello se pueden realizar diversos planteamientos en las estrategias de búsqueda- a) Planteamiento en bloques; Ir haciendo ecuaciones independientes para cada uno de los conceptos, y los resultados los traduzco. b) Planteamiento en fracciones sucesivas; Va haciéndolo por fracciones. Resolviendo sobre la marcha. El resultado es el mismo. c) Planteamiento de primero de concepto más específico d) Planteamiento de crecimiento de citas en forma de perlas 5. Ejecución de la búsqueda Diseñada la estrategia hay que ejecutar la sentencia de búsqueda en el sistema. Si la estrategia es adecuada, finalizada la búsqueda si no es buena, hay que modificarla y valorarla. Si los resultados han sido inadecuados deberemos pues valorar la ecuación: adecuada, inadecuada, si ha habido error en las fuentes, error en la elección de los lenguajes, etc. Este proceso también le sirve al especialista quien aprende y mejora sus competencias en la búsqueda. Detectados los errores se debe modificar la estrategia, los términos usados, etc… 28 Otros caminos como la EXPLORACION (Browsing): - El acceso a documentos mediante técnicas de visualización de parte de su contenido que pueda ser relevante y la posterior asociación con otros documentos de perfil similar. - El usuario accede a una enumeración de elementos descriptivos y mediante un proceso de selección de elementos va centrando el objetivo de su búsqueda. Los criterios del usuario son la deducción y la asociación de concepto frente a la lógica del sistema de las ecuaciones. - Sería aconsejable en aquellos entornos donde el usuario no tiene idea clara de lo que hay. 6. Feedback. Revisión de resultados y presentación de los resultados finales. Terminada la búsqueda hay que revisar los resultados, evaluarlos ya que con ello se facilita el “aprendizaje” del usuario/intermediario. Como hemos visto anteriormente se podrá modificar la búsqueda si los resultados no son óptimos. Acabado el proceso se le debe explicar al usuario siendo conveniente darle el resultado y explicarle el por qué son esos documentos y no otros. Debe informársele de: - Las fuentes de información usadas, la estrategia, el formato de las referencias, etc. - Los procedimientos usados o - Los procedimientos que debe seguir el usuario si desea obtener los documentos primarios. - El formato: impresos, digitales, etc., para que el usuario decida cual escoge. Este proceso es también muy importante junto con la entrevista primera con el usuario. Conclusión Para finalizar se ha de indicar que los caminos a seguir en la estrategia de búsqueda dependen principalmente de dos factores 1. La calidad del contenido de los registros existentes en la base de datos (control terminológico) 2. La experiencia del usuario. Si el usuario ha buscado información ya esa experiencia soluciona los problemas mejor que un usuario que no ha buscado nunca. La mejor recuperación es sin duda aquella que permite la combinación de varias técnicas. 29 TEMA 5: EVALUACIÓN DE LOS SISTEMAS DE RECUPERACION DE INFORMACION Introducción. Toda la evaluación de información se proyecta en la investigación en RI, y todos los campos de investigación se centran en dos tendencias: 1) Medidas eficaces y estandarizadas 2) Colecciones experimentales adecuadas Y esto se traduce a su vez en dos bloques: - Desde aspectos tradicionales: medir de forma objetiva la respuesta. - Orientado a los usuarios: ¿cómo medimos la satisfacción del usuario? Hasta ahora no se había tenido en cuenta, y ahora si se valora su satisfacción. Tendremos pues que aplicar unos criterios y unas medidas para evaluar un sistema. ¿Qué o quién evalúa? Son dos sujetos distintos: el buscador y el usuario. Cuando evalúa el buscador lo que valora es si los documentos son coincidentes con la necesidad informativa. El usuario tiene que evaluar si la respuesta obtenida le vale o no. Se evalúan las funciones, el rendimiento y el proceso. a) Funciones: se analiza si el sistema cumple las funciones para que fue creado. Los procesos que se hacen como prueba tienen que ser valorados para poder solucionarlos con posterioridad. b) Rendimiento: Se utilizan medidas de tiempo y de espacio. En cuanto tiempo RI, y en cuanto espacio RI, es mejor el que en menor tiempo y en menor espacio solucione el problema. c) El proceso: Modos y lugar. Se utiliza una colección de evaluación de referencia compuesta por: - Colección de documentos - Conjunto de consultas - Conjunto de documentos relevantes. 32 El problema de la relevancia no radica en cómo medir la relevancia, sino en utilizar la relevancia como medida o como criterio de medida. Lo difícil es hacer coincidir la relevancia del usuario con la relevancia que utiliza el sistema. Medidas orientadas a los procesos. Evaluación de la base de Datos (o también en internet): 1) Selección: mide el número de documentos que hay en la base de datos, el grado de solapamiento con otras bases y qué es lo que se espera encontrar en la base de datos antes de hacer la búsqueda. 2) Contenido: evalúa el tipo de documentos que contiene la base de datos, temática de los documentos y la actualización de los mismos. Evaluación de la consulta: 1) Traducción de una consulta. 2) Errores en la consulta. 3) Tiempo de realización de la búsqueda. 4) Dificultad en la realización de la búsqueda. 5) Número de instrucciones necesarias para hacer una búsqueda. 6) Coste de la búsqueda. Medidas orientadas al resultado. Las medidas aplicadas a la evaluación de los resultados son la precisión, la exhaustividad, la relación entre precisión y exhaustividad y la complementariedad dela precisión y exhaustividad. 1) Precisión. Existen varias denominaciones, factor de pertinencia, ratio de aceptación, relevancia, etc. Es la proporción de material (documentos) recuperado realmente relevante en el total de los recuperados (en la búsqueda): Precisión = a / b Es la más intuitiva y más sencilla de recordar porque mide el acierto Normalmente se mide entre 0 y 1 siendo la recuperación perfecta 1 (solo documentos relevantes). También se puede expresar en porcentajes con lo cual se proporciona una medida de la habilidad del sistema para evitar el ruido. Nª de doc. Relevantes recuperados / Nª total de docs. Recuperados x 100. 33 2) Exhaustividad. Se puede llamar, recall, rellamada, factor de exhaustividad, probabilidad condicional de un ítem, sensibilidad, etc. Es la proporción de material relevante recuperado (documentos relevantes que son recuperados) para una búsqueda determinada respecto del total de relevantes, independientemente de que se recuperen o no: Exhaustividad = a / (a + c) Proporciona una medida de la habilidad del sistema para recuperar documentos relevantes. Si el resultado de este cálculo tiene como valor 1 tendremos exhaustividad máxima, porque hemos encontrado todo lo relevante que había en la base de datos es decir la recuperación será perfecta. El principal problema es que generalmente no conocemos el número total de los documentos relevantes, y si los conociéramos querríamos recuperarlos todos. Los inconvenientes en el uso de la precisión y la exhaustividad son dos, según Korfhage: - La precisión se puede determinar, la exhaustividad no, porque para calcularla necesitamos conocer previamente el número de documentos relevantes. Para el cálculo de exhaustividad se suelen utilizar métodos estadísticos, por lo que será un método aproximado. - La exhaustividad y la precisión son igualmente significativas para los usuarios. 3) Relación entre exhaustividad y precisión o Son unas de las estrategias más importantes para la evaluación SRI, pero las únicas. o Hay que buscar un equilibrio entre ambas. En general los SRI tienden a maximizar la exhaustividad y la precisión de forma simultánea. o En la práctica estos dos parámetros están inversamente relacionados ( si mejora una, empeora la otra) La precisión se puede considerar como un tipo de factor coste en el tiempo que invierte el usuario para separar las referencias relevantes de las que no lo son o En la práctica la precisión se puede medir pero la exhaustividad es difícil. 34 o Funcionan como en una balanza, cuando una sube la otra baja. 4) Complementariedad a la precisión y la exhaustividad. 1) Complemento del ratio de precisión 2) Complemento del ratio de exhaustividad 3) El índice de irrelevancia 4) Complemento del índice de irrelevancia 5) Tasa de Fallo 6) Generalidad 7) Relación entre precisión, exhaustividad y generalidad 8) La medida de F Por último, vamos a definir las fórmulas para medir tanto el ruido documental como el silencio documental El ruido es la relación entre el número de documentos relevantes y no relevantes extraídos y el número de documentos relevantes existentes Ruido documental = c / (a + b) El silencio es la relación entre el número de documentos relevantes extraídos y el número de documentos relevantes existentes Silencio documental = c / (a + c) Un documento es un Falso positivo cuando se recupera pero no es relevante. Un documento es un Falso negativo cuando aunque es relevante no se recupera. Por qué obtenemos este rendimiento deficiente? - Deficiente indización del documento - Deficiente indización de la necesidad de información - Grado insuficiente de especificidad del lenguaje documental - Deficiente algoritmo de relevancia Medidas relacionadas con el usuario. Para un usuario, la necesidad de información no es estática, se modifica conforme lo hace su recepción de información. Por tanto, un mismo conjunto de documentos para una consulta no siempre es adecuado ya que la valoración varía con el usuario. Para ello hay que adoptar una serie de medidas en relación con el usuario: 37 parte) y explotarla modificando los objetivos (si yo quiero obtener la información completa o no). La información no estructurada es aquella que se utiliza en las operaciones cotidianas de: - Toma de decisiones - Trabajo colaborativo - Compartir conocimiento - Procesos de negocios Se gestiona para evitar el exceso de información, cumplir con disposiciones legales u optimizar los procesos de negocio. Internet Los dos tipos de información, estructurada o no, se mueven en Internet, que como sabemos es una red de redes locales de ordenadores a escala mundial que interconecta millones de ordenadores separados geográficamente. Internet permite intercambiar información entre ordenadores que físicamente no están próximos y a usar numerosas aplicaciones: La Worl Wide Web es un conjunto de protocolos y de aplicaciones que permiten el acceso a documentos multimedia almacenados en ordenadores remotos a través de internet. (Navegación o seguimiento de hipervínculos). Internet es pues como un medio de comunicación, a la vez que un servicio de localización y acceso a la información, que ha producido un impacto social, y lo ha hecho porque son diferentes al método tradicional tanto la creación como la publicación y la recuperación de los documentos. Internet como medio de comunicación ha producido: - La ruptura de todas las barreras entre la información y el usuario (posibilidad de crear y transmitir información enormemente). - Que el servicio de localización y acceso a la información sea diferente. Ahora, el especialista en información no tiene inconveniente en buscar, el usuario lo que quiere es solo encontrar. - El usuario accede autónomamente a buscar la información, no necesita intermediarios. La información no estructurada se encuentra en casi su totalidad en internet, pero los buscadores no son suficientes, dividiendo Internet en tres partes: 38  Internet global (se llega de cualquier manera, lo que se ve, lo que se recupera). Red de información libre y gratuita que es accesible mediante la interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, chats, mensajería o intercambio.  Internet invisible (necesita otros mecanismos para acceder a la información, no google, no se ve a primera vista Es información disponible en internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Por ejemplo el catálogo de una biblioteca, se accede a la base de datos pero no al contenido). Es inaccesible mediante los procesos habituales de RI que realizan los buscadores, directorios y agentes de búsqueda.  Internet oscuro (Ej. Intranet, cerrada exclusivamente a una parte). Esta se podría poner en el apartado de la Internet invisible, pero algunas bibliografías lo recogen así. Son servidores o hots que son totalmente inaccesibles desde nuestro ordenador porque cubren zonas restringidas con fines de seguridad nacional y militar. La socialización de Internet (Web 2.0) La principal característica de la Web 2.0 es que las páginas dejan de ser documentos estáticos para ser lugares de encuentro para compartir informaciones. Aumenta el acceso a la información a partir de la bidireccionabilidad las consecuentes interacciones sociales. Hay una nueva organización de la información y una participación diferente del usuario. La red se acerca al usuario. En el siguiente enlace aparece un mapa de lo que sería la Web 2.0 http://internality.com/web20/files/mapa-web-20.pdf La web 2.0 supone un cambio en la forma de buscar y localizar la información. La transformación de la web a la web 2.0 implica también un cambio en el concepto de navegador que pasa a ser un intermediario especializado para gestionar e integrar informar digital. Entre las características de esta evolución se encuentran: - Interoperabilidad: gracias a la cual sistemas diferentes pueden conectarse y compartir información entre ellos. - La arquitectura de información colaborativa. 39 La mayoría de sistemas de localización de información permiten exportar los resultados a otras plataformas. La opción más sencilla es que permitan exportar los resultados de la búsqueda a través de correo, gestores bibliográficos, etc. Este es el entorno en el que intentaremos resolver nuestras necesidades informativas. Si el entorno es peculiar las búsquedas en internet también presentaran peculiaridades. La RI en internet es un proceso complejo y multifacetado que permite solventar las necesidades informativas de los usuarios, y para eso se plantean elementos para este proceso: - Incluye procesos de creación de sistemas de hiperdocumentos. - Organización y arquitectura de la información. - Definición de necesidades informativas del usuario. - Utilización de aproximaciones conceptuales y herramientas técnicas. - Valoración, selección y aprovechamiento de resultados. http://fundacionorange.es/areas/25_publicaciones/WEB_DEF_COMPLETO.pdf Características de la Recuperación de Información en Internet Para conocer las características de la recuperación de información en Internet podemos centrarnos en tres ejes de contenido: Los problemas de la información y de los documentos WEB, el proceso de la RI y los tipos de recursos y herramientas de RI. 1. Los problemas de la información y de los documentos WEB o Interacción del usuario. o Tamaño real de internet. o Estructura de la información. o Los documentos digitales. La interacción del usuario presenta las dificultades que el usuario tiene ante la necesidad de especificar o formular una consulta que les resuelva su necesidad de información y que, para hacerlo de forma precisa, requiere un esfuerzo por su parte. A su vez presenta también las dificultades de la respuesta ofrecida por el sistema, ya que la mayor parte de las veces son miles de páginas, y manejar esa cantidad de información no es fácil: el usuario suele desconocer como clasificar y seleccionar los documentos en los que realmente está interesado. Por tanto, en general, los usuarios tienen una frustración para encontrar la información relevante. Cuando hablamos de usuarios, hay que tener presente que son tanto personas, como empresas y organizaciones 42 - Los que influyen en los resultados de la RI: derivados de la estructura de los interfaces de interrogación. Los problemas que son propios de los recursos de información - Los que influyen en la satisfacción del usuario; relacionados con el método y la forma en que compilan y actualizan las bases de datos de los motores. En cuanto a los tipos de recursos y herramientas de recuperación de información la división tradicional ha sido adecuada las nuevas necesidades y a las nuevas características de la información.  Directorios  Motores de búsqueda  Metabuscadores  Etiquetado social  Agentes de búsqueda y recuperación. Catálogos Son islas informativas o nichos informativos, porque no tiene una RI desde una primera página, sino que están vinculados a páginas de instituciones. La información que contienen los catálogos es tratada y por lo tanto mormalizada. La primera información que obtenemos es la de la institución, pero luego al entrar en el encontraremos información sobre las actividades y servicios de la propia biblioteca, y los recursos de información que ofrece. Ha nido evolucionando hasta la llegada de Internet, y de los OPAC. Al ir evolucionando con la propia Internet, se deduce que si actualmente exite una Web 2.0 ha de existir también un OPAC 2.0 Este OPAC es aquel que además de toda la información técnica requerida permite la participación del usuario por diversos motivos. El objetivo es establecer un filtro social donde la red social definida por cada usuario constituye su fuente de recomendación y sus contactos tienen valor para sus decisiones de lectura o información. Los límites de esta participación de los usuarios en los catálogos se establecen por las propias normas de las instituciones u organismos. La información que ofrecen los catalogos es: Información bibliográfica, Autor de obra, editor, fecha, etc., y diversas gestiones sobre el documento. (donde está, en que condiciones, etc.). 43 Desde las páginas de los catálogos se añaden cada vez más tipos de gestiones como el acceso a información a texto completo o el acceso directo a gran cantidad de bases de datos. Bases de datos Son la mejor tecnología actual para gestionar la información y permiten procesar la información de una forma, segura, rápida (es una información trabajada previamente) y eficaz. Además permiten acceder a la información de manera selectiva, acondicionarla a cada tipo de usuario y explotarla modificando los objetivos. Podemos definirlas como un almacen de datos de una parte seleccionada del mundo real para ser utilizados con propósitos particulares. Son una representación de alguna parte de la realidad y están realizadas por alguien con algún propósito específico. De una manera más descriptiva podemos definir una base de datos como una colección de datos almacenada en archivos de ordenador que es accesible a diversos usuarios y diversos programas. - Datos estructurados de forma sistemática - Interrelacionados y estructurados siguiendo un modelo - Almacenados en un soporte informático - Existencia de un programa que se ocupa de la gestión y manipulación de los datos. - Los datos serán usados por programas informáticos o por personas Englobando las dos definiciones que hemos visto: Una base de datos es un conjunto de información estructurada en registros y almacenada en un soporte electrónico legible desde un ordenador. Un registro constituye una unidad autónoma de información que a su vez está estructurada en diferentes campos o tipos de datos que se incluyen en dicha base de datos. Los componentes principales de las bases de datos son los campos y los registros. En la siguiente tabla se puede observar la equivalencia de los componentes de una base de datos con el mundo real. Mundo real Mundo simbólico Entidades (Ej. Película) Registro Atributos o elementos esenciales (Ej. Autor) Campos 44 Valor de los atributos Valor de los campos Cada entidad tiene que tener un registro. La categoría y la calidad de cada registro son diferentes. El registro es la unidad mayor y la unidad principal de trabajo en una base de datos ya que es una representación de una entidad. Las entidades son los elementos que se representan en una Base de datos. Es cualquier objeto físico o conceptual, real o imaginario que esta descrito en la base de datos. Cada entidad que tiene cada registro tiene una serie de atributos, que son elementos que forman parte de esos campos. Cada una de las partes que nosotros utilizamos para describir el contenido informativo. Los datos se pueden estructurar siguiendo una jerarquía: bit, byte, subcampo, campo, registro, fichero, base de datos. El soporte físico en el que están las bases de datos no varía sus características esenciales, es decir, la estructuración de la información y la posibilidad de recuperarla. Si que varian las formas de consulta o las facilidades. (la manera de acceder a ellas es distinta). Independiente del soporte de la base de datos, el acceso a la misma estará sujeto a condiciones que establece el productor. Gratuitas o de suscripción, de acceso público (con o sin pasarela o intranet) o de acceso privado, etc. Una base de datos se organiza mediante tres tipos de ficheros. El Fichero Secuencial o Lineal (todo el registro extraido), el Fichero Inverso (se enumeran, se ordenan, etc.) y el Fichero diccionario. En cuanto a la tipología, encontramos:  Directorios (como las guías telefónicas).  Bases de datos Factuales (trabajan con números, permiten obtener información de tipo numérico, se utiliza mucho en los periódicos porque se busca la información cronológicamente).  Bases de datos Documentales. Se pueden ordenar por distintos criterios: o Contenido de los documentos: texto completo, referenciales, referenciales con acceso electrónico al texto completo. o Modo de acceso: Acceso local, cd-rom, en línea. (beneficios de en línea, se recupera más fácil y se actualiza rápidamente la información). 47 - En bases de datos de texto completo Las ventajas de acceder a la base de datos en búsquedas en texto libre - Realiza las búsquedas muy especificas - Trabaja con lenguaje natural - Obtiene resultados mas precisos Por otra parte los inconvenientes son: - Recuperan muchos registros, mucho ruido - Se pueden usar muchas variantes para un mismo término. Los criterios a tener en cuenta a la hora de decidir si una base de datos es buena o no para trabajar con ella son la cobertura temática, la actualización, que el periodo que ocupe o que vaya a cubrir sea suficiente para nuestras necesidades, el tipo de información, el coste y la propia estructura de la base de datos. Aplicar técnicas para la modificación de las búsquedas (FOTOCOPIAS) Heurísticas: Recomendaciones. Las bases de datos están adquiriendo un valor como agregadores de contenidos, sobre todo los relacionados con documentos científicos. Con esta función potencian las posibilidades de localización de información precisa y exhaustiva a través de lenguajes documentales y sofisticadas interfaces de búsqueda. Directorios Podemos traducir el concepto del concepto directorio como índices, definiéndolos como recursos digitales que han sido ideados específicamente para localizar información en internet, por lo tanto nacen en y para la red. La construcción de directorios se basa en los siguientes aspectos: - Hay intervención humana, de forma manual. - Intervienen analistas y expertos que son quienes controlan las diferentes etapas del proceso: o En el análisis de los conceptos. o En la selección de los conceptos, ya que son definidos manualmente. o En su clasificación. o En la aceptación de nuevas direcciones a solicitud de los interesados (formularios). 48 Los elementos que caracterizan a los directorios son: - Una BD construida manualmente (con la información URLS, títulos de páginas, etc.). - Una estructura jerarquizada de categorías que permite a los usuarios consultar la base de datos navegando por sus categorías. Los directorios poseen las siguientes características. - Son (en cierta medida) grandes bases de datos de documentos web. - Recogen un conjunto limitado de recursos digitales seleccionados. - Los recursos que presentan en forma de guías o listas. - Están ordenados con taxonomías jerárquicas que intentan clasificar las distintas áreas de conocimiento. - Agrupados y ordenados sistemáticamente por categorías y subcategorías e indizados bajo un concepto. En cuanto a la representación de los resultados en un directorio, estos aparecen mediante un listado, ordenados (manualmente) de acuerdo con una clasificación temática (taxonomía) en categorías y subcategorías. La información que se recupera se hace de forma jerarquizada apoyándose en una clasificación. Para realizar una búsqueda se efectuan las siguientes acciones: 1. Se accede a la lista hipertextual de categorías, no siempre textual. 2. Se accede a una categoría. 3. Se accede a una subcategoría Dependencia jerarquica (ptos. 2.3..4) 4. Se accede a subapartados. Lo que el usuario ve son categorías relacionadas con su necesidad informativa presentándosele unas opciones de consulta: - Búsqueda y recuperación a través de categorías temáticas y no a través de campos. - Búsqueda y Recuperación por palabras clave. Los directorios orientan al usuario, por tanto la búsqueda es mas cómoda. Cuando detrás de una categoría hay un signo, quiere decir que lo que hay dentro está también en otra categoría. La información que recuperamos en los directorios posee las siguientes características. - Recursos informativos digitales 49 - No se accede a los contenidos (registros), solo a las URL (primeras páginas) y una pequeña descripción del contenido. - El resultado a veces está acompañado de una pequeña descripción y valoración crítica del recurso. - Información textual/información iconográfica. Ventajas en este tipo de herramientas: - Presentan gran facilidad de uso. - Son recursos con valor añadido (páginas de calidad) porque pasan por un proceso de selección de los sitios web. - La agrupación por categorías facilita. o La localización de diferentes temas de interés. o Revela los sitios más relevantes sobre un tema. - Facilitan las búsquedas cuando no se conoce muy bien el tema de interés Inconvenientes en este tipo de herramientas: - Son en general lentos en el proceso - No siempre están adecuadamente actualizadas (manuales) - Tienen un tamaño limitado. En cuanto a los tipos podemos encontrar numerosos directorios: Generales, académicos, especializados etc. Como ejemplos más característicos tenemos Yahoo, dmoz, o galaxy Motores de búsqueda. Como términos sinónimos de los motores de búsqueda encontramos buscadores, rastreadores, webcrawler, etc. Su funcionamiento es similar a una tela de araña y surgen debido a que los directorios simplemente nos dan un sector de información, pero en ocasiones es necesario acceder a grandes volúmenes de información. Existen pues dos formas básicas de obtener información en web. A través de un sistema de navegación, representado en los directorios y a través de consultas y sistemas de interrogación, representados por los motores de búsqueda. Mientras que los directorios son creados y mantenidos con esfuerzo intelectual, los buscadores, realizan su función de forma automática mediante programas informáticos. Asimismo los resultados de los directorios muestran sitios web mientras que los buscadores ofrecen páginas web y documentos. 52 Motor de recuperación. - Hay escasa información. - Realiza una expresión de búsqueda que traduce a una expresión matemática que se confronta con la base de datos. Como se presentan los resultados? Dependiendo del buscador, lo hacen de manera diferente. Como evolucionan los motores? Se clasifican por generaciones 1ª, 2ª, 3ª y 4ª. Para realizar la consulta es necesario tener en cuenta un conjunto de variables. 1. Lenguajes de interrogación 2. Posibilidad de refinar una búsqueda inicial 3. Campos limitadores que nos permitan reducir la búsqueda 4. Búsquedas alternativas 5. Opciones avanzadas Lo primero que se debe hacer es pensar. ¿Cómo buscamos? - Elegir fuentes de información adecuadas - Desarrollar una estrategia de búsqueda Elegir los términos de búsqueda Elegir los operadores Sacar partido de las opciones de búsqueda - Es necesario conocer los tipos de búsqueda que hay y las técnicas básicas…. Metabuscadores. Si hay tanta información y hay tantos buscadores yo necesito consultar cada vez en más buscadores, tiene que haber alguna herramienta que en vez de que yo consulte a 100 buscadores me lo haga ella de forma simultánea. Buscará de forma simultánea utilizando varios buscadores a la vez. Han aparecido unas nuevas herramientas que desarrollan los procesos de búsqueda en varios motores de manera simultánea, actuando como intermediarios entre los motores y los usuarios finales: los metabuscadores (buscadores de buscadores). 53 Los metabuscadores son programas buscadores de información en internet que permiten examinar de forma simultánea las bases de datos de diversos buscadores (directorios o motores de búsqueda). Es decir, herramientas que para buscar recursos web utilizan los índices de varios buscadores y así consiguen satisfacer las consultas de sus usuarios. La consulta la hacen a través de un interfaz único, de modo que facilitan la conexión a varios motores de búsqueda al mismo tiempo. Actúan como intermediario entre el usuario final y los buscadores, tanto en la pregunta como en la respuesta. Una vez obtiene las respuestas, las ofrece al usuario de forma ordenada, algunos metabuscadores suprimen la información recibida de los buscadores que está duplicada. Otros los abren en ventanas diferentes. Lo que si hacen es especificar de qué buscador han obtenido la información. Un metabuscador será mas potente cuanto mayor sea el número de motores de búsqueda (robots). Las ventajas de los metabuscadores son: - Automatiza algunos de los procesos de búsqueda (solo lanzo 1 búsqueda). - Se invierte menos tiempo en la ejecución de búsqueda. - Ahorro de tiempo al darme los resultados ordenados. - Mejora resultados de la búsqueda. - Amplían el campo de búsqueda Por ptra parte, los inconvenientes son: - No sabemos si recupera toda la información (como en los buscadores). - No sabemos la calidad de los buscadores que utiliza para realizar la búsqueda. - Normalmente accede a una búsqueda contra los buscadores (que estos no tienen las misma manera de búsqueda), puede plantear problemas a la hora de RI. - No suelen tener opciones avanzadas de búsqueda, por eso solo van muy bien para búsquedas de tipo general. - Las actualizaciones que implantan los buscadores no siempre se establecen al mismo tiempo en los metabuscadores. - No dan acceso a más información. No amplian ni dan mas servicios de información. - Técnicamente plantean problemas. (Son herramientas que actúan frente a otras herramientas.) 54 Los metabuscadores son buenos para iniciar las búsquedas y evaluar la mejor fuente (buscador) para el tema que hemos seleccionado. Son adecuados también para búsquedas simples o para términos muy complicados. Como ejemplos tenemos Metacrawler, Dogpile, Creative Commons, Search. Internet invisible Si se utiliza la herramienta adecuada se encuentra la información. Slogan: los contenidos son la clave de la información. El problema no es que no esté el contenido sino que no puedo acceder al contenido. Características de la Internet invisible.  Tamaño: Grandísimo tamaño que tiene, sabemos que está pero no lo podemos ver.  Contenido: La calidad de su contenido. Se habla de archipiélagos de calidad, como en el caso de los catálogos. La Internet invisible contiene principalmente:  Catálogos.  Bases de.datos bibliográficas.  Otras bases de datos  Formatos especiales  Comunicación académica y científico-tecnica  Páginas dinámicas Podemos definirla pues como un conjunto de información que los buscadores generalistas (Google, Yahoo, etc.) por razones estructurales no pueden indizar ni recuperar. http://www.brightplanet.com/resource-library/ (da información sobre internet invisible, como herramientas) Recuperamos información de una manera diferente a la que recuperamos dentro de la web y para ello necesitaremos siempre de intermediarios que nos conduzcan a esa internet invisible. Directorios importantes de acceso a información son internetinvisible.com o Intute (Muy bueno para RI academia y científica) El contenido de internet invisible es inestable, los contenidos pasan a ser visibles en cuanto hay una herramienta que lo haga visible. 57 - Necesitan maquinas potentes para poder trabajar con ellas. - Aplicaciones complejas de mantener. - Se presentan problemas de seguridad. Ejemplos de agentes de recuperación: www.americansys.com www.lexibot.com (Lexibot BrightPlanet) www.bluesquirrel.com (WebSeeker con Blue Squirrel) www.copernic.com (MUY IMPORTANTE PARA TRABAJAR CON EL). 58 TEMA 7.- EVALUACION DE LA CALIDAD DE LOS RECURSOS WEB Introducción El proceso de la web ha roto con las barreras tradicionales de la publicación, aumentando su volumen y convirtiendo Internet en un gran basurero de información. No todo lo que está vale, y no todo lo que hay en la red es una fuente de información. La clave del especialista está en distinguir lo que vale de lo que no. Esto se obtiene por un proceso que se llama evaluación de la calidad, que es aplicar una serie de criterios que nos permitan seleccionar los recursos digitales adecuados. Estos nos permitirán distinguir entre los sitios web válidos y aquellos que no lo son. Y finalmente evaluaremos porque son válidos o no estos sitios web. El objetivo fundamental de la evaluación es ofrecer información fiable y útil para conocer el desenvolvimiento de una actividad determinada con el propósito de elevar su nivel de calidad. Hay muchos métodos para evaluar y muchos aspectos. Para conseguir un método para evaluar hay que tener en cuenta estos aspectos: - Combinar parámetros e indicadores, sobre todo para que se adecuen a los objetivos referidos. - No hay que olvidar que cualquier evaluación exige una planificación. - Y no se puede evaluar si no hay recursos para hacerlo. Parámetros de evaluación.  Parámetro: Autoría. Indicadores: autoría del recurso bien determinada solvencia de la institución, posibilidad de contactar con el autor o institución y la posibilidad de enviar mensajes al autor o institución.  Parámetro: Contenido. Indicadores: existencia de información valiosa, volumen de información suficiente, utiliza una información contrastada y si está actualizada.  Parámetro: Navegación y recuperación de información. Indicadores: recorrer la estructura del Web sin perderse, orientaciones de contexto, jerarquía de los contenidos, sistema de búsqueda, mapa de navegación o sumario, sumarios locales o secciones, índices temáticos, cronológicos…, necesidad e desplazarse 59 para ver la totalidad del sumario, navegación semántica, opciones de navegación claras y que a poder ser esa navegación o acceso a determinadas partes no necesiten muchos links para moverse.  Parámetro: Ergonomía, Indicadores: que sea fácil y cómoda de utilizar, tipografía, márgenes, imágenes, visualización agradable  Parámetro: Luminosidad. Indicadores: cantidad de enlaces externos, si son actualizados y el valor que ofrecen los enlaces.  Parámetro: Visibilidad. Indicadores: titulo del Web en la barra, que tenga meta- etiquetas, enlaces a otras páginas y el contenido del recurso en párrafos. Título del web en la barra del navegador 1. Contenido del recurso en los primeros párrafos. 2. Presencia de meta-etiquetas (palabras claves del documento) básicas. 3. Presencia de meta-etiquetas Dublín Core 4. Enlaces desde otras páginas Qué debe contener un recurso web Todas las propuestas de los distintos autores coinciden en los siguientes aspectos: - Declaración de la autoría - Datos del autor, afiliación y datos de contacto. - Claridad de los contenidos - Legibilidad de los contenidos. (comprensible y entendible) - Enlaces externos (que la gente de fuera pueda verme, que se pueda encontrar fácilmente) - Actualización (datos siempre actualizados) - Bibliografía (Cualquier tipo de pag. Tenga recursos para ampliar información. Los dos imprescindibles son La autoría y el contenido. También es importante la fecha de emisión en relación con la dinámica de la web. Las páginas que plantean más problemas son las relacionadas con la sanidad. Consejos: - Escoger un recurso de información de salud en internet es como elegir a un médico. - Las fuentes de información deben ser identificables. - Desconfiar de los sitios web que se proclaman como los únicos o los mejores.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved