BUSQUEDA
DE INFORMACIÓN
La Búsqueda y Recuperación de
Información, llamada en inglés Information Search and Retrieval (ISR), es la
ciencia de la búsqueda de información en documentos electrónicos y cualquier
tipo de colección documental digital, encargada de la búsqueda dentro de éstos
mismos, búsqueda de metadatos que describan documentos, o también la búsqueda
en bases de datos relacionales, ya sea a través de internet, intranet, y como
objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras
características, de manera pertinente y relevante.
La recuperación de información es un
estudio interdisciplinario. Cubre tantas disciplinas que eso genera normalmente
un conocimiento parcial desde tan solo una u otra perspectiva. Algunas de las
disciplinas que se ocupan de estos estudios son la psicología cognitiva, la
arquitectura de la información, diseño de la información, inteligencia
artificial, lingüística, semiótica, informática, biblioteconomía, archivística
y documentación.
Para alcanzar su objetivo de
recuperación se sustenta en los sistemas de información, y al ser de carácter
multidisciplinario intervienen bibliotecólogos para determinar criterio de
búsqueda, la relevancia y pertinencia de los términos, en conjunto con la
informática.
Un motor de búsqueda, también
conocido como buscador, es un sistema informático que busca archivos
almacenados en servidores web gracias a su «spider» (o Web crawler). Un ejemplo
son los buscadores de Internet (algunos buscan únicamente en la web, pero otros
lo hacen además en noticias, servicios como Gopher, FTP, etc.) cuando se pide
información sobre algún tema. Las búsquedas se hacen con palabras clave o con
árboles jerárquicos por temas; el resultado de la búsqueda es un listado de
direcciones web en los que se mencionan temas relacionados con las palabras
clave buscadas.
Como operan en forma automática, los
motores de búsqueda contienen generalmente más información que los directorios.
Sin embargo, estos últimos también han de construirse a partir de búsquedas (no
automatizadas) o bien a partir de avisos dados por los creadores de páginas (lo
cual puede ser muy limitante). Los buenos directorios combinan ambos sistemas.
Hoy en día Internet se ha convertido en una herramienta, para la búsqueda de información,
rápida, para ello han surgido los buscadores que son un motor de búsqueda que
nos facilita encontrar información rápida de cualquier tema de interés, en
cualquier área de las ciencias, y de cualquier parte del mundo.
HISTORIA
La idea del uso de computadoras para
la búsqueda de trozos relevantes de información se popularizó a raíz de un
artículo As We May Think de Vannevar Bush en el año 1945.1 Los primeros
sistemas automatizados de recuperación de la información fueron presentados
durante la década de 1950 a 1960. Durante 1970 se paralizaron pruebas un grupo
de textos como la colección Cran Field para un gran número de distintas
técnicas cuyo rendimiento fue bueno.1 Los sistemas de recuperación a larga
escala, como el Sistema de Diálogo Lockheed, comenzaron a utilizarse a
principios de 1970.
En 1992, el Departamento de Defensa
de los Estados Unidos conjuntamente con el Instituto Nacional de Standards y
Tecnología (NIST), patrocinaron la Conferencia de Recuperación de Texto (TREC)
como parte del programa TIPSTER. Esto proveyó ayuda desde la comunidad de
recuperación de la información al suministrar la infraestructura necesaria para
la evaluación de metodologías de recuperación de texto en una colección a larga
escala. La introducción de motores de búsqueda ha elevado aún más la necesidad
de sistemas de recuperación con mayor capacidad.
El uso de métodos digitales para
almacenar y recuperar información ha desembocado en el denominado fenómeno de
la obsolescencia digital, que sucede cuando una fuente digital deja de ser
accesible porque sus medio físico, el lector utilizado para la lectura de ese
medio o el software que lo controla, ya no se encuentra disponible. La
información, inicialmente es más fácil de recuperar en lugar de su fuente en
papel, pero dicha información entonces, se pierde definitivamente.
Los buscadores, tales como Google,
Google Desktop Search, Lycos y Copernic, son algunas de las aplicaciones más
populares para la recuperación de información. Básicamente hay que construir un
Vocabulario, que es una lista de términos en lenguaje natural, un algoritmo que
incluya las reglas lógicas de la búsqueda {Tabla de verdad} y una valoración de
los resultados o cantidad de información lograda o posible. Este motor de
búsqueda es pues el que permite plantear una pregunta con no menos de dos
términos (en algunos casos pueden ser menos de dos términos) y mostrar los
resultados mínimos y el logaritmo natural de las interacciones será alrededor
de 3.
Algunos de los estudiosos más
destacados dentro de esta subdisciplina son Gerard Saltón, W Bruce Croft, Karen
Spärck Jones, Keith van Rijsbergen y Ricardo Baeza-Yates.
A veces se plantean ciertos problemas
a la hora de recuperar información provocados por el uso del lenguaje natural
(entre otras razones) como el silencio (debido a la sinonimia), el ruido
(debido a la polisemia), homografía, ambigüedad, etc.
1. Herramientas de búsqueda
Entre
las herramientas de búsqueda se encuentran: Gopher, Archie, Verónica, WAIS y
sobre todo WWW que esta anulando las anteriores y acaparando todas las
funciones de búsqueda. Ninguna de ellas se puede decir que haya solucionado completamente
el problema, pero si que han mejorado mucho las posibilidades de localizar información
hasta límites que eran impensables hace algunos años.
Antes
de que los navegadores de Internet aparecieran, era muy difícil buscar
contenidos. Por esa razón se desarrollo una herramienta muy simple, a base de
menús a la que se denominó Gopher. Fue creada en 1991 en la Universidad de Minnesota
como Campus Wide Information System (CWIS).
A
pesar de ser una herramienta relativamente joven, Gopher ya no es adecuado para
usuarios con un buen equipamiento y una conexión a Internet rápida. Aunque en
su momento fue una herramienta muy útil, ya ha sido superada por el sistema de
hipertexto WWW que no sólo se limita al trabajo con textos y es mucho más
eficiente y fácil de usar. El WWW resulta especialmente valioso en la era
multimedia actual. Casi todos los servidores Gopher ya han sido convertidos o
reemplazados por un servidor WWW. Así pues, la realidad es ésta: Gopher está
prácticamente extinguido. Cada vez es más difícil encontrar informaciones
interesantes en el mismo. Cuando se selecciona un servidor Gopher, no es raro
recibir una respuesta de recurso no disponible ya que estos servidores están
desapareciendo rápidamente.
Al
sistema de información Gopher puede accederse desde diferentes entornos. Puedeutilizarse
desde un entorno de texto, también, y de forma más cómoda, desde Windows o windows,
ya bien mediante un programa cliente de Gopher (El más conocido es el WSGopher)
o con un navegador (Netscape, Explorer o cualquier otro). Para acceder a una dirección
Gopher, tendremos que teclear su URL, es decir, por ejemplo:gopher://gopher.upv.es
(Universidad Politécnica de Valencia). Una vez conectado con elservidor,
podemos observar el menú y de un sólo vistazo ver los recursos que tienedisponibles.
Podemos desplazarnos por él, página tras página, ahondando cada vez más en sussubmenús,
para explorar opciones más específicas. Luego podemos dirigirnos directamente a
B
U S Q U E D A S D E I N F O R M A C I Ó N
esos
recursos mientras nos encontramos todavía en el sistema Gopher. Catálogos de bibliotecas,
boletines de noticias, bases de datos sobre diferentes temas, listas de Gopher
de todo el mundo, etc.; sólo tenemos que elegirlas y acceder a ellas mediante
Gopher. Este realiza toda la operación de forma transparente. En el caso de las
conexiones con Telnet, Gopher establecela conexión por nosotros, proporcionando
la información de acceso que éste necesite acceso.
Buscadores Web.
Un Motor de búsqueda, o popularmente un Buscador, es una
página Web que permite buscar otras páginas de acuerdo a una condición de
búsqueda que define el usuario. Por ejemplo, con la ayuda de un buscador
podemos localizar las páginas que hablan de una determinada persona o empresa,
las referencias existentes a un libro o un disco, o todas las páginas que
hablan sobre un acontecimiento concreto.
El usuario debe introducir los términos de búsqueda y
realizar la consulta. El buscador devuelve las direcciones web que estén
relacionados con dichos términos. Para ello examinan la URL’s de las paginas,
su título o su contenido. El resultado se muestra en una página que contiene el
titulo y una breve descripción de las páginas encontradas. Algunos buscadores
incluyen además servicios de cartografía, mapas de ciudades, guías de turismo,
etc... Según la arquitectura de los buscadores se pueden distinguir varios
tipos de herramientas de internet.
Motores de búsqueda
Son buscadores que basan su recolección de páginas en un
robot, denominado araña, que recorre constantemente Internet en busca de
páginas nuevas que va introduciendo en su base de datos automáticamente. Los
motores de búsqueda, no tienen porque tener un índice, aunque cada vez es más
habitual que dispongan de uno. Motores de búsqueda típicos son Google o
Altavista.
Los motores de búsqueda no necesitan que les mandemos la
dirección de nuestra página para tenerla en su base de datos, puesto que el
robot puede haberla encontrado previamente. De todos modos, nosotros podemos
mandarles la dirección si no deseamos esperar a que el robot nos encuentre,
práctica muy habitual.
Para clasificar una página, los motores de búsqueda son
capaces de leer el contenido de esta y encontrar aquellos datos que permitan su
catalogación. Por eso, cuando registramos una página en un motor de búsqueda
generalmente no nos piden información adicional, como ocurría con los índices.
Cuando un robot recorre nuestra página guarda sus datos, y
luego se dirige a las distintas páginas que están enlazadas a esta. De este
modo, solo hace falta registrar la página inicial de un sitio web, pues el
motor de búsqueda se encargará de recorrer todo el sitio de manera automática.
Adicionalmente, estos motores o arañas, volverán a recorrer las páginas de su
base de datos en busca de cambios que se hayan producido en estas, con objetivo
de mantener su información lo más actualizada posible.