27 de septiembre de 2007

Breve resumen de los buscadores web

Como se puede comprobar hoy en la página principal de Google, acaba de cumplir nueve añazos. Inmediatamente me ha venido a la cabeza una pregunta: ¿Cómo era Internet antes de Google? La gente de ojobuscador elaboró un completo documento sobre la historia de los buscadores, del que rescato aquí un resumen con algunas imágenes extra de la "prehistoria" de internet.


Antecedentes: los prototipos.

en junio de 1993, después de sólo tres años de existencia, los usuarios de Internet se dieron cuenta de que los contenidos en la red empezaban a ser bastante numerosos. Y desde el MIT (Instituto Tecnológico de Massachusetts) se desarrolló World Wide Web Wanderer, un robot de búsqueda que pretendía medir el tamaño de la red. Ese robot se amplió pudiendo leer direcciones URL y creándose así Wandex, el que se podría considerar primer buscador de internet.

Wandex visto en Mosaic, uno de los primeros navegadores gráficos.
Todo bajo Windows 3.

El siguiente buscador (quizá mejor llamarlo directorio) fue Aliweb, Creado por Martijn Koster en octubre de 1993 y que todavía hoy está en marcha.

Tras estos primeros procesos de rastreo en la red, que terminaban por saturar las páginas web que visitaban en su búsquedas, Martijn Koster propuso unas sugerencias para lo que sería el fichero robots.txt que limita la acción de los robots de búsqueda en los sitios web.

Aquí comenzaron a desarrollarse las primeras arañas, que rastreaban la web en busca de resultados para sus buscadores. Como Jumpstation, que indexaba el título, la URL y cabecera del sitio; al igual que World Wide Web Worm, creado por Oliver Mc.Bryan en 1994.

Más adelante, en diciembre de 1994, RBSE (Repository-Based Software Engineering) comenzaba a aplicar un primer ranking en base a la relevancia de la palabra buscada.

De forma paralela, iban apareciendo algunos directorios como EINet Galaxy, que en enero de 1994 podría considerarse el primer directorio tal y como los conocemos en la actualidad. Pero fue en abril de 1994 cuando David Filo y Jerry Yang crearon Yahoo!, una colección de sus páginas web favoritas. De aquel primer Yahoo! poco queda en el actual, salvo el nombre.

Aspecto de Yahoo! en sus orígenes

Hasta aquí podríamos hablar de la versión “beta” de los buscadores, una era en la que todo eran experimentos.


Los primeros buscadores “de verdad”.


Y así siguieron las cosas hasta que el 20 de abril de 1994 Brian Pinkerton, desde la Universidad de Washington, presentó WebCrawler. La gran diferencia con los anteriores era que indexaba las páginas de forma completa y buscaba información en su contenido y no sólo en la dirección web, título o metas. Esto hizo que la relevancia de los resultados fuera mucho mayor.


InfoSeek también apareció a principios de 1994 y, aunque no llegó a tener nada especial, tuvo gran éxito a partir de diciembre de 1995, al ser el motor de búsqueda por defecto en el navegador Netscape.

Hay que destacar la aparición de Lycos, el 20 de julio de 1994 de la mano de Michale Mauldin en la Universidad de Carnegie Mellon, con un algoritmo interesante que incluía el concepto de proximidad entre palabras.

Así era Lycos cuando llegó a la web.

En diciembre de 1995, seis estudiantes de Stanford lanzaron Excite, que introdujo uno de los conceptos base de las búsquedas. Su complicado algoritmo intentaba crear un sistema parecido a los sinónimos mediante estadísticas entre las relaciones de palabras, de forma que se podía realizar una búsqueda obteniendo resultados aunque la misma no existiera en la página (si tenía alguna relación, claro). Fue el buscador de referencia hasta mediados de 1999.


La revolución.


El siguiente gran lanzamiento fue AltaVista, en diciembre de 1995. La importancia de este buscador radicaba en las mejoras que proponía: tenía ancho de banda casi ilimitado, permitía consultas en lenguaje natural (las que utilizamos habitualmente para hacer búsquedas) y consultas avanzadas mediante operadores lógicos (AND, OR…). Incluso permitía hacer búsquedas en los nombres de imágenes y algunos ficheros multimedia.

Evolución de la imagen de AltaVista desde 1996 a la actualidad

También a finales de 1995 apareció Ozú, primer desarrollo de este tipo en España, como directorio y buscador. Durante 1997 y hasta el año 2000, la empresa tuvo un largo litigio contra un empleado que registró el dominio ozu.com y “duplicó” el buscador, coexistiendo con ozu.es, el sitio web que ha perdurado hasta la actualidad.

De esta época datan los primeros meta-buscadores. Estos sistemas se limitaban a unificar los resultados de varios motores de búsqueda para ofrecer sus resultados mezclados. En 1995 apareció el primero de ellos, llamado MetaCrawler y creado por Erik Selberg y Oren Etzioni en la Universidad de Washington. En este caso devolvía resultados de Lycos, Altavista, Yahoo!, Excite, Webcrawler e Infoseek. El problema era su velocidad.

Pocos meses después, el 20 de mayo de 1996 Paul Gauthier y Eric Brewer, desde la Universidad de Berkeley, lanzaban Hotbot, que con su motor Inktomi fue considerado el primer motor de búsqueda capaz de indexar los millones de sitios web que había en ese momento.

El siguiente de la lista es Ask Jeeves, lanzado en 1996. Su idea era la de poder contestar preguntas de forma natural, tal y como las hacemos habitualmente. Apareció el verano de 1998 y mucha gente ya lo utilizaba a finales del mismo debido a la alta relevancia que ofrecía, principalmente porque basaba sus resultados de búsqueda en los clics que hacían los usuarios.


Un antes y un después: Google.


El proyecto Google comenzó a desarrollarse en enero de 1996 por Sergey Brin y Larry Page en la Universidad de Stanford. Su nombre, BackRub, hacía alusión a la tecnología que utilizaba: calculaba la importancia de un sitio web en base a los enlaces que recibía. El 15 de septiembre de 1997, el dominio google.com era comprado y el 7 de septiembre de 1998 se creaba Google Inc.

Google en 1998, todavía en versión Beta

Hay que destacar dos razones por las que Google se hizo muy interesante: una interfaz muy clara y sencilla (como la de Altavista en sus inicios) y unos resultados muy relevantes. El secreto de los resultados, la tecnología PageRank (patentada el 4 de septiembre de 2001) hizo que el mundo de los motores de búsqueda cambiase completamente.

En 1998 apareció MSN Search, de la mano de Microsoft, utilizando los datos de Inktomi.

De la misma fecha es el Open Directory Project (DMOZ). Aunque no era el primer directorio hecho por personas, sí que era el primero en hacerlo de forma colaborativa.


A mediados de 1999 apareció en el mercado AllTheWeb. Utilizaba la tecnología de Fast, una empresa noruega que venía de la Norwegian University of Science and Technology. Este buscador ofrecía algunas mejoras con respecto a Google como, por ejemplo, una base de datos más actualizada y una búsqueda avanzada mucho más amplia. Tuvo su momento de gloria pero nunca llegó a tener tanto éxito.

En el año 2000 se lanzó el motor de búsqueda Teoma de mano de Apostolos Gerasoulis, en la Universidad de Rutgers. Utilizaba un sistema para organizar los sitios en base al Subject-Specific Popularity (actualmente Expert Rank) que, al contrario del Pagerank de Google, analizaba los enlaces en un contexto en el que se daba un ranking a una página web según el tema tratado.

El 15 noviembre de 2003, Google implementó uno de los primeros grandes cambios en su motor de búsqueda, añadiendo mejoras en la búsqueda semántica. Los resultados en las búsquedas mejoraron notablemente.

En noviembre de 2004, MSN Search puso en marcha una primera fase pública del nuevo motor de Microsoft, que se hizo pública el 20 de enero de 2005. El 1 de noviembre de 2005 se presentaba la plataforma Windows Live que será la nueva interfaz del motor de búsqueda de Microsoft.

También hay que hacer referencia a buscadores como Noxtrum, del que se comenzó a saber a finales de Junio de 2005. Enfocado principalmente a sitios en español y portugués, contiene además toda la información de Páginas Amarillas. El 30 de Noviembre de 2005 se lanzaba la versión beta, y el 22 de Abril de 2006 era presentada la primera versión final del buscador.


Y uno de los últimos en llegar ha sido Quaero, el buscador europeo que se presentaba los primeros días de 2006, impulsado principalmente por los gobiernos de Francia y Alemania (que ya se ha retirado del mismo) y potenciado por grandes empresas tecnológicas europeas.