miércoles, 29 de septiembre de 2010

COMO FUNCIONAN LOS BUSCADORES WEB


Los buscadores de antes

Los buscadores anteriores a Google (salvo Altavista), eran directorios de páginas web. Esto significa lo siguiente:
- Tú debías dar de alta tu página web en el directorio del buscador.
- Debías indicar cuales eran las palabras clave por las que deseabas ser encontrado.
- Tú redactabas la definición de tu página web.

... Y cuando alguien buscaba una palabra que estaba incluida en tus palabras clave o en tu definición, el buscador consultaba su lista de páginas web y mostraba tu página.

Cómo funcionan ahora los buscadores

Ahora son índices automáticos de páginas web:

1.- Una araña visita tu página web.
2.- La araña lee el contenido de tu página web.
3.- La araña lleva toda la información a una central, donde un sistema la procesa y la almacena.
4.- El sistema crea un índice con las palabras que utilizas en tu web y las ordena por relevancia. (Ver ejemplo de índice de palabras)
5.- El sistema intenta descubrir si eres una buena página o no (en realidad comprueba cuanta gente recomienda tu web y cuan importante es la gente que recomineda tu web).
6.- Cuando alguien realiza una búsqueda, y el sistema muestra todas las webs que contienen la palabra o frase buscada.

... Y muestra los resultados en función de un algoritmo de ordenación que tiene en cuenta la importancia de la página web y la importancia del término buscado, en esa página web.

Las arañas o robots

Hay muchísimas arañas navegado constantemente por la red. La mayor parte de las que visitan tu web, pertenecen a buscadores. Pero cualquiera puede programar una araña y enviarla por ejemplo, a buscar todos los emails que encuentre, o todas las referencias a un producto determinado, etc.

Controlando las 6 principales arañas de los buscadores, tenemos controladas al 90% de las arañas que nos interesan:
- Google Bot (Google)
- Slurp (Yahoo)
- MSNBot (Microsoft)
- Scooter (Altavista)
- Fast (webs privadas)
- Teoma (Ask Jeeves)


No hay comentarios:

Publicar un comentario