Motores de búsqueda, parte 2

25 marzo 2009 at 14:45 1 comentario

¿Cómo indexan los buscadores? ¿Qué son las arañas? ¿Y los algoritmos de búsqueda? Eso lo veremos a continuación…

Antes de nada, hay que decir que todo motor contiene o está relacionado con un sistema de bases de datos, donde se almacena la información de todas las páginas web, lo cual nos lleva a un espacio de almacenamiento enorme. Los datos pueden ordenarse de muchas formas y se clasificarán según un sistema de clasificación y recolección que es propio de la compañía a la que pertenece el motor de búsqueda.

Para poder almacenar tantas direcciones e información que éstas provean, es necesario un tipo de programa especial. Los motores de búsqueda emplean el llamado rastreador, araña o robot, que se encarga de mirar todas las direcciones URL de la Red, recogiendo palabras y frases clave de cada una, incluyéndolas en la base de datos del buscador.

Algunos nombres de robots importantes: Googlebot (Google), MSNbot (MSN), Yahoo SLURP o SLURP (Yahoo!), Teoma (Ask), Scooter (AltaVista), MantraAgent (LookSmart), WebCrawler (Webcralwer), Fluffy the spider (SearchHippo).

Los rastreadores se mueven a través de los enlaces de un sitio web. Cuando uno de estos robots sale a la Red, se le da una lista de sitios web donde empezar a moverse, mirando en sus enlaces (moviéndose dentro y fuera del sitio web), leyendo el contenido, etc. Se seguirán los enlaces hasta que no pueda avanzar más. El rastreador, al leer la información, envía una petición al servidor web para que le envíe páginas (el número varía según como esté programado), de la misma forma que el navegador pide que se muestren las páginas, pero para el rastreador es todo un interfaz de texto en HTML. Si un sitio web (o su servidor) tiene problemas para cumplir la petición, el rastreador se marchará. Puede que vuelva, pero tras varios intentos puede desentenderse del todo del sitio web.

Existe, además, una serie de consideraciones para que el rastreador no meta el sitio en el índice:

  • Página en construcción.
  • Páginas llenas únicamente de enlaces (granjas de enlaces).
  • Páginas de contenido desfasado (en Internet lo importante es la novedad).

El control sobre la afluencia de rastreadores se suele realizar con el archivo robots.txt y los mapas de sitio en XML.

—-

Una vez tengamos esta información, ¿cómo poder acceder a ella con el interfaz de usuario? Se hace a través de lo que se denomina un algoritmo de búsqueda, el cual a partir de la palabra o frase clave insertada mirará en la base de datos las direcciones que más se ajusten al criterio de búsqueda, devolviendo las direcciones a esas páginas web. Los algoritmos varían de unos motores de búsqueda a otros, lo que lleva a que las búsquedas de la misma palabra pueden arrojar resultados diferentes en motores distintos.

Algunos de los algoritmos más empleados son:

  • Búsqueda en lista (list search): Hace una búsqueda muy lineal y el resultado suele ser un solo elemento y poco más, perdiendo mucho tiempo para tan pocos resultados.
  • Búsqueda en árbol (tree search): Busca entre grupos y subgrupos (ramificaciones) de datos, en una estructura que, en cierta manera, imita el modelo de la Red en sí. El problema está en que es una búsqueda muy jerárquica, por lo que la información se busca según cómo esté clasificada en un ranking.
  • Búsqueda SQL (SQL search): Este tipo de búsqueda elimina el problema de las jerarquías de la búsqueda en árbol, por lo que se puede buscar entre cualquier grupo de datos sin seguir un orden específico.
  • Búsqueda informada (informed search): Este algoritmo busca respuestas específicas a problemas específicos en un árbol de datos. Sin embargo, las respuestas suelen ser muy generales.
  • Búsqueda adversa (adversarial search): Este algoritmo mira en todas las posibles soluciones a un problema. Este algoritmo es difícil de usar en búsquedas web ya que da un número exagerado de respuestas.
  • Búsqueda concreta (constraint satisfaction search): En este tipo de algoritmo, la solución se descubre al satisfacer una serie de condiciones, y se puede buscar entre los datos sin seguir un procedimiento lineal, lo que hace este algoritmo muy útil.

—-

La recogida de información de las URLs es una combinación del trabajo del rastreador, de la base de datos del buscador y del algoritmo de búsqueda. La clasificación, sin embargo, es más difícil de explicar, aun siendo un elemento muy importante para optimizar una página web con respecto a los buscadores.

Cada motor de búsqueda utiliza su propio sistema de clasificación, así que la importancia de los siguientes elementos variará según el método:

  • Localización: Referida a la situación de las palabras y frases clave dentro de una página web. Cuando antes aparezca dicha palabra en la página, más alta será la posición de la página en la lista de resultados.
  • Frecuencia: Referida a cuántas veces aparece el término a buscar. Eso sí, hay que tener cuidado de no repetir las palabras demasiado, ya que muchos buscadores lo detectan como keyword spamming e ignoran o no listan las páginas que utilicen dicha técnica.
  • Enlaces: Consiste en el tipo y número de enlaces en una página web, tanto enlaces que salen de la web como aquellos que llevan a la página, e incluso los enlaces dentro de la misma página. Pero no es del todo cierto que cuantas más páginas enlacen a cierta web, ésta tendrá mejor clasificación. Más bien es una relación entre todos los enlaces posibles.
  • Click-throughs: Determina el número de pinchazos (clics) en una página con respecto a otras que aparezcan en las clasificaciones. Ya que los buscadores no pueden monitorizar el tráfico de todas las páginas web, observan el número de clics para cada página en cada búsqueda realizada. Esto puede hacer variar la clasificación en futuras búsquedas.
Anuncios

Entry filed under: Telecomunicaciones. Tags: , , , , .

Motores de búsqueda, parte 1 9º foro internacional de empleo (UEM)

1 comentario Add your own

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Trackback this post  |  Subscribe to the comments via RSS Feed


marzo 2009
L M X J V S D
« Feb   Abr »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

Twitteando

Páginas

Miscelánea

Add to Technorati Favorites

A %d blogueros les gusta esto: