Cómo funciona Google

Este artículo es el nº 1 de 9 en Evaluando los resultados

Si no está interesado en aprender cómo Google crea su índice y la base de datos que consulta cuando realiza una búsqueda, esta sección.

El resumen que sigue está adaptando del Capítulo “How Search Engines Works” del libro “The Invisible Web “(CyberAge Books, 2001) de Chris Sherman y Gary Price., 2001).

Toda la operativa de Google se ejecuta en una red distribuida de miles de ordenadores que procesan toda la información en paralelo (al mismo tiempo), lo que le permite realizar millones de cálculos pueden realizarse de forma simultánea.

El sistema creado por Google tiene tres procesos bien diferenciados:

  • Googlebot: un robot (un algoritmo o proceso automatizado) que rastrea constantemente la web y encuentra páginas nuevas y actualiza la información sobre las que ya existen
  • Indexado: el proceso que cataloga cada palabra de cada página y la guarda en la gigantesca base de datos que se suele conocer simplemente como “El índice”.
  • Proceso de consultas: el sistema que compara su búsqueda con la información indexada y le muestra los documentos que considera más relevantes para su consulta.

Veamos cada cada uno de estos procesos en detalle.

Googlebot

Se conoce como Googlebot al robot buscador de Google, un proceso automatizado encargado encontrar todas las páginas accesibles en Internet y enviarlas al Índice.

La forma más común de visualizar la tarea de Googlebot es imaginarlo como una pequeña arana que recorre la enorme tela de arana que es Internet. En realidad Googlebot no recorre la web de un lado para otro, sino que (al igual que hace usted con su navegador) envía peticiones a los servidores web, descarga las páginas solicitadas y las envía al proceso de indexado.

Técnicamente Googlebot es un proceso que se ejecuta de forma conjunta por una gran cantidad de ordenadores (el número no se ha publicado) que continuamente solicitan miles de páginas simultáneas. Para evitar saturar a los servidores, o ralentizar las búsquedas de usuario “humanos”, Googlebot no utiliza toda su potencia.

Hay dos formas por las cuales Googlebot puede encontrar una página: cuando un usuario la envía directamente al índice con la ayuda de Google Webmaster Tools o cuando la encuentra siguiendo enlaces de página en página.

Cuando Googlebot encuentra una página, toma nota de todos los enlaces que contiene y los añade a su lista de tareas para rastrearlos a su vez en cuanto sea posible. Esta técnica de seguir todos los enlaces hace posible que pueda encontrar un gran número de páginas, ya sea externas o del mismo sitio.

Googlebot “aprende” los hábitos de publicación de cada web, y para evitar sobrecargar la red, rastrea más frecuentemente (diariamente o incluso varias veces al día) aquellas páginas que se actualizan más frecuentemente y con menos frecuencia (por ejemplo una vez la mes) aquellas otras que publican contenidos de forma más esporádica.

Indexado

Googlebot entrega al proceso de indexado el texto completo de todas las páginas que encuentra, sin ningún tipo de discriminación, su labor es recolectar, no analizar.

El Índice se encarga de catalogar y analizar los contenidos entregados y ordenarlos alfabéticamente por términos de búsqueda. Cada uno de estos términos contiene una lista de documentos en los que aparece dicho término y el lugar donde se encuentra en el documento. Este tipo de estructura de datos permite un rápido acceso a los documentos que coinciden con las consultas de los usuarios.

Para mejorar el rendimiento de la búsqueda, Google ignora (no indexa) términos comunes, también conocidos como “vacíos” tales como “el”, “es”, “en”, “o”, “de”, “cómo”, “por qué”… así como ciertos dígitos y letras individuales. Este tipo de palabras “vacáis” son tan comunes que no son útiles para mejorar las búsquedas, por lo que pueden ser descartadas con seguridad. El proceso de indexado también ignora algunos signos de puntuación, múltiples espacios consecutivos, y convierte todos los términos en minúsculas para para mejorar el rendimiento.

Consulta

El proceso de consulta consta de varias partes, incluyendo el interface de búsqueda (la “pagina” y cuadro de búsqueda entre otras cosas), el “motor” que interpreta las consultas y elige los documentos más relevantes, y el proceso que formatea y muestras los resultados.

Google tiene un sistema propietario de clasificación de webs llamado PageRank, que le ayuda decidir qué páginas son más importantes que otras. Teóricamente una página con un PageRank mayor saldría antes en los resultados de búsqueda que una con un PageRank inferior.

Aunque en los últimos meses el PageRank público, es decir el que los usuario pueden ver mediante la PageRank Toolbar u otras aplicaciones no se ha actualizado, y parece ser que Google no tiene intención de volverlo a actualizar, el PageRank “real” sigue existiendo dentro del índice de Google y sigue utilizándolo, aunque considera más factores a la hora de clasificar la importancia de una página.

Aunque no se sabe con certeza el número y la importancia de todos los factores que Google considera para evaluar las páginas, se sabe que hay más de un centenar de factores (entre ellos el PageRank) que determinan la relevancia de cada documento respecto a cada consulta. Entre ellos están la “popularidad” (se “habla” de ella, se comparte…) la posición dentro de la página y el número de veces que aparecen los términos buscados, etc.

Si tienes mucho tiempo disponible (y dominas el Inglés) puedes leerte la patente que trata los factores que Google considera cuando evalúa una página. También puedes estudiar el excelente artículo de Backlinko “Google’s 200 ranking factors” (en inglés)

Google también aplica técnicas de “aprendizaje automático” para mejorar su rendimiento, aprendiendo cómo sus usuarios buscan la información y creando relaciones y asociaciones de términos.

Por ejemplo, su sistema de corrección ortográfico utiliza técnicas para averiguar términos alternativos a los que se buscan, detecta errores y muestra la información que es más probable que el usuario esté buscando.

Google guarda celosamente las fórmulas que utiliza para calcular la relevancia, ya que si cayesen en manos de los Spammers podrían burlar todo el sistema de Google y llenar las primeras páginas de resultados de contenidos de baja calidad o directamente SPAM.

Al indexar el texto completo de todas las páginas Google puede hacer algo más que simplemente devolver los términos de búsqueda. Por ejemplo Google da más prioridad a las páginas que tienen los términos de búsqueda cercanos entre sí, y que aparecen en el mismo orden de la consulta. Google también puede encontrar frases de varias palabras y oraciones completas.

Además, como Google indexa el código HTML además del texto, los usuarios pueden restringir las búsquedas dependiendo del lugar en que se encuentran las palabras buscadas. Por ejemplo, si aparecen en el título, en la dirección URL, en el texto principal, en los enlaces a la página… Todas estas opciones puede encontrarlas en el Formulario de Búsqueda Avanzada de Google y Uso de Operadores de búsqueda (Operadores avanzados)

consulta-de-google_110414_065159_PM

 

 

NavegaciónLa página de resultados >>