Crawl Rate y Crawl Budget en Google

Crawl Budget

Google está continuamente rastreando internet en busca de nuevos contenidos o modificaciones en los contenidos que ya conocía, pero dado el elevado número de URLs que existen actualmente en internet (y el número siempre está creciendo) los buscadores han de tener una “estrategia” para seleccionar, o mejor dicho, priorizar, qué URLs rastrear y cuándo hacerlo.

Existen dos factores principales que determinan con qué frecuencia y qué URLs rastrea Google de cada dominio:

Límite en la Frecuencia de Rastreo

Limita la frecuencia con la que se obtienen las páginas de un sitio web.

La frecuencia de rastreo puede aumentar o disminuir en función de dos factores:

  • La capacidad de nuestro servidor.
  • El límite que podemos configurar en GSC.

*Estos dos límites son límites para cada host (subdominio + nombre de dominio).

La capacidad de nuestro servidor tiene un límite de usuarios o conexiones por segundo que puede responder sin perjudicar al resto de usuarios del site, es decir sin llegar a ralentizar o saturar el servidor.

Dado que Google intenta rastrear la mayor cantidad de urls en el menor tiempo posible intentará encontrar una frecuencia de rastreo óptima para rastrear el mayor número de URLs sin perjudicar los tiempos de respuesta del servidor.

Cuándo rastrea un site y ve que este comienza a ralentizarse y a responder cada vez más lento, Google baja el “ritmo” y recuerda esta frecuencia máxima para la próxima vez que rastree tenerla en cuenta. De esta manera va estableciendo una frecuencia o velocidad de rastreo ajustada a cada sitio web. Según el propio Google.

Si el sitio web responde rápidamente durante un tiempo, el límite aumenta, lo que significa que se pueden usar más conexiones para rastrear las páginas. Si el sitio se ralentiza o genera errores de servidor, el límite disminuye y el robot de Google rastrea menos páginas.

Demanda de rastreo

Muchas páginas web actualizan su contenido de manera frecuente, y para Google es imperativo que los resultados que muestra estén lo más actualizados posible.

Cuándo Google ve que el contenido de una página web ha cambiado significativamente desde la última vez que la rastreó actualiza su índice con los nuevos datos y el tiempo transcurrido desde la última vez que rastreó esa URL.

Por lo que Google va calculando para cada URL, cuánto tiempo promedio pasa entre cada cambio significativo de contenido obteniendo una métrica de probabilidad de “cambio” (que el contenido de una URL haya sido actualizado) desde la última vez que la rastreó.

Además de la probabilidad de cambio desde la última vez que rastreo una URL otra variable que marcará la priorización de rastreo es el Page Rank o popularidad de cada URL. Este PR se usa para ponderar la anterior métrica que nos indicaba la probabilidad de cambio desde el último rastreo.

Presupuesto de rastreo

Con la frecuencia de rastreo y la demanda de rastreo se define el presupuesto de rastreo (o crawl budget) de la siguiente manera.

El número de URLs que el robot de Google puede y quiere rastrear.

¿Es importante el crawl budget?

Depende… en sites grandes, y grandes quiero decir con más de 100.000 URLs, puede ser importante, saber que Google tiene ciertas limitaciones a la hora de rastrear todas las URLs por lo que debemos asegurarnos que las URLs que son potenciales para nosotros no se están viendo perjudicadas por el rastreo de otras URLS mucho menos importantes.

Muchos sitios webs captan su tráfico orgánico en un porcentaje muy pequeño del total de sus URLs, siendo el resto de URLs de poco valor SEO, pero que pueden estar gastando presupuesto de rastreo haciendo que URLs importantes a la hora de captar tráfico no estén siendo actualizadas o descubiertas con la rapidez que debiera.

Google confiesa que

Según nuestros análisis, si un sitio tiene muchas URL de poca calidad, el rastreo y la indexación podrían verse perjudicados.

Es decir, el número (o mejor dicho, porcentaje) de urls que hay en el site y que Google identifica como de mala calidad hacen que el presupuesto de rastreo descienda, y nos comenta a continuación qué tipo de urls identifica Google como de baja calidad.

Estas URL se dividen en las categorías siguientes, por orden de importancia:

  • Navegación por facetas e identificadores de sesión
  • Contenido duplicado en el sitio
  • Páginas con errores menores
  • Páginas pirateadas
  • Espacios infinitos y servidores proxy
  • Contenido spam y de poca calidad

Si malgastamos los recursos del servidor con páginas como éstas, se dejarán de rastrear páginas que verdaderamente son interesantes, lo que puede provocar que se tarde mucho en descubrir el contenido de calidad de un sitio web.

Si tenemos un gran % de urls de nuestro site clasificadas dentro de estos grupos de urls Google no rastrea otras que quizás fuesen más relevantes y con mayor potencial.

Con esto podemos deducir que es muy importante intentar por todos los medios que Google no rastree este tipo de urls, o bien que las urls de tu site que encasilla en uno de estos grupos deje de hacerlo verlas como urls relevantes y de calidad.