Guía para propietarios de sitios grandes sobre cómo gestionar el presupuesto de rastreo
En esta guía se explica cómo optimizar el rastreo que hace Google de sitios muy grandes y que se actualizan con frecuencia.
Si en tu sitio no hay muchas páginas que cambian rápidamente o si parece que tus páginas se rastrean el mismo día que se publican, no hace falta que leas esta guía; basta con que mantengas actualizado tu sitemap y compruebes la cobertura de indexación de tu sitio con regularidad.
Si tienes contenido que ya lleva publicado un tiempo, pero que todavía no se ha indexado, el problema es otro. Puedes averiguar por qué no se indexa tu página con la herramienta de inspección de URLs.
¿A quién va dirigida esta guía?
Esta es una guía avanzada y está dirigida a:
- Sitios grandes (con más de un millón de páginas únicas) que incluyen contenido que cambia con relativa frecuencia (una vez a la semana)
- Sitios medianos o grandes (con más de 10.000 páginas únicas) que incluyen contenido que cambia muy a menudo (a diario)
- Sitios con una gran parte del total de URLs clasificadas por Search Console como Descubiertas: actualmente sin indexar
Teoría general del rastreo
La Web es un espacio casi infinito, por lo que Google no tiene la capacidad de descubrir e indexar todas las URLs disponibles. Por eso, el tiempo que puede dedicar el robot de Google a rastrear un sitio es limitado. La cantidad de tiempo y de recursos que dedica a rastrear los sitios se denomina "presupuesto de rastreo" del sitio. Recuerda que no se indexa todo lo que se rastrea de un sitio, puesto que cada página debe analizarse, unificarse con páginas similares y evaluarse para decidir si se incluirá en el índice una vez rastreada.
El presupuesto de rastreo lo determinan principalmente dos elementos: el límite de la capacidad de rastreo y la demanda de rastreo.
Límite de la capacidad de rastreo
El robot de Google quiere rastrear tu sitio sin sobrecargar tus servidores. Para conseguirlo, estima el máximo de conexiones paralelas simultáneas que puede utilizar para rastrear un sitio concreto, así como el tiempo de espera entre rastreos. Esta estimación se denomina "límite de la capacidad de rastreo" y se calcula para saber cómo rastrear todo el contenido importante de un sitio sin sobrecargar sus servidores.
El límite de la capacidad de rastreo puede aumentar o disminuir en función de los siguientes factores:
- Estado del rastreo: si un sitio responde rápidamente durante un tiempo, el límite aumenta y, por tanto, se pueden usar más conexiones para rastrearlo. En cambio, si ese sitio se ralentiza o devuelve errores de servidor, el límite disminuye y el robot de Google lo rastrea menos.
- Límite fijado por el propietario del sitio web en Search Console: los propietarios de sitios web pueden hacer que el robot de Google rastree menos sus sitios. Aunque se aumente el límite, el robot de Google no incrementará automáticamente la frecuencia de rastreo.
- Límites de rastreos de Google: Google tiene muchos ordenadores, pero no infinitos, así que debe decidir cómo distribuirlos.
Demanda de rastreo
Por lo general, Google dedica todo el tiempo necesario para rastrear un sitio, tiempo que suele estar determinado por el tamaño, la frecuencia de actualización, la calidad de las páginas y la relevancia que tiene el sitio en comparación con otros.
Estos son los factores que desempeñan un papel crucial en la demanda de rastreo:
- Inventario detectado: si no indicas al robot de Google qué debe hacer, intentará rastrear todas o la mayor parte de las URLs que conoce de tu sitio. Si muchas de estas URLs son duplicadas o no quieres que se rastreen por algún otro motivo (por ejemplo, porque se han eliminado o no son importantes), Google perderá mucho tiempo de rastreo en tu sitio. Este es el factor que mejor puedes controlar.
- Popularidad: las URLs que más se visitan en Internet suelen rastrearse con más frecuencia para que estén lo más actualizadas posible en nuestro índice.
- Falta de actualización: nuestros sistemas quieren volver a rastrear documentos con la suficiente frecuencia como para detectar cualquier cambio.
Además, si hay algún cambio que afecta a todo un sitio (por ejemplo, un traslado), es posible que aumente la demanda de rastreo para volver a indexar el contenido con las nuevas URLs.
Conclusiones
La capacidad y la demanda de rastreo son los dos factores que Google tiene en cuenta para determinar el presupuesto de rastreo de los sitios, que también se puede definir como el conjunto de URLs que el robot de Google puede y quiere rastrear. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de rastreo es baja, el robot de Google rastreará menos tu sitio.
Prácticas recomendadas
Sigue estas prácticas recomendadas para optimizar la eficiencia del rastreo:
- Gestiona tus URLs. Usa las herramientas adecuadas para indicar a Google qué páginas debe rastrear y cuáles no. Si Google pasa demasiado tiempo rastreando URLs que no son apropiadas para incluirlas en el índice, es posible que el robot de Google decida que no vale la pena rastrear el resto del sitio (o aumentar el presupuesto para ello).
- Unifica el contenido duplicado. Elimina el contenido duplicado para que los rastreos se centren en contenido único y no en URLs únicas.
- Impide que se rastreen ciertas URLs con un archivo robots.txt. Hay páginas que pueden ser importantes para determinados usuarios, pero que no te interesa que aparezcan en resultados de búsqueda. Por ejemplo, páginas con desplazamiento infinito que incluyen la misma información en páginas enlazadas o versiones de una misma página que presentan la misma información en otro orden. Si no puedes unificar esas páginas tal como se indica en el primer punto, bloquéalas con un archivo robots.txt. Si bloqueas las URLs con robots.txt, es menos probable que se indexen.
-
Devuelve un código de estado
404
o410
en páginas que se hayan eliminado de forma permanente. Google no olvida las URLs que ya conoce, pero se toma los códigos de estado404
como señales de que no debe rastrear esas URLs de nuevo. No obstante, las URLs que están bloqueadas permanecen en la cola de rastreo y volverán a rastrearse cuando dejen de estar bloqueadas. - Elimina los errores
soft 404
. Las páginas con erroressoft 404
se siguen rastreando, lo que consume parte del presupuesto. Consulta el informe de cobertura de indexación para ver si hay erroressoft 404
. - Mantén tus sitemaps actualizados. Google lee tus sitemaps cada cierto tiempo, así que asegúrate de incluir todo el contenido que quieres que rastree. Si en tu sitio se incluye contenido que se va actualizando, lo recomendable es que incluyas la etiqueta
<lastmod>
. - Procura no usar cadenas de redirección largas, ya que afectan al rastreo.
- Configura tus páginas para que se carguen de forma eficiente. Si Google puede cargar y renderizar tus páginas rápidamente, es posible que pueda leer más contenido de tu sitio.
- Monitoriza el rastreo de tu sitio. Comprueba que no haya habido problemas de disponibilidad en tu sitio mientras se rastreaba y busca otras formas de conseguir que el rastreo sea más eficiente.
Monitorizar el rastreo y la indexación de un sitio
Estos son los pasos más importantes para monitorizar el perfil de rastreo de tu sitio:
- Averiguar si el robot de Google detecta problemas de disponibilidad en tu sitio.
- Determinar si hay páginas que deberían rastrearse, pero que el robot de Google no examina.
- Identificar si hay partes de tu sitio que deberían rastrearse más rápido de lo que se está haciendo.
- Mejorar la eficiencia de rastreo de tu sitio.
- Gestionar el rastreo excesivo de tu sitio.
Averiguar si el robot de Google detecta problemas de disponibilidad en tu sitio
Aunque la disponibilidad de tu sitio mejore, es posible que el presupuesto de rastreo de tu sitio no aumente. Tal como se ha comentado más arriba, Google se basa en la demanda de rastreo para determinar la frecuencia de rastreo óptima. No obstante, los problemas de disponibilidad impiden que Google rastree tu sitio tanto como querría.
Diagnosticar el problema:
Consulta el informe "Estadísticas de rastreo" para ver el historial de rastreo del robot de Google en tu sitio. En el informe se muestra cuándo ha detectado Google problemas de disponibilidad en tu sitio. Si aparecen advertencias o errores de disponibilidad en tu sitio, busca en los gráficos de disponibilidad de host si en alguna ocasión las solicitudes del robot de Google han superado el límite (que está indicado con una línea roja), haz clic en el gráfico para ver cuáles son las URLs en las que se han detectado problemas e intenta relacionarlas con errores que haya en tu sitio.
También puedes usar la herramienta de inspección de URLs para probar algunas URLs de tu sitio. Si la herramienta devuelve advertencias de tipo Carga de host superada, significa que el robot de Google no puede rastrear tantas URLs de tu sitio como ha descubierto.
Resolver el problema:
- Consulta cómo detectar y gestionar varios problemas de disponibilidad en la documentación del informe "Estadísticas de rastreo".
- Impide que se rastreen las páginas que no quieres que se rastreen. Consulta la sección sobre cómo gestionar el inventario.
- Haz que las páginas se carguen y se rendericen más rápido. Consulta la sección Mejorar la eficiencia de rastreo del sitio.
- Aumenta la capacidad de tu servidor. Si Google suele alcanzar el límite de capacidad de tu servidor cuando rastrea tu sitio, pero aun así hay URLs importantes que no se rastrean ni se actualizan tanto como sería necesario, aumenta la capacidad del servidor; de este modo, es posible que Google pueda solicitar más páginas de tu sitio. Consulta el historial de disponibilidad de tu host en el informe Estadísticas de rastreo para saber si la frecuencia de rastreo de Google sobrepasa el límite a menudo. Si es así, aumenta los recursos de publicación de tu servidor durante un mes y comprueba si se han hecho más solicitudes de rastreo durante ese mismo periodo.
Determinar si hay páginas que deberían rastrearse, pero que el robot de Google no examina
Google se pasa en tu sitio el tiempo necesario para indexar todo el contenido de alta calidad y valioso que encuentra. Si crees que el robot de Google se deja contenido importante, puede deberse a que no sabe que existe, a que ese contenido está bloqueado, a que la disponibilidad de tu sitio está limitando el acceso de Google o a que Google está intentando no sobrecargar tu servidor.
Diagnosticar el problema:
En Search Console no hay ningún historial de rastreos de tu sitio que puedas filtrar por URL o ruta, pero puedes saber si el robot de Google ha rastreado URLs específicas examinando los registros de tu sitio. Si las URLs rastreadas se han indexado o no, eso es otra historia.
Recuerda que, en la mayoría de los sitios, las páginas nuevas tardan varios días en detectarse. Por tanto, salvo que tengas un sitio que ofrezca contenido urgente o que se queda obsoleto rápidamente (como un sitio de noticias), no esperes que se rastreen tus URLs el mismo día que se publiquen.
Resolver el problema:
Si añades páginas a tu sitio y estas tardan más de lo razonable en rastrearse, la causa puede ser que Google no sabe que existen, que ese contenido está bloqueado, que tu sitio ha alcanzado su límite de publicación o que te has quedado sin presupuesto de rastreo.
- Avisa a Google de que tienes páginas nuevas: actualiza tus sitemaps para que incluyan las nuevas URLs.
- Examina las reglas del archivo robots.txt para comprobar que no estés bloqueando alguna página por error.
- Revisa las prioridades de rastreo; es decir, utiliza el presupuesto de rastreo con cabeza. Gestiona tu inventario y mejora la eficiencia de rastreo de tu sitio.
- Comprueba que tus servidores no se estén quedando sin capacidad. El robot de Google reducirá el rastreo si detecta que tus servidores tienen problemas para responder a sus solicitudes.
Aunque una página se haya rastreado, es posible que no se muestre en los resultados de búsqueda si su contenido no tiene suficiente valor o los usuarios no lo solicitan.
Identificar si las actualizaciones de tu sitio deberían rastrearse más rápido de lo que se está haciendo
Si no se detecta alguna página nueva o actualizada de tu sitio, quizá sea porque no se ha detectado que está o que se ha actualizado. En esta sección se indica cómo puedes ayudarnos a saber que se ha actualizado una página.
Google intenta buscar e indexar páginas en un tiempo razonable, que suelen ser al menos tres días en la mayoría de los casos. Por tanto, salvo que tengas un sitio de noticias o que ofrezca contenido de gran valor que se quede obsoleto rápidamente, no esperes que se indexen tus páginas el mismo día que las publiques.
Diagnosticar el problema:
Examina los registros de tu sitio para ver cuándo ha rastreado el robot de Google determinadas URLs.
Para saber la fecha de indexación, utiliza la herramienta de inspección de URLs o busca en Google las URLs que has actualizado.
Resolver el problema:
Qué puedes hacer:
- Enviar un Sitemap de News si el sitio incluye contenido de noticias. Hacer ping a Google cuando se publique o modifique tu sitemap.
- Incluir la etiqueta
<lastmod>
en los sitemaps para indicar cuándo se ha actualizado una URL indexada. - Aplicar una estructura de URLs sencilla para que Google pueda encontrar tus páginas más fácilmente.
- Proporcionar enlaces
<a>
rastreables estándar para ayudar a Google a encontrar las páginas.
Qué debes evitar:
- Enviar el mismo sitemap varias veces el mismo día si no se ha modificado.
- Esperar que el robot de Google rastree todo el contenido de un sitemap o que lo haga inmediatamente. El robot de Google se toma los sitemaps como sugerencias útiles, no como requisitos absolutos.
- Incluir en los sitemaps URLs que no quieras que aparezcan en la Búsqueda. Si lo haces, gastarás parte de tu presupuesto de rastreo en páginas que no quieres que se indexen.
Mejorar la eficiencia de rastreo de tu sitio
Mejora la velocidad de carga de tus páginas
La capacidad de rastreo de Google está limitada por el ancho de banda, el tiempo y la disponibilidad de las instancias del robot de Google. Si tu servidor responde rápido a las solicitudes, es posible que se puedan rastrear más páginas de tu sitio. Dicho esto, Google solo quiere rastrear contenido de alta calidad, por lo que el robot de Google no va a rastrear más páginas de tu sitio si te limitas a mejorar la velocidad de páginas de baja calidad. En cambio, si en Google creemos que nos estamos perdiendo contenido de alta calidad de tu sitio, probablemente aumentaremos el presupuesto para rastrearlo.
A continuación se indica qué puedes hacer para optimizar tus páginas y tus recursos de cara al rastreo:
- Evita que el robot de Google cargue recursos grandes, pero poco importantes, mediante el archivo robots.txt. Bloquea solo recursos que no sean importantes; es decir, aquellos que no sean importantes para entender el significado de la página (como las imágenes decorativas).
- Asegúrate de que tus páginas se carguen rápidamente.
- Ten cuidado con las cadenas de redirección largas, ya que afectan al rastreo.
- Son importantes tanto el tiempo que tarda el servidor en responder a las solicitudes como el tiempo necesario para renderizar las páginas. También debe tenerse en cuenta el tiempo de carga y de ejecución de los recursos insertados, como las imágenes y las secuencias de comandos. Ten en cuenta los recursos de gran tamaño o que tardan en cargarse necesarios para indexar el contenido.
Especificar cambios de contenido con códigos de estado HTTP
Por lo general, Google admite los encabezados de solicitud HTTP If-Modified-Since
y If-None-Match
para el rastreo. Los rastreadores de Google no envían los encabezados en todos los intentos de rastreo. Esto depende del caso práctico de la solicitud (por ejemplo, AdsBot tiene más probabilidades de establecer los encabezados de solicitud HTTP If-Modified-Since
y If-None-Match
). Si nuestros rastreadores envían el encabezado If-Modified-Since
, su valor corresponde a la fecha y la hora en la que se rastreó el contenido por última vez. En función de ese valor, el servidor puede devolver un código de estado HTTP 304 (Not Modified)
sin cuerpo de respuesta. En ese caso, Google reutilizará la versión de contenido que rastreó por última vez. Si el contenido es más reciente que la fecha especificada por el rastreador en el encabezado de If-Modified-Since
, el servidor puede devolver un código de estado HTTP 200 (OK)
con el cuerpo de la respuesta.
Independientemente de los encabezados de solicitud, puedes enviar un código de estado HTTP 304 (Not Modified)
sin cuerpo de respuesta para cualquier solicitud del robot de Google si el contenido no ha cambiado desde la última vez que visitó la URL. De este modo, se ahorrará tiempo y recursos de procesamiento de tu servidor, lo que podría mejorar indirectamente la eficiencia de rastreo.
Oculta las URLs que no quieras que aparezcan en los resultados de búsqueda
Si malgastas recursos de tu servidor en páginas que no hace falta que se rastreen, puede que se dedique menos tiempo a rastrear páginas que sí son importantes. En ese caso, quizá se tarde mucho en descubrir contenido nuevo o actualizado de calidad.
Si el robot de Google puede acceder a muchas URLs de tu sitio que no quieres que se rastreen, el rastreo y la indexación del sitio pueden verse afectados. Por lo general, estas URLs se clasifican en las siguientes categorías:
- Navegación por facetas e identificadores de sesión: la navegación por facetas suele ser contenido duplicado del sitio. Los identificadores de sesión y otros parámetros de URL que simplemente ordenan o filtran el contenido de las páginas no proporcionan contenido nuevo. Bloquea las páginas de navegación por facetas con el archivo robots.txt.
- Contenido duplicado: ayuda a Google a identificar el contenido duplicado para evitar que se rastree.
- Páginas con errores
soft 404
: devuelve un código404
cuando una página ya no exista. - Páginas pirateadas: consulta el informe "Problemas de seguridad" y corrige o retira las páginas pirateadas que encuentres.
- Espacios infinitos y proxies: impide que se rastreen mediante el archivo robots.txt.
- Contenido de baja calidad y spam: está claro que hay que evitarlo.
- Páginas de carrito de la compra, páginas de desplazamiento infinito y páginas en las que se puede completar una tarea (como registrarse o comprar).
Qué puedes hacer:
- Bloquear con el archivo robots.txt los recursos o las páginas que no quieres que Google rastree.
- Hacer referencia a los recursos comunes que se utilicen en varias páginas (como una imagen compartida o un archivo JavaScript) con la misma URL; de este modo, Google podrá almacenarlos en caché y reutilizarlos sin tener que solicitarlos varias veces.
Qué debes evitar:
- Añadir o retirar páginas o directorios del archivo robots.txt con regularidad para reasignar el presupuesto de rastreo a otras páginas de tu sitio. En el archivo robots.txt, debes bloquear únicamente páginas o recursos que no quieres que aparezcan en Google a largo plazo.
- Rotar sitemaps o recurrir a otros mecanismos de ocultación temporal para reasignar el presupuesto a otras páginas.
Gestionar el rastreo excesivo de tu sitio (en caso de emergencia)
El robot de Google tiene algoritmos para no sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si detectas que el robot de Google está enviando demasiadas solicitudes a tu sitio, tienes varias opciones.
Diagnosticar el problema:
Consulta el servidor de tu sitio para ver si recibe demasiadas solicitudes del robot de Google.
Resolver el problema:
En caso de emergencia, lo recomendable es seguir estos pasos para que el robot de Google deje de sobrecargar tus servidores:
- Cuando tu servidor esté sobrecargado, devuelve los códigos de estado de respuesta HTTP
503
o429
temporalmente para solicitudes del robot de Google. El robot de Google volverá a probar esas URLs durante aproximadamente 2 días. Si durante varios días devuelves códigos que indican que no hay disponibilidad, Google reducirá la frecuencia de rastreo o dejará de rastrear URLs de tu sitio permanentemente, por lo que debes completar los siguientes pasos adicionales. - Reduce la frecuencia con la que el robot de Google rastrea tu sitio. Esta medida puede tardar hasta 2 días en surtir efecto y necesitas permisos de propietario de la propiedad de Search Console. Hazlo solo si, al consultar el gráfico de uso de host que hay en la sección de disponibilidad de host del informe "Estadísticas de rastreo", observas que desde hace tiempo Google suele sobrecargar tu servidor al rastrear tu sitio.
-
Una vez que haya disminuido la frecuencia de rastreo, deja de devolver los códigos de estado de respuesta HTTP
503
o429
cuando recibas solicitudes de rastreo. Si Google recibe el código503
o429
durante más de 2 días al rastrear una URL, quitará las URLs del índice. - Monitoriza el rastreo y la capacidad de tu host a lo largo del tiempo. Si lo consideras oportuno, aumenta la frecuencia de rastreo o vuelve a la frecuencia predeterminada.
- Si el rastreador que da problemas es uno de los rastreadores AdsBot, probablemente sea porque has creado objetivos de anuncios dinámicos de búsqueda que dirigen a tu sitio y Google los está intentando rastrear. Google trata de rastrear esos objetivos cada 2 semanas; si tu servidor no puede gestionar estos rastreos, puedes limitar los objetivos de anuncios que utilizas o aumentar la capacidad de tu servidor.
Mitos y realidades sobre el rastreo
Pon a prueba tus conocimientos sobre cómo rastrea e indexa sitios web Google.
5xx
(errores de servidor) o se agota el tiempo de espera de las conexiones, reducirá la frecuencia de rastreo. Lo recomendable es que prestes atención al informe "Estadísticas de rastreo" de Search Console y que reduzcas al máximo los errores de servidor.
nofollow
afecta al presupuesto de rastreo.nofollow
, es posible que la URL se acabe rastreando si está enlazada en otra página del sitio o de Internet sin la regla nofollow
.noindex
para controlar el presupuesto de rastreo.noindex
.
Sin embargo,
noindex
puede ayudarte a mantener las páginas fuera del índice. Si quieres asegurarte de que esas páginas no terminen en el índice de Google, continúa usando noindex
y no te preocupes por el presupuesto de rastreo. También debes tener en cuenta que, si quitas URLs del índice de Google con noindex
o con cualquier otro método, el robot de Google puede centrarse en otras URLs de tu sitio, lo que significa que noindex
puede liberar indirectamente parte del presupuesto de rastreo para tu sitio a largo plazo.
4xx
desperdician el presupuesto de rastreo.4xx
(excepto 429
) no desperdician el presupuesto de rastreo. Google ha intentado rastrear la página, pero ha recibido un código de estado y ningún otro contenido.