Google: Cómo Optimizar el Presupuesto de Rastreo de tu Sitio Web

Google: Cómo Optimizar el Presupuesto de Rastreo de tu Sitio Web pixelwork

Google: Cómo Optimizar el Presupuesto de Rastreo de tu Sitio Web

 

En el blog oficial de Google para webmasters, Gary Illyes escribió sobre los presupuestos de rastreo y cómo afectan a tu sitio web. Dar prioridad a las páginas que deben ser indexadas puede ayudarte a obtener altos rankings para tus páginas. Hay dos factores que influyen en el presupuesto de rastreo de un sitio web:

1.- El límite de velocidad de rastreo

El rastreo es la principal prioridad del rastreador web de Google. El límite de la velocidad de rastreo representa el número de conexiones paralelas simultáneas que Googlebot puede utilizar para rastrear el sitio, así como el tiempo que tiene que esperar entre los rastreos.

La tasa de rastreo depende de la rapidez con que un sitio web responde a las solicitudes. También puedes limitar la indexación en la consola de búsqueda de Google.

2.- Demanda de Rastreo

La demanda de rastreo representa el interés de Google en un sitio web. Las URL que son más populares en Internet tienden a ser rastreadas con más frecuencia para mantenerlas frescas en el índice de Google. Google también intenta evitar que las URL se vuelvan obsoletas en el índice.

Si un sitio web se mueve a una nueva dirección, la demanda de rastreo podría aumentar para reindexar el contenido bajo las nuevas URL.

El límite de velocidad de rastreo y la demanda de rastreo definen el presupuesto de rastreo como el número de URLs que Googlebot puede y desea rastrear.

Cómo optimizar tu presupuesto de rastreo

Tener muchas URLs de bajo valor añadido puede afectar negativamente al rastreo e indexación de un sitio. Estas son algunas de las URL de bajo valor añadido que deben excluirse del rastreo:

  1. Páginas con ID de sesión: Si se puede acceder a la misma página con ID de sesión múltiple, utiliza el atributo rel = canonical en estas páginas para mostrar a Google la versión preferida de la página. Lo mismo se aplica a todas las páginas de contenido duplicado en tu sitio, por ejemplo, las versiones de impresión de páginas web. Los duplicados serán ignorados.
  2. Navegación con facetas (filtrado por color, tamaño, etc.): El filtrado de páginas por color, tamaño y otros criterios también puede dar lugar a una gran cantidad de contenido duplicado. Utiliza el archivo robots.txt de tu sitio para asegurarte de que estos duplicados no están indexados.
  3. Páginas 404 Soft: Las páginas 404 Soft son páginas de error que muestran un mensaje de error “esta página no se encontró” con el código de estado HTTP incorrecto “200 OK”. Estas páginas de error deben utilizar el código de estado HTTP “404 no encontrado”.
  4. Espacios infinitos: Por ejemplo, si tu sitio web tiene un calendario con un enlace de “mes siguiente”, Google podría seguir estos enlaces de “próximo mes” por siempre. Si tu sitio web contiene páginas creadas automáticamente que realmente no contienen contenido nuevo, agrega el atributo rel = nofollow a estos enlaces.
  5. Baja calidad y contenido spam: Comprueba si hay páginas en tu sitio web que no son tan buenas. Si tu sitio web tiene muchas páginas, la eliminación de estas páginas puede resultar en una mejor clasificación.

Si no bloqueas estos tipos de página, perderás recursos de servidor en páginas sin importancia que no tienen valor. La exclusión de estas páginas asegurará que Google indexe las páginas importantes de tu sitio.

¿Qué significa esto para las clasificaciones de tu página web en Google?

Es probable que no tengas que preocuparte por los presupuestos de rastreo. Si Google indexa sus páginas el mismo día en que se publican (o un día después), entonces no tienes que hacer nada.

Google rastrea miles de sitios web de manera eficiente. Si tienes un sitio muy grande con decenas de miles de sitios web, es más importante priorizar qué rastrear y cuántos recursos de servidor usar.

El rastreo no es un factor de clasificación. Hay muchos factores que son utilizados por los algoritmos de clasificación de Google. El ritmo de rastreo no es uno de ellos.