5 Maneras de Evitar el Contenido Duplicado y Problemas de Indexación

Antes de que una página tenga una buena clasificación, debe rastrearse e indexarse.

Más que cualquier otro tipo de sitio, los sitios de comercio electrónico son conocidos por desarrollar estructuras de URL que crean problemas de rastreo e indexación con los motores de búsqueda. Es importante mantener esto bajo control para evitar el contenido duplicado y las complicaciones del presupuesto de rastreo.

Aquí hay 5 formas de mantener óptima la indexación de tu sitio de comercio electrónico.

1.- Saber qué hay en el índice de Google

Para empezar, es importante verificar con regularidad cuántas de tus páginas Google reporta como indexadas. Para ello, ejecuta una búsqueda “site: example.com” en Google para ver cuántas páginas conoce Google en la Web.

imagen

Si bien el analista de tendencias para webmasters de Google, Gary Illyes, ha mencionado que este número es solo un cálculo aproximado, es la forma más fácil de identificar si algo está seriamente relacionado con la indexación de tu sitio.

En cuanto al número de páginas en tu índice, Stefan Weitz de Bing también admitió que Bing

… adivina el número, que generalmente es incorrecto … Creo que Google lo ha tenido por tanto tiempo que la gente espera verlo allí

Los números entre tu sistema de gestión de contenido (CMS) y la plataforma de comercio electrónico, el mapa del sitio y los archivos del servidor deben coincidir casi perfectamente, o al menos con cualquier discrepancia abordada y explicada. Esos números, a su vez, deberían estar más o menos alineados con lo que devuelve la búsqueda de un operador de sitios de Google.

El SEO inteligente ayuda; un sitio desarrollado con SEO en mente ayuda considerablemente al evitar contenido duplicado y problemas estructurales que pueden crear problemas de indexación.

Aunque muy pocos resultados en un índice pueden ser un problema, demasiados resultados también son un problema ya que esto puede significar que tienes contenido duplicado en los resultados de búsqueda. Si bien Ilyes ha confirmado que no existe una “penalización por contenido duplicado”, el contenido duplicado aún perjudica tu presupuesto de rastreo y también puede diluir la autoridad de tus páginas en los duplicados.

imagen

Si Google devuelve muy pocos resultados:

Identifica qué páginas de tu sitemap no se muestran en tu tráfico de búsqueda orgánica de Google Analytics. (Usa un rango de fechas largo).
Busca una muestra representativa de estas páginas en Google para identificar cuáles faltan realmente en el índice. (No necesitas hacer esto para cada página).
Identifica los patrones en las páginas que no están indexadas y trata los sistemáticamente en tu sitio para aumentar las posibilidades de indexación de esas páginas. Los patrones que se deben buscar incluyen problemas de contenido duplicado, falta de enlaces internos entrantes, no inclusión en el mapa del sitio XML, no indexación no intencional o canonicalización y HTML con serios errores de validación.

Si Google está devolviendo demasiados resultados:

Ejecuta un rastreo de sitios con ScreamingFrog, DeepCrawl, SiteBulb o una herramienta similar e identifica las páginas con títulos duplicados, ya que normalmente tienen contenido duplicado.
Determina qué está causando los duplicados y elimínalos. Hay varias causas y soluciones que constituirán la mayor parte del resto de esta publicación.

2.- Optimizar sitemaps, robots.txt y enlaces de navegación

Estos tres elementos son fundamentales para la indexación fuerte y se han cubierto en profundidad en otros lugares, pero sería negligente si no los mencionara aquí.

No puedo enfatizar la importancia de un sitemap integral. De hecho, parece que hemos llegado al punto en el que es incluso más importante que tus enlaces internos. Gary Ilyes confirmó recientemente que incluso los resultados de búsqueda de palabras clave “principales” (a diferencia de las palabras clave long tail) pueden incluir páginas sin enlaces entrantes, incluso sin enlaces internos. La única forma en que Google podría haber sabido sobre estas páginas es a través del sitemap.

Es importante señalar que las directrices de Google y Bing aún dicen que las páginas deben ser accesibles desde al menos un enlace, y los mapas de sitio de ninguna manera descalifican la importancia de esto.

Es igualmente importante asegurarse de que tu archivo robots.txt sea funcional, no bloquees a Google de ninguna parte de tu sitio que desees indexar, y que declare la ubicación de tu mapa del sitio. Los archivos robots.txt funcionales son muy importantes ya que si no funcionan, puedes hacer que Google deje de indexar tu sitio por completo de acuerdo con Ilyes.

Finalmente, una estructura de enlace de navegación intuitiva y lógica es imprescindible para una buena indexación. Además del hecho de que cada página que espera indexarse debe ser accesible desde al menos un enlace en tu sitio, las buenas prácticas de UX son esenciales. La categorización es fundamental para esto.

Por ejemplo, la investigación de George Miller de la Interaction Design Foundation sugiere que la mente humana solo puede contener aproximadamente siete fragmentos de información en la memoria a corto plazo a la vez.

Recomiendo que tu estructura de navegación esté diseñada en torno a esta limitación, y de hecho, tal vez incluso limites tu menú a no más de cinco categorías para que sea aún más fácil de usar. Cinco categorías por sección de menú y cinco subcategorías por menú desplegable pueden ser más fáciles de navegar.

Estos son algunos puntos importantes que los representantes de Google han hecho sobre la navegación y la indexación:

Los acordeones y pestañas que ocultan los elementos de navegación pueden incluirse si mejoran la experiencia del usuario. En un mundo de movilidad inicial, ocultar elementos de esta manera no daña la indexación.
Usa la navegación breadcrumb, se incluyen en el cálculo de PageRank.
El analista de Tendencias de Webmaster de Google, John Mueller, ha dicho que cualquier estilo de menú estándar, como un mega menú o menú desplegable, está bien, pero las estructuras de URL pobres que producen demasiadas URL para una sola página son un problema.
Gary Illyes también ha dicho que debes evitar el uso del atributo nofollow en tu propio contenido o enlaces internos.
Los Googlers han afirmado muchas veces que el texto de enlace de enlace interno es un factor, así que asegúrate de que tus enlaces de navegación sean descriptivos y útiles, y evita el relleno de palabras clave.
Evita espacios infinitos o trampas de arañas. Normalmente se crean cuando las funciones del sitio interactivo se logran usando enlaces.
Ejecuta un rastreador en tu sitio para determinar si terminas rastreando más páginas de las que esperas encontrar, ya que esto puede ayudarte a identificar enlaces de navegación que crean duplicados, espacios infinitos y otros problemas.
Mantén tus URL lo más cerca posible de la raíz desde la perspectiva de la experiencia del usuario (UX). Gary Illyes ha dicho que las páginas más alejadas de la raíz se rastrearán y se descubrirán con menos frecuencia.
Asegúrate de que se puede acceder a la navegación completa de tu sitio desde los dispositivos móviles, ya que la indexación primero en el móvil significa que esta es la versión que Google está usando para indexar tu sitio.

Bing recomienda lo siguiente:

URLs ricas en palabras clave que eviten las variables de sesión y los docID.
Una estructura de sitio altamente funcional que fomente la vinculación interna.
Una jerarquía de contenido organizado.

3.- Obten un control sobre los parámetros de URL

Los parámetros de URL son una causa muy común de “espacios infinitos” y contenido duplicado, lo que limita severamente el presupuesto de rastreo y puede diluir las señales. Son variables añadidas a tu estructura de URL que llevan instrucciones del servidor utilizadas para hacer cosas como:

Ordenar elementos
Almacenar información de sesión del usuario.
Filtrar elementos
Personalizar la apariencia de la página.
Devolver los resultados de búsqueda en el sitio.
Seguimiento de campañas publicitarias o información de señal a Google Analytics

Si usas Screaming Frog, puedes identificar los parámetros de URL en la pestaña URI seleccionando “Parámetros” en el menú desplegable “Filtro”.

Examina los diferentes tipos de parámetros de URL en juego. Cualquier parámetro de URL que no tenga un impacto significativo en el contenido, como las etiquetas de campaña publicitaria, la clasificación, el filtrado y la personalización, debe tratarse con una directiva noindex o canonicalización (y nunca con ambas). Más sobre esto más tarde.

Bing también ofrece una práctica herramienta para ignorar los parámetros de URL seleccionados en la sección Configurar mi sitio de Bing Webmaster Tools.

Si los parámetros tienen un impacto significativo en el contenido de una manera que crea páginas que no son duplicados, estas son algunas de las recomendaciones de Google sobre la implementación adecuada:

Usa la codificación URL estándar, en el formato “? Key = value &”. No uses codificaciones no estándar como corchetes o comas.
Debes usar parámetros, nunca rutas de archivos, para enumerar valores que no tengan un impacto significativo en el contenido de la página.
Los valores generados por el usuario que no tienen un impacto significativo en el contenido se deben ubicar en un directorio de filtrado que se pueda ocultar con robots.txt, o se puede usar de alguna forma de no indexación o canonicalización.
Usa cookies en lugar de parámetros extraños si un gran número de ellos son necesarios para que las sesiones de los usuarios eliminen la duplicación de contenido que grava los rastreadores web.
No generes parámetros para filtros de usuarios que no produzcan resultados, por lo que las páginas vacías no se indexan ni gravan los rastreadores web.
Solo permite que las páginas se rastreen si producen contenido nuevo para los motores de búsqueda.
No permitas que se haga clic en los enlaces para categorías o filtros que no tengan productos.

4.- Filtros buenos y malos

¿Cuándo se debe poder rastrear un filtro por los motores de búsqueda, y cuándo no debe indexarse o canonicalizarse? Mi regla general, influenciada por las recomendaciones de Google anteriores, es que los filtros “buenos”:

Deben actuar como una extensión significativa de tus categorías de productos, produciendo páginas diferentes pero sólidas.
Deberían ayudar a especificar un producto.

Siento que estos son o deberían ser indexados. Filtros “malos”, en mi opinión:

Reorganiza el contenido sin cambiarlo de otro modo, como ordenar por precio o popularidad.
Mantén las preferencias del usuario que cambian el diseño o el diseño pero que no afectan el contenido.

Estos tipos de filtros no deben indexarse, y en su lugar deben abordarse con directivas AJAX, noindex o canonicalization.

Bing advierte a los webmasters que usen la función pushState de AJAX para crear URLs con contenido duplicado, o esto frustra el propósito.

5.- Uso apropiado de noindex y canonicalización

Noindexing le dice a los motores de búsqueda que no indexen una página, mientras que la canonización les dice a los motores de búsqueda que dos o más URL son en realidad la misma página, pero una es la página canónica “oficial”.

Para duplicados o casi duplicados, la canonicalización es preferida en la mayoría de los casos, ya que conserva la autoridad SEO, pero no siempre es posible. En algunas circunstancias, no desea que se indexe ninguna versión de la página, en cuyo caso se debe usar noindex.

No uses noindex y canonicalization al mismo tiempo. John Mueller advirtió contra esto porque podrías decirles a los motores de búsqueda que no indexen la página canónica así como los duplicados, aunque dijo que Google probablemente trataría la etiqueta canónica como un error.

Aquí, cosas que deben canonicalizarse:

Los duplicados creados mediante parámetros de navegación y URL con facetas deben canonicalizarse a la versión estándar de la página.
Canonicaliza el contenido paginado en una página consolidada de “ver todo”.
Canonicaliza cualquier prueba de división A / B o multivariante en la URL oficial.

Aquí, cosas que recomiendo que no estén indexadas:

Cualquier área de membresía o páginas de inicio de sesión del personal.
Cualquier carrito de compras y páginas de agradecimiento.
Páginas de resultados de búsqueda interna Illyes ha dicho “Generalmente, no son tan útiles para los usuarios y tenemos algunos algoritmos que intentan deshacerse de ellos …”
Cualquier página duplicada que no pueda canonicalizarse.
Categorías de productos estrechas que no son lo suficientemente exclusivas de sus categorías principales.
Como alternativa a la canonicalización, Bing recomienda usar su función de normalización de URL, que se encuentra en Bing Webmaster Tools. Esto limita la cantidad de rastreo necesaria y permite indexar fácilmente el contenido más nuevo.