Guía para principiantes SEO – Capítulo 2: Rastreo

Guía para principiantes de SEO, Capítulo 2: Rastreo, indexación y clasificación

Ha pasado tiempo desde la primera parte de la Guía para principiantes SEO – Capítulo 1: SEO 101, pero después de un breve paréntesis, volvemos a compartir un capítulo, el Capítulo 2.

Capítulo 2: Cómo funcionan los motores de búsqueda: rastreo, indexación y clasificación

Primero, muestrate.

Como mencionamos en el Capítulo 1, los motores de búsqueda son máquinas de respuesta. Existen para descubrir, comprender y organizar el contenido de Internet a fin de ofrecer los resultados más relevantes a las preguntas que realizan los usuarios.

Para aparecer en los resultados de búsqueda, tu contenido primero debe ser visible para los motores de búsqueda. Podría decirse que es la pieza más importante del rompecabezas de SEO: si tu sitio no se puede encontrar, no hay forma de que aparezca en los SERP (Search Engine Results Page).

¿Cómo funcionan los motores de búsqueda?

Los motores de búsqueda tienen tres funciones principales:

Rastrear: Buscar en Internet contenido, revisar el código / contenido de cada URL que encuentra.

Índice: almacena y organiza el contenido encontrado durante el proceso de rastreo. Una vez que una página está en el índice, está en ejecución para mostrarse como resultado de consultas relevantes.

Clasificación: proporciona los elementos de contenido que mejor responderán a la consulta de un usuario. Ordena los resultados de búsqueda por los más útiles para una consulta en particular.

¿Qué es el rastreo del motor de búsqueda?

Rastreo es el proceso de descubrimiento en el que los motores de búsqueda envían un equipo de robots (conocidos como rastreadores o arañas) para encontrar contenido nuevo y actualizado. El contenido puede variar, puede ser una página web, una imagen, un video, un PDF, etc., pero independientemente del formato, el contenido se descubre mediante enlaces.

El bot comienza buscando algunas páginas web y luego sigue los enlaces en esas páginas web para encontrar nuevas URL. Saltando a lo largo de esta ruta de enlaces, los rastreadores pueden encontrar nuevo contenido y agregarlo a su índice, una base de datos masiva de URL descubiertas, para recuperarlo más tarde cuando un buscador está buscando información con la que el contenido de esa URL sea compatible. .

¿Qué es un índice de motor de búsqueda?

Los motores de búsqueda procesan y almacenan la información que encuentran en un índice, una enorme base de datos de todo el contenido que han descubierto y consideran lo suficientemente bueno para servir a los buscadores.

Ranking de motores de búsqueda

Cuando alguien realiza una búsqueda, los motores de búsqueda buscan en su índice contenido altamente relevante y luego ordenan ese contenido con la esperanza de resolver la consulta del usuario. Este orden de resultados de búsqueda por relevancia se conoce como ranking. En general, puede suponer que cuanto más alto se clasifica un sitio web, más relevante es el motor de búsqueda para la consulta.

Es posible bloquear los rastreadores del motor de búsqueda de una parte o la totalidad de su sitio, o indicar a los motores de búsqueda que eviten almacenar ciertas páginas en su índice. Si bien puede haber razones para hacerlo, si desea que los usuarios encuentren su contenido, primero debe asegurarse de que sea accesible para los rastreadores y se pueda indexar. De lo contrario, es tan bueno como invisible.

Al final de este capítulo, tendrás el contexto que necesita para trabajar con el motor de búsqueda, ¡y no en su contra!

Nota: En SEO, no todos los motores de búsqueda son iguales

Muchos principiantes se preguntan sobre la importancia relativa de los motores de búsqueda en particular. La mayoría de la gente sabe que Google tiene la mayor cuota de mercado, pero ¿qué tan importante es optimizar para Bing, Yahoo y otros? La verdad es que a pesar de la existencia de más de 30 principales motores de búsqueda web, la comunidad de SEO realmente solo presta atención a Google. ¿Por qué? La respuesta corta es que Google es donde la gran mayoría de las personas busca en la web. Si incluimos Google Images, Google Maps y YouTube (una propiedad de Google), más del 90% de las búsquedas web suceden en Google, es decir, casi 20 veces combinados con Bing y Yahoo.

Rastreo: ¿Los motores de búsqueda pueden encontrar su sitio?

Como acabas de aprender, asegurarte de que tu sitio sea rastreado e indexado es un requisito previo para aparecer en los SERP. Lo primero es lo primero: puedes verificar cuántas páginas de tu sitio web han sido indexadas por Google usando “site: yourdomain.com”, un operador de búsqueda avanzada.

Dirígete a Google y escribe “site: yourdomain.com” en la barra de búsqueda. Esto arrojará los resultados que Google tiene en su índice para el sitio especificado:

La cantidad de resultados que muestra Google (consulte “Acerca de __ resultados” más arriba) no es exacta, pero le da una idea sólida de qué páginas están indexadas en su sitio y cómo se muestran actualmente en los resultados de búsqueda.

Para obtener resultados más precisos, supervisa y usa el informe Cobertura del índice en Google Search Console. Puedes registrarse para obtener una cuenta gratuita de Google Search Console si actualmente no tienes una. Con esta herramienta, puede enviar sitemaps para su sitio y controlar cuántas páginas enviadas se han agregado al índice de Google, entre otras cosas.

Si no apareces en ningún lugar de los resultados de búsqueda, existen algunas posibles razones:

Tu sitio es completamente nuevo y aún no se ha rastreado.
Tu sitio no está vinculado desde ningún sitio web externo.
La navegación de tu sitio hace que sea difícil para un robot rastrearlo de manera efectiva.
Tu sitio contiene algunos códigos básicos denominados directivas de rastreador que bloquean los motores de búsqueda.
Tu sitio ha sido penalizado por Google por tácticas fraudulentas.

Si tu sitio no tiene otros sitios enlazados a él, aún podrás indexarlo al enviar tu mapa de sitio XML en Google Search Console o al enviar URLs individuales a Google. No hay garantía de que incluyan una URL enviada en su índice, ¡pero vale la pena intentarlo!

¿Los motores de búsqueda pueden ver todo tu sitio?

A veces, un motor de búsqueda puede encontrar partes de tu sitio rastreando, pero otras páginas o secciones pueden quedar oscurecidas por una razón u otra. Es importante asegurarse de que los motores de búsqueda puedan descubrir todo el contenido que deseas indexar, y no solo tu página de inicio.

Pregúntate esto: ¿puede el bot rastrear dentro del sitio web, y no solo a él?

¿Tu contenido está oculto detrás de los formularios de inicio de sesión?

Si requieres que los usuarios inicien sesión, completen formularios o respondan encuestas antes de acceder a cierto contenido, los motores de búsqueda no verán esas páginas protegidas. Un rastreador definitivamente no va a iniciar sesión.

¿Confías en los formularios de búsqueda?

Los robots no pueden usar formularios de búsqueda. Algunas personas creen que si colocan un cuadro de búsqueda en su sitio, los motores de búsqueda podrán encontrar todo lo que buscan sus visitantes.

¿Está el texto oculto dentro del contenido no textual?

Los formularios multimedia que no son de texto (imágenes, video, GIF, etc.) no se deben usar para mostrar el texto que desea indexar. Si bien los motores de búsqueda están mejorando el reconocimiento de imágenes, no hay garantía de que puedan leerlo y entenderlo por el momento. Siempre es mejor agregar texto dentro del marcado <HTML> de tu página web.

¿Los motores de búsqueda pueden seguir la navegación de tu sitio?

Así como un rastreador necesita descubrir tu sitio a través de enlaces desde otros sitios, necesita una ruta de enlaces en tu propio sitio para guiarlo de página en página. Si tienes una página que quieres que los motores de búsqueda encuentren, pero no está vinculada desde ninguna otra página, es tan invisible como la palabra invisible lo dice. Muchos sitios cometen el grave error de estructurar su navegación de formas que son inaccesibles para los motores de búsqueda, lo que dificulta su inclusión en los resultados de búsqueda.

Errores comunes de navegación que pueden evitar que los rastreadores vean todo su sitio:

Tener una navegación móvil que muestra resultados diferentes que tu navegación de escritorio
Cualquier tipo de navegación donde los elementos del menú no están en el HTML, como las navegaciones habilitadas para JavaScript. Google ha mejorado mucho al rastrear y comprender Javascript, pero todavía no es un proceso perfecto. La forma más segura de garantizar que alguien encuentre, comprenda e indexe algo que Google encuentra al colocarlo en el HTML.
La personalización, o que muestra una navegación única para un tipo específico de visitante en comparación con otros, podría parecer estar enmascarando a un rastreador de un motor de búsqueda
Olvidarse de vincular a una página principal en tu sitio web a través de tu navegación. Recuerda, los enlaces son las rutas que siguen los rastreadores a las páginas nuevas.

Es por eso que es esencial que tu sitio web tenga una navegación clara y estructurada de carpetas URL útiles.

Arquitectura informacional

La arquitectura de la información es la práctica de organizar y etiquetar el contenido en un sitio web para mejorar la eficiencia y la capacidad de los usuarios. La mejor arquitectura de información es intuitiva, lo que significa que los usuarios no deberían tener que pensar demasiado para navegar por tu sitio web o encontrar algo.

Tu sitio también debe tener una página 404 útil (página para contenido no encontrado) para cuando un visitante hace clic en un enlace inactivo o escribe mal una URL. Las mejores páginas 404 permiten a los usuarios hacer clic nuevamente en tu sitio para que no reboten solo porque intentaron acceder a un enlace inexistente.

Dile a los motores de búsqueda cómo rastrear tu sitio

Además de asegurarte de que los rastreadores puedan llegar a tus páginas más importantes, también es pertinente tener en cuenta que tendrás páginas en su sitio que no deseas que encuentren. Estos pueden incluir elementos como las URL antiguas que tienen contenido delgado, URL duplicadas (como los parámetros de clasificación y filtro para el comercio electrónico), páginas de códigos promocionales especiales, páginas de ensayo o de prueba, y más.

El bloqueo de páginas de los motores de búsqueda también puede ayudar a los rastreadores a priorizar tus páginas más importantes y maximizar tu presupuesto de rastreo (el número promedio de páginas que un rastreador de motor de búsqueda rastreará en tu sitio).

Las directivas de rastreo te permiten controlar lo que deseas que el robot de Google rastree e indexe utilizando un archivo robots.txt, una metaetiqueta, un archivo sitemap.xml.

Robots.txt

Los archivos Robots.txt se encuentran en el directorio raíz de los sitios web (por ejemplo, tudominio.com/robots.txt) y sugieren qué partes de los motores de búsqueda de tu sitio deben y no deben rastrearse a través de directivas específicas de robots.txt. Esta es una gran solución cuando intenta bloquear motores de búsqueda de páginas no privadas en tu sitio.

No querrá bloquear el rastreo de páginas privadas / confidenciales porque los usuarios y bots pueden acceder fácilmente al archivo.

Consejo profesional:

Si Googlebot no puede encontrar un archivo robots.txt para un sitio (código de estado HTTP 40X), procede a rastrear el sitio.
Si Googlebot encuentra un archivo robots.txt para un sitio (código de estado HTTP 20X), generalmente cumplirá con las sugerencias y procederá a rastrear el sitio.
Si Googlebot no encuentra un código de estado HTTP 20X o 40X (por ejemplo, un error del servidor 501), no puede determinar si tiene un archivo robots.txt o no y no rastreará tu sitio.

Meta directivas

Los dos tipos de meta-directivas son la etiqueta meta robots (más comúnmente utilizada) y la etiqueta x-robots-tag. Cada uno proporciona a los rastreadores instrucciones más sólidas sobre cómo rastrear e indexar el contenido de una URL.

La etiqueta x-robots brinda más flexibilidad y funcionalidad si deseas bloquear los motores de búsqueda a escala porque puede usar expresiones regulares, bloquear archivos que no sean HTML y aplicar etiquetas noindex en todo el sitio.

Estas son las mejores opciones para bloquear las URL * / privadas más sensibles de los motores de búsqueda.

* Para las URL muy confidenciales, se recomienda eliminarlas o requerir un inicio de sesión seguro para ver las páginas.

Sugerencia de WordPress: en Panel de control> Configuración> Lectura, asegúrate de que la casilla “Visibilidad del motor de búsqueda” no esté marcada. Esto bloquea los motores de búsqueda de llegar a tu sitio a través de su archivo robots.txt!

Evita estas trampas comunes, y tendrás contenido limpio y rastreable que permitirá a los bots acceder fácilmente a sus páginas.

Una vez que hayas asegurado que tu sitio ha sido rastreado, la siguiente orden es asegurarte de que se pueda indexar.

Sitemaps

Un mapa del sitio es exactamente lo que parece: una lista de URL en tu sitio que los rastreadores pueden usar para descubrir e indexar tu contenido. Una de las formas más fáciles de garantizar que Google encuentre tus páginas de mayor prioridad es crear un archivo que cumpla con los estándares de Google y enviarlo a través de Google Search Console. Si bien la presentación de un mapa del sitio no reemplaza la necesidad de una buena navegación del sitio, sin duda puede ayudar a los rastreadores a seguir un camino hacia todas sus páginas importantes.

Google Search Console

Algunos sitios (más comunes con el comercio electrónico) hacen que el mismo contenido esté disponible en múltiples URL diferentes al agregar ciertos parámetros a las URL. Si alguna vez compraste en línea, es probable que hayas reducido tu búsqueda a través de filtros. Por ejemplo, puede buscar “zapatos” en Amazon y luego refinar su búsqueda por tamaño, color y estilo. Cada vez que refina, la URL cambia ligeramente. ¿Cómo sabe Google qué versión de la URL servirá a los buscadores? Google hace un buen trabajo al calcular la URL representativa por sí mismo, pero puede usar la función Parámetros de URL en Google Search Console para decirle a Google exactamente cómo quiere que traten sus páginas.