Blog IDA Chile | Estrategia para el éxito de tu negocio

Robots.txt y su influencia en el SEO

Una tarea central de las estrategias de posicionamiento es asegurar que los buscadores puedan rastrear e indexar los contenidos correctamente.

Para esto, existen distintas formas de comunicarse con las arañas indexadoras. A nivel de contenidos, las técnicas SEO como el uso de etiquetas, atributos y palabras clave, ayudan a orientar a los robots dentro de las páginas. A nivel del sitio web o proyecto digital, los sitemap.xml entregan una guía para encontrar las páginas que se pueden rastrear.

Este último archivo puede ser complementado con un robots.txt, también llamado protocolo de exclusión de robots. Con este documento se le informa a las arañas indexadoras sobre los contenidos que no queremos que se indexen.

¿Por qué podrías querer que algunas páginas no aparezcan en los resultados de búsqueda? En todo proyecto existe secciones de gestión interna, información privada o contenidos de respaldo que no están destinadas a los usuarios finales. Por ejemplo, una práctica común es incluir la url del gestor de contenidos en el robots.txt.

Tipos de archivo que puedes excluir con robots.txt

Es importante que conozcas cómo funcionan estos archivos para asegurar que se excluyan las páginas correctas y no contenidos importantes.

Estos son los tipos de archivos que puedes excluir de la indexación:

Cómo crear un archivo robots.txt

Para configurar un robots.txt necesitas entender su sintaxis, crear el archivo y tener acceso a la raíz del dominio para cargarlo.

Sintaxis de robots.txt

El Estándar de exclusión de robots usa básicamente tres elementos:

Para indicar que el archivo se refiere a todos los robots o agentes de usuario, se debe usar un asterisco (*), mientras que un slash (/) equivale a incluir todas las URLs. Usando estas indicaciones se pueden entregar las instrucciones necesarias.

Ejemplos de uso

Si se quiere permitir que todos los robots visiten todos los contenidos, el archivo se verá así:

User-agent: *
Disallow:

Para negar el acceso a todos los robots y todas las URL, se debe usar:

User-agent: *
Disallow: /

Para bloquear el acceso de todos los robots a ciertas URLs, se deben especificar de la siguiente forma:

User-agent: *
Disallow: /images/
Disallow: /private/

Subir el archivo robots.txt

Una vez establecidas estas definiciones se debe hacer lo siguiente:

Cuando termines, puedes usar el probador de robots.txt de Google para revisar que todo esté en orden.

 

Si bien es cierto que Google y los principales buscadores respetan estos archivos, es importante entender que son solo indicaciones. Es decir, es posible que algunos robots no respeten el archivo e indexen los contenidos de todas formas.

Por esto, si tienes información sensible que no debe mostrarse al público, siempre debes protegerla con métodos adicionales, como por ejemplo, usando contraseñas.