Robots.txt y su influencia en el SEO

Equipo IDA

7 años ago

Una tarea central de las estrategias de posicionamiento es asegurar que los buscadores puedan rastrear e indexar los contenidos correctamente.

Para esto, existen distintas formas de comunicarse con las arañas indexadoras. A nivel de contenidos, las técnicas SEO como el uso de etiquetas, atributos y palabras clave, ayudan a orientar a los robots dentro de las páginas. A nivel del sitio web o proyecto digital, los sitemap.xml entregan una guía para encontrar las páginas que se pueden rastrear.

Este último archivo puede ser complementado con un robots.txt, también llamado protocolo de exclusión de robots. Con este documento se le informa a las arañas indexadoras sobre los contenidos que no queremos que se indexen.

¿Por qué podrías querer que algunas páginas no aparezcan en los resultados de búsqueda? En todo proyecto existe secciones de gestión interna, información privada o contenidos de respaldo que no están destinadas a los usuarios finales. Por ejemplo, una práctica común es incluir la url del gestor de contenidos en el robots.txt.

Tipos de archivo que puedes excluir con robots.txt

Es importante que conozcas cómo funcionan estos archivos para asegurar que se excluyan las páginas correctas y no contenidos importantes.

Estos son los tipos de archivos que puedes excluir de la indexación:

Páginas web: Permite controlar el tráfico de rastreo. La principal función es evitar que el rastreador sobrecargue el servidor y restarle relevancia a contenidos que no estén dirigidos al público.
Imágenes: Evita que los archivos de imagen aparezcan en los resultados de la búsqueda. Se puede usar para que no se indexen imágenes de archivo.
Otros recursos: Bloquea los archivos como scripts o elementos de estilo que no son importantes para lo usuarios.

Cómo crear un archivo robots.txt

Para configurar un robots.txt necesitas entender su sintaxis, crear el archivo y tener acceso a la raíz del dominio para cargarlo.

Sintaxis de robots.txt

El Estándar de exclusión de robots usa básicamente tres elementos:

User-Agent: Es el nombre del robot del motor de búsqueda al que quieres darle las instrucciones. Google, por ejemplo, usa robots distintos para rastrear las imágenes y las páginas.
Disallow: Describe las URLs a las que el robot no debe acceder.
Allow: Indica que un subdirectorio, ubicado dentro de un directorio principal bloqueado, puede ser accedido.

Para indicar que el archivo se refiere a todos los robots o agentes de usuario, se debe usar un asterisco (*), mientras que un slash (/) equivale a incluir todas las URLs. Usando estas indicaciones se pueden entregar las instrucciones necesarias.

Ejemplos de uso

Si se quiere permitir que todos los robots visiten todos los contenidos, el archivo se verá así:

User-agent: *
Disallow:

Para negar el acceso a todos los robots y todas las URL, se debe usar:

User-agent: *
Disallow: /

Para bloquear el acceso de todos los robots a ciertas URLs, se deben especificar de la siguiente forma:

User-agent: *
Disallow: /images/
Disallow: /private/

Subir el archivo robots.txt

Una vez establecidas estas definiciones se debe hacer lo siguiente:

Guardar el código como archivo de texto (.txt) con el nombre “robots”.
Ubicarlo en el directorio de nivel más alto del sitio (http://www.ejemplo.com/robots.txt)

Cuando termines, puedes usar el probador de robots.txt de Google para revisar que todo esté en orden.

Si bien es cierto que Google y los principales buscadores respetan estos archivos, es importante entender que son solo indicaciones. Es decir, es posible que algunos robots no respeten el archivo e indexen los contenidos de todas formas.

Por esto, si tienes información sensible que no debe mostrarse al público, siempre debes protegerla con métodos adicionales, como por ejemplo, usando contraseñas.