Saltar al contenido

Archivo robots.txt – Qué es | Para qué sirve | Cómo crearlo

27/04/2020
Archivo robots.txt - Qué es | Para qué sirve | Cómo crearlo

Es importante conocer el archivo robots.txt pues un fallo en él puede provocar que nuestra web no aparezca en Google. Este archivo indica a los buscadores qué partes de tu web pueden ver y cuáles no quieres que vean.

Lo normal es que un buscador indexe todo el contenido de una web, salvo que el archivo robots.txt le indique lo contrario.

1.- Qué es y para qué sirve el archivo robots.txt

Robots.txt es un archivo de texto que creamos y subimos a nuestro sitio web y que utilizamos para impedir que los robots de ciertos buscadores rastreen contenido que no deseamos que indexen ni muestren en sus resultados.

Es decir, es un archivo público que usamos para indicar a esos rastreadores o arañas qué parte o partes no deben entrar a rastrear e indexar de nuestra página web. En él, podemos especificar de manera sencilla, los directorios, subdirectorios, URLs o archivos de nuestra web que no deberían ser rastreados o indexados por los buscadores.

Debido a que está íntimamente relacionado con la indexación del sitio web, es fundamental programar adecuadamente este archivo, sobre todo si nuestra web está hecha con un gestor de contenidos (CMS) que lo genere automáticamente, ya que puede suceder que accidentalmente se incluyan como no indexables partes que sí deberían ser rastreadas.

Normalmente los usos más habituales son para evitar la accesibilidad a determinados partes del sitio web, impedir la indexación de contenidos duplicados (por ejemplo las versiones imprimibles de la web), o para indicarle a Google cuál es nuestro sitemap, incluyendo su URL en el archivo.

http://www.ejemplo.com/sitemap.xml

Los robots de los buscadores son sensibles a las mayúsculas y minúsculas, es importante agregarlos tal y como aparecen listados en el servidor, para una buena programación y entendimiento.

Cuando creamos un sitio web nuevo necesitamos que Google pueda acceder a nuestra página para rastrar nuestra información. Para realizar esta tarea es necesario la creación de un archivo de texto (con extensión.txt) en nuestro dominio para proveer al buscador de toda la información que nos interesa que sepa sobre nuestra página web o negocio. Al mismo tiempo este archivo .txt es usado para impedir que los bots o robots.txt agreguen datos e información que no deseamos compartir.

2.- Cómo funciona

El funcionamiento de un robots.txt es más sencillo de lo que parece. Lo primero que debemos saber es para qué sirve el archivo robots.txt y que elementos de nuestra web es capaz de indexar o no.

Además, el funcionamiento de los robots.txt está limitado y hay otros sistemas para que nuestras direcciones web sean encontradas en la web.

Ten en cuenta que las instrucciones del robots.txt son meras indicaciones y no es algo definitivo. Por ejemplo, los robots de Google, llamados Googlebots, sí obedecen las órdenes del archivo robots.txt, pero otros buscadores (Bing o Yahoo) no tienen por qué hacerlo.

Google diferencia varias clases de robots:

Los user-agents que utiliza de forma específica para buscar y para dar instrucciones. Para poder usar este robot se debe añadir el siguiente comando: User-agent: *

El resto de robots son Googlebots: el Googlebot-Mobile (específico para dispositivos móviles) y el Googlebot-Image que es para imágenes y fotografía.

3.- Características del robots.txt

El archivo robots.txt debe ubicarse en la raíz de la web y es un archivo de texto que utiliza el formato de codificación UTF-8.

El archivo siempre debe tener el nombre de “robots.txt” y ser un único por cada web, aunque si tenemos varios subdominios, cada uno puede tener su propio robots.txt.

El robots.txt se compone de grupos (User-agent) y cada grupo tiene una serie de directivas, donde se indica si un robot puede o no acceder.

Por lo tanto, cada grupo debe tener una directiva allow o disallow.

Dentro de este archivo podemos agregar comentarios con la almohadilla #, los cuales se usan para aclarar por qué bloqueamos o no el acceso a algunos contenidos.

Ejemplo de robots.txt con comentarios:

User-agent: *
Disallow: /buscar/
#No quiero que rastree los contenidos que cuelgan bajo la url buscar/#

Generalmente, al final del archivo se indica la ruta del sitemap.xml de la web.

4.- Por qué el archivo robots.txt es importante

Supongamos que un motor de búsqueda está a punto de visitar un sitio web. Antes de que visite la página objetivo, comprobará el archivo de robots.txt para recibir instrucciones.

Si en tu archivo robots.txt introduces lo siguiente, le estarás diciendo a Google que no visite ninguna página de tu sitio web.

User-agent: *
Disallow: /

El asterisco después de «user-agent» significa que el archivo robots.txt está abierto a todos los robots que visiten el sitio web.

La diagonal después de «Disallow» le dice al robot que no visite ninguna página en el sitio web.

Es importante saber decirle a Google por dónde quieres que empiece a rastrear tu web, sobre todo si tu web tiene muchas URL.

Ten en cuenta que Google tiene un presupuesto de rastreo, es decir, su bot entrará en tu web y empezará a indexar páginas hasta que se acabe ese presupuesto, dejando sin indexar el resto de tu web hasta el próximo rastreo. Esto puede afectar a tu ranking al no tener todas tus páginas indexadas y tal vez te interese indexar más los artículos recientes que los antiguos.

Es por eso que el archivo robots.txt te será útil para decirle a Google por dónde quieres que empiece a rastrar simplemente bloqueando su acceso a ciertos contenidos. Más tarde podrás permitir el acceso a Google a esos contenidos cuando ya haya indexado los más importantes.

5.- Dónde está el archivo robots.txt

Si no sabes si tu sitio web tiene un archivo robots.txt o no lo has creado y quieres revisarlo, solo debes introducir el dominio de tu web seguido de /robots.txt/

Si te aparece un archivo válido es porque tu sistema de creación de tu web (CMS) lo creó de forma predeterminada.

Si tienes un archivo robots.txt puedes modificarlo y en caso de que no lo tengas necesitarás crear uno desde cero. Puedes usar un editor de texto plano como el Bloc de Notas (Windows) o TextEdit (Mac).

Si tienes un archivo robots.txt, necesitarás ubicarlo en el directorio root de tu sitio web.

Encuentra tu archivo robots.txt y ábrelo para editarlo. Borra todo el texto, pero mantén el archivo.

Si usas WordPress, puede que veas un archivo robots.txt cuando vayas a tusitio.com/robots.txt, pero que no esté en tus archivos. Esto es porque WordPress crea un archivo robots.txt si no hay robots.txt en el directorio root. Si esto te sucede, necesitarás crear un nuevo archivo robots.txt.

6.- Diferencia entre rastreo e indexación

Antes de proseguir, es importante conocer la diferencia que existe entre una página rastreada y una página indexada.
Una página rastreada es aquella a la que el bot de Google ha accedido, pero esto no quiere decir que, tras visitarla, la haya añadido al índice de Google, puede ser que sí o puede ser que no. Sin embargo, una página indexada significa que ya se encuentra en el índice de búsqueda de Google y podrá salir en los resultados de búsqueda del mismo.

Lo normal es que los bots de Google primero rastree todas las URL de tu web y después las vaya indexando una a una.

Es posible que Google llegue a indexar una página que está bloqueada en tu archivo robots.txt si recibe enlaces pues lo consideraría como contenido relevante. Es por ello que este archivo no debe usarse si lo que quieres es proteger una parte de tu web a toda costa.

Si quieres evitar que Google indexe una página, debes utilizar la metaetiqueta «noindex» dentro del <head>:

<meta name=»robots» content=»noindex»>

Así, esa página no se mostrará en los resultados de búsqueda, aunque pueda ser rastreada por Google.

Si queremos que los robots no accedan a un contenido, debemos emplear el robots.txt

Utilizar conjuntamente noindex y el bloqueo de un contenido con robots.txt puede ser contraproducente y está desaconsejado pues para leer la etiqueta noindex, Google debe acceder (rastrear) dicho contenido.

Si en robots.txt bloqueamos su acceso, no va a poder leer dicha etiqueta, por lo tanto, existe una posibilidad de que el contenido acabe siendo indexando si recibe enlaces.

7.- Comandos

7.1.- El comando Disallow

Si queremos limitar la indexación de archivos para este tipo de robots debemos usar el comando «Disallow».

Si quieres bloquear el acceso a todo el sitio web, pon una barra, así:

Disallow: /

Si quieres bloquear un directorio y todo lo que en él se encuentre, pon lo siguiente:

Disallow: /https://tudominio.com/directorio/

Si quieres bloquear una página pondrás la ruta a esa página después de Disallow.

Si solo quieres eliminar una imagen:

User-agent: Googlebot-Image
Disallow: /imágenes/nombre-de-la-imagen.jpg

Si quieres erradicar todas las imágenes de Google Imágenes, incluye los siguientes comandos:

User-agent: Googlebot-Image
Disallow: /

Para bloquear archivos de un determinado tipo (por ejemplo, .gif) puedes incluir el siguiente comando:

User-agent: Googlebot
Disallow: /*.gif$

7.1.- Otros comandos muy usados

  • Sitemap: Indica dónde se encuentra el mapa del sitio en XML.
  • Allow: Funciona al revés que el comando Disallow ya que permite el acceso a directorios y páginas. También se puede usar de forma parcial o total para sobrescribir el comando Disallow.
  • Crawl-delay: Este comando le da instrucciones al robot acerca del número de segundos para cargar entre cada página. De hecho, es bastante común su uso en temas de SEO para mejorar la velocidad de carga del servidor.

8.- Cómo crear un archivo robots.txt

8.1.- Crear un archivo robots básico

Para poder crearlo, necesitamos acceso a la raíz del dominio y subir el archivo en formato texto con nombre “robots.txt”, al directorio raíz de primer nivel del servidor de nuestra web.

http://tudominio.com/robots.txt

Puedes crear un nuevo archivo robots.txt al usar el editor de texto plano y empieza fijando el término user-agent configurado para que esté abierto a todos los bots de rastreo poniendo un asterisco detrás:

User-agent: *
Después pon Disallow sin nada detrás:
User-agent: *
Disallow:

Debido a que no hay nada después de disallow, los bots se dirigirán a rastrear toda tu web. Ahora todos los elementos de tu sitio web son vulnerables.

También puedes poner un enlace a tu mapa de sitio en XML (aunque no es estrictamente necesario), así:

Sitemap: https://tudominio.com/sitemap.xml

8.2.- Optimización de robots.txt para SEO

Uno de los usos que se le dan al archivo robots.txt es maximizar el presupuesto de rastreo de Google para decirle que no rastree algunas partes de tu sitio, por ejemplo, algunas páginas como las de login del backoffice:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Debido a que esta página se utiliza para entrar a la parte privada del sitio web, no tendría mucho sentido para los bots de los motores de búsqueda desperdiciar su tiempo rastreándola.

Una página que se suele bloquear es aquella que contiene contenido duplicado intencionadamente. Aunque el contenido duplicado es malo para el SEO, existen algunos casos en los que es necesario y aceptable en alguna web, pero no queremos que se indexen ambas páginas, por ello, le indicaremos a Google cuál no debe rastrear. Por ejemplo, si tienes una versión imprimible de tu página, técnicamente tienes contenido duplicado. En este caso, podrías decirle a los bots que no rastreen una de esas versiones (normalmente, la versión imprimible).

Existen otros dos tipos de comandos que deberías conocer: noindex y nofollow.

Es por eso que necesitas el comando noindex, que funciona con el comando disallow para asegurar que no los bots no visiten o indexen ciertas páginas.

Si tienes algunas páginas que no quieres que se indexen, puedes usar ambos comandos, disallow y noindex:

Disallow: /página/
Noindex: /página/

El comando nofollow le dice a los bots de Google que no rastreen los enlaces salientes de una página de tu web, aunque éste no forma parte del archivo robots.txt sino que deberás ponerlo entre las etiquetas <hea> de la página en cuestión.

Después, pega esta línea:

<meta name=»robots» content=»nofollow»>

Si quieres agregar ambos comandos: noindex y nofollow, usa esta línea de código:

<meta name=»robots» content=»noindex,nofollow»>

9.- Elementos del archivo

9.1.- Comandos

Los principales comandos de un robots.txt son:

  • User-agent: o agente de usuario, son los robots o arañas de los motores de búsqueda, puedes ver a la mayoría de ellos en esta base de datos de robots web. Su sintaxis sería:
    User-agent: [nombre del robot al que aplicaremos la regla]
  • Disallow: indica al agente de usuario o user agent que no debe acceder, rastrear ni indexar una URL, subdirectorio o directorio concreto.
    Disallow: [directorio que quieres bloquear]
  • Allow: surge como contra al anterior, con él indicas al rastreador una URL, subdirectorio o directorio al que si debe entrar, rastrear o indexar.
    Allow: [URL de un directorio o subdirectorio bloqueado que quieres desbloquear]

9.2.- Reglas específicas

La reglas especificadas en el Disallow y Allow solo se aplican a los agentes de usuario que hayamos especificado en la línea anterior a ellas. Se pueden incluir varias líneas Disallow a diferentes agentes de usuario.

9.3.- Otros elementos

Barra inclinada “/”, debe adjuntarse antes del elemento que quieres bloquear.

Reglas de concordancia, son patrones que pueden usarse para simplificar el código del archivo robots.txt.

Ejemplo: *, ?, $

Asterisco (*): bloquea una secuencia de caracteres

Símbolo del dólar ($): para bloquear URLs que terminen de una forma concreta

10.- Probar el archivo robots.txt en Google

Haz siempre pruebas con tu archivo robots.txt cada vez que realices cambios, para estar seguro de que todo está bien y funciona correctamente.

10.1.- ¿Cómo probarlo en Google Search console?

Desde Search Console podemos detectar errores en nuestro robots.txt o probar si una determinada URL tiene permitido o denegado el acceso.

Puedes acceder a través de este enlace, el proceso de comprobación es manual.

Debemos introducir cada URL en la que queremos comprobar si el acceso a un determinado bot de Google está permitido o no.

La parte positiva de esta herramienta es que podemos hacer tests en vivo para ver cómo afectarían a los robots los cambios realizados.

Ir al Probador de robots.txt de Search Console.

11.- Conclusión

Al configurar tu archivo robots.txt correctamente, no sólo estás mejorando tu SEO sino que también estás ayudando a tus usuarios.

Si los bots de los motores de búsqueda pueden utilizar sus presupuestos de rastreo inteligentemente, organizarán y mostrarán tu contenido en los resultados de búsqueda mejor, traduciéndose en una mayor visibilidad.

Si continuas utilizando este sitio aceptas el uso de cookies. más información

Los ajustes de cookies de esta web están configurados para "permitir cookies" y así ofrecerte la mejor experiencia de navegación posible. Si sigues utilizando esta web sin cambiar tus ajustes de cookies o haces clic en "Aceptar" estarás dando tu consentimiento a esto.

Cerrar