¿Qué es robots.txt? ⋆ Nubedocs

El archivo robots.txt indica a los motores de búsqueda cómo tratar tu sitio web

Una de las actividades SEO más importantes resulta que es una de las más simples, hablar con los robots. Para que los buscadores exploren tu sitio web con propiedad envían a visitar tu sitio web a unos programas conocidos como robots, y estos visitan las páginas web enviando la información relevante que encuentran para ser utilizada en sus servicios de búsqueda.

Para poder dialogar con estos robots debemos tener un archivo llamado robots.txt, encargado de indicar a cada robot qué contenidos y enlaces seguir para poder facilitar que encuentren nuestros contenidos. Para todo esto se utiliza el llamado The Robots Exclusion Protocol, que es muy fácil de utilizar. Veamos continuación cómo se hace…

Cuando un robot se dispone a visitar tu web, lo primero que hace es consultar un archivo de texto planollamado robots.txt y que es legible desde cualquier navegador. Este archivo deberá estar disponible en la raíz de tu sitio web. Por ejemplo, si llega a la dirección de la web de unnegocio.es, primero consultará la dirección de base: http://www.unnegocio.es/robots.txt y allí encontrará el siguiente contenido:

User-agent: *
Disallow: /

De esta forma hacemos dos indicaciones a los robots:

El User-agent: * significa que esta sección se aplica a todos los robots.
El Disallow: / le dice a todos ellos que no deben visitar ninguna página del sitio.

A que es sencillo. Sólo tienes que indicar a qué robots te diriges, y en la siguiente linea indicarle a qué carpetas no tiene acceso. Así entenderán que tienen acceso a todo lo que no indiques.

Puedes consultar una lista completa de los robots en robotstxt.org por si deseas hacer alguna indicación particular a algún servicio de búsqueda y que trate de forma distinta los contenidos de tu web.

Deberás utilizar minúsculas para el nombre del archivo: ‘robots.txt’, no ‘Robots.TXT’.

De la misma forma que los los robots pueden ignorar tu robots.txt. Especialmente los robots de malwareque escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención. Recuerda que el archivo robots.txt es un archivo disponible públicamente. Cualquiera puede ver qué secciones de tu servidor no quieres que usen los robots.

Por lo tanto, no intentes usar el archivo robots.txt para ocultar información.

Las instrucciones aceptadas de robots.txt

#: Indica que el contenido que le sigue dentro de esa misma linea es un comentario y no será tenido en cuenta.
user-agent: Sirve para especificar a qué user-agents van a afectar las reglas disallow y allow que pongamos a continuación. Si quieres ver el listado completo de user-agents que podemos encontrarnos.
disallow: Podemos especificar una barra / para bloquear el acceso a todo el sitio o podemos especificar la ruta (incluso usando comodines *) que queremos bloquear.
allow: Es como el disallow pero para permitir, es útil cuando queremos añadir ciertas exclusiones a un disallow, es decir, para hacer excepciones.
sitemap: Nos permite especificar donde está el mapa del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
crawl-delay: Permite especificar un número de segundos de espera entre cada página revisada por el robot. Útil para evitar saturaciones, otra cosa es que te hagan caso.

Ejemplos de uso de robots.txt

Para permitir que todos los robots tengan acceso completo (también puedes crear un archivo vacío):

User-agent: *Disallow:

Para excluir todos los robots de parte del servidor:

Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
To exclude single robot
User-agent: BadBot
Disallow: /

Para usar en tu página de WordPress, pero recordando cambiar los parámetros de tu sitio web donde sea necesario:

# Bloqueo basico para todos los bots y crawlers
# puede dar problemas por bloqueo de recursos en GWT
User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-includes/ 
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*
# Bloqueo de las URL dinamicas
Disallow: /*?
#Bloqueo de busquedas
User-agent: *
Disallow: /?s= 
Disallow: /search
# Bloqueo de trackbacks
User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback
# Bloqueo de feeds para crawlers
User-agent: *
Allow: /feed/$ 
Disallow: /feed/ 
Disallow: /comments/feed/
Disallow: /*/feed/$ 
Disallow: /*/feed/rss/$ 
Disallow: /*/trackback/$ 
Disallow: /*/*/feed/$ 
Disallow: /*/*/feed/rss/$ 
Disallow: /*/*/trackback/$ 
Disallow: /*/*/*/feed/$ 
Disallow: /*/*/*/feed/rss/$ 
Disallow: /*/*/*/trackback/$
# Ralentizamos algunos bots que disminuyen el rendimiento del servidor
User-agent: noxtrumbot
Crawl-delay: 20
User-agent: msnbot
Crawl-delay: 20
User-agent: Slurp
Crawl-delay: 20
# Bloqueo de bots y crawlers apenas usados
User-agent: MSIECrawler
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: Orthogaffe 
Disallow: / 
User-agent: UbiCrawler 
Disallow: / 
User-agent: DOC 
Disallow: / 
User-agent: Zao 
Disallow: / 
User-agent: sitecheck.internetseer.com 
Disallow: / 
User-agent: Zealbot 
Disallow: / 
User-agent: MSIECrawler 
Disallow: / 
User-agent: SiteSnagger 
Disallow: / 
User-agent: WebStripper 
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: Fetch 
Disallow: / 
User-agent: Offline Explorer 
Disallow: / 
User-agent: Teleport 
Disallow: / 
User-agent: TeleportPro 
Disallow: / 
User-agent: WebZIP 
Disallow: / 
User-agent: linko 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: Xenu 
Disallow: / 
User-agent: larbin 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: ZyBORG 
Disallow: / 
User-agent: Download Ninja 
Disallow: / 
User-agent: wget 
Disallow: / 
User-agent: grub-client 
Disallow: / 
User-agent: k2spider 
Disallow: / 
User-agent: NPBot 
Disallow: / 
User-agent: WebReaper 
Disallow: /
# Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
# En condiciones normales este es el sitemap
Sitemap: https://tusitio.es/sitemap.xml
# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://tusitio.es/sitemap_index.xml
Sitemap: https://tusitio.es/category-sitemap.xml
Sitemap: https://tusitio.es/page-sitemap.xml
Sitemap: https://tusitio.es/post-sitemap.xml

Los Permisos de acceso al Archivo

Para evitar disgustos y aportar seguridad a tu archivo debes darle permisos 0644 en octal a tu archivo robots.txt. Esto quiere decir que será legible para todos, pero solo podrá ser modificado por el propietario del archivo (tú).

¿Cómo puedo comprobar que mi configuración es correcta?

Existen varias herramientas online que puedes usar para hacer un chequeo de los parámetros de tu archivo robots.txt, como las de websiteplanet.com (Gracias Emma). Deberás introducir la ubicación completa de tu archivo robots.txt, por ejemplo: nubedocs.es/robots.txt

Tras el análisis recibirás un informe sobre los contenidos de tu archivo y algunos consejos sobre las instrucciones que usas. Espero que te sirva de apoyo para comprobar que lo estás haciendo bien.

Conclusión

Si has llegado hasta aquí ya tendrás bastante más claro que con un par de pequeños cambios en un archivito de nada puedes mejorar el posicionamiento de tu sitio web y de sus contenidos. Si deseas probarlo, no te cortes y utiliza la herramienta que Google pone a tu disposición en Google Search Console > Rastreo > Probador de robots.txt (Con tu usuario y contraseña, claro).

Buena suerte y disfruta de tu nueva posición en la web.

Fuentes:

Publicación

¿Qué es robots.txt?

El archivo robots.txt indica a los motores de búsqueda cómo tratar tu sitio web