¿Qué es robots.txt?
El archivo robots.txt indica a los motores de búsqueda cómo tratar tu sitio web
Una de las actividades SEO más importantes resulta que es una de las más simples, hablar con los robots. Para que los buscadores exploren tu sitio web con propiedad envían a visitar tu sitio web a unos programas conocidos como robots, y estos visitan las páginas web enviando la información relevante que encuentran para ser utilizada en sus servicios de búsqueda.
Para poder dialogar con estos robots debemos tener un archivo llamado robots.txt, encargado de indicar a cada robot qué contenidos y enlaces seguir para poder facilitar que encuentren nuestros contenidos. Para todo esto se utiliza el llamado The Robots Exclusion Protocol, que es muy fácil de utilizar. Veamos continuación cómo se hace…
Cuando un robot se dispone a visitar tu web, lo primero que hace es consultar un archivo de texto planollamado robots.txt y que es legible desde cualquier navegador. Este archivo deberá estar disponible en la raíz de tu sitio web. Por ejemplo, si llega a la dirección de la web de unnegocio.es, primero consultará la dirección de base: http://www.unnegocio.es/robots.txt y allí encontrará el siguiente contenido:
User-agent: *
Disallow: /
De esta forma hacemos dos indicaciones a los robots:
- El
User-agent: *
significa que esta sección se aplica a todos los robots. - El
Disallow: /
le dice a todos ellos que no deben visitar ninguna página del sitio.
A que es sencillo. Sólo tienes que indicar a qué robots te diriges, y en la siguiente linea indicarle a qué carpetas no tiene acceso. Así entenderán que tienen acceso a todo lo que no indiques.
Puedes consultar una lista completa de los robots en robotstxt.org por si deseas hacer alguna indicación particular a algún servicio de búsqueda y que trate de forma distinta los contenidos de tu web.
Deberás utilizar minúsculas para el nombre del archivo: ‘robots.txt’, no ‘Robots.TXT’.
De la misma forma que los los robots pueden ignorar tu robots.txt. Especialmente los robots de malwareque escanean la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención. Recuerda que el archivo robots.txt es un archivo disponible públicamente. Cualquiera puede ver qué secciones de tu servidor no quieres que usen los robots.
Por lo tanto, no intentes usar el archivo robots.txt para ocultar información.
Las instrucciones aceptadas de robots.txt
- #: Indica que el contenido que le sigue dentro de esa misma linea es un comentario y no será tenido en cuenta.
- user-agent: Sirve para especificar a qué user-agents van a afectar las reglas disallow y allow que pongamos a continuación. Si quieres ver el listado completo de user-agents que podemos encontrarnos.
- disallow: Podemos especificar una barra / para bloquear el acceso a todo el sitio o podemos especificar la ruta (incluso usando comodines *) que queremos bloquear.
- allow: Es como el disallow pero para permitir, es útil cuando queremos añadir ciertas exclusiones a un disallow, es decir, para hacer excepciones.
- sitemap: Nos permite especificar donde está el mapa del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
- crawl-delay: Permite especificar un número de segundos de espera entre cada página revisada por el robot. Útil para evitar saturaciones, otra cosa es que te hagan caso.
Ejemplos de uso de robots.txt
Para permitir que todos los robots tengan acceso completo (también puedes crear un archivo vacío):
User-agent: *
Disallow:
Para excluir todos los robots de parte del servidor:
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
To exclude single robot
User-agent: BadBot
Disallow: /
Para usar en tu página de WordPress, pero recordando cambiar los parámetros de tu sitio web donde sea necesario:
# Bloqueo basico para todos los bots y crawlers # puede dar problemas por bloqueo de recursos en GWT User-agent: * Allow: /wp-content/uploads/* Allow: /wp-content/*.js Allow: /wp-content/*.css Allow: /wp-includes/*.js Allow: /wp-includes/*.css Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /*/attachment/ Disallow: /tag/*/page/ Disallow: /tag/*/feed/ Disallow: /page/ Disallow: /comments/ Disallow: /xmlrpc.php Disallow: /?attachment_id* # Bloqueo de las URL dinamicas Disallow: /*? #Bloqueo de busquedas User-agent: * Disallow: /?s= Disallow: /search # Bloqueo de trackbacks User-agent: * Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback # Bloqueo de feeds para crawlers User-agent: * Allow: /feed/$ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # Ralentizamos algunos bots que disminuyen el rendimiento del servidor User-agent: noxtrumbot Crawl-delay: 20 User-agent: msnbot Crawl-delay: 20 User-agent: Slurp Crawl-delay: 20 # Bloqueo de bots y crawlers apenas usados User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / # Previene problemas de recursos bloqueados en Google Webmaster Tools User-Agent: Googlebot Allow: /*.css$ Allow: /*.js$ # En condiciones normales este es el sitemap Sitemap: https://tusitio.es/sitemap.xml # Si utilizas Yoast SEO estos son los sitemaps principales Sitemap: https://tusitio.es/sitemap_index.xml Sitemap: https://tusitio.es/category-sitemap.xml Sitemap: https://tusitio.es/page-sitemap.xml Sitemap: https://tusitio.es/post-sitemap.xml
Los Permisos de acceso al Archivo
Para evitar disgustos y aportar seguridad a tu archivo debes darle permisos 0644 en octal a tu archivo robots.txt. Esto quiere decir que será legible para todos, pero solo podrá ser modificado por el propietario del archivo (tú).
¿Cómo puedo comprobar que mi configuración es correcta?
Existen varias herramientas online que puedes usar para hacer un chequeo de los parámetros de tu archivo robots.txt, como las de websiteplanet.com (Gracias Emma). Deberás introducir la ubicación completa de tu archivo robots.txt, por ejemplo: nubedocs.es/robots.txt
Tras el análisis recibirás un informe sobre los contenidos de tu archivo y algunos consejos sobre las instrucciones que usas. Espero que te sirva de apoyo para comprobar que lo estás haciendo bien.
Conclusión
Si has llegado hasta aquí ya tendrás bastante más claro que con un par de pequeños cambios en un archivito de nada puedes mejorar el posicionamiento de tu sitio web y de sus contenidos. Si deseas probarlo, no te cortes y utiliza la herramienta que Google pone a tu disposición en Google Search Console > Rastreo > Probador de robots.txt (Con tu usuario y contraseña, claro).
Buena suerte y disfruta de tu nueva posición en la web.
Fuentes: