Blog

12
Mar 2015

Sácale provecho al robots.txt para mejorar tu SEO

Posteado Por Catrian

Este pequeño archivo que a veces se pasa por alto, es muy importante para que una web se indexe correctamente en las bases de datos de los motores de búsqueda ya que en este se encuentra la información que le indica al motor de búsqueda qué contenidos indexar y cuáles no. Esto suena bien, pero ¿cómo funciona? ¿cómo se crear? ¿en dónde debe estar?

Qué es y para qué sirve

Los motores de búsqueda constantemente están en la búsqueda de nuevas webs o nuevos contenidos, este proceso lo realizan una serie de herramientas (software) llamados Robots, Spiders o Crawlers. Estas herramientas se valen del archivo robots.txt y del Sitemap para alimentar las bases de datos de su motor de búsqueda. Si no tienes un archivo robots.txt, el motor de búsqueda no recibe indicaciones eficientes de tu sitio.

Robots.txt es simplemente un archivo de texto plano que le da indicaciones al Crawler en cuanto a cómo leer tu sitio y que información indexar en la base de datos del motor de búsqueda.

Lo que tiene por dentro

Configurar correctamente nuestro robots.txt es importante ya que:

  • Permite una mejor indexación del sitio en los motores de búsqueda con lo que ayuda a su posicionamiento.
  • Limita la información que deseas mostrar, los datos privados permanecen privados.
  • Reduce la sobrecarga del servidor ya que hay robots que hacen demasiadas peticiones y pueden hacer lento el acceso a tu sitio.

Hay comandos principales para crear el archivo robots.txt y ayudar a los crawlers a guiarse con mayor eficiencia:

  • User-agent: identifica para qué mecanismo de rastreo son las instrucciones que se incluyen
  • Disallow: informa qué páginas no deben ser analizadas por los rastreadores.
  • Allow: informa qué páginas deben ser analizadas por los rastreadores.
  • Sitemap: muestra la localización del sitemap de tu web, importante para que los rastreadores encuentren las nuevas entradas.
  • Crawl-delay: indica al robot el número de segundos que debe esperar entre cada página. Es muy útil para reducir la carga del servidor. El tiempo recomendado es de 5-10 segundos.

De igual forma, se admite el uso de comodines en la configuración del fichero:

  • Asterisco (*): vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por «documentos» serían «/documentos*/»
  • Dólar ($): indica el final de un URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .inc se utilizaría «/.inc$».

Debes tener en cuenta que sólo debe existir un robots.txt por sitio y que este archivo no es una herramienta de seguridad. La información que pongas en este fichero es pública y cualquier persona puede consultarla escribiendo en la barra de dirección del navegador: www.tudominio.com/robots.txt

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

* Campo obligatorio