Qué es el archivo robots.txt

Raro es el día en que no usemos Google para buscar algún tipo de información. El buscador más famoso del mundo nos ofrece todo tipo de soluciones para nuestras vidas ya que es una de las marcas más fáciles de usar para los ciudadanos. Sin embargo, los buscadores necesitan información, son curiosos por naturaleza y quieren conocer absolutamente todo de nuestras vidas y páginas web. En definitiva, son codiciosos por obtener conocimiento e información, de ahí la importancia de conocer el uso y funcionamiento de un robots.txt.

Los buscadores cuentan con unas máquinas o robots que rastrean la web para clasificar e indexar la mayor cantidad de información posible a sus bases de datos. Este tipo de archivo es una clase de máquina muy usada en la red para indexar el contenido web. Los spammers, por ejemplo, los usan para rastrear direcciones electrónicas. Pero ojo, también tienen muchos más usos como la localización de sitios en XML o bloquear el acceso a archivos de código y directorios. Si quieres saber más, te vamos a contar cómo es el funcionamiento de este archivo, qué necesitas saber y cómo debes manejarte con ellos.

¿Qué es el robots.txt?

Google

Cuando creas un sitio web nuevo, necesitas que Google pueda acceder a tu página para rastrar tu información. Para realizar esta tarea, es necesario la creación de un archivo de texto (con extensión.txt) en nuestro dominio para proveer al buscador de toda la información que nos interesa que sepa sobre nuestra página web o negocio. Al mismo tiempo, este archivo .txt es usado para impedir que los bots o robots.txt agreguen datos e información que no deseamos compartir con la compañía de Moutain View. 

Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web, como los rastreadores móviles o los rastreadores de ordenador.

Funcionamiento

Qué Es El Archivo Robots.txt

El funcionamiento de un robots.txt es más sencillo de lo que parece. Lo primero que debemos saber es para qué sirve el archivo robots.txt y que elementos de nuestra web es capaz de indexar o no. Además, el funcionamiento de los robots.txt está limitado y hay otros sistemas para que nuestras direcciones web sean encontradas en la web. Ten en cuenta que las instrucciones del robots.txt son meras indicaciones y no es algo definitivo. 

Por ejemplo, los robots de Google llamados Googlebots sí obedecen las órdenes del archivo robots.txt, pero otros buscadores no tienen porqué hacerlo. Por ejemplo, Google no rastreará ni indexará ningún tipo de información del contenido de las páginas que bloqueemos con el robots.txt, sin embargo, sí indexará todas las direcciones o URL que estén en otros elementos o páginas web incluso aunque estas mismas estén restringidas dentro del archivo.txt, por tanto, un consejo importante es que si tu página web va a tener información sensible pero no quieres compartirla, lo mejor es no crearla.

¿Cómo se crea el archivo robots.txt?

Google

Antes te comentábamos que el funcionamiento del archivo robots.txt es muy fácil. Por ejemplo, para su creación es necesario darle acceso a la raíz del dominio y subir al archivo en formato texto (txt) con nombre robots.txt al directorio raíz de primer nivel de nuestro servidor donde esté ubicado la página web que queremos indexar. No olvides usar para la creación del archivo un archivo de texto, en Windows y Mac existen archivos de texto plano que nos pueden servir.

Por último, debes comprobar el funcionamiento de tu robots.txt, para ello, Google nos da una herramienta de prueba en Google Search Console. Ahí puedes comprobar como Googlebot leerá el archivo y te informará de los posibles errores que pueda tener. En caso de que necesites más información sobre el tema, te recomendamos que acudas a la página de soporte de Google donde te informan de todo lo que necesitas saber sobre el funcionamiento de un robots.txt. Allí podrás obtener todo tipo de información y datos acerca de este tema que, a priori, es normal que te sea algo confuso de entender. Con toda la información que hay allí, podrás comprender a la perfección qué son y cómo funcionan este tipo de robots que utiliza Google.

Tipos de robots

Qué Es El Archivo Robots.txt

Google diferencia varias clases de robots dentro de todos los que utiliza para este tipo de acciones que te estamos describiendo. Los user-agents serían los primeros, estos los utiliza de forma específica para buscar y para dar instrucciones. Para poder usar este robot se debe añadir el siguiente comando: User-agent.

El resto de robots son Googlebots, por ejemplo está el Googlebot-Mobile, específico para dispositivos móviles, y también el Googlebot-Image que es para imágenes y fotografía. Estos son los tipos de robots que usa Google para este tipo de funciones.