En este artículo vamos a profundizar en el archivo robots TXT, una herramienta esencial para controlar el acceso de los motores de búsqueda a las páginas y contenidos del sitio. Veremos qué es el archivo robots TXT, cómo crearlo, los errores comunes que se deben evitar y cómo mejorarlo para mejorar el SEO de un sitio web.
¿Qué es el archivo robots TXT y para qué sirve?
El archivo robots TXT es un archivo de texto plano (su nombre real es robots.txt) que se ubica en el directorio raíz de un sitio web. Contiene instrucciones para los robots de búsqueda que visitan el sitio.
Con él, el administrador de un sitio web puede controlar qué secciones del sitio web deben ser rastreadas e indexadas por los buscadores y cuáles, por el contrario, deben ser omitidas. Negar la entrada a los robots también es necesario, ya que no todas las páginas de un portal tienen porque salir en los resultados de las búsquedas.
Por ejemplo, con la configuración adecuada del robots TXT es posible omitir la página de política de privacidad y dar prioridad al contenido orgánico del sitio. De igual manera, es muy útil evitar que rastreen una página que todavía está en construcción.
Instrucciones que puedes incluir en el robots TXT
Como en su interior se alojan instrucciones para las máquinas encargadas de indexar todo el contenido de Internet, la sintaxis del fichero robots TXT es muy específica. De hecho, pertenece a un estándar denominado Protocolo de Exclusión de Robots. ¿Qué instrucciones se pueden incluir en él?
Un archivo robots.txt se compone de las siguientes reglas y secciones:
- User-agent. Especifica a qué robot de búsqueda se dirige la directiva. Por ejemplo, Googlebot es el robot de Google. En la práctica, este detalle implica que es posible enviar instrucciones diversas a distintos buscadores.
- Noindex. Advierte de que una página o un grupo de páginas no deben ser indexados por los motores de búsqueda.
- Disallow. Indica que no se permite a los robots de búsqueda acceder a una página o un grupo de páginas específicas.
- Allow. Indica que se permite a los robots de búsqueda rastrear e indexar una página o un grupo de páginas específicas.
- Crawl-delay. Informa de cuánto tiempo deben esperar los robots de búsqueda antes de rastrear nuevas páginas.
- Sitemap. Ubica el sitemap, un archivo XML que contiene el mapa del sitio.
- Nofollow. Es un comando que informa a los motores de búsqueda no deben seguir los enlaces en una página o un grupo de páginas.
- Noarchive. Prohíbe a los motores de búsqueda no deben guardar una versión en caché de una página o un grupo de páginas.
- Noimageindex. Funciona igual a la anterior regla, pero con las imágenes. Es decir, impide que los motores de búsqueda no deben indexar imágenes en una página o un grupo de páginas.
- Unavailable_after. Permite poner fecha de caducidad a una o varias páginas, indicando la fecha específica en la que ya no estará disponible.
- Host. Especifica el nombre de dominio para el cual se aplica la directiva.
Las reglas más habituales son las tres las cuatro primeras mencionadas en el listado.
Errores frecuentes al crear un archivo robots TXT
¿Cuáles son los errores más habituales relacionados con el archivo robot TXT? Conocerlos te permitirá evitar estos fallos que podrían poner en peligro el posicionamiento web de tu sitio.
No tener un archivo robots TXT.
Algunos sitios web no tienen un archivo para los robots de búsqueda. Las consecuencias de estos son muy graves, porque significa que Google y otros buscadores va a rastrear e indexar todo el sitio web sin restricciones.
Uso incorrecto de la sintaxis
Las reglas que hemos mencionado en el apartado anterior son las que son. No es posible añadir ninguna más, pues los robots no la entenderán. También es crucial saber cómo combinarlas y qué variables incluir. Por ejemplo, para dirigirte a Google, debes incluir la palabra Googlebot después de user-agent. Pero si pones un asterístico (*) te estarás dirigiendo a todos los buscadores.
Excluir URL importantes
Otro problema clásico es que se excluyan accidentalmente páginas importantes en el archivo robots TXT. Esto tiene un efecto negativo muy grande en la visibilidad de la web en los resultados de búsqueda.
No tener muy claro cómo funciona cada regla
La inexperiencia lleva a muchos a confundir cuál es el propósito de cada directiva. Sin ir más lejos, hay quien malinterpreta la regla Disallow y cree que evita que los motores de búsqueda indexen una página. Pero en realidad lo que hace es impedir que rastreen la página.
Tener un robots TXT desactualizado
A medida que el sitio web cambia y se agregan o eliminan páginas, es importante poner al día el archivo robots TXT para asegurarse de que los robots de búsqueda rastreen el sitio web adecuadamente. Tampoco es necesario hacerlo cada vez que se sube contenido, pero sí si se hicieron cambios estructurales importantes.
Cómo crear tu archivo TXT
De los errores anteriores se desprenden lecciones prácticas. Teniendo en cuenta lo mencionado, podrás optimizar al máximo tu archivo robots TXT para hacerlo amigable a los rastreadores web y mejorar el posicionamiento SEO.
No obstante, es normal que te preguntes qué debes hacer para crear este archivo y subirlo a la web. Aquí van las indicaciones para hacerlo por tu cuenta. Verás que es verdaderamente sencillo:
- Abre un editor de texto simple como Notepad o TextEdit.
- Crea un nuevo archivo en blanco.
- Escribe las directivas de permiso para los robots de búsqueda.
- Utiliza la sintaxis correcta para las directivas, con la certeza de que cada directiva esté en una línea separada.
- Guarda el archivo con el nombre «robots.txt».
- Carga el archivo robots.txt a la raíz de tu sitio web utilizando un cliente FTP o la herramienta de administración de archivos de tu servicio de hosting.
Más allá del archivo robots TXT, elige el mejor hosting para tu web
A pesar de que el fichero robots TXT influye en el posicionamiento, hay también otros factores a tener en cuenta. En Próxima Host te ofrecemos los mejores servidores para tu WordPress o proyecto web, junto a un equipo de profesionales siempre dispuestos a ayudarte a mejorar la accesibilidad de tu web. ¡Contacta ahora con nosotros!