Si alguna vez has construido tu sitio web, es probable que hayas oído hablar de un archivo robotx.txt y te hayas preguntado, ¿para qué sirve este archivo? Bueno, ¡estás en el lugar correcto! A continuación, revisaremos este archivo y por qué es crucial.
¿Qué es un archivo robots.txt?
En primer lugar, el robots.txt no es más que un archivo de texto plano (ASCII o UTF-8) ubicado en el directorio raíz de tu dominio, que bloquea (o permite) a los motores de búsqueda acceder a ciertas áreas de tu sitio. El robots.txt contiene un conjunto simple de comandos (o directivas) y suele aplicarse para restringir el tráfico del rastreador en tu servidor, evitando así el uso no deseado de recursos.
Los motores de búsqueda utilizan rastreadores (o bots) para indexar partes de un sitio web y devolverlos como resultados de búsqueda. Es posible que desees que datos sensibles almacenados en tu servidor no sean accesibles para las búsquedas web. El archivo robots.txt te ayuda a hacer precisamente eso.
Cómo crear el archivo robots.txt
Para crear tu archivo robots.txt (si aún no existe), sigue estos pasos:
- Inicia sesión en tu cuenta de cPanel.
- Dirígete a la sección de ARCHIVOS y haz clic en Administrador de Archivos.
- Navega en el Administrador de Archivos hasta el directorio del sitio web (por ejemplo, public_html) y haz clic en «Archivo» >> Escribe «robots.txt» >> Haz clic en «Crear Nuevo Archivo».
- Ahora, puedes editar el contenido de este archivo haciendo doble clic en él.
Ejemplos de uso y reglas de sintaxis
Normalmente, un archivo robots.txt contiene una o más reglas, cada una en su propia línea separada. Cada regla bloquea o permite el acceso a un rastreador determinado a una ruta de archivo especificada o al sitio web completo.
- Bloquear a todos los rastreadores (user-agents) para acceder a los directorios logs y ssl.
User-agent: *
Disallow: /logs/
Disallow: /ssl/ - Bloquear a todos los rastreadores para indexar todo el sitio.
User-agent: *
Disallow: / - Permitir que todos los agentes de usuario accedan al sitio completo.
User-agent: *
Allow: / - Bloquear la indexación de todo el sitio desde un rastreador específico.
User-agent: Bot1
Disallow: / - Permitir la indexación a un rastreador web específico y evitar la indexación de otros.
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
[/dt_code]
- Bajo «User-agent:», puedes escribir el nombre específico del rastreador. También puedes incluir todos los rastreadores simplemente escribiendo el símbolo (*) asterisco. Con este comando, puedes filtrar todos los rastreadores excepto los rastreadores de AdBot, que necesitas enumerar explícitamente. Puedes encontrar una lista de todos los rastreadores en internet.
- Además, para que los comandos Allow y Disallow funcionen solo para un archivo o carpeta específica, siempre debes incluir sus nombres entre «/».
- ¿Notas cómo ambos comandos distinguen mayúsculas y minúsculas? Es especialmente relevante saber que la configuración predeterminada de los agentes rastreadores es que pueden acceder a cualquier página o directorio si no está bloqueado por una regla Disallow:.