Cómo Crear un Archivo robots.txt en cPanel

Última modificación: febrero 4, 2024
Usted está aquí:
Tiempo estimado de lectura: 2 min

Si alguna vez has construido tu sitio web, es probable que hayas oído hablar de un archivo robotx.txt y te hayas preguntado, ¿para qué sirve este archivo? Bueno, ¡estás en el lugar correcto! A continuación, revisaremos este archivo y por qué es crucial.

¿Qué es un archivo robots.txt?

En primer lugar, el robots.txt no es más que un archivo de texto plano (ASCII o UTF-8) ubicado en el directorio raíz de tu dominio, que bloquea (o permite) a los motores de búsqueda acceder a ciertas áreas de tu sitio. El robots.txt contiene un conjunto simple de comandos (o directivas) y suele aplicarse para restringir el tráfico del rastreador en tu servidor, evitando así el uso no deseado de recursos.

Los motores de búsqueda utilizan rastreadores (o bots) para indexar partes de un sitio web y devolverlos como resultados de búsqueda. Es posible que desees que datos sensibles almacenados en tu servidor no sean accesibles para las búsquedas web. El archivo robots.txt te ayuda a hacer precisamente eso.

Nota: Los archivos o páginas de tu sitio web no se eliminan por completo de los rastreadores si estos archivos están indexados/referenciados desde otros sitios web. Para proteger tu URL y evitar que aparezca en los motores de búsqueda de Google, puedes proteger con contraseña los archivos directamente desde tu servidor.

Cómo crear el archivo robots.txt

Para crear tu archivo robots.txt (si aún no existe), sigue estos pasos:

  1. Inicia sesión en tu cuenta de cPanel.
  2. Dirígete a la sección de ARCHIVOS y haz clic en Administrador de Archivos.
  3. Navega en el Administrador de Archivos hasta el directorio del sitio web (por ejemplo, public_html) y haz clic en «Archivo» >> Escribe «robots.txt» >> Haz clic en «Crear Nuevo Archivo».
  4. Ahora, puedes editar el contenido de este archivo haciendo doble clic en él.
Nota: solo puedes crear un archivo robots.txt para cada dominio. No se permiten duplicados en la misma ruta raíz. Cada dominio o subdominio debe contener su propio archivo robots.txt.

Ejemplos de uso y reglas de sintaxis

Normalmente, un archivo robots.txt contiene una o más reglas, cada una en su propia línea separada. Cada regla bloquea o permite el acceso a un rastreador determinado a una ruta de archivo especificada o al sitio web completo.

  • Bloquear a todos los rastreadores (user-agents) para acceder a los directorios logs y ssl.
    User-agent: *
    Disallow: /logs/
    Disallow: /ssl/
  • Bloquear a todos los rastreadores para indexar todo el sitio.
    User-agent: *
    Disallow: /
  • Permitir que todos los agentes de usuario accedan al sitio completo.
    User-agent: *
    Allow: /
  • Bloquear la indexación de todo el sitio desde un rastreador específico.
    User-agent: Bot1
    Disallow: /
  • Permitir la indexación a un rastreador web específico y evitar la indexación de otros.
    User-agent: Googlebot
    Disallow:
    User-agent: *
    Disallow: /

[/dt_code]

  • Bajo «User-agent:», puedes escribir el nombre específico del rastreador. También puedes incluir todos los rastreadores simplemente escribiendo el símbolo (*) asterisco. Con este comando, puedes filtrar todos los rastreadores excepto los rastreadores de AdBot, que necesitas enumerar explícitamente. Puedes encontrar una lista de todos los rastreadores en internet.
  • Además, para que los comandos Allow y Disallow funcionen solo para un archivo o carpeta específica, siempre debes incluir sus nombres entre «/».
  • ¿Notas cómo ambos comandos distinguen mayúsculas y minúsculas? Es especialmente relevante saber que la configuración predeterminada de los agentes rastreadores es que pueden acceder a cualquier página o directorio si no está bloqueado por una regla Disallow:.
Nota: Puedes encontrar reglas completas y ejemplos de sintaxis aquí.
¿Te resultó útil este artículo?
No me Gusta 0
Visitada: 25
Anterior: Guía Práctica para Iniciar Sesión en tu Cuenta de cPanel y Mantener tu Sitio Web Seguro