SEO Técnico

RECURSOS

Robots.txt

¿Qué es Robots.txt?

Un archivo robots.txt funciona como una hoja de instrucciones para los rastreadores de los buscadores: les indica qué direcciones de tu web pueden visitar y cuáles deben evitar. En la práctica, se utiliza sobre todo para ordenar el acceso de estos bots y evitar que saturen el servidor con solicitudes innecesarias.

Ahora bien, aunque gigantes como Google, Bing o Yahoo suelen acatar lo que se especifica en este archivo, conviene no verlo como un muro infranqueable. Robots.txt orienta a los motores de búsqueda; no garantiza que una URL jamás aparezca en los resultados.

¿Por qué puede ser relevante?

La realidad es que la mayoría de los sitios no necesitan preocuparse por este archivo. Google, por ejemplo, suele descubrir e indexar sin problema las páginas clave de un dominio, y tampoco acostumbra a incluir automáticamente versiones duplicadas o contenidos irrelevantes.

Sin embargo, hay escenarios concretos en los que sí tiene sentido intervenir.

1. Restringir páginas que no son públicas

En casi cualquier proyecto web existen secciones que deben existir, pero no estar expuestas: entornos de prueba, áreas de acceso privado, resultados internos de búsqueda. No quieres que usuarios anónimos aterricen ahí desde Google. En estos casos, robots.txt permite indicar a los rastreadores que no exploren esas rutas.

2. Optimizar el presupuesto de rastreo

Si notas que no todas tus páginas están siendo indexadas, puede que el problema sea el presupuesto de rastreo. Al impedir que los bots pierdan tiempo en contenidos secundarios, ayudas a que Googlebot concentre sus recursos en las URLs que realmente importan.

3. Evitar que ciertos recursos aparezcan en buscadores

Las metadirectivas pueden servir para bloquear la indexación de páginas individuales. El inconveniente surge con archivos como PDFs o imágenes, donde implementar “noindex” no siempre resulta práctico. Ahí es donde robots.txt se vuelve especialmente útil.

En esencia, este archivo le dice a las arañas qué partes de tu sitio no deberían rastrear.

Si quieres comprobar cuántas URLs tiene Google indexadas, puedes hacerlo desde Google Search Console. Si la cifra coincide con lo que esperas, probablemente no necesitas tocar nada. Pero si aparecen páginas que jamás deberían estar visibles, entonces sí es momento de crear o ajustar tu robots.txt.

Mejores prácticas

Crear el archivo

El primer paso es tan simple como generar un archivo de texto. Puedes hacerlo incluso con el Bloc de notas de Windows; el formato siempre sigue la misma lógica:

User-agent: X  
Disallow: Y

“User-agent” identifica al bot al que te diriges. Después de “Disallow” se especifican las rutas que no quieres que rastree.

Por ejemplo:

User-agent: googlebot  
Disallow: /images

Con esa regla, Googlebot no exploraría la carpeta de imágenes de tu sitio.

Si prefieres aplicar la instrucción a todos los robots, puedes utilizar el asterisco (*), que actúa como comodín:

User-agent: *  
Disallow: /images

El símbolo “*” comunica a cualquier araña que no debe rastrear esa carpeta.

Y esto es apenas una muestra de lo que se puede hacer. Google ofrece documentación detallada sobre las distintas reglas disponibles para permitir o bloquear el acceso a secciones específicas.

Publicarlo en el lugar correcto

Una vez creado, el archivo debe subirse al directorio raíz del dominio. La ubicación recomendada es:

https://example.com/robots.txt

Un detalle que suele pasarse por alto: el nombre distingue entre mayúsculas y minúsculas. Debe escribirse con “r” minúscula.

Verificar que todo funcione

Aquí no hay margen para descuidos. Un error mínimo puede provocar que tu sitio entero desaparezca del índice.

Por suerte, Google Search Console incluye una herramienta de prueba para robots.txt dentro de la sección de configuración. Allí puedes visualizar el archivo y detectar errores o advertencias antes de que causen problemas.

En nuestro caso, por ejemplo, bloqueamos el acceso a la página de administración de WordPress y evitamos que se rastreen las páginas de etiquetas generadas automáticamente, lo que ayuda a reducir contenido duplicado.

Robots.txt frente a metadirectivas

Surge una pregunta lógica: ¿por qué usar robots.txt si es posible bloquear páginas individuales con la metaetiqueta “noindex”?

Como señalé antes, aplicar “noindex” a recursos multimedia como vídeos o PDFs puede resultar engorroso. Además, cuando hablamos de miles de URLs, añadir esa etiqueta una por una no es precisamente eficiente; bloquear una carpeta completa desde robots.txt simplifica el proceso.

Existe también un tercer supuesto: cuando no quieres que Google desperdicie ni una fracción de tu presupuesto de rastreo visitando páginas que ya sabes que no deberían indexarse.

Fuera de esos tres escenarios específicos, mi recomendación es optar por directivas meta. Su implementación suele ser más sencilla y el riesgo de cometer un error catastrófico como impedir el acceso a todo el sitio es considerablemente menor.