Robots.txt
robots.txt es un archivo de texto colocado en el directorio raíz de un sitio web que indica a los rastreadores de motores de búsqueda qué páginas o archivos pueden o no solicitar. Es la primera línea de defensa para controlar cómo interactúan los bots con la infraestructura de tu sitio y ayuda a optimizar el presupuesto de rastreo.
Dirigir bots hacia tu mejor contenido
Google asigna un "presupuesto de rastreo" limitado a tu sitio: el número de páginas que sus bots rastrearán al día. Si los bots pierden tiempo rastreando paneles de administración, páginas duplicadas para imprimir o URLs de carritos/pago, podrían perderse tus valiosas páginas de productos traducidos. robots.txt les dice a los bots: "No pierdas tiempo en /admin/, céntrate en /en/, /fr/, /de/ en su lugar." Para sitios internacionales, deberías prohibir el rastreo de páginas de redirección automática de detección de idiomas, endpoints de API y cualquier URL técnica que no necesite ser indexada. Sin embargo, NUNCA bloquees accidentalmente tus directorios de idiomas; eso es un error catastrófico que acaba con todo SEO internacional.
Permitir vs. deshabilitar el acceso al rastreo
Impacto en el mundo real
El sitio no tiene robots.txt, los bots rastrean 10.000 URLs de cartuchos
Presupuesto de rastreo desperdiciado, páginas de producto rastreadas lentamente
Los nuevos productos tardan semanas en aparecer en la búsqueda
Añadir robots.txt: Deshabilitar /cart/, /checkout/, /API/
Los bots se centran al 100% en las páginas de productos y de idiomas
Nuevos productos indexados en 24 horas