El bot de OpenAI destruye el sitio web de una empresa de siete personas "como un ataque DDoS"

Publicado: 13 Enero 2025 | Escrito por Javier Orovengua | Correo electrónico | Visto: 275

Un lector anónimo cita un informe de TechCrunch:El sábado, el CEO de Triplegangers, Oleksandr Tomchuk, fue alertado de que el sitio de comercio electrónico de su empresa estaba caído. Parecía ser algún tipo de ataque distribuido de denegación de servicio. Pronto descubrió que el culpable era un bot de OpenAI que estaba intentando incansablemente rastrear todo su enorme sitio. "Tenemos más de 65.000 productos, cada producto tiene una página", dijo Tomchuk a TechCrunch. "Cada página tiene al menos tres fotos". OpenAI estaba enviando "decenas de miles" de solicitudes de servidor tratando de descargar todo, cientos de miles de fotos, junto con sus descripciones detalladas. "OpenAI usó 600 IP para rastrear datos, y todavía estamos analizando registros de la semana pasada, tal vez sean muchas más", dijo sobre las direcciones IP que el bot usó para intentar consumir su sitio. "Sus rastreadores estaban aplastando nuestro sitio", dijo. "Básicamente fue un ataque DDoS".

El sitio web de Triplegangers es su negocio. La empresa, que cuenta con siete empleados, ha pasado más de una década reuniendo lo que denomina la mayor base de datos de "dobles humanos digitales" de la web, es decir, archivos de imágenes en 3D escaneados a partir de modelos humanos reales. Vende los archivos de objetos en 3D, así como fotografías (de todo, desde manos hasta cabello, piel y cuerpos completos) a artistas 3D, creadores de videojuegos y a cualquiera que necesite recrear digitalmente características humanas auténticas. [...] Para colmo de males, no solo Triplegangers quedó fuera de línea por culpa del bot de OpenAI durante el horario comercial de Estados Unidos, sino que Tomchuk espera una factura de AWS elevada gracias a toda la actividad de CPU y descarga del bot.En un principio, Triplegangers no tenía un archivo robots.txt configurado correctamente, lo que le permitía al robot rastrear libremente su sitio, ya que el sistema interpreta la ausencia de dicho archivo como un permiso. No es un sistema de suscripción voluntaria.

Una vez que se actualizó el archivo con etiquetas específicas para bloquear el bot de OpenAI, junto con defensas adicionales como Cloudflare, el rastreo se detuvo. Sin embargo, robots.txt no es infalible, ya que el cumplimiento por parte de las empresas de inteligencia artificial es voluntario, lo que deja a los propietarios de sitios web la carga de monitorear y bloquear el acceso no autorizado de forma proactiva. "[Tomchuk] quiere que otras pequeñas empresas en línea sepan que la única forma de descubrir si un bot de inteligencia artificial está tomando las pertenencias protegidas por derechos de autor de un sitio web es mirar activamente", informa TechCrunch.