ChatGPT habría sido entrenado con datos personales robados

Una demanda colectiva contra OpenAI ha comenzado a hacer ruido en las últimas horas. La compañía de Sam Altman ha sido acusada de recopilar grandes cantidades de información de forma ilegal para entrenar a ChatGPT. Incluyendo datos personales conseguidos sin consentimiento.

Los impulsores de la denuncia, en su mayoría anónimos o identificados solo por sus iniciales por temor a represalias, aseguran que OpenAI se valió secretamente de la técnica conocida como web scraping para conseguir los enormes volúmenes de datos necesarios para potenciar el entrenamiento de ChatGPT. Al hacerlo, sostienen, los de Sam Altman violaron múltiples leyes de privacidad.

"A pesar de los protocolos establecidos para la compra y el uso de información personal, los demandados adoptaron un enfoque diferente: el robo. Recolectaron sistemáticamente 300.000 millones de palabras de internet, libros, artículos, sitios web y publicaciones, incluida la información personal obtenida sin consentimiento. OpenAI lo hizo en secreto y sin registrarse como broker de datos, como lo exige la ley aplicable", indica el documento.

Las acusaciones vertidas por los demandantes son muy serias. Si bien se conoce que los modelos de inteligencia artificial que potencian a ciertas aplicaciones (como ChatGPT o similares) suelen valerse de información pública disponible en la web para su entrenamiento, OpenAI supuestamente habría ido un paso más allá.

Según la demanda colectiva, la startup ha usado la integración de sus tecnologías —como GPT-4, el modelo de lenguaje que potencia a ChatGPT— en otros productos y servicios para interceptar y acceder ilegalmente a material de todo tipo. Se mencionan varios ejemplos, como datos de ubicación y vinculados con imágenes personales de Snapchat, información financiera de Stripe, gustos musicales y preferencias de Spotify, conversaciones privadas de Slack y Microsoft Teams, y hasta registros privados de salud de MyChart.

Acusan a OpenAI de entrenar a ChatGPT con datos personales robados

ChatGPT, la inteligencia artificial de OpenAI — Foto de Choong Deng Xiang en Unsplash

La demanda menciona dos leyes estadounidenses que OpenAI supuestamente habría violado al recopilar información para entrenar a ChatGPT. Se trata de la Ley de Fraude y Abuso Informático y la Ley de Privacidad de las Comunicaciones Electrónicas, ambas de 1986.

Además, los demandantes aseguran que la información personalmente identificable obtenida ilegalmente incluiría a "niños de todas las edades". Esto puede ser un foco de conflicto importante. No olvidemos que cuando Italia bloqueó ChatGPT, no solo le recriminó la recolección ilícita de datos personales de sus usuarios, sino la falta de herramientas para validar su edad.

"El desprecio de los demandados por las leyes de privacidad solo se compara con su desprecio por el riesgo potencialmente catastrófico para la humanidad. Emblemática tanto del riesgo final, como del desprecio abierto de los demandados, es esta declaración del CEO del demandado OpenAI, Sam Altman: 'La IA probablemente conducirá al fin del mundo, pero mientras tanto, habrá grandes empresas'".
Fragmento de la demanda colectiva contra OpenAI.

Quedará por verse cómo avanza esta historia. Por lo pronto, OpenAI no ha hecho comentarios públicos acerca de estas acusaciones. Los demandantes pretenden ir a juicio y reclaman una compensación por daños potenciales que podría superar los 3.000 millones de dólares. Además, solicitaron al Tribunal del Distrito Norte de California que congele temporalmente el desarrollo y acceso comercial de productos de la compañía, entre ellos ChatGPT.