OpenAI enfrentará una nueva demanda relacionada con ChatGPT y su inteligencia artificial. Dos escritores estadounidenses acusaron a la compañía de violar la ley de derechos de autor al utilizar sus novelas para entrenar los modelos GPT que impulsan sus aplicaciones de IA. La demanda colectiva, presentada en un Tribunal Federal del Norte de California, alega que OpenAI “ingirió” ilegalmente el contenido de los libros y tiene pruebas para demostrarlo.

Paul Tremblay, autor de The Cabin at the End of the World, y Mona Wad, una escritora de Massachusetts que ha publicado novelas como 13 Ways of Looking at a Fat Girl y Bunny, señalaron a OpenAI de usar su trabajo para entrenar GPT-4 y otros modelos de lenguaje extenso (LLM). La demanda establece que gran parte del material del conjunto de datos proviene de obras protegidas por derechos de autor, incluidos los libros de Tremblay y Wad.

«Se han utilizado muchos tipos de material para entrenar modelos de lenguaje extenso. Sin embargo, los libros siempre han sido un ingrediente clave en el entrenamiento de conjuntos de datos», se asegura en el documento legal. «Los libros ofrecen los mejores ejemplos de escritura de formato largo de alta calidad», dice.

Los abogados dieron ejemplos de ello, como una publicación de OpenAI que indica que GPT-1 se basó en una colección de 7.000 libros inéditos de BookCorpus. Según la demanda, el mismo BookCorpus es un conjunto de datos controversial, ya que los libros provienen de Smashwords.com, una web con libros gratuitos, algunos de ellos protegidos por derechos de autor. «Los copiaron al conjunto de datos sin consentimiento, crédito o compensación para los autores», mencionaron.

Los escritores acusaron a OpenAI de beneficiarse al usar material con copyright y piden una compensación por daños y perjuicios.

ChatGPT violó contenido protegido, aunque será difícil de probarlo

Pila de libros de texto sobre una mesa
Credit: Alexander Grey

De acuerdo con Andrés Guadamuz, experto de derecho de propiedad intelectual de la Universidad de Sussex, esta es la primera demanda contra ChatGPT que se refiere a derechos de autor. Guadamuz contó a The Guardian que la querella explorará los límites de la legalidad dentro del espacio de las IA generativas. Hace unos meses, Getty Images demandó a Stability AI, creadores de Stable Difussion, por copiar más de 12 millones de fotografías con copyright.

Los demandantes piden una compensación monetaria en nombre de todas las personas radicadas en Estados Unidos que tengan una obra protegida bajo la legislación actual. Para comprobar que OpenAI usó sus obras sin permiso, Tremblay Wad presentaron ejemplos de resúmenes de sus libros generados por ChatGPT. Los abogados consideran que las respuestas son “muy precisas”, y aunque incluyen algunos errores, son prueba de que los libros se emplearon para entrenar versiones del modelo GPT.

Aunque las acusaciones resultaran ciertas, sería difícil de probarlo en un juicio. Si bien OpenAI se ha valido de múltiples bibliotecas para entrenar sus modelos, el conjunto de datos también contiene información de internet. Los resúmenes de los libros podrían generarse a través de reseñas, discusiones o extractos presentes en alguna web. Guadamuz comentó que los escritores también deberán probar que sufrieron pérdidas económicas por culpa de la IA de ChatGPT.

Esta no es la única demanda colectiva que enfrenta OpenAI. Hace unos días trascendió que la empresa fue acusada de recopilar datos personales de forma ilegal para entrenar a ChatGPT. De igual modo, un alcalde de Australia amenazó con demandar por difamación a la compañía dirigida por Sam Altman. El afectado asegura que el chatbot ha realizado afirmaciones falsas al ligarlo con un escándalo de soborno.