Importantes medios de comunicación y fuentes de noticias establecieron un bloqueo a OpenAI, limitando la capacidad de ChatGPT de acceder al contenido de sus artículos. Según informa The Guardian, la decisión de frenar a GPTBot, el rastreador web del chatbot de inteligencia artificial, es encabezada por The New York Times, CNN, ABC de Australia y la agencia Reuters.
De acuerdo a la fuente, el NYT fue la primera empresa del sector en anunciar el bloqueo a OpenAI. Luego se sumaron otros medios. Además de los mencionados, la medida fue adoptada por The Verge, Chicago Tribune y publicaciones del grupo ACM, como Newcastle Herald. Tras el primer envión, la lista podría ensancharse en los próximos días.
Ahora célebre, OpenAI desarrolla uno de los bots conversacionales que lidera el nuevo auge de la inteligencia artificial. Por su parte, GPTBot es el rastreador de páginas web creado para expandir la base de información de ChatGPT. Cabe recordar que los datos —descritos como el “petróleo del siglo XXI”— son esenciales para el entrenamiento y funcionamiento de los chatbots.
Bloqueo a OpenAI: ¿qué implica la decisión de los medios de comunicación?
Los modelos de lenguaje que operan con inteligencia artificial, entre ellos GPT-4 de ChatGPT, precisan grandes volúmenes de información. En la práctica, los datos son los engranajes fundamentales del motor. Por ejemplo, se emplean como base para responder consultas, redactar textos en forma automatizada, o realizar resúmenes, entre otras habilidades que ostentan.
Buena parte de ese entrenamiento proviene del escaneo que ejecutan sistemas como GPTBot. Frente a ello, el bloqueo al web crawler de OpenAI por parte de importantes medios de comunicación pone un freno a esa práctica. En el centro de esa determinación aparece el debate acerca de la propiedad intelectual. La pregunta es la siguiente: ¿los desarrolladores de sistemas como ChatGPT y Bard deberían usar libremente la información que pertenece a otros?
Dicho esto, ¿qué implicaciones tiene el bloqueo a OpenAI por parte de publicaciones como el NYT, CNN y Reuters? La principal: la startup de Sam Altman perderá el acceso a fuentes relevantes que ensanchen las capacidades de sus sistemas. Por lo demás, es posible que más compañías, plataformas y medios se acoplen a la medida, abriendo un nuevo frente de conflicto para la organización californiana.
¿Qué es GPTBot?
Tal como indicamos anteriormente, GPTBot es un rastreador web. Su tarea es escanear sitios para recoger información pública, que usa para mejorar los sistemas de inteligencia artificial; en este caso, ChatGPT de OpenAI.
“Las páginas web rastreadas con el agente GPTBot pueden usarse potencialmente para mejorar modelos futuros”, explica OpenAI. “Permitir que acceda a su sitio puede ayudar a que los modelos sean más precisos y mejoren sus capacidades generales, además de su seguridad”.
Ahora bien, en función de las posibles infracciones a los derechos de autor, los creadores de ChatGPT permiten que los sitios web frenen a GPTBot, impidiendo que ese programa escanee y recopile sus datos. De esta manera, el bloqueo a OpenAI está en manos de cada plataforma o medio de comunicación que así lo decida.
El margen de decisión ofrecido por OpenAI, trae aparejadas noticias como la que ahora divulga The Guardian. El debate es acalorado. Las comunidades en línea —medios, especialistas e inclusive los usuarios— discuten si es ético el funcionamiento de métodos como el de GPTBot. Aunque los de Sam Altman prometen transparencia, surgen temores ante la falta de las correspondientes atribuciones de autoría en las respuestas de ChatGPT.
Además, los que plantean el bloqueo a OpenAI advierten la posibilidad de que la compañía desarrolle por su cuenta contenidos derivados —basados en publicaciones de terceros, con modificaciones ligeras—, ocultando así cuáles son las fuentes reales. No olvidemos que ya existe una demanda contra los creadores de ChatGPT por la aparente ilegalidad en sus técnicas de web scrapping. Mientras que miles de escritores han enviado una carta abierta a las principales compañías del sector pidiendo que dejen de robar sus libros para entrenar a sus modelos de IA.