Aquí tienes la lista de sitios web que alimentan a IA como ChatGPT

Los chatbots no pueden pensar como humanos. Nos hacen creer que sí porque la IA que los impulsa ha sido alimentada por una gran cantidad de texto escrito, por supuesto, por humanos. Casi todo, publicado en Internet. Las tecnológicas han sido bastante opacas al explicar cómo entrenan estos modelos, pero una investigación de The Washington Post ofrece una aproximación detallada sobre las fuentes de información que suelen utilizar herramientas como ChatGPT.

The Post trabajó junto al Allen Institute for AI, un centro de investigación creado por el difunto cofundador de Microsoft, Paul Allen. Analizaron más de 15,1 millones de sitios web, contenidos en el conjunto de datos C4 (Colossal Clean Crawled Corpus) de Google. La C4 es una base generada por Common Crawl, una organización sin fines de lucro que rastrea Internet periódicamente para compilar información. Esta data se usó, específicamente, para desarrollar los modelos de lenguaje LLaMA, de Facebook, y T5, de Google.

Estos nuevos sistemas, por lo general, son entrenados con varias bases como esta, que pueden ser impresionantemente más grandes. Por lo tanto, el análisis que ofrece The Post es solo una muestra —aunque representativa por el conjunto de datos elegido para el estudio— de lo que está detrás de estos chatbots. Es, de todas formas, mucho más de lo que han explicado las compañías desarrolladoras. OpenAI, por ejemplo, no ha revelado hasta ahora qué fuentes ha empleado para sus herramientas.

Dicho esto, los resultados de la investigación demostraron que muchos de los contenidos recogidos en el conjunto C4 viola los derechos de autor. También incluye material racista, información tendenciosa y un claro sesgo religioso.

La IA de los chatbots usa sitios web protegidos por derechos de autor

Alrededor de un tercio de los sitios web del conjunto C4 no se pudieron categorizar —la mayoría de estos ya no están online—, por lo que no se incluyeron en el análisis. El resto corresponde, principalmente, con contenido sobre negocios e industrias, tecnología, noticias, arte y entrenamiento y ciencia y salud.

Categorías de la data de C4 — Las categorías de los sitios web en la data usada por algunas IA, como LLaMA de Facebook.

La categorización se realizó en función de la cantidad de "tokens" que tenían las páginas web en la base de datos. Estos "tokens" son pequeños textos —generalmente una palabra o frase— que se utilizaron para clasificar u organizar la información.

Los sitios web sobre negocios e industriales conformaron la categoría más grande: 16% del total. Entre los principales figuran Fool.com, que brinda asesoramiento de inversión, y Kickstarter.com (en el puesto 25), que permite financiar proyectos creativos de manera colectiva. Aunque mucho más abajo en la lista, también aparece Patreon.com (puesto 2.398), una plataforma que le permite a creadores digitales cobrar una suscripción para acceder a sus contenidos.

El contenido de sitios web como Kickstarter y Patreon, explica The Post, le permitiría a la IA de los chatbots acceder a ideas y material de artistas que están protegidos por derechos de autor. Varios grupos de artistas ya han emprendido acciones legales contra Stable Diffusion y MidJourney, por aprovechar sus creaciones para alimentar sus herramientas generadoras de imágenes por IA.

El problema sobre los derechos de autor puede ser inmenso. El símbolo de copyright, que identifica las obras registradas como propiedad intelectual, aparece más de 200 millones de veces en el conjunto C4. Al menos 28 sitios web identificados por el gobierno de EE.UU. como comerciantes de piratería y documentos falsificados, estaban presentes en la data. Entre ellos, b-ok.org, que vendía libros electrónicos pirateados.

Top 15 de sitios web más utilizados

Los tres sitios más utilizados son Patents.google.com, que recopila textos de patentes emitidas en todo el mundo; Wikipedia.org, la enciclopedia gratuita en línea; y Scribd.com, una biblioteca digital por suscripción.

En el top 10 hay siete portales de noticias reconocidos en el mundo. La mayoría son estadounidenses. Aunque en un lugar menos privilegiado, el C4 también recoge información de medios como el ruso RT.com (puesto 65) o Reitbart.com (159), una página de noticias de extrema derecha.

Newsguard, una plataforma que mide y califica la confiabilidad de sitios web informativos, viene alertando desde enero cómo la IA ChatGPT, GPT-4 y Bard producen fácilmente contenido falso para respaldar conocidas teorías conspirativas.

Que muchas webs estén relacionadas con industrias como el periodismo o la creación de contenido en general, explica que estas áreas se hayan visto tan amenazadas por la nueva ola de IA, dice The Post en su análisis. El medio estadounidense creó un buscador en el que se pueden consultar todas las webs recogidas en el conjunto C4. Hipertextual.com aparece como una de ellas.

Sobre el sesgo religioso y lo que se le escapó a los filtros

Los sitios web dedicados a la comunidad constituían alrededor del 5% del contenido categorizado. La religión dominaba este apartado. Entre los 20 sitios religiosos principales, 14 eran cristianos, dos judíos y uno musulmán. Había también uno mormón y otro testigo de Jehová.

El sesgo antimusulmán ha sido denunciado en algunos modelos lingüísticos. Una investigación publicada en la revista Nature encontró que ChatGPT completó la frase “Dos musulmanes entraron a un…” con acciones violentas el 66% de las veces.

Los creadores del conjunto C4 filtran la información recolectada. Así, logran eliminar la data duplicada o contenido pornográfico o violento. The Post, sin embargo, encontró cientos de ejemplos de sitios web pornográficos y más de 72.000 referencias a "esvásticas". Tampoco se eliminó el sitio supremacista blanco Stormfront.org (en el puesto 27.505) o el sitio transfóbico Kiwifarms.net (puesto 378.986).

¿Y la información personal en línea?

La tecnología es la segunda categoría más grande del conjunto de datos C4. Esto incluye distintas plataformas para crear páginas web. En la base hay más de medio millón de blogs personales, administrados por WordPress, Tumblr, Live Journal y Blogspot.

Las redes sociales como Instagram, Facebook o Twitter, prohíben el web scraping, la técnica automatizada para extraer información de sitios web con la que se arman bases como la C4. Por este motivo, la mayoría de los conjuntos utilizados para entrenar las IA no pueden acceder a ellos. Al menos, en teoría. Meta o Google no han dado garantías de que no usarán la información personal que recolectan de sus usuarios para entrenar sus propios modelos de IA.