Elon Musk usará Twitter para entrenar modelos de lenguaje de IA

Elon Musk no solo compró Twitter para "liberarlo" de la cultura woke e imponer lo que él entiende como libertad de expresión. De hecho, su plan es mucho más ambicioso. El impacto real de su adquisición estaría alejado de la plataforma social, pues Musk confirmó que planea usar la información de Twiter, una base de datos gigantesca, en beneficio de la inteligencia artificial.

Concretamente, Elon Musk quiere usar los datos de Twitter para entrenar modelos de lenguaje de inteligencia artificial. Sí, como los que han permitido la existencia de herramientas como ChatGPT.

Un usuario de Twitter comentó, citando al magnate: "En mi opinión, lo más probable es que Elon Musk use datos de Twitter + aprendizaje por refuerzo con retroalimentación humana, y la supercomputadora Dojo de Tesla, para entrenar modelos de lenguaje en BasedAI".

In which Tesla investor day is running a bit late but CEO Elon Musk confirms he plans to use Twitter for data and ‍reinforcement learning with human feedback, i.e. for training large language models just like OpenAI's ChatGPT... pic.twitter.com/4Z9phoFPa9
— Lora Kolodny (@lorakolodny) March 1, 2023

Como bien sabemos, Elon Musk es un usuario bastante activo en Twitter, y suele responder algunas preguntas y comentarios de la comunidad. En este caso, no fue la excepción. El directivo se limitó a contestar "obv" ("obviamente"). Por desgracia, no profundizó más en sus intenciones a futuro.

Indudablemente, la base de datos de Twitter puede ser una mina de oro para entrenar un modelo de lenguaje de inteligencia artificial. ¿La razón? Posee millones de expresiones a través de los cuales los humanos se comunican entre sí.

Y no menos importante: hay contextos que dan origen a esas expresiones. Esto facilitaría que un chatbot, por ejemplo, responda de diferente manera en función del tema tratado. No es lo mismo pronunciarse sobre un meme gracioso que ofrecer información seria sobre un desastre natural, por ejemplo. Sin duda, convertir esta información en una fuente de aprendizaje puede tener grandes resultados.

Ahora bien, no se puede dejar de lado que Twitter es una red social donde abunda la toxicidad. Incluso, es un hecho comprobado que el discurso de odio aumentó desde que Elon Musk asumió la dirección y propiedad. No obstante, antes de ese acontecimiento, la red social ya era conocida por ser también el hogar de muchas personas desagradables de internet.

Con base en lo anterior, surge el siguiente cuestionamiento: ¿realmente deberíamos ilusionarnos con un modelo de lenguaje de inteligencia artificial entrenado por los datos de Twitter? Será mejor que lo tomemos con tranquilidad hasta saber cómo planean hacerlo en BasedAI.

OpenAI, la compañía responsable del modelo GPT-3 y ChatGPT, también ha tenido que lidiar con el lenguaje tóxico de su mina de aprendizaje.

En enero, un reporte de Time expuso que OpenAI estaba subcontratando empleados en Kenia, precisamente, para detectar palabras o frases tóxicas en textos de aprendizaje. La compañía desarrolló un software de seguridad cuyo propósito es evitar que el lenguaje inapropiado llegue a la base de datos con la que se nutre GPT-3. El problema, claro, es que el primer análisis se debe hacer de manera manual, por ello la necesidad de emplear humanos.

Intuimos que Elon Musk y BasedAI harán algo similar con la información de Twitter. De lo contrario, se aproxima el modelo de lenguaje más tóxico jamás creado.