ChatGPT ya tiene una alternativa de código abierto que se comportaría de un modo similar a la inteligencia artificial desarrollada por OpenAI. Conocida como PaLM + RLHF, esta IA es trabajo de Philip Wang, un desarrollador que ha combinado el Pathways Language Model (PaLM) de Google con el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, por sus siglas en inglés). El resultado es una IA que, en teoría, podría ejecutar tareas similares a las que realiza ChatGPT.
En términos generales, esta inteligencia artificial es una implementación de RLHF sobre la arquitectura PaLM. El modelo de lenguaje desarrollado por Google ha sido entrenado usando un conjunto de datos multilingües de alta calidad entre los que se incluyen libros, documentos, entradas de Wikipedia y código de GitHub. PaLM puede realizar razonamientos aritméticos, explicar chistes o adivinar la película a partir de un emoji.
PaLM + RLHF sería capaz de predecir las palabras usando el conjunto de datos y la retroalimentación humana. RLHF, presente en ChatGPT, usa un modelo de lenguaje entrenado previamente y tiene como objetivo alinearlo hacia los resultados que los usuarios esperan. Esto es posible gracias a un modelo de recompensa que define cómo se integran las preferencias humanas en un sistema.
El ChatGPT de código abierto requiere millones de dólares para operar
PaLM podría superar a GPT-3, no obstante, antes de emocionarte por esta variante de código abierto y correr a descargarla, debes saber algo. El sistema no ha sido entrenado todavía, por lo que no es capaz de establecer una conversación contigo como ocurre con ChatGPT. De acuerdo con su creador, PaLM + RLHF es solo el barco y un mapa general, ya que se requieren millones de dólares en cómputo y datos para navegar al punto correcto en un espacio de parámetros de alta dimensión.
Cuando Wang habla de millones de dólares no bromea. De acuerdo con un estudio publicado por la Universidad Cornell, entrenar un modelo de 1.500 millones de parámetros costaría 1,6 millones de dólares.
Bloom, un modelo de código abierto que tiene una cifra parecida de parámetros a GPT-3, requirió tres meses de entrenamiento usando 384 tarjetas NVIDIA A1000, cada una con un valor estimado de 32.200 dólares. Como referencia, PaLM tiene 540.000 millones de parámetros.
Philip Wang menciona que incluso con el barco y mapa en la mano — como define a PaLM + RLHF — todavía se requiere de marinos profesionales para guiarlo a buen puerto. Otros expertos aseguran que no solo es necesario contar con hardware potente, sino también con una infraestructura adecuada y software capaz de llevar a cabo la tarea de entrenamiento.
De cualquier modo, si estás interesado en conocer más sobre PaLM + RLHF puedes acceder al repositorio de GitHub.