OpenAI crea un sistema de moderación de contenidos con GPT-4

OpenAI, la empresa detrás de ChatGPT, desarrolla un sistema de moderación de contenidos impulsado por inteligencia artificial. Está basado en GPT-4, su modelo más reciente y potente hasta ahora. La compañía lo ha estado probando a lo interno para hacer cumplir su propia política de contenido, informó Semafor.

La compañía explicó que el método se adapta a cualquier pauta con las que se quiera regular determinada plataforma. El proceso es, en apariencia, bastante sencillo. Primero, se ingresan las reglas de moderación a GPT-4. Luego se pone a prueba su funcionamiento con una pequeña muestra de contenido problemático.

Evaluadores humanos deben revisar después los aciertos y errores de la inteligencia artificial. En los casos en los que el sistema falló, los verificadores pueden preguntarle a GPT-4 por qué tomó esa decisión. Y, a partir de ese insumo, corregirle y reentrenar al modelo para que sea cada vez más preciso.

«Reduce el proceso de desarrollo de políticas de contenido de meses a horas, y no es necesario reclutar un gran grupo de moderadores humanos para esto», dijo Lilian Weng, directora de sistemas de seguridad de OpenAI. Weng destacó que el sistema podría funcionar para moderar redes sociales y plataformas de comercio electrónico. Algunos clientes de la compañía ya están utilizando GPT-4 para la moderación de contenidos.

OpenAI comenta que el modelo, por ahora, solo puede comprobar textos. Sin embargo, ya están trabajando para que pronto pueda también considerar imágenes y video. Sería otra opción para frenar, por ejemplo, la pornografía infantil o las campañas de desinformación, dos de los problemas más grandes de plataformas como Instagram o Twitter.

ChatGPT extensión chrome ordenador OpenAI

OpenAI usa a GPT-4 para moderarse a sí misma

OpenAI estaba usando métodos tradicionales de moderación de contenido hasta hace poco. Semafor informó el año pasado que la compañía había contratado a un externo para escanear las imágenes producidas por DALL-E.

A principio de año, Time informó que OpenAI pagaba a trabajadores en Kenia para ayudar a etiquetar contenido ofensivo. De esta forma, evitar que los usuarios pudiera visualizarlo en ChatGPT. A estos trabajadores, se les pagaba entre $1,32 y $2 dólares la hora. Estos evaluadores humanos denunciaron, además, traumas psicológicos. Debían leer y calificar descripciones detalladas de situaciones de abuso sexual infantil, homicidios, suicidios, tortura e incesto.

Un estudio de la Universidad de Zúrich, publicado en marzo pasado, aseguró que aprovechar la inteligencia artificial de ChatGPT para moderar contenidos era hasta 20 veces más barato que contratar a un humano.

ChatGPT, actualmente, ya se está moderando a sí mismo. Todavía hay humanos involucrados en el proceso, tanto para actualizar las políticas como para verificar casos extremos. Sin embargo, se espera que el nuevo sistema reduzca de manera importante la cantidad de personas involucradas.

OpenAI sabe que no se trata todavía de una solución definitiva. «No podemos construir un sistema que sea 100 % a prueba de balas desde el principio… Pero estoy bastante segura de que será bueno», dijo Weng.