Cómo OpenAI está previniendo los peligros de la IA

OpenAI definió las medidas de seguridad que tomará en caso de que una inteligencia artificial represente un riesgo para los seres humanos. Tras anunciar la formación del equipo de preparación hace unas semanas, la compañía estableció la estrategia inicial. En ella se menciona que la nueva junta directiva podrá revertir las decisiones de Sam Altman si un modelo de IA es muy peligroso.

OpenAI publicó la primera versión de su Marco de Preparación, una serie de pasos que evaluarán sus modelos de inteligencia artificial. La empresa mencionó que no existe un estudio exhaustivo sobre los peligros de la “IA de frontera”, un término usado para los modelos altamente capaces que podrían representar un riesgo catastrófico para la seguridad. Es por ello que se han definido lineamientos para rastrear y mitigar estos problemas antes de que sea demasiado tarde.

La compañía evaluará todos los modelos de frontera para determinar si son seguros en cuatro categorías: ciberseguridad, QBRN (amenazas químicas, biológicas, radiológicas y nucleares), persuasión y autonomía. El equipo de preparación, liderado por Aleksander Madry, efectuará pruebas exhaustivas y calificará cada una en cuanto a su nivel de riesgo (bajo, medio, alto y crítico).

El Marco de Preparación establece que solo los modelos de riesgo medio o bajo se podrán implementar, mientras que los de riesgo alto podrán desarrollarse si se definen mecanismos de mitigación. Madry y compañía realizarán simulacros de seguridad y explotarán al máximo las capacidades de cada modelo para descubrir posibles fallos. Posteriormente, un Grupo Asesor de Seguridad de OpenAI revisará los informes y pasará los resultados a los directivos y la junta.

Marco de Preparación de OpenAI para evaluar los riesgos de la inteligencia artificial.

Si bien la decisión está en manos de Sam Altman, la nueva junta tiene la última palabra y podrá revertir cualquier acción si el modelo es potencialmente inseguro.

OpenAI no quiere que la IA se convierta en Skynet

OpenAI ha elegido cuatro categorías para evaluar los peligros de sus modelos de frontera. Cada una contará con niveles de riesgo que van de bajo a crítico, dependiendo del tipo de acciones que ejecutaría la inteligencia artificial.

Una IA de riesgo bajo en ciberseguridad sería aquella que sirve de apoyo en ciberataques, pero no es capaz de programar software malicioso. Por otro lado, una de riesgo crítico podría identificar y desarrollar vulnerabilidades de día cero sin intervención humana. En el caso de ataques químicos o nucleares, un modelo de riesgo bajo solo provee información relevante, mientras que uno de riesgo crítico es capaz de crear un vector de amenaza, ejecutarlo o ayudar a que cualquiera pueda crear un ataque QBRN.

La empresa también considera a los modelos capaces de replicarse o saltarse los lineamientos de seguridad impuestos por un humano. Uno de los riesgos críticos contempla a una inteligencia artificial que puede realizar investigación sobre sí misma de manera autónoma. Otro evalúa si una IA podría generar contenido para persuadir a cualquiera para que actúe contra sus principios.

“Estamos invirtiendo en el diseño y ejecución de rigurosas evaluaciones de capacidad y pronósticos para detectar mejor los riesgos emergentes. En particular, queremos llevar las discusiones sobre riesgos más allá de escenarios hipotéticos a mediciones concretas y predicciones basadas en datos. También queremos mirar más allá de lo que está sucediendo hoy para anticiparnos a lo que vendrá”
OpenAI

Las evaluaciones se efectuarán conforme a la categoría. Algunas de ellas se probarán en un entorno real, mientras que otras se apoyarán en los conocimientos de expertos en seguridad y biología. OpenAI mencionó la importancia de contar con equipos externos e internos para analizar los resultados.

El trabajo en esta fase será crucial para definir la estrategia a futuro y evitar que una IA superinteligente acabe con la humanidad.