La inteligencia artificial (IA) está cada vez más presente en nuestras vidas. A estas alturas, son pocas las personas de una determinada edad que no han preguntado una duda sobre cualquier temática a ChatGPT. Incluso hubo una mujer que consiguió el esperado diagnóstico de su hijo gracias a una de estas consultas. Y es que, precisamente, el diagnóstico de enfermedades es una de las áreas en las que más está creciendo la IA. Sin embargo, es importante tener cuidado; ya que, por ejemplo, puede cometer sesgos raciales o de género a causa de un mal entrenamiento.
Es lo que acaba de demostrar un equipo de científicos del Imperial College de Londres, con un estudio publicado en Radiology: Artificial Intelligence. En él, se ven los resultados de una investigación dirigida a comparar los resultados de una radiografía de tórax analizada por un modelo de base de IA o por uno referenciado por los propios investigadores.
De este modo, vieron que se cometen sesgos importantes. Tanto relacionados con el género como con la etnia a la que pertenecen los pacientes. Esto, lógicamente, es algo a lo que se debe prestar atención, para evitar diagnósticos incorrectos. Y es que, por mucho que la IA haya llegado para facilitarnos la vida, parece que aún no está preparada para trabajar sin supervisión. Sobre todo durante su fase de entrenamiento.
¿Cuáles son las diferencias entre un modelo de base o uno referenciado?
Los algoritmos de inteligencia artificial, por lo general, se entrenan con datos conocidos en los que se buscan parámetros comunes. Por ejemplo, una IA dirigida a analizar mamografías se entrena con miles de fotos de mamografías, sanas o con tumores, de manera que el programa encuentre factores comunes asociados a los diferentes diagnósticos y sea capaz de distinguirlos una vez que se le introduzcan nuevos datos.
Pero ese entrenamiento puede realizarse de dos formas distintas. Por un lado, están los modelos de base, en los que se introduce una cantidad enorme de datos sin etiquetar. Es decir, no se indica a la IA de dónde proceden, sino que se deja que sea esta la que encuentre sus similitudes y diferencias.
Por otro lado, tenemos los modelos referenciados. Estos son muchísimo más específicos, ya que los datos que se introducen para entrenar la IA sí están etiquetados. Por ejemplo, en el caso de las mamografías, se indicarían datos como la presencia de anomalías en las mamas, pero también la edad o la etnia de la paciente, por ejemplo. Cuantas más etiquetas, mejor.
Sesgos raciales y de género en la IA
Los autores de esta investigación quisieron ver si una IA que utilice modelos de base puede realizar buenos diagnósticos. Para ello, tomaron un algoritmo diseñado para estudiar radiografías torácicas.
La que se tomó inicialmente se había entrenado con un modelo de base, sin etiquetar. Pero, por otro lado, los investigadores construyeron otro modelo, entrenado con 127.118 radiografías, perfectamente etiquetadas.
Una vez hecho esto, se decidió usar el algoritmo de IA para estudiar radiografías de tórax de 42.884 pacientes, hombres y mujeres, blancos, negros o asiáticos.
Los diagnósticos de la IA fueron revisados por radiólogos entrenados, que encontraron una eficiencia muchísimo mayor en el modelo etiquetado. Para los hombres blancos no había muchas diferencias, pero para las mujeres y las personas negras y asiáticas sí encontraron un gran sesgo. Sobre todo, vieron que la etiqueta de “no hallazgo” cayó entre el 6,8% y el 7,8% para las mujeres, y la de acumulación de líquido en los pulmones disminuyó entre un 10,7% y un 11,6% para los pacientes negros.
¿A qué se debe y qué podemos hacer?
Tradicionalmente, los ensayos clínicos y estudios científicos se han llevado a cabo tomando mayoritariamente como voluntarios a hombres blancos. Hace muy poco que se empezó a buscar soluciones a un problema que puede tener consecuencias muy graves.
Por ejemplo, si los ensayos clínicos se llevan a cabo solo con hombres, las dosis de fármaco adecuadas para las mujeres pueden estar mal calculadas, provocándoles muchísimos más efectos secundarios. Y si los estudios científicos no incluyen a personas negras, los conocimientos sobre cómo les afectan ciertas enfermedades, por ejemplo, pueden ser muy escasos.
Todo esto ha llevado a que los datos que se utilizan para entrenar los algoritmos de IA sean también mayoritariamente de hombres blancos. Si se introducen directamente, sin supervisar, como en un modelo de base, puede que no nos demos cuenta, y la inteligencia artificial introduzca sesgos muy grandes, que luego alterarán los resultados.
Por eso, los autores de este estudio aconsejan revisar siempre los datos con los que se entrenó una IA, antes de empezar a usarla. Esto debería ser aplicable a cualquier área, pero es especialmente sensible en temas médicos, como bien han visto ellos con su investigación. Hacerlo lleva un tiempo, pero se puede afinar mucho más el diagnóstico. Al fin y al cabo, es eso lo que se busca al introducir las nuevas tecnologías en el área de la medicina.