Los sistema de reconocimiento facial son una de las tecnologías más polémicas de la actualidad debido a la falta de regulación en torno a su uso, así como el peligro que puede representar para los derechos humanos, la discriminación o violación de privacidad de las personas.

Una forma de evitar el sesgo y los errores que pueden cometer estos softwares basados en la inteligencia artificial (IA) es ampliando la base de datos sobre la cual operan. International Business Machines Corporation (IBM) ha publicado este 29 de enero una base de datos llamada "Diversity in Faces" (DiF, por sus siglas en inglés), cuyo objetivo es avanzar en el estudio de la imparcialidad en los sistemas de reconocimiento facial.

Como explica IBM en un post publicado en su blog, gran parte de la IA proviene del uso del aprendizaje profundo (deep learning) con base en datos. De esta manera, los modelos se van entrenando y se vuelven cada vez más precisos a mayor cantidad de datos.

"Sin embargo, la fuerza de estas técnicas también puede ser una debilidad. Los sistemas de inteligencia artificial aprenden lo que se les enseña, y si no se enseñan con bases de datos sólidas y diversas, la precisión y la imparcialidad podrían estar en riesgo", señala la tecnológica, y agrega:

El núcleo del problema no está en la tecnología de la IA en sí, sino en cómo se entrenan los sistemas de reconocimiento facial impulsados ​​por la IA.

Por este motivo, los desarrolladores de inteligencia artificial de IBM han ampliado la base de datos que utiliza su sistema de reconocimiento facial para hacerlo más "preciso y justo". "Las imágenes deben reflejar la diversidad de características en las caras que vemos en el mundo", ahonda.

De acuerdo con la empresa, el enfoque ha sido hasta ahora familiarizar a estos sistemas de IA con cómo difieren los rostros según la edad, el género y el tono de la piel y la manera en que las diferentes caras pueden variar en algunas de estas dimensiones. "Pero, como han demostrado estudios anteriores, estos atributos son solo una pieza del rompecabezas y no son del todo adecuados para caracterizar la diversidad total de rostros humanos", explica IBM.

Un nuevo enfoque en el reconocimiento facial

La base de datos ampliada de IBM cuenta con 100 millones de imágenes. A partir de estas, otro sistema de aprendizaje automático identificó cuantos rostros pudo, para luego aislarlos y cortarlos. En la base de datos, cada uno de estos rostros cuenta con metadatos como la distancia entre los ojos, el tamaño de la frente, entre otras características.

La novedad es que también incluye cómo esas medidas se relacionan entre sí y otras cuestiones como el color de la piel, el contraste y los tipos de coloración. El género y la edad son otros aspectos en los que también se han enfocado en mejorar.

Pero, pese a este tipo de esfuerzos, todavía hay un largo camino por recorrer antes de que estos sistemas de reconocimiento facial sean lo más precisos posibles. Con todo y un millón de rostros, no existe garantía de que esta base de datos sea adecuadamente representativa o que haya suficientes grupos y subconjuntos para evitar sesgos.

"Nuestro análisis inicial ha demostrado que el conjunto de datos DiF proporciona una distribución más equilibrada y una cobertura más amplia de imágenes faciales en comparación con los conjuntos de datos anteriores", concluye IBM, y agrega:

La información obtenida del análisis estadístico de los 10 esquemas de codificación iniciales en el conjunto de datos DiF ha fomentado nuestra propia comprensión de lo que es importante para caracterizar rostros humanos y nos ha permitido continuar la investigación importante sobre formas de mejorar la tecnología de reconocimiento facial.

En pocas palabras, la empresa reconoce que este avance es solo un pequeño paso en un largo camino por delante.