Small Data, una vía alternativa para el aprendizaje automático y la IA

La IA lleva de cabeza a cientos de miles de investigadores de todo el mundo, y disciplinas como el aprendizaje automático o el aprendizaje profundo tienen cada vez más aplicaciones. Estos modelos informáticos, en principio, basan sus predicciones en ingentes cantidades de datos. Pero, ¿es siempre así?

MIT invertirá mil millones en crear una universidad sobre inteligencia artificial

La teoría es relativamente sencilla: le enseñas decenas o cientos de miles de imágenes a una red neuronal, junto a su categoría, y de esta forma aprenderá a categorizar el resto de imágenes que le enseñes en base a los patrones que extrajo de las primeras.

Por ejemplo, en el caso de la detección de cáncer de mama se han utilizado utilizaban unas 40.000 mamografías para el entrenamiento, y otras 10.000 para su verificación. Pero, ¿qué ocurre cuando estamos frente a una enfermedad rara? ¿Qué pasa si tenemos solo un pequeño puñado de datos?

Este sistema de aprendizaje automático detecta uno de los mayores factores de riesgo del cáncer de mama

Small Data: todavía hay hueco a la predicción cuando cuentas con pocos datos

Si bien una red bien entrenada puede superar el rendimiento de especialistas en un área, una poco entrenada da lugar a falsos que se quieren evitar. Ahí es donde entra el 'Small Data'. Este se basa en el tratamiento apropiado y más avanzado de los pocos datos de los que se dispone para obtener resultados mucho más precisos.

Deep Learning is getting really good on Big Data/millions of images. But Small Data is important too. Am seeing many exciting applications at Landing AI where you can get good results w/100 images. Hope more researchers work on Small Data--ML needs more innovations there.

— Andrew Ng (@AndrewYNg) September 27, 2018

Esto es extrapolarle a multitud de casos, por ejemplo:

Detección de partes defectuosas en una fábrica.
Reconocimiento de ejemplares de especies en peligro de extinción.
Detección de partículas, como el bosón de Higgs, en experimentos de altas energías.

Al final, se trata de utilizar modelos estadísticos que se ajusten de una forma más precisa al caso que se está tratando. Justin Kinney, investigador en el Cold Spring Harbor Laboratory, explica cómo, por ejemplo, su modelo de física de partículas (DEFT) puede ser aplicado a otros casos con poco volumen de datos.

El equipo de Kinney publica en Physical Review Letters cómo han aplicado este modelo a predicciones en ensayos clínicos con pacientes bajo medicación. En estos estudios, se busca obtener predicciones con el menor volumen de datos -y riesgo- posible.