La IA lleva de cabeza a cientos de miles de investigadores de todo el mundo, y disciplinas como el aprendizaje automático o el aprendizaje profundo tienen cada vez más aplicaciones. Estos modelos informáticos, en principio, basan sus predicciones en ingentes cantidades de datos. Pero, ¿es siempre así?

La teoría es relativamente sencilla: le enseñas decenas o cientos de miles de imágenes a una red neuronal, junto a su categoría, y de esta forma aprenderá a categorizar el resto de imágenes que le enseñes en base a los patrones que extrajo de las primeras.

Por ejemplo, en el caso de la detección de cáncer de mama se han utilizado utilizaban unas 40.000 mamografías para el entrenamiento, y otras 10.000 para su verificación. Pero, ¿qué ocurre cuando estamos frente a una enfermedad rara? ¿Qué pasa si tenemos solo un pequeño puñado de datos?

Small Data: todavía hay hueco a la predicción cuando cuentas con pocos datos

Si bien una red bien entrenada puede superar el rendimiento de especialistas en un área, una poco entrenada da lugar a falsos que se quieren evitar. Ahí es donde entra el 'Small Data'. Este se basa en el tratamiento apropiado y más avanzado de los pocos datos de los que se dispone para obtener resultados mucho más precisos.

Esto es extrapolarle a multitud de casos, por ejemplo:

  • Detección de partes defectuosas en una fábrica.
  • Reconocimiento de ejemplares de especies en peligro de extinción.
  • Detección de partículas, como el bosón de Higgs, en experimentos de altas energías.

Al final, se trata de utilizar modelos estadísticos que se ajusten de una forma más precisa al caso que se está tratando. Justin Kinney, investigador en el Cold Spring Harbor Laboratory, explica cómo, por ejemplo, su modelo de física de partículas (DEFT) puede ser aplicado a otros casos con poco volumen de datos.

El equipo de Kinney publica en Physical Review Letters cómo han aplicado este modelo a predicciones en ensayos clínicos con pacientes bajo medicación. En estos estudios, se busca obtener predicciones con el menor volumen de datos -y riesgo- posible.