Gene Expression Omnibus, el Open Data aplicado a la genética

Vinculado al mundo del Open Government y la transparencia es habitual oír hablar del Open Data, es decir, compartir datos en formatos estándarizados que permitan su tratamiento y su reutilización en múltiples aplicaciones (evitando la redundancia de esfuerzos en tener que recopilarlos de nuevo); un movimiento con cada vez más fuerza que pide a las Administraciones Públicas que pongan a disposición de la ciudadanía y las empresas los datos que recopilan gracias a los impuestos que recaudan. Tomando como base que algo que ha sido recopilado gracias a los impuestos del ciudadano debe revertir en la ciudadanía, uno de los sectores que siempre ha sido más reacio a compartir datos de manera abierta ha sido el de la investigación científica que, por norma general, publica sus resultados en revistas científicas cuyos artículos hay que pagar para poder consultarlos y, claro está, no tiene mucho sentido si la investigación se ha financiado con fondos públicos. Afortunadamente estamos asistiendo a un cambio, en Estados Unidos hay un movimiento ciudadano que quiere liberar los resultados de estas investigaciones y en Reino Unido parece que en 2 años será algo obligatorio y, además, parece que en el campo de la genética, el Open Data ha llegado de manera mucho más natural gracias al proyecto GEO.

Gene Expression Omnibus (GEO) es un proyecto mantenido por el Centro Nacional para la Información Biotecnológica (Bethesda, Maryland) y el ArrayExpress, un repositorio de información genética creado por el Instituto Europeo de Bioinformática (situado en Hinxton, Reino Unido), que consiste en la creación de un repositorio centralizado con datos genéticos (genomas secuenciados en distintas investigaciones, muestras genéticas, resultados de investigaciones, etc) que pueda estar disponible a toda la comunidad científica y que, claro está, esté abierto a la contribución de cualquier entidad o centro de investigación.

¿Y el proyecto funciona? Aunque el mundo de la investigación científica pueda parecer algo reacio a compartir datos de las investigaciones, parece que GEO está funcionando muy bien y, desde su apertura en el año 2002, atesora ya un millón de datasets procedentes de centros de investigación de todo el mundo. Esta reutilización de los datos es beneficiosa para todas las partes puesto que permite a los investigadores reducir costes (pueden reutilizar el trabajo de otros centros de investigación), acortar los tiempos de sus proyectos e, incluso, ampliar el alcance de sus proyectos.

No podríamos trabajar con una gran variedad de tejidos de distintas especies con el presupuesto que tenemos para las investigaciones

Sin embargo, a pesar de todas estas ventajas, el uso intensivo de los datos aún es bajo y se suele utilizar más para comparar resultados que como base para nuevas investigaciones y, precisamente, ésa es una de las grandes barreras que está encontrando la reutilización de los datos dentro del ámbito científico. Aún así, son múltiples los trabajos de investigación que se nutren de estos datos, por ejemplo, para probar algoritmos que puedan detectar genes que sirvan para indicar que una persona puede desarrollar un cáncer de pulmón (un trabajo que está llevando a cabo el centro de investigación Thomas J. Watson de IBM) y que usan estos datasets como imput de su sistema.

Iniciativas como GEO redundan en la necesidad de optimizar los esfuerzos y evitar "pagar dos veces" por algo que de por sí es de carácter público: obtener los datos (investigar) y consultarlos.

14 respuestas a “Gene Expression Omnibus, el Open Data aplicado a la genética”