Open Data

Vinculado al mundo del *Open Government* y la transparencia es habitual oír hablar del **Open Data**, es decir, compartir datos en formatos estándarizados que permitan su tratamiento y su reutilización en múltiples aplicaciones (evitando la redundancia de esfuerzos en tener que recopilarlos de nuevo); un movimiento con cada vez más fuerza que pide a las Administraciones Públicas que pongan a disposición de la ciudadanía y las empresas los datos que recopilan gracias a los impuestos que recaudan. Tomando como base que algo que ha sido recopilado gracias a los impuestos del ciudadano debe revertir en la ciudadanía, uno de los sectores que siempre ha sido más reacio a compartir datos de manera abierta ha sido el de la investigación científica que, por norma general, publica sus resultados en revistas científicas cuyos artículos hay que pagar para poder consultarlos y, claro está, no tiene mucho sentido si la investigación se ha financiado con fondos públicos. Afortunadamente estamos asistiendo a un cambio, en Estados Unidos hay un movimiento ciudadano que quiere liberar los resultados de estas investigaciones y en Reino Unido parece que en 2 años será algo obligatorio y, además, parece que en el campo de la genética, el Open Data ha llegado de manera mucho más natural gracias al proyecto GEO.

Open Data

Gene Expression Omnibus (GEO) es un proyecto mantenido por el Centro Nacional para la Información Biotecnológica (Bethesda, Maryland) y el ArrayExpress, un repositorio de información genética creado por el Instituto Europeo de Bioinformática (situado en Hinxton, Reino Unido), que consiste en la creación de un repositorio centralizado con datos genéticos (genomas secuenciados en distintas investigaciones, muestras genéticas, resultados de investigaciones, etc) que pueda estar disponible a toda la comunidad científica y que, claro está, esté abierto a la contribución de cualquier entidad o centro de investigación.

¿Y el proyecto funciona? Aunque el mundo de la investigación científica pueda parecer algo reacio a compartir datos de las investigaciones, parece que GEO está funcionando muy bien y, desde su apertura en el año 2002, atesora ya un millón de *datasets* procedentes de centros de investigación de todo el mundo. Esta reutilización de los datos es beneficiosa para todas las partes puesto que permite a los investigadores reducir costes (pueden reutilizar el trabajo de otros centros de investigación), acortar los tiempos de sus proyectos e, incluso, ampliar el alcance de sus proyectos.

> No podríamos trabajar con una gran variedad de tejidos de distintas especies con el presupuesto que tenemos para las investigaciones

Sin embargo, a pesar de todas estas ventajas, el uso intensivo de los datos aún es bajo y se suele utilizar más para comparar resultados que como base para nuevas investigaciones y, precisamente, ésa es una de las grandes barreras que está encontrando la reutilización de los datos dentro del ámbito científico. Aún así, son múltiples los trabajos de investigación que se nutren de estos datos, por ejemplo, para probar algoritmos que puedan detectar genes que sirvan para indicar que una persona puede desarrollar un cáncer de pulmón (un trabajo que está llevando a cabo el centro de investigación Thomas J. Watson de IBM) y que usan estos *datasets* como *imput* de su sistema.

Iniciativas como GEO redundan en la necesidad de optimizar los esfuerzos y evitar "pagar dos veces" por algo que de por sí es de carácter público: obtener los datos (investigar) y consultarlos.

Participa en la conversación

14 Comentarios

Deja tu comentario

    1. Nook, está claro que no sabes cómo va el proceso. Las revistas no tienen que pagar a nadie por el proceso de revisión, validación…. Son los propios científicos los que revistan, gratis,

    2. los artículos de otros. Repito, nadie cobra por el proceso de revisión, y lo hacen los propios científicos cuando el editor de una revista se lo pide.

    3. Lo único por lo que tendría sentido cobrar es por el almacenamiento permanente, pero esto sería una cantidad mínima. De todas formas, muchos optan por colgar sus propios artículos en su página web.

  1. …por decirto rápido simplem. Por lo tanto el método de recaudación del dinero para hacer esas pruebas consiste en el pago de subscripción a dicha revista que lo usan para pagar a los empleados y

  2. … envían. Eso obviamente cuesta dinero. En las revistas de ese tipo no se publican los artículos y ya está. Las revistas siguen el método científico y se aseguran que lo enviado es cierto

  3. son de pago porque, entre otras cosas dichas revistas tienen que pagar todo el proceso de revisión, validación, reproducción, verificación por parte de otros científicos, etc. de los artículos que se

  4. cuyos artículos hay que pagar para poder consultarlos y, claro está, no tiene mucho sentido si la investigación se ha financiado con fondos públicos.»

    Las revistas científicas (Nature, Science…)

    1. No dudo del prestigio de las revistas pero este tipo de publicaciones son de pago y no tiene sentido tener que pagar para acceder a los resultados de un estudio que ha sido financiado con el dinero de los impuestos de los ciudadanos

      1. El dinero de los ciudadanos sirve para hacer el estudio, las revistas se encargan de validar científicamente tu estudio y demostrar que los resultados son demostrables, reproducibles y ciertos.

      2. Eso obviamente requiere dinero, de ahí las subscripciones. Además otorgan, si resultan ser ciertos, prestigio a los científicos del estudio y la aportación de un nuevo descubrimiento que puede ser

      3. usado por otros científicos, ingenieros, gente normal, etc. en el día a día para mejorar la calidad de vida o producir otros estudios.

      4. Lo que sí creo que podrían hacer es publicarlo sin cobrar varios años después como pone en esta noticia de alt1040

  5. «uno de los sectores que siempre ha sido más reacio a compartir datos de manera abierta ha sido el de la investigación científica que, por norma general, publica sus resultados en revistas científica»