ENCODE, el genoma revisitado: no hay ADN basura

El proyecto ENCODE (Encyclopedia Of DNA Elements) es el esfuerzo colectivo más importante de los últimos años para comprender el genoma humano, una segunda lectura. Acaba de publicar 30 artículos en las revistas científicas del más alto nivel que están cambiando nuestra percepción del genoma. La principal consecuencia de los estudios es demoledora: no existe ADN basura.

ADN ARN

El ADN es una estructura lineal que constituye nuestro genoma. Es una larga cadena que contiene 4 bases nitrogenadas (llamadas adenina→A, timina→T, citosina→C y guanina→G). Su longitud es de cerca de dos metros y tiene 3 mil millones de estas bases o letras A, T, C o G. Algunas partes de esta cadena la constituyen los genes. Un gen es una secuencia concreta de bases nitrogenadas. Se conocen 25.000 genes en el genoma humano. Los genes codifican proteínas, las moléculas de las que estamos hechos. Todas las células de un ser vivo contienen el mismo ADN, el mismo genoma (que a su vez es distinto del genoma del resto de los seres vivos con alguna excepción como los gemelos).

Las proteínas son las moléculas biológicas de las que estamos hechos. Prácticamente en todas las funciones vitales intervienen proteínas. Se calcula que en el cuerpo humano existen entre doscientas y cuatrocientas mil proteínas. La formación de las proteínas sigue los siguientes pasos: ADN--->ARN--->Proteína.

En 2001 se secuenció el genoma humano. Fue un gigantesco paso en el que se estableció la secuencia de los 3 mil millones de letras A, T, C o G. Sabemos cuál es el orden de las letras en el genoma, pero no sabemos que significa o cómo funciona. ENCODE es un esfuerzo para conocer su funcionamiento. El genoma es un libro que no sabemos descifrar aún.

Una de las sorpresas de la secuenciación del genoma humano es que solo un 1,5% del genoma esta formado por genes que codifican proteínas. Existen enormes porciones de secuencias repetitivas sin función conocida.

En una de las más enormes estupideces de la ciencia se denominó al ADN que no codifica proteínas, ADN basura. Dado que no tiene ninguna función conocida, no sirve para nada y por tanto es basura. Es como si fotocopiamos un libro. La fotocopiadora funciona mal y de vez en cuando hace varias copias de la misma página. La misma fotocopiadora funciona durante millones de años y va acumulando páginas inútiles.

Esto es completamente anti-intuitivo y choca contra el sentido común. ¿Los organismos vivos tienen un genoma del que solo un 1,5% es útil pero mantiene el resto ya que no molesta? Como si la naturaleza pudiera permitirse derrochar tanta energía.

Si todas las células de un ser vivo contienen el mismo genoma, ¿por qué las células son distintas? Cada célula expresa solo algunos de los genes que contiene. Por ello una célula de los músculos es distinta de una neurona o una de la piel. A su vez, los genes están permanentemente fabricando proteínas para reponer las deterioradas o responder a cambios en el ambiente.

De modo que existe un concepto clave: la expresión de los genes. En cada momento y en cada célula unos se expresan y convierten en proteínas y otros no. Si examinamos el número de genes y proteínas vemos que hay diez veces más de las últimas. Es decir, cada gen puede expresarse de distinta manera y de media puede fabricar diez proteínas. Uno de los misterios que esconde el genoma es cómo tan pocos genes pueden construir un organismo tan complejo como el ser humano. Recordemos que existen 85 mil millones de neuronas y muchos billones de otras células, cada una con su función precisa y en su lugar adecuado. ¿Todo ello a partir de tan solo 25.000 genes? ¿Cómo puede un número tan reducido de genes determinar el destino de billones de células?

El proyecto ENCODE ha producido 30 artículos en prestigiosas revistas científicas que están cambiando nuestro concepto del genoma. Y es solo el principio. Uno de los descubrimientos es que el 80% del ADN se transcribe a ARN. Es decir, hace algo. El proyecto ha estudiado 147 tipos de células, pero el cuerpo humano tiene varios miles de tipos. Es de suponer que conforme avancemos llegaremos a la conclusión de que todo el genoma es funcional. La enorme ventaja es que ahora disponemos de técnicas que abaratan más de un millón de veces los costes de las usadas en la secuenciación del genoma en 2001.

Parece que el 80% llegará al 100%. No tenemos largas cadenas de ADN redundante. La metáfora del ADN basura está equivocada. (Ewan Birney, coordinador del proyecto).

¿Qué hace el resto del genoma que no codifica proteínas? En su mayoría no lo sabemos, pero en algunos casos sí y en general puede decirse que sirve para que los genes se expresen o no, mucho o poco, se mezclen con otros genes y produzcan distintas proteínas. Lo que hasta ahora era ADN basura, parece ser el tablero de mandos de la expresión de los genes.

Un concepto importante es considerar que las proteínas son tridimensionales. El ADN es una cadena lineal. Y se transcribe a una proteína que inicialmente es también lineal. Pero luego se pliega en el espacio. La forma que adopta en el espacio es determinante para la función que cumple. La proteína se une a otras sustancias debido a su forma. Es como una llave y su cerradura. Desconocemos el modo de plegamiento de las proteínas y hay un gran esfuerzo de investigación para conocerlo. En el momento de plegarse, elementos lejanos acaban estando juntos. Esto significa que un trozo del ADN puede modificar la actividad de una porción muy lejana. El nuevo proyecto ha descubierto más de 1000 conmutadores que actúan sobre un gen lejano.

Los científicos han estudiado la relación entre las enfermedades y el genoma en una serie de trabajos llamados GWAS, estudios de asociación del genoma. Han descubierto una larga lista de variantes en las letras del DNA que correlacionan con el riesgo de padecer distintas enfermedades. Resulta que la abrumadora mayoría de estas variaciones no se encuentran en los genes sino en las nuevas regiones del genoma no codificantes, el llamado antiguamente ADN basura. Pero buscar las causas genéticas de una enfermedad es un proceso muy complejo. Pocas son las llamadas monogenéticas, las causadas por un solo gen. La mayoría de las enfermedades involucran a varios genes.

ENCODE nos lleva incluso a redefinir el concepto de gen. En casos un gen está disperso por distintos lugares del genoma o la misma región de ADN pertenece a más de un gen. Quizá el nuevo elemento básico no sea el gen sino el transcrito, la porción mínima de ADN que pasa a ARN

El átomo del genoma es el transcrito. Ellos son las unidades básicas que son afectadas por las mutaciones y la selección. De este modo, un gen se convierte en una colección de transcritos unidos por un factor común ( Tom Gingeras, investigador jefe).

Los nuevos segmentos de ADN investigados contienen sitios de acoplamiento donde otras proteínas se pegan y activan o desactivan la expresión de los genes. O son fragmentos que se leen y se transcriben a ARN. O controlan si los genes próximos se trancriben como los más de 70.000 promotores. O influencian la actividad de otros genes a veces muy lejanos como los más de 400.000 facilitadores. o afectan al modo en el que el ADN se pliega ye empaqueta.

Algunos dudan de que hayamos eliminado el ADN basura. Ejemplos hay para todos. ¿Cómo es posible que los seres humanos "necesiten" el 100% de su ADN no codificante, pero un pez globo funciona bien 1/10 como mucho y una salamandra tiene por lo menos 4 veces más? Una cebolla tiene cinco veces más ADN no codificante que nosotros. ¿No sigue siendo necesario el concepto de ADN basura?

En 2001 divisamos una lejana montaña con la secuenciación del genoma. En 2012, con el proyecto ENCODE apenas nos hemos acercado a sus faldas. Culminar su cima, entender el genoma, es una meta para la que aún queda un gigantesco esfuerzo.

16 respuestas a “ENCODE, el genoma revisitado: no hay ADN basura”