server-room

server-room

En este año del centenario de IBM, el gigante azul no para de presentar proyectos y líneas de investigación que son capaces de dejarnos con la boca abierta. Si ya nos sorprendieron con los chips basados en el modelo del cerebro humano, ahora se embarcan en un gran proyecto: la construcción del mayor almacén de datos del mundo. En un mundo que genera 1,8 Zettabytes de información al año y, cada dos años, es capaz de duplicar esa cantidad, la necesidad de almacenamiento va en aumento y, por tanto, las empresas necesitan sistemas de gran capacidad, robustez y, sobre todo, con un tamaño manejable que no implique la pérdida de mucho espacio de en centro de datos.

Este proyecto, que se lleva a cabo en el centro de investigación de IBM en Almaden (California), pretende construir un repositorio de datos diez veces mayor que cualquier otro existente, llegando a los 120 petabytes, es decir, 120 millones de GB. Esta impresionante cabina estará formada por un array de 200.000 discos duros convencionales que funcionarán juntos y formarán este gran contenedor que sería capaz de almacenar 24.000 millones de canciones o 60 copias de los datos del servicio Internet Archive WayBack Machine.

¿Y para qué una cabina de almacenamiento tan grande? Pues, realmente, el uso final es un misterio y lo único que se sabe es que el proyecto es un encargo de un cliente de IBM (cuyo nombre no se ha revelado) que necesita esa capacidad de almacenamiento para un supercomputador que se dedicará a realizar simulaciones de fenómenos naturales. De todas formas, las conclusiones de este proyecto podrían mejorar los sistemas de almacenamiento y dar pie a una nueva generación de cabinas de mayor capacidad y tolerancia a fallos. Según Bruce Hillsberg, director del proyecto y responsable de I+D en almacenamiento:

> Este sistema de 120 petabytes, ahora mismo, puede parecer una locura pero en unos años la gran mayoría de sistemas que den soporte a aplicaciones en la nube utilizarán este tipo de almacenes de datos

Y es que este proyecto, lo mires por donde lo mires, es todo un reto tecnológico. Las cabinas de almacenamiento de mayor capacidad rondan los 15 petabytes de capacidad, por tanto, 120 es un gran salto. Lógicamente, la supercomputación será la mayor beneficiada de este tipo de dispositivos, por ejemplo, para almacenar los datos meteorológicos de muchísimos años y mejorar las predicciones futuras o para los estudios moleculares o de secuenciación del genoma.

El equipo de IBM ha tenido que trabajar en un nuevo software que soporte este aumento en la capacidad de almacenamiento. El problema no reside únicamente en el hardware, aunque combinar miles de discos duros y que funcionen como uno sólo es todo un reto. Si habitualmente una sistema de almacenamiento constaba de un rack en el que se disponían distintas bandejas con los discos duros, 200.000 discos duros ocupan un tamaño considerable como para abordar el problema de la misma forma. El equipo ha tenido que reducir considerablemente el tamaño de los discos para poder meter muchos más en el mismo espacio y, claro está, al reducir el espacio la temperatura aumenta, algo que ha tenido que solventarse sustituyendo los clásicos ventiladores por un circuito cerrado de refrigeración basado en agua.

IBME10035_IBM eServer Series 346

Otro de los problemas lo encontramos en el deterioro que pueden sufrir los discos y, por tanto, el reparto que hay que hacer de la información para aumentar la tolerancia a fallos. Cuando un disco falla, el sistema toma los datos de otras unidades y los escribe en el disco de reemplazo poco a poco, de manera que una supercomputadora pueda seguir trabajando ya que, gracias al reparto de los datos y a la redundancia, los datos no llegan a perderse (de la misma forma que un RAID clásico). Si fallase más de un disco, por ejemplo, en unidades cercanas, la velocidad del proceso de reconstrucción aumentaría para restablecer el funcionamiento en el menor tiempo posible y minimizar la pérdida de datos. Según el responsable del proyecto, este sistema no sería capaz de perder un dato en un millón de años y, además, sin sacrificar el rendimiento.

El sistema de archivos utilizado es el GPFS, un desarrollo de IBM orientado, precisamente, al mundo de la supercomputación y que permite un gran aumento de la velocidad de acceso a los datos dado que los archivos se fragmentan y se almacenan en distintos discos duros (lo que permite que se puedan leer estas partes o escribir en ellas de manera simultánea y, por tanto, procesarlas en paralelo). De hecho, este sistema de archivos fue capaz de indexar 10 mil millones de archivos en 43 minutos, un dato que pulverizó el récord anterior que estaba en mil millones de archivos en tres horas.

La supercomputación necesita de sistemas de almacenamiento que ofrezcan una alta velocidad de procesamiento de datos, por lo que este tipo de sistemas podría tener muy buena aceptación por una gran parte de las organizaciones que gestionan los 500 grandes supercomputadores del mundo.

Doscientos mil discos duros funcionando en una cabina que ofrece 120 millones de GB de almacenamiento, con estos números, cualquier centro de datos nos va a parecer pequeño.

También en Hipertextual:

La actualidad tecnológica y científica en 2 minutos

Recibe todas las mañanas en tu email nuestra newsletter. Una guía para entender en dos minutos las claves de lo realmente importante en relación con la tecnología, la ciencia y la cultura digital.

Procesando...
¡Listo! Ya estás suscrito

Participa en la conversación

17 Comentarios

Participa en la conversación, deja tu comentario

  1. Ahora Microsoft puede lanzar Windows 8, ya tenemos un disco duro con la capacidad suficiente para poder instalarlo.

  2. Quien dice que los discos SSD hoy fallan mas que uno convencional se equivoca. Hoy la tecnologia SSD ha evolucionado y hay estadisticas actuales en la web que muestran que, actualmente, discos SSD fallan menos que los convencionales magneticos. Por cierto no hay discos de 1tb SSD comerciaente hablando, no veo como ppdrian poner discos SSD cuando el costo de gb/u$s ni siquiera es 1 a 1. Es obvio que son discos normales rackeados en fibra o iscsi

  3. Una corrección, no se crean en el mundo 1.8 ZB de información al año, se cree que en 2011 se llegara a esa cifra. Y si es cierto que cada dos años se duplica la informacion, pero no se duplican los 1.8 ZB, la cantidad de informacion en la actualidad es menor. De no ser asi el centro de datos de IBM quedaria chico para estas cantidades de informacion que se maneja.
    Aqui esta el link de referencia Click

    1. @intervila, IBM en su nota habló de discos duros, ellos sabrán lo que están integrando. Lógicamente un SSD ofrece una mayor velocidad de acceso, disminuye la necesidad de refrigeración y ofrece un menor consumo pero si indican que refrigeran los discos con agua, parece que optaron por discos convencionales (quizás discos con interfaz de canal de fibra)

      Saludos!

    2. los SSD tienen un problema grave y es que fallan. Es una tecnología que todavía no es tan confiable como los discos mecánicos

  4. Por cierto, el sistema operativo de GPFS es AIX.

    Y al final del día solamente son nodos sobre nodos, cualquier vendedor puede hacer eso :)

  5. Entonces están utilizando discos de 600GB. No se indica si son del tipo SSD ó los clásicos. Lo de la refrigeración por agua suena mal. Cuando se fuerta algo tanto da problemas adicionales. Como cuando

  6. Yo soy ese cliente secreto que no mencionan, contrate a IBM para que me construyera un sitio donde poder almacenar toda mi porno.

  7. que decepción este blog. Más de 5 artículos seguidos dedicados a la renuncia de Jobs y ninguno hablando sobre los 20 años de linux.

    1. Y no sólo eso: deberían mencionar el SO de este almacén… ¿será Win7… el «casi perfecto» como algunos fans nombran? ¬_¬

      1. No creo, IBM es una de las compañías que, precisamente, más implicadas están con Linux. Es pronto para aventurarse pero no me extrañaría que optasen por Linux

      2. @JJ Velasco Sí, ya me imaginaba. Sólo pedía que lo hicieran explícito… y ser algo sarcástico hacia los fans de MS.