IBM construye el mayor almacén de datos del mundo

En este año del centenario de IBM, el gigante azul no para de presentar proyectos y líneas de investigación que son capaces de dejarnos con la boca abierta. Si ya nos sorprendieron con los chips basados en el modelo del cerebro humano, ahora se embarcan en un gran proyecto: la construcción del mayor almacén de datos del mundo. En un mundo que genera 1,8 Zettabytes de información al año y, cada dos años, es capaz de duplicar esa cantidad, la necesidad de almacenamiento va en aumento y, por tanto, las empresas necesitan sistemas de gran capacidad, robustez y, sobre todo, con un tamaño manejable que no implique la pérdida de mucho espacio de en centro de datos.

Este proyecto, que se lleva a cabo en el centro de investigación de IBM en Almaden (California), pretende construir un repositorio de datos diez veces mayor que cualquier otro existente, llegando a los 120 petabytes, es decir, 120 millones de GB. Esta impresionante cabina estará formada por un array de 200.000 discos duros convencionales que funcionarán juntos y formarán este gran contenedor que sería capaz de almacenar 24.000 millones de canciones o 60 copias de los datos del servicio Internet Archive WayBack Machine.

¿Y para qué una cabina de almacenamiento tan grande? Pues, realmente, el uso final es un misterio y lo único que se sabe es que el proyecto es un encargo de un cliente de IBM (cuyo nombre no se ha revelado) que necesita esa capacidad de almacenamiento para un supercomputador que se dedicará a realizar simulaciones de fenómenos naturales. De todas formas, las conclusiones de este proyecto podrían mejorar los sistemas de almacenamiento y dar pie a una nueva generación de cabinas de mayor capacidad y tolerancia a fallos. Según Bruce Hillsberg, director del proyecto y responsable de I+D en almacenamiento:

Este sistema de 120 petabytes, ahora mismo, puede parecer una locura pero en unos años la gran mayoría de sistemas que den soporte a aplicaciones en la nube utilizarán este tipo de almacenes de datos

Y es que este proyecto, lo mires por donde lo mires, es todo un reto tecnológico. Las cabinas de almacenamiento de mayor capacidad rondan los 15 petabytes de capacidad, por tanto, 120 es un gran salto. Lógicamente, la supercomputación será la mayor beneficiada de este tipo de dispositivos, por ejemplo, para almacenar los datos meteorológicos de muchísimos años y mejorar las predicciones futuras o para los estudios moleculares o de secuenciación del genoma.

El equipo de IBM ha tenido que trabajar en un nuevo software que soporte este aumento en la capacidad de almacenamiento. El problema no reside únicamente en el hardware, aunque combinar miles de discos duros y que funcionen como uno sólo es todo un reto. Si habitualmente una sistema de almacenamiento constaba de un rack en el que se disponían distintas bandejas con los discos duros, 200.000 discos duros ocupan un tamaño considerable como para abordar el problema de la misma forma. El equipo ha tenido que reducir considerablemente el tamaño de los discos para poder meter muchos más en el mismo espacio y, claro está, al reducir el espacio la temperatura aumenta, algo que ha tenido que solventarse sustituyendo los clásicos ventiladores por un circuito cerrado de refrigeración basado en agua.

Otro de los problemas lo encontramos en el deterioro que pueden sufrir los discos y, por tanto, el reparto que hay que hacer de la información para aumentar la tolerancia a fallos. Cuando un disco falla, el sistema toma los datos de otras unidades y los escribe en el disco de reemplazo poco a poco, de manera que una supercomputadora pueda seguir trabajando ya que, gracias al reparto de los datos y a la redundancia, los datos no llegan a perderse (de la misma forma que un RAID clásico). Si fallase más de un disco, por ejemplo, en unidades cercanas, la velocidad del proceso de reconstrucción aumentaría para restablecer el funcionamiento en el menor tiempo posible y minimizar la pérdida de datos. Según el responsable del proyecto, este sistema no sería capaz de perder un dato en un millón de años y, además, sin sacrificar el rendimiento.

El sistema de archivos utilizado es el GPFS, un desarrollo de IBM orientado, precisamente, al mundo de la supercomputación y que permite un gran aumento de la velocidad de acceso a los datos dado que los archivos se fragmentan y se almacenan en distintos discos duros (lo que permite que se puedan leer estas partes o escribir en ellas de manera simultánea y, por tanto, procesarlas en paralelo). De hecho, este sistema de archivos fue capaz de indexar 10 mil millones de archivos en 43 minutos, un dato que pulverizó el récord anterior que estaba en mil millones de archivos en tres horas.

La supercomputación necesita de sistemas de almacenamiento que ofrezcan una alta velocidad de procesamiento de datos, por lo que este tipo de sistemas podría tener muy buena aceptación por una gran parte de las organizaciones que gestionan los 500 grandes supercomputadores del mundo.

Doscientos mil discos duros funcionando en una cabina que ofrece 120 millones de GB de almacenamiento, con estos números, cualquier centro de datos nos va a parecer pequeño.

También en Hipertextual: