Conviene familiarizarse con palabras como grid, cloud, middelware y big data porque son el lenguaje de la próxima etapa de la ciencia. Hoy la física de partículas, la genómica y la astrofísica generan cantidades de datos tan inabarcables que, para exprimir la información que contienen, los investigadores necesitan nuevas herramientas colaborativas. Ignacio Blanquer (Valencia, 1969), miembro de la Red Española de e-Ciencia y profesor de la Universidad Politécnica de Valencia, ha explicado a SINC las claves del llamado ‘cuarto paradigma’ durante una jornada organizada por la Fundación Ramón Areces.
¿Qué es la e-ciencia?
Estamos acostumbrados a que la ‘e’ se refiera a ‘electrónico’, pero en el caso de la e-ciencia se refiere a enhanced science, ciencia mejorada, a través de la colaboración global entre los científicos y toda una nueva generación de infraestructuras informáticas. Tras un proceso histórico de ciencia empírica, teórica y computacional, se habla ya del cuarto paradigma, la e-ciencia o e-investigación, que se centra en la exploración de los datos y que unifica teoría, experimentación y simulación.
¿Supone un cambio en el método científico?
En algunas disciplinas, como la genómica o la física de partículas, sin duda. Generan tal cantidad de datos –big data– que requieren una nueva herramienta para procesarlos. Esa herramienta es la e-ciencia y, efectivamente, está cambiado el método científico con la ayuda de las e-infraestructuras que le dan soporte.
Como el grid y el cloud –la nube–. ¿En qué se diferencian?
El grid es una forma de compartir recursos. Yo tengo mis ordenadores, tú tienes los tuyos, los juntamos y unos días los gastas tú y otros yo. Es una infraestructura distribuida en red que emerge del mundo científico y mejora la colaboración entre los centros de investigación.
Sin embargo la nube es un modelo de negocio. Yo tengo ordenadores, te los alquilo por horas y te doy un servicio para que puedas acceder a ellos. Está más centralizado en los grandes data center corporativos. Esta modalidad se ajusta mejor al mundo empresarial, aunque también puede resultar ventajoso para investigadores individuales.
¿Algún ejemplo?
Problemas típicos de cloud se plantean en los estudios del genoma, donde es frecuente tener muchos datos sobre fragmentos de ADN y hay que descubrir si alguna secuencia se relaciona con una enfermedad. Para efectuar los cálculos en poco tiempo puedes contratar una máquina en la nube durante unas horas. Nosotros hicimos un experimento para separar el genoma de una especie en una mezcla de genomas bacterianos, y comprobamos que con un solo ordenador nos habría costado más de un año conseguirlo. Sin embargo, lo solucionamos en una semana con una máquina del cloud por un precio que no llegó a los 600 euros.
Según el problema, se debe optar por una solución u otra
En estos casos es ventajosa la nube, pero según el problema, se debe optar por una solución u otra. En la actualidad están en marcha iniciativas europeas de cloud computing, como VENUS-C –que acaba de finalizar con éxito– o Helix Nebula, en las que participan grandes centros de investigación y empresas privadas para explorar sus posibilidades para la ciencia.
¿Y en qué casos es mejor un grid?
Un ejemplo típico es la astrofísica, donde observatorios e investigadores de todas partes del mundo obtienen gran cantidad de datos sobre galaxias, estrellas u otros objetos del universo y los depositan en una serie de repositorios. En este caso el grid facilita el almacenamiento y procesado de toda esa información para que los científicos la puedan explotar. Eso sí, esta colaboración debe ser homogénea, es decir, los centros participantes se deben poner de acuerdo en programas y métodos comunes.
¿Cómo se consigue esto?
Aquí entra en juego el middleware, un conjunto de aplicaciones y servicios para coordinar el uso de las e-infraestructuras. Una figura clave en el desarrollo de esta capa del software ha sido el Laboratorio Europeo de Física de Partículas (CERN). Los millones de datos que genera su gran colisionador de hadrones (LHC) han requerido para su proceso de la colaboración de centenares de miles de ordenadores y han supuesto el test más complejo que se podía montar. Afortunadamente con este grid –en el que participan varias instituciones españolas– se ha podido verificar que todo funciona.
Además, los investigadores, para poder acceder al grid, se organizan en grupos llamados ‘organizaciones virtuales’ para compartir más fácilmente sus recursos. Ejemplos de estas organizaciones han sido las del detector ATLAS del LHC o el telescopio espacial Planck, que acaba de facilitar el último mapa del universo primitivo. Por otra parte, como a veces el uso del middleware es complejo, también se desarrollan los science gateways para automatizar los procesos y ofrecer interfaces más amigables a los investigadores.
¿En qué proyectos internacionales de e-ciencia participa España?
Nuestro país está muy bien situado en e-ciencia por la calidad y perseverancia de sus científicos. Participan activamente en la Iniciativa Europea de Grid (EGI), una red de 332 organizaciones con recursos distribuidos por todo el mundo para resolver grandes problemas en áreas como la física de altas energías, biocomputación, astrofísica… España dona casi 18.000 cores o núcleos para EGI. Por otro lado, también está en la red de investigación y educación paneuropea GEANT.
España forma parte del nivel más importante de PRACE
Además, formamos parte del Partnership for Advanced Computing in Europe (PRACE), una iniciativa de supercomputación para la investigación que persigue disponer siempre de un supercomputador estrella, renovándolo cada cinco años en varios centros de Europa. PRACE se estructura en varios niveles o tiers. El tier 0 es el nivel más importante, y de los cuatro países que lo integran uno es España, a través del Barcelona Supercomputing Center (BSC). Aquí, por ejemplo, se ha gestado un vídeo sobre un corazón computacional premiado por Science.
¿Cómo se organiza la e-ciencia a escala nacional?
Casi 30 centros componen ES-NGI, la Infraestructura Nacional de Grid en España, que aporta 17.690 cores y en 2012 facilitó más de 175.000 millones de horas de cálculo. Utiliza como red de interconexión la RedIRIS. Además, existe una coordinación exquisita entre la federación nacional y la portuguesa, unidas bajo un paraguas llamado IBERGRID.
Por otra parte está la Red Española de Supercomputación, liderada por el BSC con sus potentes MareNostrum y MinoTauro, y los centros autonómicos, sobre todo el Centro de Supercomputación de Galicia (CESGA) y su supercomputador Finis Terrae. Para dinamizar todos estos grupos se creó en 2007 la Red Española de e-Ciencia, que actualmente está en standby o espera, pero confiamos en que pronto salga la convocatoria que le dé continuidad.