Octavio Gómez Velásquez
Colaborador
Participar en una competencia de supercomputación, como el ASC19 Student Supercomputer Challenge, es como conducir un auto a la velocidad de un Fórmula 1 que arrastra tanta carga como un barco mercante, pero que lleva millones de copas de cristal y donde perder puede ser el comienzo de una victoria.
Es un reto para demostrar la capacidad de procesamiento de millones de datos en simulaciones computacionales de temas que fueron usados como parte de complejas investigaciones científicas… pero en jornadas de un día.
Eso fue lo que vivieron Manuela Carrasco Pinzón, Sebastián Patiño Barrientos, Hamilton Tobón Mosquera, Juan David Arcila Moreno y Andrés Felipe Zapata Palacio, los estudiantes de Ingeniería de Sistemas que participaron en el ASC19 Student Supercomputer Challenger, en abril de este año en China.
Se trata del grupo de monitores del Centro de Computación Apolo, de la Universidad EAFIT que, tras la convocatoria de Asia Supercomputer Community, superó la eliminatoria de 300 universidades del mundo para hacer parte de una élite de 20 equipos que compitieron en China y que, por primera vez en la historia de sus participaciones en esos eventos, se ubicó en el “top 10” de equipos estudiantiles en competencias de manejo de super-computadores.
Sin embargo, la mera enumeración de los logros no permite clarificar por qué para estos estudiantes haber descubierto su resiliencia para enfrentar un revés en la competencia fue el mayor logro de aquella semana, lejos de todo lo que habían conocido y aislados de todo lo que les daba seguridad.
Habían llegado a una competencia para la cual se habían preparado con investigadores, trabajaban en un centro de computación científica con supercomputadores y con problemas reales, mientras que los demás participantes son estudiantes que dejaban las clases para asistir a la competencia.
El ASC19 es una carrera donde los estudiantes son, a la vez, los pilotos y los ingenieros de los vehículos que utilizan las pistas por donde corren con aplicaciones y benchmarks, y la meta es la combinación entre lograr computar millones de datos sin superar el consumo de 3.000 watts por competencia.
De la invitación al paper
El proposal fue el primer paso para enviar a los monitores de Apolo al ASC19, explica el profesor Juan David Pineda Cárdenas: “Esa propuesta tiene la forma de una publicación científica o paper, y se responden preguntas como la fortaleza del equipo, la distribución de funciones, el entrenamiento, el diseño del supercomputador y la tecnología que van a usar, entre otras”. Los organizadores envían las aplicaciones que se deben considerar y en el paper los estudiantes responden “cómo atacaron esos problemas”.
Las aplicaciones de 2019 fueron “inteligencia artificial, biología, cambio climático y las típicas pruebas que son los benchmarking y que consisten en determinar qué tanto provecho se le puede sacar a una máquina”, añade el ingeniero. A lo anterior se sumará, ya en la competencia, lo que llaman “la aplicación misteriosa”.
A la convocatoria se presentaron más de 300 universidades en el mundo, las menos de América Latina porque en la región todavía no hay avances significativos en esta área.
Una vez enviada la información en el proposal, el Centro de Cómputo inició la fase de entrenamiento del equipo “durante la cual los estudiantes siguen trabajando los problemas, optimizando el rendimiento, reuniéndose con los investigadores, hasta el día del concurso”.
Pequeño paso, gran paso
Entre la aceptación del paper -lo que dejaba por fuera a 280 universidades, muchas de ellas muy prestigiosas- y el viaje mismo, pasó un mes, que tanto el grupo de monitores como los responsables del Centro de Cómputo y muchas dependencias de EAFIT tuvieron que aprovechar a marchas forzadas.
Había que acelerar el proceso de entrenamiento de los chicos en la administración de las aplicaciones, la familiarización con la arquitectura de los equipos, el manejo de datos, por el lado de los estudiantes; y la consecución de los recursos necesarios para desplazar a las seis personas, los cinco estudiantes y el advisor -figura de acompañamiento prevista en el desarrollo de ASC19-, el diligenciamiento de las visas y la asesoría que les prestó el Instituto Confucio, una dependencia de EAFIT afín a Dalian University of Foreign Languages, muy cercana a la universidad sede del concurso.
“Basados en las habilidades específicas, nos distribuimos las aplicaciones. Yo trabajé las de simulaciones climáticas y de genoma”, explica Andrés Felipe Zapata. Las sesiones de trabajo con sus compañeros eran de cinco o seis horas, dos veces a la semana, con el objetivo de entender la herramienta, sus parámetros y las opciones de optimización de la máquina para aprovechar al máximo su arquitectura.
Manuela Carrasco Pinzón, hasta el momento del viaje la única del equipo que había salido del país, señala que, si bien no tenían la obligación de conocer asuntos sobre genoma o simulaciones climáticas, buscaron información que les permitiera entender “un poco más el contexto en el que estábamos trabajando”.
El primer filtro para llegar al reto final en China eliminó a 280 universidades, muchas de ellas muy prestigiosas a nivel internacional. Ya en el concurso mundial, el grupo de Apolo quedó en el “top 10”.
A las complejidades propias de esa preparación, los monitores sumaban la responsabilidad en el trabajo en Apolo y las asignaciones académicas de sus semestres, el séptimo y octavo. El ajetreo jugó en favor de los chicos: los trasnochos normales de esa altura del semestre en exámenes parciales los iban preparando para la intensidad de lo que les esperaba -y para los efectos del jet lag naturales en un viaje largo-.
El sabor de la derrota
Tras dos días de viaje, con escalas en Madrid para dormir y Shanghái, llegaron a la septentrional ciudad de Dalian, cerca a las fronteras de China con Rusia y Corea del Norte, el 20 de abril.
Los esperaba un hotel al frente del inmenso campus universitario donde otro gigantesco coliseo iba a ser la sede del ASC19 Student Supercomputer Challenge. Una vez se registraron, definieron como capitán de su equipo a Sebastián Patiño Barrientos, por ser el especialista en el tema de vanguardia del concurso: la inteligencia artificial.
La competencia empezó al día siguiente, a las ocho de la mañana. El primer reto era escoger “la máquina”: “El primer paso es la planeación: ¿yo, qué juguetes le voy a meter a esa máquina? ¿cómo los voy a acomodar para que haga lo mejor y use mejor los 3.000 watts de límite de consumo que tiene la competencia?”, explica Andrés Felipe.
El siguiente problema a resolver era tenerlas desarmadas. “El reto era conectarlas, ponerles el canal de comunicación, pasar a la configuración porque todo está conectado pero no está funcional, poner a trabajar el sistema operativo, las aplicaciones y hacer la optimización”, indica.
Para desarrollar esos pasos tenían dos días. Eso incluía instalar el software y las aplicaciones, una de las cuales es el SLURM, que es un manejador de recursos.
Juan David Arcila Moreno y Hamilton Tobón Mosquera eran los principales responsables del trabajo de configuración del equipo. “Al cabo de los dos días todavía teníamos problemas con la configuración”, explica Juan David Arcila.
“Digité mal unas teclas ¡y todo apareció en chino!” Hubo que llamar a un técnico para que resolviera el asunto: saber en qué parte de la pantalla decía “lenguaje”: Juan David Arcila.
Hamilton Tobón recuerda que esas dos primeras jornadas tenían la posibilidad de trabajar hasta las ocho de la tarde y que, pese a ello, no pudieron lograr la configuración que esperaban. “Si hasta esa hora no se alcanzaba a hacer algo, ¡paila!”, dice.
Esas dos primeras jornadas enfrentaron problemas que sus rivales no tuvieron: ellos veían las máquinas por primera vez, estaban configurando máquinas nuevas (tanto que Inspur, el fabricante, todavía no las había sacado al mercado) y, a diferencia de los demás, no habían tenido entrenamiento en ese aspecto. Baste con decir que, en enero, los equipos chinos estuvieron entrenando oficialmente la configuración de máquinas.
“Esos equipos se entrenan exclusivamente para este challenge. Nosotros trabajamos como soporte de investigaciones. Es muy distinto”, dice Juan David Arcila.
La fase de configuración fue caótica: Arcila recuerda que el primer día de trabajo “no sabíamos mucho de la configuración y estábamos explorando. Yo, de pronto, digité mal unas teclas ¡y todo apareció en chino!” Ni la colaboración del traductor inglés-chino que la Universidad les había proporcionado sirvió para resolver el problema. Hubo que llamar a uno de los técnicos de alto perfil de la firma Inspur para que resolviera el asunto: saber en qué parte de la pantalla decía “lenguaje”.
Las dos primeras jornadas afrontaron problemas que sus rivales no tuvieron: veían las máquinas por primera vez y configuraban máquinas nuevas, tanto que el fabricante ni las había sacado al mercado.
Con un rockstar del supercómputo
El tercer día se debía hacer una de las competencias más esperadas: el benchmark de HPL -cuántas operaciones por segundo puede hacer una máquina-, que se hace con el inventor de la aplicación, el ingeniero estadounidense Jack Dongarra, el rockstar del supercómputo a nivel mundial.
El benchmark, que era una demostración de la capacidad de cómputo de las máquinas, fue un desastre: “El mejor puntaje fue de 50 teraflops y el de nosotros fue de 0.0036”, indica Andrés Felipe. Menor que la capacidad de procesamiento de cualquier computador personal.
Sin embargo, y para que quedara constancia de que intentaron poner la máquina a punto, entregaron los resultados, por lo cual su desempeño, siendo el peor entre los 20 competidores, no quedó en ceros.
Hamilton es más gráfico: “Casi me pongo a llorar porque HPL demuestra, diciéndolo a la manera paisa, lo verraco que es usted. Entonces, ese resultado fue como ¿qué estamos haciendo en China? La cosa es que el resultado lo publicaban en un tablero donde estaban a la vista los resultados de todos los equipos”.
Pero, así como recuerda su reacción, también trae la que tuvo el profesor Juan Guillermo Lalinde, su advisor en la prueba: “Recuerden, muchachos, que estar entre los mejores 20 equipos del mundo dice que ustedes son muy competitivos”, explica Hamilton. “Eso nos subió un poco la moral y a pesar de ese ‘taponazo’ que nos pegó HPL nos supimos parar”.
A las palabras de aliento del profesor Lalinde, director Científico de Apolo, se unieron las de Dan Old, el periodista más prestigioso de la revista HPCwire, especializada en el tema de supercomputadoras, para quien la actitud de los muchachos frente a los problemas que tenían que resolver fue clave para asegurarles el éxito.
“Después de HPL el golpe fue muy duro, todos estábamos a punto de llorar. Si eso me pasa en Colombia, empaco y me voy para mi casa”, dice Manuela Carrasco, que en ese momento estaba pendiente del trabajo de simulación con CESM sobre condiciones climáticas.
Ese tercer día no terminó tan mal como presagiaba. Gracias a la experiencia que tenían en la presentación del proposal, pudieron correr con buen suceso la aplicación CESM, lo que les permitió terminar en el puesto diez, pero con la advertencia de que hubo equipos que ni siquiera pudieron correrla.
Una tercera aplicación, que se debía correr en grupos de cinco equipos, apenas si tuvo la atención de Apolo, cuyos integrantes estaban dedicados a resolver los problemas de rendimiento de su clúster, que es otro nombre que le dan a la “máquina”.
“Los capitanes hicimos el grupo en WeChat (el WhatsApp de los chinos) y empezamos a planear. Un grupo tomó la iniciativa para empezar a investigar cómo trabajar la aplicación, pero nosotros estábamos peleando con la configuración del clúster”, explica Sebastián Patiño. Finalmente, no participaron en la prueba.
Ganaron tres premios: por ser finalistas, por la popularidad en Twitter y el premio al benchmark de la aplicación del genoma, reconocimiento del que solo tuvieron noticia en la premiación.
Tras la noche más oscura, sale el sol
Los problemas de la máquina los fueron resolviendo en las siguientes noches, apelando al conocimiento, al sentido común y a la experiencia, lo que permitió que para el cuarto día de concurso ya tuvieran la máquina en condiciones de operar “con el máximo de jugo posible” para las siguientes pruebas: la aplicación misteriosa y WTDBG2, de genoma o biología computacional, además del software de Inteligencia Artificial.
Con un poco más de viento en la espalda, el cuarto día de competencia se anunciaba más llevadero: “Andrés y yo nos dedicamos a trabajar la aplicación del genoma, Juan David y Hamilton corrieron la aplicación misteriosa que era un HPL de conductividad (fluidity) y Sebastián se quedó en su salsa, la inteligencia artificial”, explica Manuela.
Juan David afirma que “empezamos a revisar la aplicación misteriosa. Era para analizar materiales, usaba soluciones de ecuaciones diferenciales para mirar la conductividad de esos materiales”. La razón por la cual les parecía “sencillo” es que su labor en el Centro de Computación, Apolo consiste en trabajar con científicos que traen las aplicaciones donde correrán las simulaciones: “El mero hecho de trabajar en la universidad y con los investigadores nos preparó para hacerlo con cualquier tipo de aplicación y eso fue muy valioso”, añade Andrés Felipe.
Si los equipos chinos estaban tan familiarizados con las máquinas y sus rendimientos, Manuela y Andrés lo estaban con el comportamiento de la aplicación del genoma y por eso estaban seguros de que su estrategia iba a funcionar.
Esfuerzos repartidos
El reto del cuarto día de competencia era administrar los recursos instalados en la máquina para sacar adelante la simulación con la aplicación del genoma, correr la de conductividad y hacer la prueba de inteligencia artificial, todo sin pasar de los 3.000 watts establecidos como límite de potencia.
Tenían tres ventajas: ya sabían hasta dónde podían exigirle a la máquina, contaban con SLURM como herramienta de administración de las aplicaciones y tenían experiencia corriendo WTDBG2.
“Eran cinco nodos: dos se fueron a trabajar en la aplicación misteriosa, otras dos para el genoma y la quinta la íbamos a dejar trabajando en IA”, explica Manuela.
La situación era que la aplicación misteriosa estaba gastando muchos recursos y la del genoma usaba menos, pero debía “tirar” 29 pruebas, en tanto que inteligencia artificial solo necesitaba poderse ejecutar en la tarjeta gráfica.
“El poder de los procesadores no se estaba usando. Ahí tomamos la decisión de tirar todo el clúster a las de genoma y, terminada la prueba, les dejamos la máquina a la aplicación misteriosa que estaban manejando Juan David y Hamilton”, dice Manuela.
Si los equipos chinos estaban tan familiarizados con las máquinas y sus rendimientos, Manuela y Andrés lo estaban con el comportamiento de la aplicación del genoma y por eso estaban seguros de que esa estrategia les iba a funcionar.
“Yo creo que fue la decisión más importante que tomamos porque si seguíamos como íbamos no acabaríamos ninguna de las dos. Ellos quitaron la aplicación misteriosa, nosotros tiramos el trabajo del genoma y, al final, alcanzamos a darle más poder de cómputo a Juan David y Hamilton”, asegura.
Pero estaban decidiendo sobre tiempo, capacidad de tratamiento de datos y consumo. “Llegó un momento en que me preguntaron si estaba segura de que iba a terminar la prueba y contesté que terminaba justo antes de las seis, cuando apagaban los equipos”.
La aplicación misteriosa terminó de correr a las 5:58 de la tarde.
Los resultados ya se dijeron: ganaron tres premios, uno por ser finalistas, otro por la popularidad en Twitter y el premio al benchmark de la aplicación del genoma, un reconocimiento del que solo tuvieron noticia al día siguiente, durante la premiación. Y fueron el primer equipo latinoamericano Top 10 en un ASC Student Supercomputer Challenge en la China.
Pero esa noche celebraron, con algunos cocteles en un bar de estilo mexicano en China, la victoria de haber sido superiores a lo que ellos mismos esperaban. Y eso no tiene simulación.
Talentos "cazados" ya están en Estados Unidos y Finlandia
El profesor Juan David Pineda Cárdenas, coordinador técnico del Centro de Computación Científica Apolo, explica que “estos concursos se organizan en el marco de congresos de super cómputo donde se dan a conocer los nuevos modelos de equipos de las grandes marcas y los últimos avances en tecnología de almacenamiento y procesamiento de datos”.
Lo anterior se combina con la invitación a estudiantes de las áreas de ingeniería, informática y telecomunicaciones que también es una manera de identificar a los nuevos talentos que se incorporarán a la industria.
La participación de Apolo en estos temas se remonta a 2014 cuando, a instancias de Purdue University, EAFIT entró al mundo de los concursos de supercomputación haciendo un equipo en conjunto con esa universidad estadounidense.
La experiencia, recuerda el profesor Pineda Cárdenas, “fue, cuando menos, dramática, en el sentido de darnos cuenta de que tenemos mucho talento, de que tenemos gente muy buena, de nivel mundial, que es capaz de lograr los primeros puestos a nivel internacional”.
Eso se demuestra en el hecho de que los estudiantes de EAFIT que pasaron como monitores de Apolo trabajan ahora en Suecia, Estados Unidos, Alemania, Dinamarca o Australia. Incluso, de quienes viajaron a China en abril, ya dos realizan sus prácticas profesionales en Estados Unidos y uno Finlandia.
2016, la primera participación en China
Los concursos de supercomputación se realizan en Estados Unidos, Europa y China. En las competencias occidentales los participantes tienen que conseguir a un patrocinador que les permita usar la máquina, mientras que los asiáticos las suministran en préstamo, además de diferencias de reglamentación que incluyen horarios y consumos de energía, asuntos críticos para el desempeño de los equipos.
El escollo de lograr el patrocinio de los supercomputadores se superó en 2015 para volver a Estados Unidos e ir a Alemania. El primer concurso en China se hizo en 2016. Pese a contar con el apoyo de la industria, los costos de desplazamiento son cuantiosos.
“En 2016 fuimos el primer equipo latinoamericano que logró participar en el concurso de la China. Allá estaba la gente de MIT, de Estados Unidos”, afirma Johan Sebastián Yepes Ríos, actual analista en Apolo y entonces estudiante de Ingeniería: “La primera experiencia nos permitió darnos cuenta de que somos muy competitivos, que podemos hacer las cosas como las harían los chinos o japoneses”, añade.
La invitación había llegado en 2015 cuando las delegaciones china y colombiana coincidieron en Estados Unidos y entre quienes formaron el primer grupo al Lejano Oriente estuvo Johan. Es otro mundo, confiesa: ni saber inglés es suficiente, ni los ademanes, ni los números sirven. “En el aspecto técnico, lo mayor dificultad que tuvimos fue enfrentarnos a unas máquinas y una arquitectura con las cuales no habíamos interactuado, apenas las conocimos cuando llegamos”, añade.