Procesamiento de datos abiertos para redes latinoamericanas de investigación

·5 min

El problema

La mayoría de los países de Latinoamérica cuenta con alguna infraestructura de cómputo pública para investigación, aunque el acceso a estos recursos no está democratizado. Las personas dedicadas a la investigación necesitan potenciar sus capacidades de procesamiento de datos, pero carecen de una sólida formación, recursos abiertos para el aprendizaje, soporte técnico accesible y una comunidad de pares colaborativa que facilite la transición de una computadora de escritorio a un cluster. Además, las regulaciones nacionales sobre privacidad y uso compartido de datos limitan el uso de infraestructura de cálculo en el extranjero. El cómputo en la nube tampoco es una solución ya que suele depender de financiamiento en efectivo, que resulta siempre intermitente y difícilmente se sostiene por más de un período de gobierno.

La solución

Este proyecto busca garantizar el acceso a computación de alto rendimiento (HPC) para redes de investigación nacionales y regionales de Latinoamérica. Creará una plataforma de cálculo en la nube basada en JupyterHubs y Notebooks, sostendrá una nueva comunidad de práctica inclusiva con gobernanza participativa y dará formación a las personas en las mejores prácticas de procesamiento y almacenamiento de datos abiertos, incluyendo un programa de “enseñando a enseñar” para multiplicar el impacto. Esto permitirá a las personas dedicadas a la investigación, especialmente aquellas en entornos con menos recursos, pasar a trabajar en forma remota en un entorno de cluster HPC, aumentando la escalabilidad del trabajo, su reproducibilidad y la capacidad de publicar datos acorde a lineamientos FAIR. El cómputo interactivo en computadoras poderosas funcionará como un paso intermedio para generar demanda en HPC tradicional, que tiene un salto de complejidad alta. También hará posible mantener la infraestructura funcionando por un periodo de tiempo mucho mayor al que se podría lograr alquilando en la nube pública, lo que se traduce en predictibilidad para embarcar tareas de largo aliento como doctorados o líneas de investigación.

Por qué lo hacemos

MetaDocencia y UNC Supercómputo se encuentran en una posición única para hacer realidad este proyecto. Reúnen la trayectoria de 15 años de UNC Supercómputo brindando servicios públicos de cómputo para más de 300 organizaciones de investigación en Argentina, y la experiencia de MetaDocencia en capacitación centrada en la comunidad de América Latina desde 2020. La colaboración promete un impacto duradero y persigue que este proyecto no solo sea sostenible, sino que también se convierta en un modelo a seguir para la región. Este proyecto es una extensión directa de las tareas a las que sustenta UNC Supercómputo y a la visión y misión de MetaDocencia, ya que aborda la brecha en el acceso a infraestructura de computación de alto rendimiento y permite que más comunidades hispanohablantes de ciencia y técnica se involucren en la ciencia abierta y contribuyan al conocimiento global.

El modelo de trabajo

Este proyecto se basa en la exitosa experiencia de UNC Supercómputo y MetaDocencia en el Proyecto Catalyst, una iniciativa que facilitó el acceso a infraestructura de cálculo en la nube para investigadores en América Latina y África. MetaDocencia reclutó y capacitó a comunidades latinoamericanas dedicadas a la investigación, mientras que UNC Supercómputo ayudó en el despliegue de la infraestructura e inició su replicación local. Este proyecto es una evolución natural de esos avances, aplicando las lecciones aprendidas y el profundo conocimiento de MetaDocencia y UNC Supercómputo sobre el ecosistema de investigación regional para asegurar el éxito y mitigar riesgos. Como parte de un plan detallado para la puesta a punto del servicio Jupyter sobre la infraestructura existente provista por UNC Supercómputo y la construcción de la comunidad, las instancias de formación y el estudio de investigación a la manera de MetaDocencia, algunas acciones destacadas son:

  • Creación de un servicio de JupyterHubs y Notebooks en la nube que reduzca las barreras de acceso a la computación de alto rendimiento (HPC) para redes de investigación en los países de Latinoamérica.
  • Promoción del uso del HPC tradicional en aquellos casos donde aplique.
  • Desarrollar una comunidad de práctica para compartir apoyo en torno al servicio, con participación de la propia comunidad en su gobernanza, para fomentar un entorno colaborativo y seguro.
  • Ofrecer formación integral en buenas prácticas de HPC y ciencia abierta a personas dedicadas a la investigación en entornos con recursos limitados, incluyendo un programa de entrenamiento docente para maximizar la difusión del conocimiento.

El impacto esperado

UNC Supercómputo proporciona servicios de computación para la investigación desde 2010. Solo en 2023, al menos 273 investigadores de más de 40 organizaciones publicaron más de 150 artículos académicos utilizando sus recursos compartidos. MetaDocencia ha impartido 94 ediciones de formación a más de 1.500 investigadores de 33 países, con un excelente Net Promoter Score (NPS) del 89%, y ha desarrollado cinco programas exitosos de “formación de formadores”. Estos logros demuestran la capacidad de MetaDocencia para reclutar y capacitar personas y comunidades latinoamericanas dedicadas a la investigación y la docencia. Este proyecto busca permitir que más personas vinculadas a la ciencia, en especial aquellas en organizaciones con menos acceso a servicios de datos abiertos y computación en la nube, puedan escalar su trabajo según las mejores prácticas de HPC. Esto conducirá a una mayor reproducibilidad en sus investigaciones y la publicación de datos FAIR. Quienes participen podrán formar adecuadamente a otras personas en estos temas y otros relacionados, como la preparación adecuada de presupuestos para los servicios de computación central en sus solicitudes de financiamiento. A lo largo del camino contarán con una comunidad de apoyo activa y amigable que les acompañe.

Más información