Back

Cómo el aprendizaje automático puede cambiar la ciencia

Las herramientas de inteligencia artificial están revolucionando la investigación científica y cambiando las necesidades de la computación de alto rendimiento


El progreso científico es intrínsecamente impredecible, vinculado a repentinos arrebatos de inspiración, colaboraciones poco probables y accidentes aleatorios. Pero a medida que nuestras herramientas han mejorado, la capacidad de crear, inventar e innovar ha mejorado con ellas.

El nacimiento de la era de la computación dio a los científicos acceso a la mejor herramienta hasta el momento, con su variante más poderosa: las supercomputadoras, que ayudan a descubrir innumerables misterios y cambian la faz del mundo moderno.

"Las computadoras de alto rendimiento son fundamentales para que nosotros impulsemos el descubrimiento de la ciencia", dijo Paul Dabbar, Subsecretario de Ciencia del Departamento de Energía de EE.UU a DCD. La clave del reciente descubrimiento y los esfuerzos de investigación ha sido la capacidad de ejecutar vastas simulaciones, modelos complejos de aspectos del mundo real, probar teorías y experimentar con ellas.

Más allá de la simulación

"Durante las últimas décadas, el trabajo que hemos estado haciendo dentro del Laboratorio Nacional Lawrence Livermore ha estado explotando la relación entre la simulación y los experimentos para construir lo que llamamos códigos predictivos", dijo Frederick H. Streitz, científico computacional jefe de LLNL y director de El centro de innovación informática de alto rendimiento.

“Creemos que sabemos cómo investigar en el espacio de la física, es decir, escribimos las ecuaciones, las resolvemos y trabajamos en estrecha colaboración con los experimentadores para validar los datos que entran en las ecuaciones y, finalmente, construimos un marco que nos permite ejecutar una simulación para dar veracidad al resultado.”

Ahora, sin embargo, una nueva herramienta ha alcanzado la madurez, una que puede ampliar aún más los horizontes del descubrimiento científico.

"Así que además de los experimentos y la simulación, estamos agregando un tercer componente a la forma en que vemos nuestra vida: el aprendizaje automático y el análisis de datos", dijo Streitz a DCD.

Con el aprendizaje automático, explica, “en realidad es una forma completamente diferente de ver la realidad. Solo se trata de consultar los datos, que podrían provenir de experimentos o simulaciones, es independiente de los otros dos. Es realmente una visión independiente de la realidad.”

"En realidad es un impacto profundo en la forma en que aborda la ciencia, se aproxima a la previsibilidad en lugares donde no tenía una previsibilidad exacta".

El deseo de los investigadores de poder usar estas herramientas, dijo Streitz a DCD, es "impulsar cambios en la arquitectura informática", mientras que cambios similares en estas arquitecturas "están impulsando este trabajo.”

Es una visión compartida por muchos en la comunidad informática de alto rendimiento, incluido el CEO del fabricante de GPU Nvidia. "La industria de HPC está cambiando fundamentalmente", dijo Jensen Huang. “Comenzó en la computación científica, y su propósito en la vida era simular a partir de las primeras leyes de la física: las ecuaciones de Maxwell, las ecuaciones de Schrödinger, las ecuaciones de Einstein, las ecuaciones de Newton, derivar el conocimiento y predecir los resultados.

"El futuro va a seguir haciéndolo", dijo. “Pero tenemos una nueva herramienta: el aprendizaje automático. Que tiene dos formas diferentes de abordar esto, una de ellas requiere que los expertos diseñen las características; y la otra utiliza capas de redes neuronales en su nivel más bajo, deduciendo el aprendizaje de cuáles son las características críticas por sí mismo.”

Ha comenzado

Los mejores superordenadores ya están diseñados teniendo esto en cuenta. Los actuales campeones de los EE.UU, Summit y Sierra, están equipados con las GPU Nvidia Volta para manejar las intensas cargas de trabajo de aprendizaje automático. "La arquitectura original de Kepler GPU [introducida en 2012] fue diseñada para HPC y no para IA, que fue la que originalmente se usó para hacer el primer trabajo de IA", dijo a DCD Ian Buck, vicepresidente de computación acelerada y jefe de centros de datos de Nvidia.

"Hemos tenido que innovar en la arquitectura subyacente de las plataformas de hardware y software para mejorar tanto el HPC como la IA", dijo. Eso ha beneficiado a la comunidad informática más amplia, al igual que las otras innovaciones en los supercomputadores pre-exescala.

"La buena noticia es que estos instrumentos no son únicos, sino que se pueden replicar, comprar o construir a escalas más pequeñas y ser extremadamente productivos para las instituciones científicas de investigación y la industria".

Incluso ahora, los científicos están aprovechando la convergencia de IA y HPC, con Streitz entre ellos. Su equipo, en colaboración con los Institutos Nacionales de la Salud, está tratando de abordar uno de los problemas más crueles y más difíciles que enfrenta nuestra especie: el cáncer.

Hay varios proyectos en curso para curar, comprender o mejorar los síntomas de diferentes tipos de cáncer. Tres de los cuales en el DOE utilizan el aprendizaje automático, así como un programa más amplio de investigación del cáncer basado en el aprendizaje automático conocido como CANDLE (CANcer Distributed Learning Environment).

"En este caso, el DOE y el Instituto Nacional del Cáncer [NIH] están analizando el comportamiento de las proteínas Ras en una membrana lipídica: el gen oncogénico de Ras es responsable de casi la mitad del cáncer colorrectal y un tercio de los cánceres de pulmón".

Encontrada en sus membranas celulares, la proteína Ras es lo que "comienza una cascada de señalización que finalmente le dice a alguna célula de su cuerpo que se divida", dijo Streitz. "Entonces, cuando va a crecer una nueva célula de la piel, o el cabello va a crecer, esta proteína toma una señal y dice: ´Está bien, sigue adelante y haz crecer otra célula.”

En la vida normal, esa actividad se envía solo una vez. Pero cuando hay una mutación genética, la señal se atasca. “E indica que crezca, crezca, crezca, crezca, otra vez, y siga creciendo. Y estos son los cánceres de muy, muy rápido crecimiento, como el cáncer de páncreas, para los cuales actualmente no hay cura.”

Esto es algo que los científicos han sabido durante casi 30 años. "Sin embargo, a pesar de la enorme cantidad de tiempo, esfuerzo y dinero que se ha gastado para tratar de desarrollar una cura terapéutica para eso, no hay forma conocida de detenerlo”, dijo Streitz.

Alcanzando los límites de las supercomputadoras.

Los experimentos de laboratorio han dado algunas ideas, pero el proceso es limitado. La simulación también ha demostrado ser útil, pero, incluso con el gran poder de Summit, Sierra y los sistemas futuros, simplemente no tenemos la potencia de cómputo necesaria para simular todo a la escala molecular.

"Para eso vamos a utilizar el aprendizaje automático: para entrenar un modelo de orden reducido y luego saltar a una simulación de escala más fina cuando sea necesario. Pero queremos hacerlo automáticamente, porque queremos hacer esto miles y miles y miles de veces.”

Esta fue la primera carga de trabajo a gran escala que se ejecutó en Sierra cuando se dio a conocer el año pasado: se ejecutó en toda la máquina, en 8.000 núcleos de IBM Power y más de 17.000 GPU de Volta.

El equipo simula un área grande en una escala inferior y luego utiliza el aprendizaje automático para buscar anomalías o desarrollos interesantes, dividiendo el área simulada en parches. "Puedo tomar todos los parches en la simulación, podría haber un millón de ellos. Y, literalmente, podría ponerlos en orden de clasificación de lo más interesante a lo menos interesante.”

Luego toman los cien (o más) parches más interesantes, y generan una simulación de escala fina. Luego lo hacen una y otra vez: en Sierra, ejecutaron 14.000 simulaciones simultáneamente, reuniendo estadísticas de lo que está sucediendo a una escala más fina.

Esto ha llevado a descubrimientos que "no habrían sido obvios, excepto por haber hecho simulaciones a la escala que pudimos hacer", dijo Streitz, y agregó que espera aprender mucho más.

Joe Curley, director senior de desarrollo de ecosistemas de software, está utilizando enfoques similares en otros lugares: “Las computadoras más grandes del mundo hoy en día solo pueden ejecutar modelos climáticos hasta una vista de 400 km. Pero lo que realmente quieres saber es qué sucede cuando te acercas más.

"Hoy en día, no podemos construir una computadora lo suficientemente grande para hacer eso, a ese nivel", dijo. Pero, nuevamente, los investigadores pueden tomar los datos que provienen de la simulación y, en tiempo real, podemos retroceder e intentar hacer un aprendizaje automático de esos datos y ampliar y obtener una vista real de cómo se ve a 25 km. Así que tenemos un modelo híbrido que combina métodos de simulación numérica con un aprendizaje profundo para obtener un poco más de información sobre el mismo tipo de máquina.”

Esto ha ayudado a guiar el diseño de las supercomputadoras del mañana, incluida Aurora, la primera supercomputadora de escala de escalas de Estados Unidos, programada para 2021.

"Las tres cosas por las que estamos muy, muy entusiasmados es que Aurora acelerará la convergencia de HPC tradicional, análisis de datos e inteligencia artificial", dijo Rajeeb Hazra, vicepresidente corporativo y gerente general de Enterprise and Government Group en Intel, el contratista principal de Sistema.

"Creemos que los datos de simulación y el aprendizaje automático son los objetivos de un sistema de este tipo", dijo a DCD Rick Stevens, director asociado de laboratorio para informática, medio ambiente y ciencias de la vida en el Laboratorio Nacional de Argonne.

“Esta plataforma está diseñada para abordar los problemas más grandes de inferencia e capacitación en inteligencia artificial que conocemos. Y, como parte del Proyecto de computación de Exascale, hay un nuevo esfuerzo en torno al aprendizaje automático de Exascale y esa actividad está cumpliendo con los requisitos de Aurora.”

Exascala se encuentra con el aprendizaje automático

Ese esfuerzo es ExaLearn, dirigido por Francis J. Alexander, director adjunto de Computational Science Initiative en el Laboratorio Nacional Brookhaven.


"Estamos analizando los dos algoritmos de aprendizaje automático que, en sí mismos, requieren recursos de escala única y/o donde la generación de los datos necesarios para entrenar el algoritmo de aprendizaje es excepcional", dijo Alexander a DCD. Además de Brookhaven, el equipo reúne a expertos de Argonne, LLNL, Lawrence Berkeley, Los Alamos, Oak Ridge, Pacific Northwest y Sandia en una formidable asociación de co-diseño.

Brian Van Essen, líder del grupo de informática de LLNL y líder del proyecto para el kit de herramientas de aprendizaje profundo de código abierto Livermore Big Artificial Neural Network (LBANN), agregó: "Nos estamos enfocando en una clase de problemas de aprendizaje automático que son relevantes para el Departamento de Necesidades de energía. Tenemos varios tipos de métodos de aprendizaje automático que estamos desarrollando y creo que no están enfocados en la industria.

"El uso del aprendizaje automático, por ejemplo, para el desarrollo de modelos sustitutos para simplificar la computación, utilizando el aprendizaje automático para desarrollar controladores para experimentos muy relevantes para el Departamento de Energía".

Esos experimentos incluyen esfuerzos de investigación enormemente ambiciosos en manufactura, salud e investigación de energía. Algunas de las pruebas más intensivas en datos se llevan a cabo en el National Ignition Facility, un gran dispositivo de investigación de fusión por confinamiento inercial basado en láser en LLNL, que usa láseres para calentar y comprimir una pequeña cantidad de combustible de hidrógeno con el objetivo de inducir reacciones de fusión nuclear para Investigación de armas nucleares.

"No es como recomendar la próxima película que deberías ver, algunas de estas cosas tienen consecuencias muy serias", dijo Alexander. "Así que si te equivocas, es un problema".

Van Essen estuvo de acuerdo, y agregó que las demandas de aprendizaje automático de sus sistemas también requieren mucho más poder de cómputo: “Si eres un Google o un Amazon o Netflix puedes entrenar buenos modelos que luego usas para inferencia, miles de millones de veces. Facebook no tiene que desarrollar un nuevo modelo para cada usuario para clasificar las imágenes que están cargando; utilizan un modelo bien entrenado y lo implementan.”

A pesar de la enorme cantidad de tiempo y dinero que los gigantes de Silicon Valley bombean a la IA, y su reputación de adoptar la tecnología, existen principalmente en un entorno dominado por la inferencia, simplemente utilizando modelos que ya han sido entrenados.

"Estamos desarrollando continuamente nuevos modelos", dijo Van Essen. "Estamos en un régimen de aprendizaje automático dominado por la capacitación. Normalmente estamos desarrollando estos modelos en un mundo donde tenemos una gran cantidad de datos, pero una escasez de etiquetas, y una incapacidad para etiquetar los conjuntos de datos a escala porque normalmente requiere un experto en dominios para poder interpretar lo que se está viendo.”

"Trabajando estrechamente con experimentadores y expertos en temas, ExaLearn está buscando combinaciones de técnicas de aprendizaje sin supervisión, semi-supervisadas y auto-supervisadas; también estamos presionando mucho en los modelos generativos ", dijo Van Essen.

A partir de esta característica, y de las muchas otras historias de "IA es el futuro" en la prensa, puede ser tentador creer que la tecnología eventualmente resolverá todo y cualquier cosa. “Sin comprender lo que realmente hacen estos algoritmos, es muy fácil creer que es mágico. "Es fácil pensar que puede salirse con la suya con solo dejar que los datos hagan todo por uno mismo", dijo Alexander.

De hecho, la interpretabilidad y la reproducibilidad siguen siendo una preocupación para el aprendizaje automático en la ciencia y un área de investigación activa para ExaLearn.

Uno de los enfoques que el grupo está estudiando es no incluir los primeros principios en el sistema y hacer que "aprenda física sin tener que enseñárselo explícitamente", dijo Van Essen.

Esto se hace más difícil cuando se consideran experimentos que están a la vanguardia de lo que se conoce, donde los puntos de referencia con los que se pueden probar los hallazgos del sistema son cada vez menos.

Incluso con el poder de los sistemas de escala única y las ventajas del aprendizaje automático, también estamos presionando los límites de lo que estos sistemas son capaces de hacer.

"No podemos mantener todos los datos que podemos generar durante la simulación a gran escala", dijo Mohd-Yusof. “Por lo tanto, esto también puede requerir que coloque el aprendizaje de la máquina en el circuito, en vivo como en la simulación, pero es posible que no tenga suficientes datos guardados. Por lo tanto, es necesario que se diseñen experimentos computacionales de tal manera que puedas extraer los datos sobre la marcha".

Back