Car-tech

Los supercomputadores más pesados ​​son los más difíciles, según sugiere un investigador

[ES Subs] Sciencecast 124 │ Genius Materials on the ISS HD

[ES Subs] Sciencecast 124 │ Genius Materials on the ISS HD

Tabla de contenido:

Anonim

A medida que los supercomputadores se vuelven más poderosos, también se vuelven más vulnerables al fracaso, gracias a la mayor cantidad de componentes incorporados. Algunos investigadores en la reciente conferencia SC12 la semana pasada en Salt Lake City, Utah, ofrecieron posibles soluciones a este creciente problema.

Los sistemas informáticos de alto rendimiento (HPC) actuales pueden tener 100.000 nodos o más, con cada nodo creado a partir de múltiples componentes de memoria, procesadores, buses y otros circuitos. Estadísticamente hablando, todos estos componentes fallarán en algún momento, y detendrán las operaciones cuando lo hagan, dijo David Fiala, un estudiante de doctorado en la Universidad Estatal de Carolina del Norte, durante una charla en SC12.

El problema no es uno nuevo, por supuesto. Cuando la supercomputadora blanca ASCI (Acelerated Strategic Computing Initiative) de 600 nodos de Lawrence Livermore National Laboratory se puso en línea en 2001, tuvo un tiempo medio entre fallas (MTBF) de solo cinco horas, gracias en parte a las fallas de los componentes. Los esfuerzos de ajuste posteriores mejoraron el MTBF de ASCI White a 55 horas, dijo Fiala.

Pero a medida que crece el número de nodos de supercomputadora, también lo hará el problema. "Hay que hacer algo al respecto. Empeorará a medida que avanzamos hacia la exescala", dijo Fiala, refiriéndose a cómo se espera que los supercomputadores de la próxima década tengan diez veces más poder de cómputo que los modelos actuales.

Técnicas actuales para hacer frente a la falla del sistema puede no escalar muy bien, dijo Fiala. Citó el punto de control, en el que un programa en ejecución se detiene temporalmente y su estado se guarda en el disco. Si el programa falla, el sistema puede reiniciar el trabajo desde el último punto de control.

NCSUDavid Fiala El problema con el punto de control, según Fiala, es que a medida que crece la cantidad de nodos, la cantidad de sobrecarga del sistema necesario para hacer punto de control también crece y crece a un ritmo exponencial. En una supercomputadora de 100,000 nodos, por ejemplo, solo alrededor del 35 por ciento de la actividad estará involucrada en la realización de trabajo. El resto se utilizará con puntos de control y, si el sistema falla, recuperará las operaciones, estimó Fiala.

Debido a todo el hardware adicional necesario para los sistemas de exascale, que podrían construirse a partir de un millón o más de componentes, la confiabilidad del sistema se debe mejorar en 100 veces para mantener el mismo MTBF que disfrutan los supercomputadores de hoy en día, dijo Fiala.

Viejo, buen consejo: datos de respaldo

Fiala presentó la tecnología que él y sus colegas investigadores desarrollaron para mejorar la confiabilidad. La tecnología aborda el problema de la corrupción silenciosa de datos, cuando los sistemas realizan errores no detectados al escribir datos en el disco.

Básicamente, el enfoque de los investigadores consiste en ejecutar múltiples copias o "clones" de un programa simultáneamente y luego comparar las respuestas. El software, llamado RedMPI, se ejecuta junto con la Interfaz de paso de mensajes (MPI), una biblioteca para dividir aplicaciones en ejecución en varios servidores, de modo que las diferentes partes del programa se pueden ejecutar en paralelo.

RedMPI intercepta y copia cada MPI mensaje que envía una aplicación y envía copias del mensaje al clon (o clones) del programa. Si diferentes clones calculan diferentes respuestas, entonces los números se pueden recalcular sobre la marcha, lo que ahorrará tiempo y recursos al ejecutar todo el programa de nuevo.

"Implementar la redundancia no es costoso. Puede ser alto en el número de recuentos de núcleos que son necesarios, pero evita la necesidad de reescribir con reinicios de puntos de control ", dijo Fiala. "La alternativa es, por supuesto, simplemente volver a ejecutar los trabajos hasta que piense que tiene la respuesta correcta".

Fiala recomendó ejecutar dos copias de seguridad de cada programa, para una redundancia triple. Aunque ejecutar varias copias de un programa inicialmente requeriría más recursos, con el tiempo podría ser más eficiente, debido a que no es necesario volver a ejecutar los programas para verificar las respuestas. Además, el punto de control puede no ser necesario cuando se ejecutan varias copias, lo que también ahorraría recursos del sistema.

UCSCEthan Miller

"Creo que la idea de hacer redundancias es en realidad una gran idea. [Para] cálculos muy grandes, que involucran cientos de miles de nodos, ciertamente existe la posibilidad de que los errores ingresen", dijo Ethan Miller, un profesor de informática en la Universidad de California Santa Cruz, que asistió a la presentación. Pero dijo que el enfoque puede no ser adecuado dada la cantidad de tráfico de red que tal redundancia podría crear. Sugirió ejecutar todas las aplicaciones en el mismo conjunto de nodos, lo que podría minimizar el tráfico internodo.

En otra presentación, Ana Gainaru, estudiante de doctorado de la Universidad de Illinois en Urbana-Champaign, presentó una técnica de análisis de registro archivos para predecir cuándo ocurrirían fallas del sistema.

El trabajo combina el análisis de señales con la extracción de datos. El análisis de señal se utiliza para caracterizar el comportamiento normal, por lo que cuando se produce una falla, se puede detectar fácilmente. La minería de datos busca correlaciones entre fallas informadas por separado. Otros investigadores han demostrado que las fallas múltiples a veces se correlacionan entre sí, porque una falla con una tecnología puede afectar el rendimiento en otros, según Gainaru. Por ejemplo, cuando una tarjeta de red falla, pronto obstaculizará otros procesos del sistema que dependen de la comunicación de la red.

Los investigadores encontraron que el 70 por ciento de las fallas correlacionadas ofrecen una ventana de oportunidad de más de 10 segundos. En otras palabras, cuando se ha detectado el primer signo de falla, el sistema puede tener hasta 10 segundos para guardar su trabajo o mover el trabajo a otro nodo antes de que ocurra una falla más crítica. "La predicción de fallas puede fusionarse con otras técnicas de tolerancia a fallas", dijo Gainaru.

Joab Jackson cubre el software empresarial y las últimas noticias de tecnología general para El servicio de noticias IDG. Sigue a Joab en Twitter en @Joab_Jackson. La dirección de correo electrónico de Joab es [email protected]