Interconexiones balanceadas y eficientes para supercomputadores Exascale
RESUMEN: El aumento de las necesidades de cómputo hace necesaria la aparición de supercomputadores Exascale. Una de las estrategias para su desarrollo es aumentar el número de nodos del sistema, incrementando así los requisitos de la red de interconexión. Dichos requisitos son aún más exigentes con el aumento de la importancia de aplicaciones BigData, que presentan un mayor número de comunicaciones con una distribución más regular que en cargas de trabajo tradicionales de HPC. Esta tesis presenta un modelo de tráfico sintético de las comunicaciones del benchmark Graph500, que permite simplificar la evaluación y predicción del rendimiento de sistemas bajo aplicaciones intensivas en datos. Mediante simulaciones con patrones de tráfico sintéticos sobre una red Dragonfly de gran tamaño, se ha realizado también un análisis de las desigualdades en el uso de la red, el cual puede degradar significativamente el rendimiento de aplicaciones tanto HPC como BigData. Esta tesis propone además dos mecanismos para mejorar el rendimiento de red y simplificar la implementación de los routers: el uso de información de contención para mejorar la decisión de misrouting en mecanismos de encaminamiento adaptativos nomínimos, y FlexVC, un mecanismo de gestión de los canales virtuales que relaja las restricciones del uso de recursos necesarias para evitar deadlock. Ambas propuestas son competitivas frente a alternativas actuales, y su combinación alcanza el mejor rendimiento bajo encaminamiento adaptativo en tránsito a la par que reduce a la mitad el número de buffers del router. ; ABSTRACT: Increasing computational needs demand Exascale machines; one of the approaches to develop such machines is to increase the number of nodes, what places a stronger demand on the system interconnect. Those requirements are further stressed with the surge of BigData applications, with a higher amount of more evenly distributed communications than traditional High-Performance Computing (HPC) workloads. This thesis introduces a synthetic traffic model of the communications in the Graph500 benchmark, to simplify the evaluation and performance prediction of data-intensive applications. Using simulations with synthetic traffic patterns over a large Dragonfly network, it is also performed an analysis of the throughput fairness, which can affect significantly the performance of both BigData and HPC workloads. The thesis proposes two mechanisms to improve network performance and simplify the router implementation: the use of contention information to improve the misrouting decision in nonminimal adaptive routing mechanisms, and FlexVC, a virtual channel management that relaxes the resource restrictions for deadlock avoidance. Both mechanisms provide competitive performance against state-of-the-art alternatives, and the combination of both achieves the best overall performance with in-transit adaptive routing while halving the number of buffers required in the router. ; This work has been supported by the Spanish Ministry of Education (FPU grant FPU13/00337), a Collaboration Grant from the HiPEAC Network of Excellence, the Spanish Science and Technology Commission (CICYT) under contracts TIN2010- 21291-C02-02, TIN2012-34557 and TIN2013-46957-C2-2-P, the Spanish Ministry of Economy, Industry and Competitiveness under contract TIN2015-65316, the Spanish Research Agency (AEI/FEDER, UE - TIN2016-76635-C2-2-R), the JSA no. 2013-119 as part of the IBM/BSC Technology Center for Supercomputing agreement, the European Union FP7 programme (RoMoL ERC Advanced Grant GA 321253), and by the Mont-Blanc project. The Mont-Blanc project has received funding from the European Union's Horizon 2020 research and innovation programme under grant agreement No 671697.