KONWIHR
KOMPETENZNETZWERK FüR TECHNISCH-WISSENSCHAFTLICHES HOCH- UND HöCHSTLEISTUNGSRECHNEN IN BAYERN
2001S03 MethWerk
Arbeitsfeld:
KONWIHR Teilbereich Südas Projektes hat das Ziel praxistaugliche Methoden und Werkzeuge für die effiziente Ausführung von Simulationsanwendungen des digitalen Prototyping auf hybrid parallelen Rechnerarchitekturen mit großen Prozessoranzahlen zu entwickeln. Diese Methoden und Werkzeuge werden anhand des Fallbeispiels eines Strömungssimulationsprogramms entwickelt und evaluiert, dessen Einsatz in der industriellen Praxis extreme Leistungsanforderungen stellt. Das vom DLR entwickelte Simulationsprogramm TRACE ist nach dem SPMD Paradigma unter Verwendung des MPI Standards parallelisiert. Typische Simulationen der Anwender bei MTU Aero Engines benötigen auf einem leistungsfähigen Workstationcluster derzeit ca. zwei Wochen Rechenzeit. Um diesen gravierenden Engpaß im Entwicklungszyklus zu überwinden, ist es notwendig, die Rechenzeit auf höchstens eine Nacht zu reduzieren. Künftige Anwendungen erfordern instationäre Simulationen und einen um Größenordnungen höheren Detaillierungsgrad. TRACE ist damit ein repräsentatives Beispiel einer Grand Challenge Anwendung.
Um die geforderte Leistung zu erreichen, müssen Methoden und Werkzeuge entwickelt werden, die eine hochgradig skalierbare Ausführung paralleler Programme auf massiv parallelen Plattformen ermöglichen, die Parallelismus auf mehreren Ebenen anbieten. Beispiele für solche hybrid parallelen Plattformen sind der Bundeshöchstleistungsrechner Hitachi SR,8000 sowie Cluster von SMPs.
In der industriellen Praxis besteht oft die Notwendigkeit für große Systemsimulationen die gesamte im firmeneigenen Intranet verfügbare Rechenleistung zu bündeln. Eine solche Plattform ist in aller Regel sehr heterogen bezüglich Typ, Leistung und Anzahl der CPUs pro Host sowie bezüglich der Leistung und der Dienstgüte Quality of Service der Verbindungen. Mit der Anzahl der Rechnerknoten und der Dauer der Berechnung wächst die Gefahr aufgrund des Ausfalls einer Komponente das Ergebnis der gesamten Berechnung zu verlieren. Deshalb sind Mechanismen erforderlich, die eine zu Einzelsystemen vergleichbare Ausfallsicherheit gewährleisten.