ARCHIV 1999-2006

ARCHIV :: # 2318

Virginia G5-Cluster bestätigt

Morgen wird's offiziell

Autor: kai - Datum: 03.09.2003

Auf C|net findet sich jetzt auch ein Artikel mit einigen näheren Informationen darüber. Die Vernetzung findet mit 24 Mellanox-Infiniband-Switches und Cisco GBit-Switches statt und hat ein spezielles Kühlungssystem von Liebert. Genutzt wird er u.a. für Nano-Elektronik-Forschung, Chemie, Aerodynamik, Molekularstatik, Akustiksimulation und Molekularmodellierung. Ein Slashdot-Posting gibt noch mehr Hintergrundinformation: Die Vorbereitungen für das Ding laufen schon auf Hochtouren und von Apple treffen schon die G5s ein. Ursprünglich wurde erwogen, von Dell oder HP zu kaufen, aber die waren leider schon mit Clusterprojekten ausgelastet also kontaktierte jemand nach der Besprechung spontan Apple und die waren hellauf begeistert. Zum Einsatz kommt natürlich nicht OS X (wozu auch? Photoshop braucht man nicht, Aqua auch nicht und sämtliche Cluster-Lösungen und -Knowhow existieren quasi ausschliesslich für Linux und andere Cluster-Unices!) sondern eine Linux-Variante, wahrscheinlich Black Lab, Yellow Dog oder sogar SuSE. Ein "kleines" Problem sehe ich allerdings in der Tatsache, dass Linux/PPC ja noch lange nicht auf dem G5 läuft, dafür müssen erstmal Treiber für die ganzen neuen Systemkomponenten, G5-Kompilate etc her! Ehrlich gesagt frage ich mich, wie die das bis zum Herbst schaffen wollen. Morgen wird das Ding jedenfalls offiziell vorgestellt.
Zur Performance: Wenn die Vernetzung passabel und ohne zuviel Overhead umgesetzt wird sollte sich das Ding echt gut schlagen. Wenn man annimmt, dass der G5 wie der Power4 und der Power3 4 Fliesskomma-Operationen pro Takt schafft hat das Ding sogar völlig ohne Altivec einen Rpeak-Wert (Rpeak ist das theoretische Maximum, das die CPUs völlig ohne Overhead schaffen würden!) von 17.6 TFLOPS (4 FLOPS/Hertz * 2 GigaHertz * 1100 Rechner * 2CPUs/Rechner) und würde damit sogar verdammt nah an den Rpeak-Wert des momentanen zweiten Platz, einem Alpha-Cluster mit 8192 1.25 GHz Alpha-CPUs und Rpeak von 20.4 TFLOPS kommen. Dummerweise weiss man nicht, welche Rechner ausser dem G5-Cluster sonst noch dazu kommen werden wenn im Herbst die Liste aktualisiert wird. IBM hat immerhin noch für dieses Jahr die erste Ausbaustufe des ASCI Purple mit 12544 Power5 angekündigt, und der soll (in der finalen Stufe!) 100 TFLOPS schaffen...

Update: Es gab etwas Konfusion bezüglich der Vernetzung des Clusters. Wie hier zu lesen ist, wird Mellanox die Primärvernetzung inklusive Switches, Karten und Treibern stellen und Cisco die Sekundärvernetzung (die dann wohl über das eingebaute GBit-Ethernet läuft). Interessant finde ich in dem Artikel diesen Satz: "For the supercomputer to break the top five supercomputers in the world, it would have to possess 10 teraflops of memory." - Lustig, ich wusste gar nicht, dass man Speicher jetzt in TeraFLOPS misst! ;-) Aber die komische Grafik oben ruft auch nur Stirnrunzeln hervor!
Das Ding soll übrigens nur $5.2 Mio kosten (das ist in dem Bereich spottbillig!) und mittlerweile wurde man doch vorsichtiger mit den Prognosen und will nur noch unter die Top 10 kommen! Zum Einsatz kommt übrigens nicht -wie auf Slashdot vermutet- Linux, sondern doch OS X, allerdings höchstwahrscheinlich nur Darwin ohne GUI! Es ist die Rede von einer "Beta der neuesten OS X-Version", d.h. wahrscheinlich Panther! Ausserdem gibt's eine ominöse "neue Software" extra für Clusterjobs!
Ach ja: Ich hab mal eben durchgerechnet, dass das Ding bei gleichzeitiger Nutzung von Altivec in Single-Precision-Jobs (32bit-Floats) einen theoretischen Rpeak-Wert von 52.8 TeraFLOPS erreicht! Nicht schlecht, oder? Selbst wenn nur sagen wir mal 40% Performance effektiv übrig bleiben in der Realität wären das immer noch 21,1 TFLOPS! ;-)

Kommentare

@kai

Von: comical ali | Datum: 03.09.2003 | #1
4 FP-Ops pro Takt? Wie funzt das?

Und um die Linuxanpassung wuerde ich mir keine Sorgen machen: IBM-prozzis & IBM's Lieblings OS werden schon zusammenfinden. Guck mal hier:
[Link]

das wird schon

"More Power! Arrh! Arrh! Arrh!" ;)

Von: RoB*-) | Datum: 03.09.2003 | #2
... würde Tim Allen sagen :)

Weil...

Von: Marcel_75 | Datum: 03.09.2003 | #3
...so eine Art BSD-Unix steckt doch hinter OS X, oder etwa nicht?

Ali:

Von: Kai (MacGuardians) | Datum: 03.09.2003 | #4
Ich hab ehrlich gesagt keine Ahnung, dieselbe Frage stelle ich mir auch schon! ;-)

Fakt ist allerdings, dass man auf 4FPops/Takt kommt wenn man die Werte der Power3/4 runterrechnet (Xeon hat übrigens 2 und Alpha erstaunlicherweise auch! Itanic hat auch 4!)

Ein weiterer Fakt ist, dass sie 10 TFLOPS prognostizieren, und mit 2 FPops/Takt wäre Rpeak schon nur 8.8 TFLOPS, dann könnten sie in Rmax niemals auf 10 TFLOPS kommen!

Noch was:

Von: Kai (MacGuardians) | Datum: 03.09.2003 | #5
Power3 ist single-core, also würde die Erklärung, dass der Power4 nur 4 FPops/Takt schafft weil er 2 Cores hat (ich hab keine Ahnung, ob die Top500 eine Dual-Core-CPU auch als 2 CPUs zählt!) nicht ziehen! ;-)

Und ja, Altivec, das parallel noch gefüttert werden kann mit Vector-FPops ist noch gar nicht berücksichtig! ;-) Und Altivec schafft alleine VIER 32bit-Floats pro Takt! Das wären dann mit den FPUs zusammen 4*32bit und 2*64bit, schade, dass das nicht in Rpeak einfliesst! ;-)
Wenn die sowas wie Jet3D von der NASA damit machen können sie das alles wohl noch kräftig aufbohren, wenn auch nicht unbedingt im Linpack!
Dumm für den P4, dass seine SSE2-Vektor-Einheit (die 2 FPops/Takt kommen ja nicht aus dem Nirgendwo! P2/3 hatte nur 1 FPop/Takt!) schon voll belegt ist, weil die ja nicht parallel zur FPU laufen kann! ;-)

Infiniband Treiber

Von: Thyl | Datum: 03.09.2003 | #6
Fehlen aber immer noch die Treiber für die Infiniband-Karten. Die paar Karten, die es auf dem Markt derzeit zu geben scheint (so 3-4) haben höchstens Linux/intel Treiber. Und brauchen die womöglich ein bootfähiges BIOS?! Ich bezweifle, dass es gelingt, die Treiber - wohin auch immer - so schnell zu portieren, dass der Cluster noch in die Top500 Liste vom Herbst kommen. Es sei denn, das ist im Vorfeld mit einem G4 schon erledigt worden.

Re: Infinibad

Von: comical ali | Datum: 03.09.2003 | #7
die karten erfordern doch bestimmt pci-x - oder? dann gabs aber vorher keine tests auf dem G4 wuerde ich mal so sagen.

abgesehen davon hatten sie fuer sowas ja schon 2 monate zeit ....

Infiniband:

Von: Kai (MacGuardians) | Datum: 03.09.2003 | #8
Soweit ich das verstanden hab, werden nur die Backbones mit Infiniband vernetzt!
Denn sonst würd's ja wohl kaum Cisco GBit-Switches brauchen, oder? ;-)
Ich denke mal, da das GBit-EN beim G5 wie beim G4 direkt auf den Chipsatz geht ist die Performance schnell genug!
Weiss jemand die Durchsatzraten von Infiniband oder Myrinet und anderen Cluster-Vernetzungen?

Ali: Die Antwort auf die 4 FPops/Takt Frage:

Von: Kai (MacGuardians) | Datum: 03.09.2003 | #9
..hab ich in diesem PDF gefunden:

"When using its two regular FPUs for scalar operations, the 970 can execute 7.2 GFLOPS at 1.8GHz (two 32- or 64-bit multiply-adds per cycle). When using its vector FPU for SIMD operations, the 970 can execute 14.4 GFLOPS at 1.8GHz (four 32-bit multiply-adds per cycle). The vector FPU doesn’t support double-precision 64-bit operations, but that’s not a serious handicap. The vast majority of floatingpoint-media data types (such as the operands for 3D graphics) are single-precision 32-bit values."

..die simple Antwort ist also, dass ein Multiply/Add zwar ein Befehl ist, der aber als 2 FPops gilt! ;-)

Interessant finde ich die Altivec-Zahl, die meine obige Rechnung bestätigt! Das wären insgesamt 24 GFLOPS für einen 2GHz G5!! Natürlich nur ein theoretischer Wert, der in der Praxis nie erreicht wird weil man niemals in einem Takt konstant alle 3 Units (2*FPU+1*VFPU) befeuern kann, aber so ist das eben allgemein bei Rpeak! ;-) Wenn man 32bit-Floats zugrundelegt hätte der Cluster also einen Rpeak-Wert von (4 FLOPS/Hertz (FPUs) + 8 FLOPS/Hertz (Altivec)) * 2 GigaHertz * 1100 Rechner * 2CPUs/Rechner = 52.8 TERAFLOPS!!!
Holy Shit! ;-) Der Earth Simulator auf Platz 1 hat "bloss" 40.9 TERAFLOPS Rpeak!! Lasst bloss nicht Craig Hunter mit seinem Jet3D an das Ding, der verbarrikadiert sich und gibt's nie wieder her, LOL!

In dem PDF steht noch mehr:

Von: Kai (MacGuardians) | Datum: 03.09.2003 | #10
Das, was ich mal Cyrus (glaub ich!) erzählt hab von wegen "Altivec ist's egal ob Integer oder Float" und "eine 128bit-Zahl, zwei 64bit-Zahlen oder 4 32bit-Zahlen" hatte ich komplett falsch in Erinnerung, streicht das bitte aus dem Gedächtnis! ;-)

"With its 128-bit-wide datapaths and registers, the vector engine can execute multiple operations on various combinations of operands: four 32-bit integers, eight 16-bit integers, sixteen 8-bit integers, or four 32-bit single-precision floating-point values."

Es geht also nach UNTEN, nicht nach OBEN von 32bit! ;-) Und für Floats gibt's nur die Kombination 4*32bit! Deshalb auch die schlechte Eignung für Double Precision!

Infiniband Performance

Von: Tim-Tom-Herbert-u.a. | Datum: 03.09.2003 | #11
Infiniband :

max. 2.5 Gbs I/O bzw. 30 GByte pro Sekunde (Das ist das 56-fache des bisher mit dem PCI)

[Link]
[Link]

Myrinet:
Sustained two-way data rate for large messages 489 MByte/s
Sustained one-way data rate for large messages 248 MByte/s

[Link]

wie auch immer..

Von: Tim-Tom-Herbert-u.a. | Datum: 03.09.2003 | #12
...ich habe meinen G5 trotzdem immer noch nicht und kann insofern leider noch nichts aus der Praxis erzählen.

GigBit hätten schon mal, zum Cluster reicht es aber mangels Finanzen und WIssen noch nicht ganz ;-))

Bin trotzdem gespannt auf die Praxiswerte, mein P4 2 GHz läuft sich schon warm :-))

wird wohl doch mac os x

Von: comical ali | Datum: 03.09.2003 | #13
[Link]

und billig ist er auch - wenn das stimmt was die sagen/schreiben!

Wo bleibt der XServe?

Von: Holy Zarquon | Datum: 03.09.2003 | #14
Für solche Sachen wurde doch eigentlich schon eine DP-Konfiguration des XServe auf den Markt geworfen. Wenn da wirklich ein paar Hundert Desctop-G5 zweckentfremdet werden sollen, fände ich dass schon etwas merkwürdig - überhaupt habe ich bisher noch gar nichts zum Thema G5 im XServe gehört (und dabei wäre das imho wesentlich schlüssiger als die regelmäßig angedachte Verwendung im Powerbook).

Gruß
TH

Re XServe:

Von: comical ali | Datum: 03.09.2003 | #15
erstmal mussen sies schaffen alle PowerMacbestellungen auszuliefern. Dann koennen sie anfangen eine zweite Produktreihe mit den G5s vorzustellen ...
Der PowerMac ist und bleibt Apples Brot-und-Butter-Geschaeft. Vor allem bei solchen Kunden ;)
Aber ich finde es sehr interessant wer alles diesen Cluster jetzt erwaehnt. Handelt sich ja sozusagen um mediale Omnipraesenz ...

Mehr zur Vernetzung:

Von: Kai (MacGuardians) | Datum: 03.09.2003 | #16
hier:

"Mellanox Technologies supplied the I/O fabric, drivers, cards and switches for the cluster. Cisco Systems provided the Gigabit Ethernet switches and Liebert, a division of Emerson Electric, supplied the cooling system."

Ein kleiner Schritt für Apple, ein großer Schritt für die Menschheit

Von: pete | Datum: 04.09.2003 | #17
Ja wow, ich verstehe kein Wort von dem tech-buzz, den ihr schreibt, aber es klingt gut.

Sozusagen live aus dem Macguardians-Studioforum an den Rest der Apple-Menschheit. Ist ja gut, dass ein wenig Teflon in Form eines gewöhnlichen G5 nächstes Jahr auch bei mir landet.

Ich mochte seine billige nachplapperei nie, aber trotzdem hatte Andy Warhol recht. Wir sind alle Künstler.

Infiniband Performance

Von: Thyl | Datum: 04.09.2003 | #18
Infiniband schafft 2.5 Gb/s PRO KANAL, es können aber zB vier Kanäle zu 10 Gb/s gebündelt werden. Was aber auch wichtig ist, ist die geringe Latenzzeit, ein geringer Overhead, und ein schneller DMA. ANGEBLICH ist Infiniband hier ziemlich gut und besser als Myrinet (aber diese Info stammt natürlich von den Infiniband-Anbietern). Die Latenzzeit beträgt anscheinend ca. 150 ns und kommt damit in den Bereich der von SGI verwendeten Cluster-Technologie.

Was die GBit EN-Switches anbelangt, könnte es auch möglich sein, dass EN als zweite Vernetzung für Verwaltungsaufgaben verwendet wird, um Infiniband nur mit dem reinen Clustering zu belasten; obwohl es grundsätzlich möglich zu sein scheint, auch "EN-Ports" per Treiber zu simulieren.