ARCHIV 1999-2006

ARCHIV :: # 3036

Noch ein BigMac!

Dem Terascale Cluster folgt "Mach 5" für die US Army

Autor: flo - Datum: 22.06.2004

Das wird sich Apple einrahmen und über's Bett hängen: Die US Army, oder genauer der Militärzulieferer COLSA orderte 1566 Dual XServe G5-Systeme um daraus einen Cluster namens "Mach 5" zu basteln. Die US Armee wie auch die NASA wollen das System nutzen, um komplexe Thermodynamik-Modelle in der Entwicklung zu berechnen. COLSA erwartet von dem Cluster eine Leistung von rund 25 TeraFlops/s, was den neuen BigMac auf Platz 2 der letzten Supercomputer-Rangliste katapultieren würde. Nur der Earth-Simulator bliebe weiter einsam an der Spitze. Allerdings soll Mach 5 auch nur 5,8 Millionen Dollar kosten -- nicht einmal 2% der Kosten des Earth Simulators. Dieses Preis-Leistungs-Verhältnis sei auch der ausschlaggebende Punkt für COLSA gewesen.

Derweil darf man sich ob der erwarteten Leistung schon ein bisschen wundern. Mach 5 wird grob eineinhalb mal soviele Prozessoren aufweisen wie der Virginia-Cluster, soll allerdings rund die zweieinhalbfache Leistung erbringen (25 vs 10 TeraFlops). Andererseits ist die Leistung pro XServe mit 30 GigaFlops angegeben (offizielle Apple-Angabe). Multipliziert man dies mit der Anzahl der Systeme, ergäben die angepeilten 25TFlops eine Rmax/Rpeak-Ratio von gut 53% -- der Terascale Cluster kam auf 58,4% -- die Zahl schaut gut aus. Irgendein Teil der Rechnung will sich mir dennoch nicht ganz erschließen. Auch der Preis ist scheinbar der Sonderposten-Abteilung entsprungen, Mach 5 wäre nur 600.000 Dollar teurer als der Terascale Cluster.
Update: Die mathematische Abteilung unserer Leser hat zutage gefördert, dass die 25 TFlops wohl Rpeak darstellen, eine Leistung also, die lediglich theoretischer Natur ist. Geht man von einer ähnlichen Ratio wie beim Terascale Cluster aus, sollte Mach5 auf Rmax von etwa 15 TFlop/s kommen (60%), was das Verhältnis zum Terascale Cluster wieder gerade rücken würde.

In der Pressemitteilung wird zwar gleich zweimal OS X Server als installiertes System erwähnt, jedoch beide Male in sehr marketingtechnisch abgeschrieben anmutenden Sätzen. Ein weiterer Kandidat wäre sicher Yellow Dog Linux, das etwa auch (unter anderem ) die NASA einsetzt. So oder so dürfte dieser Auftrag zum einen dem Erfolg des Terascale Cluster geschuldet sein, zum anderen diesen noch bei weitem übertreffen. Der Cluster soll im Spätherbst diesen Jahres aufgebaut werden, für die Top500-Liste also wahrscheimlich etwas zu spät.

Kommentare

erklaerungsversuch

Von: namnam | Datum: 22.06.2004 | #1
vielleicht haben die prozessoren im XServe bis dahin ja einen hoeheren takt?
schliesslich verbaut ja ibm in seinen blades inzwischen auch schon G5 mit 2,2 GHz takt ...
und dann gabs ja auch mal den versteckten hinweis im sourcecode der applewebseite auf 2.3 GHz Xserve ...
und mit ankuendigung der neuen powermacs bis 2.5 GHz ist ja fuer die Xserve auch wieder luft nach oben ...
das wird eine wwdc ;-)

Die 30 GFlops beziehen sich aber...

Von: flo (MacGuardians) | Datum: 22.06.2004 | #2
...auf den momentan erhältlichen XServe G5 Dual 2 GHz. So steht's zumindest in den Pressemeldungen Apples zum XServe.

Apple beliefert das Militär?

Von: QuiGon | Datum: 22.06.2004 | #3
War da nicht mal was von "keine Apple-System für militärische Zwecke"?

Gegenrechnung.

Von: Rüdiger Goetz | Datum: 22.06.2004 | #4
Hallo,

Ich hab mal gegengerechnet.

1. 30 GFlops/Xserve scheinen mir nonsens zu sein. Landläufig schafft ein PPC970 pro Takt 4 Flops. Das ergab beim Virginia Tech Cluster 17.6 TFlops Rpeak (4 Flops/Takt udn CPU *2200 CPUs mal 2 GHz), bzw. 16 Glops/Xserve
Neue Xserve mögen da 2.5 GHz haben (oder auch etwas mehr), macht 20 GFlops/Xserve nicht 30 (dazu bräuchte man 3.75 GHz/CPU.

2. rechnet man die Zahlen von Virginia Tech Cluster auf einen mit 1566 CPUs a 2.5 GHz hoch, so kommt man auf ca 18.3 TFlops Rmax, bzw. 31.3 TFlops Rpeak (kommen hier die "30 GFlops her?). Immer noch recht ordentlich.

3. Was ich mir vorstellen könnte ist aber folgendes. Ist bekannt, welchen Compiler beim Virgina Tech Benchmark verwendet wurde? Unter Umständen sind da noch Verbesserungspotenzial drin. Vor allem in Zusammenhang mit AltiVec. AFAIK beziehen sich die Flops im Benchmark auf single-Precision-Flops (korrigiert mich wenn ich da falsch liege).
Der MuliplyAdd der PPC970-FPU zählt schon als zwei Flops, damit schafft der 4 Flosp/Takt. Wenn der Compiler nun auch noch AltiVec mit dazu nehmen kann, dann heisst das, dass er unter optimalen Umständen 4 weiter Flops pro Takt schafft. Das wären dann 8Flops/Takt und CPU. Damit würden alle meine obigen Überlegungen hinfällig und alle Zahlen des neuen Clusters (zumindest im Rpeak) doppelt so hoch.
BTW: AltiVec ausnuzten in diesem Zusammenhang dürfte wohl unter das Stichwort Autovektorieriung fallen. Und einenentsprechenden Compiler hat IBM m.W. für die 2.Jahreshälfte angekündigt.

Wenn das so wäre könnte sich auch der Virginia Tech Cluster noch mal einen Satz nach vorne machen.


so genug spekuliert.

Bis dann

R"udiger

@ruediger

Von: namnam | Datum: 22.06.2004 | #5
4 FLOPS/Takt sind richtig!
was apple sich da schoen rechnet weiss ich nicht. es werden immer doubleprecision genommen soweit ich informiert bin.
auch bei dem spanischen supercluster der aus den ppc-blades besteht, kann man so Rpeak berechnen:

4FLOP*2.2GHz*4564Prozessoren=40.16TFLOP

und genau dieser wert findet sich auch bei ibm wieder!

nachtrag

Von: namnam | Datum: 22.06.2004 | #6
4FLOP*2GHz*3132Prozessoren=25TFLOP

der angegebene wert ist also einfach Rpeak

Bin gespannt...

Von: dermattin | Datum: 22.06.2004 | #7
[Link] ob Heise diesmal wieder irgendwas behauptet und dann später motzt weil es nicht eingetroffen ist so tut als wären es offizielle Aussagen gewesen.

@dermattin

Von: namnam | Datum: 22.06.2004 | #8
was genau meinst du damit?

@namnam

Von: Rüdiger Goetz | Datum: 22.06.2004 | #9
Hallo,

O.K. hab noch mal nachgelesen beim Benchmark (schähm, hät ja auch gleich tun können). Es läuft in double precision.

Bliebe ein bessere Rmax/Rpeak Verhältnis durch besser Compiler, auf den spekuliert wird. Ob dieser aber nochmal ca 40 % bringt darf bezweift werden. Zu einen dürfte wohl beireits bei Virgina zumindest eine Vorabversion des xlc zum Einsatz gekommen sein (weiss da jemand genaueres?) zum anderen ist die Performance eines Clusters auch immer duch die I/O zwischen den Knoten begrenzt. Ab einem gewissen Punkt führen bessere Compiler nur zu mehr Waitstates auf den einzelnen CPUs, während sie auf Daten der anderen warten.

Ergo die Rechnung oben geht nicht auf, oder Apple hat schon für den Herbst des G5+ mit double-Precsion-AltiVec und/oder 3.5 GHz in der Pipeline und die Army hats nur ausgeplauert ;-) .

Bis dann

R"udiger

@namnam, @dermattin

Von: Rüdiger Goetz | Datum: 22.06.2004 | #10
Hallo,

Also nun scheint es sich zu klären. die 25 TFlops sind Rpeak und alles kommt wieder hin. Damit dürfte der Rmax um die 18 TFlops liegen (analog zu Virgina)

@namnam

Beim Virginia-Cluster beschwerten sich diverse Leute hier udn vor allem bei heise, dass die 17.6 TFlops, die ursprünglich genannt wurden, geschönt sein, weil man sie nie erreichen können. Letzteres hatte aber auch nie jeamand behauptet. Nur kann man eben Rpeak aus den technischen Daten ableiten, Rmax muss man messen wenn die Anlage steht. Ergo kennt man immer erst nur Rpeak. Manche kapieren das aber nicht und werfen beide Werte in einen Topf. Darauf spielte wohl dermattin an.

Bis dann

R"udiger

@ruediger

Von: namnam | Datum: 22.06.2004 | #11
danke ... dieser zusammenhang war mir entfallen.
man trifft halt immer wieder auf inkompetente leute die sich in alles einmischen wollen.
geht schon los wenn man morgens in den spiegel guckt *ggg*

ja,...

Von: dermattin | Datum: 22.06.2004 | #12
Da find der Heise Schwachsinn an [Link] "Der Supercomputer soll laut dem Bericht eine Rechenleistung von 17,6 TFlops erreicht haben...."

[Link]



[Link]

[Link]

Vielleicht ist der Cluster nicht viel teurer als...

Von: Reimar Metzen | Datum: 22.06.2004 | #13
der in Virginia weil (soweit ich bei MacTechNews gelesen habe) nicht auf Infiniband-Verbindungen gesetzt wird sondern auf Ethernet?

Reinmar...

Von: dermattin | Datum: 22.06.2004 | #14
...oder weil die Preise bei Apple gleichgeblieben sind (bei mehr Leistung)!?

Seltsam

Von: johngo | Datum: 22.06.2004 | #15
Ich bin hier einmal darüber aufgeklärt worden, das ein derartiger Cluster ohne Infiniband überhaupt nicht sinnvoll machbar wäre.

Nun soll das ganze mit Ethernet genausogut bzw. sogar besser (siehe Leistungsdiskussion) gehen?

Wer wagt die Aufklärung?

Gruss

johngo

derNmattin ;)

Von: Reimar Metzen | Datum: 22.06.2004 | #16
Vielleicht hat die Regierung auch einen sehr guten Preis bekommen - warum, keine Ahnung

lol sorry Reimar...

Von: dermattin | Datum: 22.06.2004 | #17
war keine Absicht ;)

@johngo

Von: flo (MacGuardians) | Datum: 22.06.2004 | #18
Infiniband sollte eigentlich zur Vernetzung wesentlich sinnvoller sein, da die Latenzzeiten geringer als bei Ethernet sind.

Allerdings ist die Anbindung von GB-Ethernet im XServe G5 auch sehr gut gelungen, weit entfernt von den G4s und auch nochmal deutlich besser als in den G5s, da die beiden Ports exklusiv via PCI-X an den Hostcontroller angeschlossen sind und jeweils einen eigenen Interrupt reserviert haben. Das sollte für Ethernet das Optimum darstellen. Dürfte meines Erachtens dennoch gegenüber Infiniband die "schlechtere" Lösung sein (Latenz bleibt Latenz). Gehen tut's schon und ganz schlecht ist's sicher auch nicht. Mal Folgeberichte abwarten

@johngo

Von: Rüdiger Goetz | Datum: 22.06.2004 | #19
Hallo,

Das größte Problem bei Clustern ist der Datenaustausch zwischen den Knoten. Wobei die benötigte I/O-Bandbreite auch vom Problem abhängt (z.B. wenn zwischen den Knoten nur wenig Daten ausgetauscht werden müssen, weil das Problem sicher sehr sehr gut in kleine lokale Häppchen aufteilen lässt).

(Gigabit-)Ethernet hat da vor allem das Problem hoher Latenzen, die den parrallelen Datenaustausch der Knoten behindern. Infiniband ist da wohl besser, wobei es auch da noch andere Technologie gibt (Ich erinnere mich z.B. an Myrinet).
Wenn man aber spezielle Anwendungen hat, bei denen man den Datenaustausch so organisieren kann, dass die Ethernet-Latenzen keine/kaum eine Rolle spielen, warum soll man da nicht Geld sparen und lieber mit dem vorhandenen Budget ein paar mehr CPUs kaufen? Letztlich ist es doch das selbe wie mit den Clustern. An sich ist die I/O eine Cluster (Infiniband oder nicht) immer suboptimal. NUMA oder MMP-Architekturen sind schneller, aber auch viel teurer. Ergo ist man inzwischen lieber suboptimal und kauft mehr CPUs. Am Ende ist die Performance für Geld aber höher.


Bis dann

R"udiger

Ein Frage noch ... :)

Von: johngo | Datum: 22.06.2004 | #20
Welche Rechner der Top 500 werden denn bisher - und mit welchem Erfolg - auf Ethernetbasis betrieben?

Wenn ich mich richtig erinnere hatte kai mir sogar erklärt, das ab einer bestimmten Knotenanzahl die Leistung sogar stagnieren (oder war es sogar zurückgehen?) kann.

Gruss

Ohje

Von: Phil | Datum: 22.06.2004 | #21
Ich hätte das nicht von Apple gedacht.
Jetzt verdienen sie auch an dem Krieg bzw Kriegen der Zukunft.
Ich werde mein iBook verkaufen. :((

Ist das so?

Von: GaianChild | Datum: 22.06.2004 | #22
"War da nicht mal was von "keine Apple-System für militärische Zwecke"?""

--> Weiss ich nichts von... gab´s da mal solch ein Statement von Apple? Würde mich auch sehr interessieren...

Army

Von: Marty | Datum: 22.06.2004 | #23
Das Militär war schon immer Kunde von Apple. Das *sichere löschen* ist ja auch auf wunsch der army intregiert worden. Sagte ein Applevertreter auf dem MacTag in Aschaffenburg.

Also da hättet ihr eure Rechner schon länger verbrennen müssen

Von: cyrus mobasheri | Datum: 22.06.2004 | #24
Apple hat doch auch X-Serve in U Boote gebaut, allerdings mit Yellowdoglinux.

Schon zu OS9 Zeiten..

Von: dermattin | Datum: 22.06.2004 | #25
...hat das US Militär Macs benutzt. Eben weil OS9 zu verbugt war, um im Netzwerk zu bestehen (= Super Schutz;))

@Phil: Ohje

Von: chris | Datum: 22.06.2004 | #26
welchen rechner würdest du alternativ kaufen?

@chris

Von: Phil | Datum: 22.06.2004 | #27
Ein x86 PC mit Linux. ;)

Phil

Von: dermattin | Datum: 22.06.2004 | #28
Keine Sorge, Linux ist bald komplett "Waffentauglich" [Link] ;)

iRaq-kampagne

Von: namnam | Datum: 22.06.2004 | #29
da hat uns apple aber ganz schoen verappelt ...
haette ja keiner geahnt , dass es darauf hinauslaeuft.

Ahhh ... Gnade!

Von: Terrania | Datum: 22.06.2004 | #30
Kaum kommt so eine Meldung, sind die Politisch Correcten soweit ihre (nie besessenen) Apples zu verkaufen ... Das tut weh!

@Phil

Von: tonidigital | Datum: 22.06.2004 | #31
Ich nehme Dein iBook!

Und der hier?

Von: Watt iss? | Datum: 22.06.2004 | #32
Was ist denn mit diesem G5-Cluster:

2282 Dual-G5-Blades:

[Link]

Steht leider kein Takt bei:-(

Bzgl Spanischer Cluster:

Von: Rüdiger Goetz | Datum: 22.06.2004 | #33
Hallo,

Zitat von deinem Link
<snip>
Processor frequency 2.2 billion cycles per second
</snip>

Würd ich mal mit 2.2GHz übersetzen, oder.
Nach obiger Rechnung käme das Teil auf Rpeak=40 TFlops und schätzungsweise Rmax=23 TFlops (bei gleicher Effizienz wie in Virginia).

Bis dann

R"udiger

Spanischer Cluster

Von: Watt iss? | Datum: 22.06.2004 | #34
War mir nicht sicher wie das zu übersetzen ist. Das wären dann 4564 CPUs mit 2,2 GHz:-O

Könnte das der Grund sein warum das mittlere Modell nur ein 2x2 Ghz G5 ist? 2x2 2x2,2 und 2x2,5 GHz wäre doch wesentlich logischer gewesen?

@watt iss? , @ru"diger

Von: namnam | Datum: 23.06.2004 | #35
also wenn ihr im thread mal bei den vorderen postings nachlest, dann seht ihr vielleicht, dass ich das alles schonmal ausgerechnet hatte ...

ja das teil laeuft mit 2.2 GHz!

[Link]