ふと気付いたらISC13でTOP500リストが公開されてました。
http://www.top500.org/lists/2013/06/
事前情報どおり中国のTianhe-2Aが1位で、2~5位は前回の1~4位が順当にランクインしてます。
Tianhe-2はXeon E5-2692にIntel Xeon Phi 31S1Pというインテルプロセッサ+インテルアクセラレータな構成で、理論ピーク性能54902.4TFlopsに対してLinpackの性能が33862.7TFlopsなので、実行効率は約61%となってます。
上位陣で同じくXeon Phiを採用しているTACCのマシン(機種は違うけど)も、だいたい60%なのでこの辺が、Xeon Phiの妥当な性能と言えるかもしれません。
他のアクセラレータ(というか、NVIDIAのTesla)を載せたシステムで見ると
2位のTitanが65%と上回っているものの、10位のTianhe-1Aは54%、16位のNebulaeは43%、21位のTsubameが52%といった感じで10%程度効率が低めになってます。
当然ながらサンプル数が少なすぎるし、製品導入時期の違い(CPUの世代が違う)もあるので、Xeon Phiの方がTeslaより高効率だと結論付けるのはたぶん間違いです。
さて、このTianhe-2ですがthe registerの記事*1なんかだと「ASCI RED以来初めての純IntelマシンがTOPになった」なんて書いてますが、どっちかと言うとインタコネクトにTH Express-2という独自開発のものを使ってることの方が注目すべき点でしょうか。
the registerの記事によると、1ノード1ポートのNICをPCI-express2.0で接続し、バックプレーン内は電気で後は光接続の多段fat tree構成だそうです。
fat treeの最上位のポート数が13*576=7488ポート
一方で計算ノードは16000ノードあるので、適当に計算すると3段のfat treeで済んでいて、それなりにまともなネットワーク構成のようです。
*2
あと、某国内SIerが大好きな実行時間ですが、Nmax=9960000で、Linpack性能が33862.7TFlops、HPLの演算量は2/3N^3+2/3N^2なので、逆算するとだいたい5時間半ですね。
これは、LU分解と求解の時間だけで、問題となる行列とか右辺ベクトルの生成にもそれなりに時間がかかってるはずですが、それを含めても連続稼働時間は6時間くらいでしょうか。
しかし、ISCだとLinpackだけでHPCCが無いから寂しいなぁ・・・*3