しょっぱなから、他人のBlogの紹介記事ですが
STREAM Benchmarkの作者であるJohn McCalpin先生のブログにXeon-phiに関するコメントが、昨年の11月頃に上がってました。
http://blogs.utexas.edu/jdm4372/2012/11/17/some-comments-on-the-xeon-phi-coprocessor/
前半部分をざっくり要約すると
- Xeon-phiの演算性能/メモリバンド幅レシオは48FLOPs/Wordで、だいたいGPUとかと一緒
- でもメモリアーキテクチャは全然違ってて、NVIDIAのGPUは2MBのレジスタ/キャッシュをチップ単位で持つけど、Xeon-phiの方はコア単位で独立なL2キャッシュを512kB(チップあたり30MB)持つ
- PCIe経由でのhostとの転送性能は貧弱だけど、MPIをサポートしてるのでXeon-Phiのチップから外に出る転送がMPIの通信だけになるようにすれば、うまく適合できるでしょ。
というわけで、PCクラスタでそれなりにスケーラビリティが出てるMPI-OpenMPのハイブリッドなプログラムであれば、うまくはまりそうですね・・・ってどっちかというとそんなプログラムが少ないことの方が問題か?
しかしアクセラレータだと、というかメモリが複数あると性能出すのは面倒くさそうなんだよなぁ・・・