2019/12/09 07:30
https://news.mynavi.jp/article/20191209-934539/

NECがスーパーコンピュータ(スパコン)「SX-Aurora TSUBASA」が完成したと発表したのは2年前のSC17であるが、今回、NECはSC19のExhibitor ForumでAurora TSUBASAのアップグレードの発表を行った。発表者は昨年と同じMasashi Ikuta氏である。

SX-Aurora TSUBASAの設計思想は、強力なメモリとベクトルアクセラレータで実効的に高い計算能力を持ち、消費電力が少なく、設置面積も小さく、プログラムが容易でスパコンの所有に必要なトータルコスト(TCO)が少ないスパコンを作るということである。

NECは一貫してスカラのベクトルホストに計算エンジンである複数のベクトルエンジンを付けるというスパコンを作っているが、Aurora TSUBASAではベクトルホストは独自のプロセサからIntelのXeonに替え、強力なメモリは6個のHBM2で実現することにした。
https://news.mynavi.jp/article/20191209-934539/images/002.jpg

次の図の左側はGPUをアクセラレータとして付けるスパコンの絵であるが、ベクトルホスト(VH)のx86からGPUを呼び出す単位が、ループの1回分の処理のように小さく、頻繁なデータ転送がボトルネックになる。これに対して右側の図のAurora TSUBASAでは、1度、ベクトルエンジン(VE)を呼び出すとその処理が終わるまでベクトルエンジンで途切れずに実行できるので効率が高いという。

なお、初期のGPUではGPUで走るプログラムは終了すると必ずホストに戻るので、この図のような処理になるが、NVIDIAのDynamic ParallelismをサポートするGPUでは、GPUで走っているプログラムから、GPUで走る他のサブプログラムを呼び出すことができるようになっており、毎回ホストに戻る必要は無くオーバヘッドは小さくなっている。
https://news.mynavi.jp/article/20191209-934539/images/003.jpg

メモリバンド幅を1.35TB/sに向上させたVE10E

NECは今年、新たにVE10Eというメモリバンド幅を向上させたベクトルエンジンを発表した。初代VE10のModel 10AとModel 10Bのメモリバンド幅は1.22TB/sであったがVE10Eでは、これが1.35TB/sにアップグレードされている。これにより、メモリバンド幅制約で性能を抑えられていたアプリケーションは最大10%程度性能が上がることになる。なお、廉価版の10Cは0.75TB/sであったメモリバンド幅が、VE10Eでは1.0TB/sに上がることになる。

一方、演算性能は、10Aは2.45TFlops、10Bと10Cは2.15TFlopsで変更はない。
https://news.mynavi.jp/article/20191209-934539/images/005.jpg

次の図にVE10Eの仕様とブロック図を示す。以前のVE10の図との違いは、1.22TBであったメモリバンド幅が1.35TB/sに書き替えられたところだけである。
https://news.mynavi.jp/article/20191209-934539/images/006.jpg

また、姫野ベンチマークでは339GFlopsとなり、346GFlopsのA64FXとほぼ並ぶ性能となった。なお、NECの図では、Aurora 1Eを2019年とし、A64FXを2020〜年と書いているが、発表はほぼ同時であり、どちらが時期的に早いかは難しいところである。

また、NECは10AEという一番クロックの高いモデルで性能を出しているが、選別した最速のCPUで大規模なスパコンを作ろうとすると、クロックの遅いチップが大量に余ってしまうという問題がある。A64FXのクロックは1.8GHzから2.2GHzまで色々な測定値があり、富岳のクロックは、まだ、決まっていないと思われる。この状態で、ここでどちらが速いかなどと言っても始まらない。
https://news.mynavi.jp/article/20191209-934539/images/009.jpg

(続きはソースで)