【ＩＴ】NECの最新世代スパコン「SX-Aurora TSUBASA」［09/05］

**しじみ ★** · 2018/09/13(木) 17:27:32.63

NECは、「SX-ACE」に続く新スパコン「SX-Aurora TSUBASA」を2017年10月25日より発売している。しかし、中小型の「A100シリーズ」ならびに「A300シリーズ」の提供時期は2018年2月以降、大型の「A500シリーズ」に至っては2018年の7～9月とされており、現在、やっと手に入るようになったという時期で、最新型のスパコンという位置づけである。

なお、NECのプレスリリースやWebを探してみたが、この原稿の執筆時点では、顧客に出荷されたという記述は見つからなかった。

これまで、SCなどの学会での発表は開発を率いた百瀬慎太郎氏が行なわれることが多かった。しかし、このHot Chipsでの発表スライドには百瀬氏の名前も書かれていたものの実際に登壇されることはなく、もう一人の発表者として名前が挙がっていた山田洋平氏が発表を行った。

■PCIeカードに搭載されたスパコン

SX-ACEまでのこれまでのNECのSXスパコンは、ベクタエンジン(VE)と同じチップに集積されたスカラプロセサでNEC製のOSを動かしていた。これがSX-Aurora TSUBASAでは、別にx86プロセサを付け、ここでLinuxを動かすという構造に変わった。と言うよりは、x86サーバにPCI Express(PCIe)カードの形でベクタエンジンを付けるという構造になった。

物理的な構造はともかく、独自アーキのプロセサではオープンソフトが集り難いので、標準OSを使うという道を選択したと考えられる。

そして、いわゆるスパコンと呼ばれる大規模システム向けだけでは、売れる台数はしれている。このため、小規模なシステムも安く作れるように、x86の部分は普通のx86サーバとし、ベクタエンジンをPCIeカードに搭載するというアプローチをとった。

これらは大きな方針の転換は、小規模システムまでカバーして販売台数を増やすという観点からみて正しい方向であると思う。しかし、これらはNECのSX-Aurora TSUBASAの売れ行きを増やすための必要条件であるが、十分条件となっているかどうかは分からない。

実は、SX-Aurora TSUBASAの開発を率いてきた百瀬氏は、今年、ドイツNECに転勤された。開発は一段落したので、今度はヨーロッパでSX-Aurora TSUBASAを売ってこいという人事であると思われる。

SX-Aurora TSUBASAはスケーラブルが売りであり、64個以上のVEを搭載するスパコンモデルであるA500シリーズ、ラックマウントの薄型サーバ筐体に2個～8個のVEを搭載するA300シリーズ、そして、1VEだけのデスクサイドタワーモデルのA100シリーズがある。

A500は40℃の水を使って冷却する水冷であるが、A300シリーズ、A100シリーズは設置が容易な空冷となっている。

https://news.mynavi.jp/article/nec_aurora_tsubasa-1/images/002.jpg
https://news.mynavi.jp/article/nec_aurora_tsubasa-1/images/003.jpg
https://news.mynavi.jp/article/nec_aurora_tsubasa-1/

**ニュースソース検討中＠自治議論スレ** · 2018/09/25(火) 16:09:23.19

1970年代のクレイのスパコンですら、ベクトルレジスタは64語分も
あったのに、マイコンのCPUのベクトル長は短いよね。もっとメモリバス
幅を拡げて欲しい。そうしてDIMMを16枚とか32枚とか64枚などを
させるようにして欲しいのだ。

**ニュースソース検討中＠自治議論スレ** · 2018/09/25(火) 17:58:14.04

>>112
一つのCPUにたくさんDIMMくっつけるより
1つのDIMMに1つCPUつけた方がお得やろ!

**ニュースソース検討中＠自治議論スレ** · 2018/09/25(火) 18:41:27.64

シグナルインテグリティの関係でDIMMみたいなモジュール形式にすると転送レートが上がらんからな
今は昔と違って完全にメモリが律速だから結局スカラCPUのSIMDと>>1のようなベクタ機が似たようなスペックに落ち着く
64語のベクタを3GHzで動かすには1.5TB/sの帯域でデータを供給する必要があるわけで
そんなの今の外部メモリじゃ不可能だからベクタ機のコンセプトが成立しないよねっていう

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 07:02:24.95

https://pc.watch.impress.co.jp/docs/column/semicon/1076835.html

DDR-5のメモリになれば64ビットデータバス幅のモジュールは1つあたり
51.2GB/sec と　DDR-4 の二倍になるという。
これを32本使えば、1.6TB/sec が理論上は達成できる。

あるいはもうそろそろ、1モジュールあたりデータバスが
128ビットとか256ビットのようなメモリモジュール部品規格を
普及させればどうなのだろうか？　そうすれば部品の数が減らせるのだが。

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 07:10:09.59

次世代のサーバー/ハイエンドPC向けDRAMモジュール「DDR5 DIMM」
https://pc.watch.impress.co.jp/docs/column/semicon/1080032.html

最近はSSDの話題ばかりでDDRメモリのことがあまり話題に上らなくなって
いるのは、メモリメーカーが不調なせいか？ムーアの法則が限界に近づくと
DRAMメモリも限界に達しつつあって、進化進歩が停滞するのだろうか？

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 08:55:33.54

> 2018年は、SamsungとSK Hynixが1Ynm(14-16nm)、Micronが1Xnm(16-19nm)での製造
https://news.mynavi.jp/article/20180104-trend04/

キャパシタには体積が必要で、微細化するには小面積で大深度の加工が必要になって
難しいらしい。今は8Gbit 作ってるけど4Gbitチップの時で穴のアスペクト比が20～25
http://wedge.ismedia.jp/articles/-/9373?page=2

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 12:16:02.75

48層とか64層というが、
各層を独立につくってから貼り合わせてつくるのではなくて、
最初に貼り合わせてから穴を掘るのか？それはとても大変だな。
よくは知らないが、たくさん欠陥部分があっても、交替処理だとか
エラー訂正でもって全体としては正常に動くようにして、欠陥
から来る問題から逃げているのだろうか？

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 13:37:55.36

64bit幅を32本って言うけど
これだけで2048本の配線になるんだぜ?
今のパッケージと配線技術だと
これだけの配線本数をいんピーダンスやら遅延やら管理しながら
一つのICに向けて、コネクタ-基板-ICと配線するのは困難だっつ～の

配線距離を縮められるなら2048bit幅でも配線出来なくはないってんで
HBMやらHMCやら使おうぜ!って話になったんだぞと

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 13:42:22.20

メモリの帯域なんかどうでもいいのよ
SX-ACEとかは
ベクトルレジスタが1コアあたり
2Kバイト×72本もある

IntelのAVX2でされ256バイトしかない時点で

ベクトルレジスタ（SIMDレジスタ）にデータをストアした後の計算速度は雲泥の差がある

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 14:08:49.31

N18BASIC 動くん？

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 14:09:11.85

DRAMもNANDも製造不良を見かけ上隠蔽するための冗長ビットが
加わったビット数で作ってるが、何%多く作っているかは企業秘密で教えてくれない。

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 16:57:38.10

>>120
どうでもよくねえよ
連続してレジスタにデータを供給できなければトップスピードが出るのは数回の計算だけだ
レジスタの本数でメモリ-レジスタのレイテンシはカバーできるが帯域はカバーできない
だから1命令あたりのデータ量が多いベクトル機はB/Fを重視する
スカラは高速なキャッシュメモリで妥協するが>>1もキャッシュで妥協してるな

あとスカラCPUはレジスタリネーミングをやるから内部的に持ってるレジスタの数はもっと多い
最新のSkylake-Xなら512bitレジスタが168本で10KB程度はベクトルレジスタとして持っている

**ニュースソース検討中＠自治議論スレ** · 2018/09/26(水) 22:28:17.07

SX9の時にCPUのピン数が8000（だっけ）越えてて
次世代はさすがにもう増やせないどうするみたいな
文書を読んだ記憶がある

**ニュースソース検討中＠自治議論スレ** · 2018/09/29(土) 00:59:28.26

シリコンの基板上でなら、信号線の配線を何万本でも這わせることは容易なはず。

ICはトランジスタをバラバラに切り離さずに一体の回路とすることで素子間の
配線の数を減らして信頼性やサイズの縮小を可能にしたように、
CPUやメモリを個別のチップとして切り離してしまうのではなくて、
一体の回路としてCPUやメモリなどを混在した大きなチップあるいは
ウェーハーサイズの巨大なマルチCPU＋マルチメモリチップマシンを
作ればどうだらうか？　相互に切り離さないので、配線を何十万本でも
ウェーハーの上に這わせられる。ウェーハー上のチップに欠陥があっても、
それを論理的に切り離して交替処理し、チップ間の相互のウェーハー上の
結合ネットワークが信号を不良のチップ部分を迂回して全体としては
ちゃんと動くネットワーク化されたCPUのクラスタ＋メモリとなって
うごくようなものを作ればいいのではないか？
3次元の積層は、熱の除去の能率を考えると限界があるのではないか
という気がするが。

**ニュースソース検討中＠自治議論スレ** · 2018/09/29(土) 02:40:31.13

Financing the future of supercomputing
- How to increase investment in high performance computing in Europe -
http://www.eib.org/attachments/pj/financing_the_future_of_supercomputing_en.pdf

**ニュースソース検討中＠自治議論スレ** · 2018/10/14(日) 19:50:41.93

NECはNvidiaには到底適わないと思う。

何しろソフトの技術革新力は圧倒的にNvidiaの方が優れているもの。

昔のベクトルコンピュータで動かしていたようなアプリを動かし続ける
ためのようなものを作っていてもしかたがない気がする。

**ニュースソース検討中＠自治議論スレ** · 2018/10/14(日) 19:59:41.11

nvidaがソフトの技術革新？

もともと描画用だったわけだが
どっちか言うとパワーがあるので勝手に描画以外のソフトを作られて、後追いでそれに合わせてる

**ニュースソース検討中＠自治議論スレ** · 2018/10/16(火) 00:59:39.47

>127
儲けが大きい分野は放置してても誰かやる。
儲けが小さい分野で多様性の維持に貢献している所の方が人類の宝だよ。

**ニュースソース検討中＠自治議論スレ** · 2018/10/18(木) 06:44:39.74

計算機の寿命は短く、計算法は長し。

**ニュースソース検討中＠自治議論スレ** · 2018/10/19(金) 09:22:29.14

96コアの高性能サーバーCPUも目論むArmの新ブランド「Neoverse」
https://pc.watch.impress.co.jp/docs/column/kaigai/1148482.html

**ニュースソース検討中＠自治議論スレ** · 2018/10/19(金) 19:13:36.32

ザコが集まっても所詮ザコ…

**ニュースソース検討中＠自治議論スレ** · 2018/10/29(月) 14:11:21.14

NECは、新しいベクトル型コンピュータ「SX-Aurora TSUBASA」
を用いたAIの研究を進めるために、米国Stanford大学のDAWN Projectに
参画し、「SX-Aurora TSUBASA」を提供致しました。
https://jpn.nec.com/press/201810/20181026_01.html

貢ぎ物を献上

**ニュースソース検討中＠自治議論スレ** · 2018/10/29(月) 16:50:39.76

IntelだってXeon Phiをばらまいてたわな

**ニュースソース検討中＠自治議論スレ** · 2018/10/29(月) 18:39:11.38

2兎を追ってもね、もう終了ってことでしょ。
先が見えないハード用のアプリ開発なんて最も嫌われる。

**ニュースソース検討中＠自治議論スレ** · 2018/10/30(火) 13:07:12.03

SXはHPC撤退なのか？
通りで、例レベルかつパソコンレベルの事例しかないわけだ。

**ニュースソース検討中＠自治議論スレ** · 2018/10/31(水) 23:59:48.09

HPCとAI用って、ポスト京とまったく同じじゃんｗ
わざわざ2つ作る意味あるの？

**ニュースソース検討中＠自治議論スレ** · 2018/11/01(木) 23:00:14.49

SX-Aurora postK(A64FX)
Peak perfomance 2.5 TFLOPS 2.7TFLOPS
#cores 8 48+4
memory 48GB 32GB
memory B/W 1.2TB/s 1.0TB/s

確かに大差ないね・・・

**ニュースソース検討中＠自治議論スレ** · 2018/11/02(金) 00:34:08.34

>>4
官民でやらないと（天下り入ってないと）輸出の許可がでない。

**ニュースソース検討中＠自治議論スレ** · 2018/11/02(金) 23:07:35.40

>>138
今やHPCとしても見る影もなくなってるね。
事実上の撤退ってことだろうね。

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 19:21:10.04

IBMのPOWER9の方がよさげ。
SXのライバルといえばPOWERだったんだが、いまやそこら辺のパソコンレベルがライバルとわな。

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 20:55:34.05

大学の基盤センターが9つもあるのに、POWERを入れるところが一つもない、
っていうのも問題だよな。

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 22:08:05.40

POWERは値段が高いからなんだろ。
ただしリムパックの性能あたりの値段が高いので、
そういった評価基準はシステムのメモリバンド幅
などを無視してる気がするが。
多分4倍精度のリムパックの性能値で比較したら
最強なのはPOWERじゃないかな？

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 23:18:00.36

IBMのPOWERですら、マイナーで敬遠されるからナ。

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 23:28:25.58

そもそも9つも基盤センターって必要か？
日本のメーカ2つ、NECは撤退予定として、実質一つになるんだから、
3つぐらいに集約すればいいじゃないの？

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 23:33:14.44

NECの新スパコンのスレなのに、
みんなNEC・スパコン撤退を前提にしている・・・

**ニュースソース検討中＠自治議論スレ** · 2018/11/03(土) 23:57:28.54

一番なの?

**ニュースソース検討中＠自治議論スレ** · 2018/11/04(日) 10:49:11.66

2019年に50+PFLOPSのシステムが東大、名大で稼働予定
計画通りに稼働したらどちらかがその時点の国内最速

今後10年間のHPCI第2階層システムの開発・整備・運用計画～要約版～（2017/10月版）
https://www.hpci-c.jp/news/

**ニュースソース検討中＠自治議論スレ** · 2018/11/04(日) 10:55:48.81

東大のハードウェア条件
http://www.hpcwire.jp/archives/16042
ａ　総メモリ容量が375 TiB以上、メモリバンド幅の総和が500 TB/秒以上であること。
ｂ　各計算ノードには汎用CPU ２個を搭載すること。汎用CPUは複数の均一なCPUコアからなり、全てのCPUコアはハードウェア共有
　メモリ機構により相互に接続されること。演算性能はこれらのCPUのみで提供され、補助的な演算加速装置等は持たないこと。
ｃ　計算ノード単体あたりの演算性能として、SPECint_rate2006 peakの値が2,000以上、SPECfp_rate2006 peakの値が1,450以上であること。
ｄ　計算ノード単体あたりの主記憶容量は192 GiByte以上、メモリバンド幅は250 GB/s以上であること。
ｅ　各ノードが備えるノード間接続のためのネットワークリンクのデータ転送速度の理論ピーク値は、１ノードあたり100 Gbps以上であること。
ｆ　全ノード間はフルバイセクションバンド幅で接続されること。
ｇ　各計算ノードに信頼性の高いSSDを搭載すること。計算ノード単体あたりの物理容量は500 GB以上、
　読み出し・書き込み性能はメモリバンド幅の0.5%以上であること。
ｈ　共有ファイルシステムとして10 PByte以上の信頼性の高い記憶装置を有する並列ファイルシステムを提供すること。
　計算ノード群から150 GB/s以上の転送速度で読み書きが可能であること。

**ニュースソース検討中＠自治議論スレ** · 2018/11/04(日) 23:54:14.76

>>149
Xeon単独指名みたいな入札やな。
フルバイセクションはすごいけどね。でもここの成果も聞かないよねｗ

**ニュースソース検討中＠自治議論スレ** · 2018/11/05(月) 11:01:16.13

>148の主要大学の施設は全国共同利用で、その大学の者も
他組織の研究者・学生も同じようにあらかじめ申請して使う。
使ったら報告も必要。ネットで見られるかどうかは知らないけど、
使った研究グループからの成果報告は文書で存在するよ。

**ニュースソース検討中＠自治議論スレ** · 2018/11/05(月) 23:59:25.49

Intel、最大48コアの「Cascade Lake-AP」を2019年に投入
～Coffee Lake採用のXeon E-2100シリーズも発売
佐藤岳大 2018年11月5日 18:03
https://pc.watch.impress.co.jp/docs/news/1151683.html

インテルはアムドのライゼンと正面から勝負に出て来た。

**ニュースソース検討中＠自治議論スレ** · 2018/11/06(火) 22:20:04.54

>>151
なおのこと、9大学に計算機センターを設置する必要性なんてないよな。
統合・廃止した方がいいな。

**ニュースソース検討中＠自治議論スレ** · 2018/11/07(水) 00:53:55.88

日本は京、ポスト京クラスは10年に一度しか予算取れないら、10年間の
後半になると、主要施設の合計キャパシティを使い切っても苦しいと思う。

**ニュースソース検討中＠自治議論スレ** · 2018/11/07(水) 01:07:18.80

>>153
分かれていることのメリットは、各施設で更新時期がずれるから
いつでもどこかが最新に近いことかな。京、ポスト京のような
最大施設は10年くらい更新できないから、新しいものに
アクセスできる施設もどこかにある方がいいんじゃないか

**ニュースソース検討中＠自治議論スレ** · 2018/11/07(水) 07:33:07.26

>>150
>フルバイセクションはすごいけどね。

ノード内のメモリバンド幅が250 GB/s(以上）なのと比べると、ノード間接続は極めて貧弱でノードあたり
100 Gbps(以上）だから、そのフルバイセクションなんてたいしたことはない

いまどきトーラスとかメッシュとか論外だから、そういうのを防ぐための当たり前の要求、データセンター
では当たり前だけどスパコン業界は遅れてるからね

**ニュースソース検討中＠自治議論スレ** · 2018/11/07(水) 21:57:34.62

>>155
ますます９大学に設置する必要性が見当たらないよね
原子力発電所の近くに計算機センターまとめて、５種類運営、毎年一つリプレイスすればいいね

**ニュースソース検討中＠自治議論スレ** · 2018/11/08(木) 06:20:04.43

>148のうち今SXを運用している拠点の更新予定時期
　阪大 2019年　　東北大 2020年　　海洋研究開発機構 2021年
これらの拠点が失陥したらSXのイメージは大きく変わる。

SX-Aurora TSUBASAの仕様からは、大規模な拠点を他に譲るものかという
強い意志は感じられない。新たな小規模導入を優先しているように見える。

**ニュースソース検討中＠自治議論スレ** · 2018/11/08(木) 18:26:05.78

>>151
>>153
>>157
人工知能データマイニング機械学習ＡＩビッグデータ解析など、
研究項目盛沢山で極めて有望な革新分野だからな

**ニュースソース検討中＠自治議論スレ** · 2018/11/15(木) 04:17:51.14

>>159
大学センターって不要だと思うわ。どうせ開発するのはベンダーでしょ。

IBMのPOWER9いいよね。

**ニュースソース検討中＠自治議論スレ** · 2018/11/18(日) 09:41:26.39

>>160
え？

**ニュースソース検討中＠自治議論スレ** · 2018/11/19(月) 07:08:44.15

>>161
大学のセンターのアプリ開発で成功した例があるのか？
開発・保守から入札の仕様に至るまで、ベンダーに丸投げだろｗｗｗ