【IT】NECの最新世代スパコン「SX-Aurora TSUBASA」[09/05]
■ このスレッドは過去ログ倉庫に格納されています
NECは、「SX-ACE」に続く新スパコン「SX-Aurora TSUBASA」を2017年10月25日より発売している。しかし、中小型の「A100シリーズ」ならびに「A300シリーズ」の提供時期は2018年2月以降、大型の「A500シリーズ」に至っては2018年の7〜9月とされており、現在、やっと手に入るようになったという時期で、最新型のスパコンという位置づけである。
なお、NECのプレスリリースやWebを探してみたが、この原稿の執筆時点では、顧客に出荷されたという記述は見つからなかった。
これまで、SCなどの学会での発表は開発を率いた百瀬慎太郎氏が行なわれることが多かった。しかし、このHot Chipsでの発表スライドには百瀬氏の名前も書かれていたものの実際に登壇されることはなく、もう一人の発表者として名前が挙がっていた山田洋平氏が発表を行った。
■PCIeカードに搭載されたスパコン
SX-ACEまでのこれまでのNECのSXスパコンは、ベクタエンジン(VE)と同じチップに集積されたスカラプロセサでNEC製のOSを動かしていた。これがSX-Aurora TSUBASAでは、別にx86プロセサを付け、ここでLinuxを動かすという構造に変わった。と言うよりは、x86サーバにPCI Express(PCIe)カードの形でベクタエンジンを付けるという構造になった。
物理的な構造はともかく、独自アーキのプロセサではオープンソフトが集り難いので、標準OSを使うという道を選択したと考えられる。
そして、いわゆるスパコンと呼ばれる大規模システム向けだけでは、売れる台数はしれている。このため、小規模なシステムも安く作れるように、x86の部分は普通のx86サーバとし、ベクタエンジンをPCIeカードに搭載するというアプローチをとった。
これらは大きな方針の転換は、小規模システムまでカバーして販売台数を増やすという観点からみて正しい方向であると思う。しかし、これらはNECのSX-Aurora TSUBASAの売れ行きを増やすための必要条件であるが、十分条件となっているかどうかは分からない。
実は、SX-Aurora TSUBASAの開発を率いてきた百瀬氏は、今年、ドイツNECに転勤された。開発は一段落したので、今度はヨーロッパでSX-Aurora TSUBASAを売ってこいという人事であると思われる。
SX-Aurora TSUBASAはスケーラブルが売りであり、64個以上のVEを搭載するスパコンモデルであるA500シリーズ、ラックマウントの薄型サーバ筐体に2個〜8個のVEを搭載するA300シリーズ、そして、1VEだけのデスクサイドタワーモデルのA100シリーズがある。
A500は40℃の水を使って冷却する水冷であるが、A300シリーズ、A100シリーズは設置が容易な空冷となっている。
https://news.mynavi.jp/article/nec_aurora_tsubasa-1/images/002.jpg
https://news.mynavi.jp/article/nec_aurora_tsubasa-1/images/003.jpg
https://news.mynavi.jp/article/nec_aurora_tsubasa-1/ 1970年代のクレイのスパコンですら、ベクトルレジスタは64語分も
あったのに、マイコンのCPUのベクトル長は短いよね。もっとメモリバス
幅を拡げて欲しい。そうしてDIMMを16枚とか32枚とか64枚などを
させるようにして欲しいのだ。 >>112
一つのCPUにたくさんDIMMくっつけるより
1つのDIMMに1つCPUつけた方がお得やろ! シグナルインテグリティの関係でDIMMみたいなモジュール形式にすると転送レートが上がらんからな
今は昔と違って完全にメモリが律速だから結局スカラCPUのSIMDと>>1のようなベクタ機が似たようなスペックに落ち着く
64語のベクタを3GHzで動かすには1.5TB/sの帯域でデータを供給する必要があるわけで
そんなの今の外部メモリじゃ不可能だからベクタ機のコンセプトが成立しないよねっていう https://pc.watch.impress.co.jp/docs/column/semicon/1076835.html
DDR-5のメモリになれば64ビットデータバス幅のモジュールは1つあたり
51.2GB/sec と DDR-4 の二倍になるという。
これを32本使えば、1.6TB/sec が理論上は達成できる。
あるいはもうそろそろ、1モジュールあたりデータバスが
128ビットとか256ビットのようなメモリモジュール部品規格を
普及させればどうなのだろうか? そうすれば部品の数が減らせるのだが。 次世代のサーバー/ハイエンドPC向けDRAMモジュール「DDR5 DIMM」
https://pc.watch.impress.co.jp/docs/column/semicon/1080032.html
最近はSSDの話題ばかりでDDRメモリのことがあまり話題に上らなくなって
いるのは、メモリメーカーが不調なせいか?ムーアの法則が限界に近づくと
DRAMメモリも限界に達しつつあって、進化進歩が停滞するのだろうか? > 2018年は、SamsungとSK Hynixが1Ynm(14-16nm)、Micronが1Xnm(16-19nm)での製造
https://news.mynavi.jp/article/20180104-trend04/
キャパシタには体積が必要で、微細化するには小面積で大深度の加工が必要になって
難しいらしい。今は8Gbit 作ってるけど4Gbitチップの時で穴のアスペクト比が20〜25
http://wedge.ismedia.jp/articles/-/9373?page=2 48層とか64層というが、
各層を独立につくってから貼り合わせてつくるのではなくて、
最初に貼り合わせてから穴を掘るのか?それはとても大変だな。
よくは知らないが、たくさん欠陥部分があっても、交替処理だとか
エラー訂正でもって全体としては正常に動くようにして、欠陥
から来る問題から逃げているのだろうか? 64bit幅を32本って言うけど
これだけで2048本の配線になるんだぜ?
今のパッケージと配線技術だと
これだけの配線本数をいんピーダンスやら遅延やら管理しながら
一つのICに向けて、コネクタ-基板-ICと配線するのは困難だっつ〜の
配線距離を縮められるなら2048bit幅でも配線出来なくはないってんで
HBMやらHMCやら使おうぜ!って話になったんだぞと メモリの帯域なんかどうでもいいのよ
SX-ACEとかは
ベクトルレジスタが1コアあたり
2Kバイト×72本もある
IntelのAVX2でされ256バイトしかない時点で
ベクトルレジスタ(SIMDレジスタ)にデータをストアした後の計算速度は雲泥の差がある DRAMもNANDも製造不良を見かけ上隠蔽するための冗長ビットが
加わったビット数で作ってるが、何%多く作っているかは企業秘密で教えてくれない。 >>120
どうでもよくねえよ
連続してレジスタにデータを供給できなければトップスピードが出るのは数回の計算だけだ
レジスタの本数でメモリ-レジスタのレイテンシはカバーできるが帯域はカバーできない
だから1命令あたりのデータ量が多いベクトル機はB/Fを重視する
スカラは高速なキャッシュメモリで妥協するが>>1もキャッシュで妥協してるな
あとスカラCPUはレジスタリネーミングをやるから内部的に持ってるレジスタの数はもっと多い
最新のSkylake-Xなら512bitレジスタが168本で10KB程度はベクトルレジスタとして持っている SX9の時にCPUのピン数が8000(だっけ)越えてて
次世代はさすがにもう増やせないどうするみたいな
文書を読んだ記憶がある シリコンの基板上でなら、信号線の配線を何万本でも這わせることは容易なはず。
ICはトランジスタをバラバラに切り離さずに一体の回路とすることで素子間の
配線の数を減らして信頼性やサイズの縮小を可能にしたように、
CPUやメモリを個別のチップとして切り離してしまうのではなくて、
一体の回路としてCPUやメモリなどを混在した大きなチップあるいは
ウェーハーサイズの巨大なマルチCPU+マルチメモリチップマシンを
作ればどうだらうか? 相互に切り離さないので、配線を何十万本でも
ウェーハーの上に這わせられる。ウェーハー上のチップに欠陥があっても、
それを論理的に切り離して交替処理し、チップ間の相互のウェーハー上の
結合ネットワークが信号を不良のチップ部分を迂回して全体としては
ちゃんと動くネットワーク化されたCPUのクラスタ+メモリとなって
うごくようなものを作ればいいのではないか?
3次元の積層は、熱の除去の能率を考えると限界があるのではないか
という気がするが。 Financing the future of supercomputing
- How to increase investment in high performance computing in Europe -
http://www.eib.org/attachments/pj/financing_the_future_of_supercomputing_en.pdf NECはNvidiaには到底適わないと思う。
何しろソフトの技術革新力は圧倒的にNvidiaの方が優れているもの。
昔のベクトルコンピュータで動かしていたようなアプリを動かし続ける
ためのようなものを作っていてもしかたがない気がする。 nvidaがソフトの技術革新?
もともと描画用だったわけだが
どっちか言うとパワーがあるので勝手に描画以外のソフトを作られて、後追いでそれに合わせてる >127
儲けが大きい分野は放置してても誰かやる。
儲けが小さい分野で多様性の維持に貢献している所の方が人類の宝だよ。 NECは、新しいベクトル型コンピュータ「SX-Aurora TSUBASA」
を用いたAIの研究を進めるために、米国Stanford大学のDAWN Projectに
参画し、「SX-Aurora TSUBASA」を提供致しました。
https://jpn.nec.com/press/201810/20181026_01.html
貢ぎ物を献上 IntelだってXeon Phiをばらまいてたわな 2兎を追ってもね、もう終了ってことでしょ。
先が見えないハード用のアプリ開発なんて最も嫌われる。 SXはHPC撤退なのか?
通りで、例レベルかつパソコンレベルの事例しかないわけだ。 HPCとAI用って、ポスト京とまったく同じじゃんw
わざわざ2つ作る意味あるの? SX-Aurora postK(A64FX)
Peak perfomance 2.5 TFLOPS 2.7TFLOPS
#cores 8 48+4
memory 48GB 32GB
memory B/W 1.2TB/s 1.0TB/s
確かに大差ないね・・・ >>4
官民でやらないと(天下り入ってないと)輸出の許可がでない。 >>138
今やHPCとしても見る影もなくなってるね。
事実上の撤退ってことだろうね。 IBMのPOWER9の方がよさげ。
SXのライバルといえばPOWERだったんだが、いまやそこら辺のパソコンレベルがライバルとわな。 大学の基盤センターが9つもあるのに、POWERを入れるところが一つもない、
っていうのも問題だよな。 POWERは値段が高いからなんだろ。
ただしリムパックの性能あたりの値段が高いので、
そういった評価基準はシステムのメモリバンド幅
などを無視してる気がするが。
多分4倍精度のリムパックの性能値で比較したら
最強なのはPOWERじゃないかな? IBMのPOWERですら、マイナーで敬遠されるからナ。 そもそも9つも基盤センターって必要か?
日本のメーカ2つ、NECは撤退予定として、実質一つになるんだから、
3つぐらいに集約すればいいじゃないの? NECの新スパコンのスレなのに、
みんなNEC・スパコン撤退を前提にしている・・・ 2019年に50+PFLOPSのシステムが東大、名大で稼働予定
計画通りに稼働したらどちらかがその時点の国内最速
今後10年間のHPCI第2階層システムの開発・整備・運用計画〜要約版〜 (2017/10月版)
https://www.hpci-c.jp/news/ 東大のハードウェア条件
http://www.hpcwire.jp/archives/16042
a 総メモリ容量が375 TiB以上、メモリバンド幅の総和が500 TB/秒以上であること。
b 各計算ノードには汎用CPU 2個を搭載すること。汎用CPUは複数の均一なCPUコアからなり、全てのCPUコアはハードウェア共有
メモリ機構により相互に接続されること。演算性能はこれらのCPUのみで提供され、補助的な演算加速装置等は持たないこと。
c 計算ノード単体あたりの演算性能として、SPECint_rate2006 peakの値が2,000以上、SPECfp_rate2006 peakの値が1,450以上であること。
d 計算ノード単体あたりの主記憶容量は192 GiByte以上、メモリバンド幅は250 GB/s以上であること。
e 各ノードが備えるノード間接続のためのネットワークリンクのデータ転送速度の理論ピーク値は、1ノードあたり100 Gbps以上であること。
f 全ノード間はフルバイセクションバンド幅で接続されること。
g 各計算ノードに信頼性の高いSSDを搭載すること。計算ノード単体あたりの物理容量は500 GB以上、
読み出し・書き込み性能はメモリバンド幅の0.5%以上であること。
h 共有ファイルシステムとして10 PByte以上の信頼性の高い記憶装置を有する並列ファイルシステムを提供すること。
計算ノード群から150 GB/s以上の転送速度で読み書きが可能であること。 >>149
Xeon単独指名みたいな入札やな。
フルバイセクションはすごいけどね。でもここの成果も聞かないよねw >148の主要大学の施設は全国共同利用で、その大学の者も
他組織の研究者・学生も同じようにあらかじめ申請して使う。
使ったら報告も必要。ネットで見られるかどうかは知らないけど、
使った研究グループからの成果報告は文書で存在するよ。 Intel、最大48コアの「Cascade Lake-AP」を2019年に投入
〜Coffee Lake採用のXeon E-2100シリーズも発売
佐藤 岳大 2018年11月5日 18:03
https://pc.watch.impress.co.jp/docs/news/1151683.html
インテルはアムドのライゼンと正面から勝負に出て来た。 >>151
なおのこと、9大学に計算機センターを設置する必要性なんてないよな。
統合・廃止した方がいいな。 日本は京、ポスト京クラスは10年に一度しか予算取れないら、10年間の
後半になると、主要施設の合計キャパシティを使い切っても苦しいと思う。 >>153
分かれていることのメリットは、各施設で更新時期がずれるから
いつでもどこかが最新に近いことかな。京、ポスト京のような
最大施設は10年くらい更新できないから、新しいものに
アクセスできる施設もどこかにある方がいいんじゃないか >>150
>フルバイセクションはすごいけどね。
ノード内のメモリバンド幅が250 GB/s(以上)なのと比べると、ノード間接続は極めて貧弱でノードあたり
100 Gbps(以上)だから、そのフルバイセクションなんてたいしたことはない
いまどきトーラスとかメッシュとか論外だから、そういうのを防ぐための当たり前の要求、データセンター
では当たり前だけどスパコン業界は遅れてるからね >>155
ますます9大学に設置する必要性が見当たらないよね
原子力発電所の近くに計算機センターまとめて、5種類運営、毎年一つリプレイスすればいいね >148のうち今SXを運用している拠点の更新予定時期
阪大 2019年 東北大 2020年 海洋研究開発機構 2021年
これらの拠点が失陥したらSXのイメージは大きく変わる。
SX-Aurora TSUBASAの仕様からは、大規模な拠点を他に譲るものかという
強い意志は感じられない。新たな小規模導入を優先しているように見える。 >>151
>>153
>>157
人工知能データマイニング機械学習AIビッグデータ解析など、
研究項目盛沢山で極めて有望な革新分野だからな >>159
大学センターって不要だと思うわ。どうせ開発するのはベンダーでしょ。
IBMのPOWER9いいよね。 >>161
大学のセンターのアプリ開発で成功した例があるのか?
開発・保守から入札の仕様に至るまで、ベンダーに丸投げだろwww ■ このスレッドは過去ログ倉庫に格納されています