CPUアーキテクチャについて語れ 44
■ このスレッドは過去ログ倉庫に格納されています
テスラvsエジソン?希代の発明家がかつて繰り広げた"電流戦争"。 その結果、コンセントまでは交流になり、デバイスの手前で電源アダプタなどで直流に変換されている。これまで陽の目を見なかった直流配電だが、近年その必要性が増しつつあると言うのだ。 グループウェアを提供するサイボウズは、来年1月から企業経営者を対象にした経営塾事業を始める。 1月から3月までに1日8時間の講座を6回実施。定員は20社で、価格は1社につき200万円だ。 サイボウズの青野慶久社長など同社の経営陣が講師を務める。「6日間で200万円」という経営塾にはどんな顧客が集まるのか。 青野慶久社長に聞いた――。 ■「いい話」を聞いただけでは組織は変わらない 「なぜグループウェアの会社が、 レイトレのハードウェアアクセラレーションか。 10年……いや、20年遅いな >>209 >Turingは12nmプロセスでダイは754平方mm。トランジスタは186億。 >動作周波数のブーストは約1.7GHz >RTX 5000 16GB/32GB 6GigaRays/sec $2,300 >RTX 6000 24GB/48GB 10GigaRays/sec $6,300 >RTX 8000 48GB/96GB 10GigaRays/sec $10,000 パーソナルは遠いな。ゲーセン筐体でももっと安いのでは。 テーマパークのアトラクションならいけるか? >212 はQuadro税なだけでGeForceの価格帯でも出せるのか。 そういえばGP102のTITAN Xp を20万円、Quadro P6000を65万円で売ってるな nvidiaのgeforce 2080/2080TiにNvlink積んでくるみたいね 従来のSLI端子のかわりにnvlink このnvlinkは、SLIでGPU用途にしか使えないのか、 それともサーバ用GPUみたいにGPGPUのインターコネクトとしても使えるのかは知らん 2080ti のマイニングレートにしか興味がない、レイトレーシングとかどうでもいい、2080ti は掘れるのか? SKL-Xの発表でもここまで会場が冷え込んだことはなかった あの場にいたみんなドン引きしててワロタ、ワロタ…… プレゼンの仕方が悪い 何が出てくるのかはバレバレ なんだからさっさと発表して ゲーム紹介に移るべきだった https://wccftech.com/nvidia-geforce-rtx-2080-ti-performance-preview-4k-100-fps/ NVIDIA GeForce RTX 2080 Ti Performance Previewed ? Delivers Well Over 100 FPS at 4K Resolution and Ultra Settings in AAA Games, Ray Tracing Performance Detailed We have multiple reports on the performance of the new cards with RTX enabled and the game ran at around 50-60 FPS on average on a single GPU. No resolution or settings are mentioned but other tech pubs are mentioning that the demo was running at 1080p resolution and performance isn’t that optimized yet. 富士通、スパコン「京」の後継機用ArmベースCPU「A64FX」の仕様を発表 https://pc.watch.impress.co.jp/docs/news/1139081.html https://www.anandtech.com/show/13258/hot-chips-2018-fujitsu-afx64-arm-core-live-blog 製造は7nmで、富士通もHBM2を採用 4スタックだと容量が足りないのではという気もする 13コアをXbarで纏めたCore Memory Groupを4つリングバスで繋いでる それぞれのCMGにHBM2が一つ繋がっていてリングバスを使わずともアクセス可能みたいね トランジスタ数がめっちゃ少ないな 7nmで87億Trってダイサイズが200mm2を下回るんじゃないか? Tr数表記はFabどころかメーカー毎に基準が違うとあれほど >>226 最初からHBM2だったわけじゃなく、途中でHBM2に変更したんでしょ? たぶん最初はHMCの予定だったのでは? HMCの先行きが不透明なこと、ライバルメーカーが高性能なHBM2を使ってきてること、 HBM2の実装技術が進化して少量生産品でも比較的安価になったのとかが関係あると思う HMCガー豪語してた◎がついたバカが消えて久しいな 結局いまいち、広まらんかったな MCDRAMにしてたwave computingも次世代はHBMいうとるし >>233 コストは元からHMCのほうが高かったよ 生産性・拡張性ではHMCが有利だったけど 結局は、高バンド通信に耐えられるM/Bは高価にならざるをえなかったみたい Prodigyとか聞いたことなかったわ、なんだこれ post-K以外にも今度こそ色々売るつもりなのかな >>242 ・汎用CPUとしてはトップレベルの幅を持つ 512-bit SIMD レジスタ ・流行のディープラーニング AI 向けに8-bit 整数までサポートしてる SIMD 命令セット ・オンチップでノード間ネットワーク内蔵 ・HBM2対応 ・ARM v8 準拠 設計時期が良かったのか現代のハイパフォーマンス CPU に望まれている機能がてんこ盛りになっているす。 米中の貿易戦争も追い風になって売り方さえ間違えなければ成功わ望めるかと。 コアクラスタの単位である CMG 1-2個の A64FX Jr. 的なものを早期にリリースできることを期待するす >>244 汎用CPUっていっても、HPC用の専用の命令・レジスタつかわないとパフォーマンス出せないんだから すでに汎用とはいいがたいだろ 標準的なAArch64じゃないんだし >>245 >汎用CPUっていっても、HPC用の専用の命令・レジスタつかわないとパフォーマンス出せないんだから それは AVX(2 or 512) でも同じことかと。市場に出回るコンパイラの性能次第す ただレガシーコードが存在しないのは有利だし、科学技術計算ソフトも自分でアルゴリズムを考えるより誰かが最適化したバイナリを Python 経由で使うのが普通になって来たというのも追い風になるかもしれないす A64FXをPCI-Eアクセラレータボードにして研究者に配ろう レガシーコードが存在しない、とは言うけど なんだかんだ言って、今ある他機種向けに書かれた奴を移植するトコからだろ〜 バイナリで丹念にチューニングされたアプリって 正直、今はどのくらい利用されてるのかねぇ… ベクタ特化型で整数演算性能が低いもののコア数減らしてどうする。 >>250 GPUわ全く同じやり方で製品ラインナップを構成しているす >>249 >バイナリで丹念にチューニングされたアプリって 典型的なレガシーバイナリの問題わ用意されたアーキテクチャレジスタ数すら使い切らないというモノがあるす。 シリーズ最初のモデルから潤沢なレジスタ数があると言うことで未来へ向けて良いスタートを切ることができるのではないすかね A64FX のをスケールダウンしたスピンオフ版について懸念があるとすれば HBM2 の仕様上の上限が 8GB/パッケージ である為、CMG あたりのメモリも 8GB に制限されてしまうことす。 仮に NEC の SX-Aurora TSUBASA の様にアクセラレータカードとして売るにしても、8GBではカードあたりのメモリ容量が少なすぎて応用範囲が狭くなり、かつて HBM1 VRAM 搭載の Radeon のような失敗が予想されるす。 ちなみに TSUBASA の “Vector Engine” カードのメモリ容量わ HBM2 メモリを6個搭載して 24~48GB す。 スケールダウンして売るには GPU 同様に GDDR 版も用意する必要がありそうすけど、折角の汎用CPUすからカード売りももったいない様な… 他のパターンとしては CMG 4つのままで一部のコアを殺したバージョンを廉価版として売る方法もあるかと思うすけど、ダイサイズの情報がないので intel や AMD に対して競争力があるほど低価格化できるか謎す。 どうせ普及できるか否かわ価格で決まるすから、カードあたりの価格を GPU 程度にして、DIMM を増設する如く計算に必要なメモリ容量分だけ CPU と HBM を載せたカードをマザーボードに挿して使うというのわ如何すかね? 汎用CPUなので 1 個でも n 個でも同じ様に起動できるなら GPU 等のアクセラレータに対するアドバンテージになる様な気もするす。 富士通は、post-K用に専用に開発されたコードだけじゃなく、 OpenCLコードも、それなりに動かせるようにしたほうがいい OpenCLコードが小改良でそれなりに動けば、 使えるソフト資産が一気に増える >>256 汎用 CPU なので MPI と OpenMP で十分でわ? こちらの方がアクセラレータより歴史もあるしコード資産も多いと思うす。 PCI-Eボードにする場合はTOFUを外に引き出せるようにして超高速ネットワークカードの機能も持たせれば付加価値が上がりそう >>246 >誰かが最適化したバイナリを Python 経由で使うのが普通になって来た そうなんだ? 何がどうなったら「普通」? ところで Post-K チップの仕様が明らかになってみると、アンコア部分の仕様わ昨年発表されたディープラーニング用チップ DLU と同じすね。 http://www.fujitsu.com/global/Images/deep-learning-unit.pdf 富士通がスパコン開発を単なる公共事業として扱わず、ハイエンドからローエンドまでカバーする共通アーキテクチャとして普及させる戦略を立てていることを期待したいす >>260 >そうなんだ? 何がどうなったら「普通」? OpenFOAM や LAMMPS, Quantum Espresso, 等々、有名どころの科学技術計算ソフトの多くが python から制御できる API をサポートするようになってきました TOFU に関してわ SPARC64 XIfx に搭載された第2世代の仕様より改良されているらしいすけど、Hot Chips のプレゼンには詳細が無いす。 メモリのコヒーレンシがサポートされたという話がないのであれば TOFU 越しの SMP わダメで CMG 間の接続に使われているレングバス相当のインタフェースを外部に出さないとソケット/チップ間の SMP わ不可能なんすかね? 他ノードとハードウェアでメモリのコヒーレントなんてやったら、処理速度・ワッパが大幅に落ちて使い物にならなくなる コヒーレントするのに必要なトランジスタ・電力・無駄な帯域がアホみたいに必要 むしろコヒーレントしないことによって性能が上がるんだよ どうしてもコヒーレントが必要な処理は、それ用のライブラリでも用意して、 アプリからそれを使ってもらえばいい SPAR64 VIIIfx (58W)を88128個の京は12.7MW、1CPUあたり144W post-K は30〜40MWの予定 1EFLOPSには2.7TFLOPSだと37万個必要 京と同様にsystemがCPU Wの2.5倍程度消費するとしたら CPU Wを32〜43W(system 81〜108W)程度におさめれば37万個使える たぶん無理だな。1EFLOPSと言わなくなってるし37万より少ないのだろう おや?37万に近いのかな。もしラック数が京と同じ864なら331776ノードになるな。 2.7TFLOPSで単純計算だと約0.896 EFLOPSか > 384 nodes/rack http://www.fujitsu.com/global/about/resources/news/press-releases/2018/0621-01.html >>264 バスがメモリコヒーレンシをサポートすることと、ノード間でメモリコヒーレンシを維持する話わ別物す。 例えば IBM POWER などはオンダイのインタコネクトとチップ間のインタコネクトに同じプロトコルを使い、ダイ内部のバスはリンク数が多く動作クロックも高いという様な使い方をしているす。 物理インターフェースわ共通で、ノード内わ高速でメモリコヒーレンシを保ち、ノード間は低速でコヒーレンス無しにすればシステム設計の自由度わ上がるかと 331776ノード30〜40MWならCPU W 36〜48W(system 90〜120W)。 倍率は2.5倍より小さいかもしれないし、sysytem 120Wならできるか >>266 Post-K わ Linpack でエクサフロップスを達成するのではなく、現世代のスパコンと比較してエクサ相当のアプリケーション性能を出すものであるとのことす https://news.mynavi.jp/article/exascale-2/ >>259 TOFUの場合、何が嬉しいと言っても高価なスイッチ不要なところす。 Omni-Path や Infiniband EDR ときたら… >>267 いまはダイ内でさえコヒーレント取らない時代だよ コヒーレントが必要な時だけ専用の命令使ったり、 コヒーレント用のシステムコールやらライブラリコールしたりして、なんとかする時代 コヒーレントとらないから高性能化してるのに、いまさら逆行するわけないでしょ? >>271 >いまはダイ内でさえコヒーレント取らない時代だよ 神居太湖之光 やアクセラレータなど HPC 専用製品ならともかく、汎用プロセッサでそれわ許されないかと。最適化云々と関係なく世間一般のアプリが再コンパイルしただけでわ動かないという事態に陥るすから 実際に A64FX のオンチップ・リングバスわ異なる CMG に直結された HBM を SMP で使えるように 115GB/s × 2 の帯域を持つす。 --- - Four CMGs keep cache coherency by ccNUMA with on-chip directory ―- 48Vから1Vに直接変換、次世代電源システム向け製品で際立つ存在感 ―― Vicor http://eetimes.jp/ee/articles/1808/21/news009.html PEZY-SC2のパッケージにも載ってる降圧モジュールは SM-ChiPというパッケージ技術らしい。 >>267 に書いた話題の補足す。 A64FX と同じサーバーCPUセッションで IBM が次期 POWER9 システムについて語っていたとのことす。 https://www.hpcwire.com/2018/08/23/ibm-at-hot-chips-whats-next-for-power/ この中で 25GT/s の外部高速インターフェース “PowerAXON” を、 - モジュール間 SMP - GPU接続 (NVLINK2) - アクセラレータ接続 (OpenCAPI) に共用する技術を中心に発表が行われたとのこと。 将来的にわメモリバッファとの接続にも同技術を用い、バッファチップを変えることで異なるメモリの種類に対応するとのこと。アクセスレイテンシわ 5ns 程度のペナルティで済む見通しとのことす。 件の PowerAXON 接続のメモリバッファとDRAMを搭載したメモリモジュールわ JEDEC で OpenCAPI DIMM として標準化を図るとのことす。 RDRAM の再来すか… なお POWER10 わ 2010 年以降に登場で、32GT/s と 50GT/s の2種類?の新型 PowerAXON を搭載して DDR5 メモリ(+ 対応メモリバッファ) で最大 435GB/s を越えるメモリ帯域を達成する予定だそうす プレゼンの写真わ anandtech の方が充実しているので、こちらもどうぞ。 https://www.anandtech.com/show/13257/hot-chips-2018-ibm-power9-scale-up-cpu-live-blog ポスト京は1エクサFlopsを目指してるのに A64FXはSPARC64VIIIfxと比べてピーク性能で21倍くらい このばまだと京の5倍のプロセッサを搭載しないと達成できない GPUでも積むのかな? まさかA64FXを37万個も積むなんてことないよね? >>276 http://www.geocities.jp/andosprocinfo/wadai18/20180630.htm ーーー その清水氏が,Post-KのExaFlopsというのは10PFlopsと称している京コンピュータの100倍のアプリケーション性能を目指すという目標であり,HPLでは1EFlopsを達成することは難しいと述べました。 ーーー 384 nodes/rack >266 と 2.7 TFLOPS/node が判明したからあとはラック数だけだ。 384 nodes/rackは京の4倍。2.7 TFLOPSは京の約21倍。 もし京と同じ864rack なら理論最大FLOPSは約84倍 調べてもLPDDR5についての記事しか出てこないけど。 >>283 >>274 のリンク先をご覧下さい。それから >>275 で >> POWER10 わ 2010 年以降に登場で と書いたのわ 「2020年以降」のタイポす >>283 試作品は既に5月にお披露目してたよ 来年にはDCで、再来年はハイエンドからコンシューマに出るだろう あーそういうオリジナルキャラクタ設定なのでお察しください。 10年前なら分かるけど今はちゃんと文章読んで欲しかったら 読みやすい文章を心がけるべきだよね そもそも某コテハンの相方ってレベルだから間に受けない方がいいよ あれが消えてからノコノコ出て来るようになったし スルー推奨 自ら嫌われたい無視されたいと言っているも同然の コテハンなんだからそう扱ってやればいい。遠慮は不要 >>289 折角なのでここだけ回答しておくす。 >読みやすい文章を心がけるべきだよね そう言う方針もアリかと思った時期もあったすけど、5ちゃん自体の現状が閉じコンの上、プロセッサアーキテクチャに関する話題そのものが若い方の興味を惹く様な話題で無くなっている事を鑑みてこのまま行くことにしたす。 というかそこまで拘るキャラ設定の理由が気になる。 実生活は平文(?)だよね。 うう、スルーできません。 割となりきりというか、TRPG的なもの好きの壮年のエンジニアと勝手に想像。 つまり読んでもらう気は無いし読まれなくて良いという事だよな こういうネットスラングを使ったり変な文法だと 後で読み返す時に意味がわからなくなったりひどく読み辛いって話なんだけど わからん人には分からんか その前にこの御仁は好き嫌いで褒めたり貶したりするから内容も読む価値無いけど 日本語不自由とか、読む価値ないと言ってる人いるけど、 一番アーキテクチャについて語ってるから駄文でツッコミ入れてるレスよりよっぽど読んでて楽しいんだが… これすら読まない人達って、英語だと読まないタイプ? 言ってる技術的なことは正しくてもその人となりが好き・嫌いは別ってだけでしょ(団子と同じく ま、そういう細かいこと気にしてたら2chなんてできないと思うぞ こういう読んでて楽しいからって擁護する人本当に多いんだけどさ 内容も間違ってるからな appleがppc積んでた時の言動とIntel採用後にトンズラしちゃったダサさがね… 決して謝らなかったどっかのクソコテと同じ 信用がないんだから攻めて読んで頂くという姿勢がないとダメでしょ 昔からいる人はNGにしてるだろうけど知らない人は騙されるんだろうね 単純に読んでて面白いからってだけなら小説でも読んでな もし本当に興味があるならryzen発売前後の団子発言をさらって来いよ 害悪でしかないから >>300 さんも書いてる今回の GF の決定に関する Morgan 氏の記事す。 https://www.nextplatform.com/2018/08/28/the-datacenter-impact-the-globalfoundries-7-nanometer-spike/ New York 州 Malta の Fab 8 にある 7nm 向け EUV 露光施設を今年2月に見学したそうす。 液浸と EUV の二本立てで開発を進めていたものの進捗の遅れに AMD/IBM の二大顧客に逃げられた末、採算が取れない故の決断であろうと IBMも密かに代替プランは用意しているとのことで、ファブを GF に売却した後もニューヨーク州立大学に設置したナノテク施設にて GF, Samsung, TSMC, ASML, Applied Materials とプロセス開発を行なっているとのことす。 製造自体わ Samsung が第一候補、TSMC がバックアップと予測しているす 「日本語不自由かな」という言葉も十分、日本語に不自由してる件 >>303 元から先進プロセスの開発部門は手放してないからね>IBM しかし、こくなってくると自分でファブを埋められる垂直統合モデルの安定感が光るな 安定感なのか それとも ファブ稼働率上げる為の宣伝用なのか 微妙… その辺は微妙ではあるな(歩止まりに爆弾を抱えてきたのがSamsungの伝統だし) だけど、顧客が付かなかったから収益モデルを実現できませんとならないのは強みかと ルネサスも自社製品作ってきたのに先端プロセスやめちゃったし サムスンはスマホがあるうちは盤石なのか? あと軍用はIntelが再び手がけるとかになるのかね。 ニューヨークの14nm品の後は。 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.4 2024/05/19 Walang Kapalit ★ | Donguri System Team 5ちゃんねる