CPUアーキテクチャについて語れ 48
レス数が900を超えています。1000を超えると表示できなくなるよ。
東大大型計算機センターにいたけど
なんか聞きたいことある? >>816
最小単位ユニットでも、演算能力は
同時期の市販PCの上位モデルより
上? ヤフオクで古いSparcマシン買って、解析系のソフトでも入れれば
自宅でスパコンだな >>811
じゃFreeBSDかNetBSD入れよう やっぱりAppleみたいにソフトとハードの両方を提供してる
ところで無いとARMをPCで使うのは厳しそう
Huaweiのサーバー向け7nm Armプロセッサ「Kunpeng 920」の実力
https://pc.watch.impress.co.jp/docs/news/yajiuma/1264689.html
>中国著名ストリーマー“二斤自制”さんは3日、Huaweiの
>サーバー向けのArmプロセッサ「Kunpeng 920」を
>搭載したデスクトップPCのレビューをYouTubeに投稿した。
>今回二斤自制さんが入手したのは、8コアの「Kunpeng 920 2249K」
>を搭載したデスクトップPC。“某ミステリアスなプラットフォーム”に
>おいて7,500人民元で購入したという。
> CPUとマザーボードのほかに、標準でKingston製DDR4-2666
>メモリを16GB、256GBのSSD、200Wの電源、Radeon RX 550
>ビデオカードなどを搭載していた。OSはLinuxをベースとした「UOS」
>動画ではBlenderを使用してベンチマークを計測してみたが、8コア
>ということもありスコアはあまり振るわなかった。一方、一般的な
>ネットサーフィンや文書作成は問題なく行なえたとしている。
> 問題は、UOS自体がアクティベーションされておらず、アプリ
>ストアからのインストールに別途800人民元を支払う必要が
>あったこと。しかも支払ったとしても、使えるソフトウェアが
>非常に少ない。また、自身でパッケージを入れるにしても、
>ARM x64版に対応したパッケージが非常に限られているため、
>使いみちはほぼなかったという。 >>817
圧倒的に上
>>821
10000000くらい >>822
>圧倒的に上
もしかしてSXとかVPPみたいなベクトル系
のスパコン?
もしそれだと、PCがPeniumU/Vの
P6コアの時代になるかな >>822
案外少ないね ワイの2/3位やね
ちな中小役員 >>813
ナゾのキャラ設定なんだ、そこはアンタッチャブルで設定の由縁とかは中の人のマジレスは期待できない。
恐らくPC-VANとかの頃からこんな感じだろう。
知らんけど。 いや、科学技術計算ではかなわんがAVXのようなマルチメディア向け
命令セットを用いて、動画エンコ、レイトレレンダリングで
SXやVPPのベクトルCPUと勝負すればx86でも勝ち目はあるはず >>823
正解
>>824
今は普通のサラリーマンだから >>827
ベクトル系CPUでも 普通のCPUのように命令セットは
あるんだよね? >>828
そりゃそうよ
富岳の設計がまさにそれだ 自分は日本ペニス協会の副会長を任されてるっすが
年収5000万円を超えてるす(笑)
これでもコロナの影響で半分以下に下がったす アセンブラを使う人にはavxとかあんまり意味はない。
1階平家を高層ビルにしてみました的に無節操な設計だからな。
拡張命令は後付け故に命令長が長すぎて、あっという間にショートブランチが使えなくなるし、同じ演算を繰り返す事にしか傾注してないから、高速アルゴリズムを簡単に導入することができない。
dctなど行列演算の高速アルゴリズムは行を入れ替えて同じ演算をまとめることが多いのだけど、どうしても残りの複数の異なる演算を同時に行う必要が出てくる。そうしないと、高速化にならず遅くなるから。
ソフバン出版から出ていたmmx活用ハンドブックだったかには、インテル日本の人がコメントを書いていて、インテルは本当に便利な命令は搭載しないと言っていた。
便利な命令を搭載することはベンチマークソフトをハード化するようなものだから、株価対策的にやらないとのこと。 >>831
SIMDを効率的に使うには
アセンブラかアセンブラもどきしか
記述方法がないだろ >>833
>>831 が意味不明なのわ同意するすけど intel の拡張命令わ MKL 経由で性能を享受してるヒトが多いのでわ?
特に大学の計算機センターなんかわ必ず intel コンパイラのライセンス買ってるし。。。 伝統的なベクトル機がダメだったのは、
CPUの演算性能は、メモリ帯域を満たす分しかなくていいっていう考え方だったので、
メインメモリ帯域がボトルネックになる計算以外でのコスパが非常に悪かった
またメモリ帯域がGPGPUに一気に追い付かれる/追い抜かれた >>832
ベクトルそのものでしょ
制御にARM64使ってるな >>836
知ったかご苦労様すけど、レジスタ幅 512-bit わベクトルでなく SIMD に分類されるす
https://blog.global.fujitsu.com/jp/2016-08-23/01/
ーーー
また、UNIXプロセッサは、スパコンの技術であるSIMD(Single Instruction Multiple Data)を採用し、1度に複数のデータの演算処理を実行させることができます。
ーーー >>837
はぁ
無知は嫌だねぇ
もっと調べてみなよ富岳 例外はあれどSIMDはベクトルを処理するのに使われる
SVEなんて名前からしてそうだ
あとはベクトル機の定義論争にしかならん。
>>828
昔のベクトル機だとワンチップ化されてなかった可能性がある。
現代人から見ると制御プロセッサがCPUで演算プロセッサがコプロセッサになり、
演算プロセッサの命令セットは普通のCPUのような命令セットではないかもしれない。
(当時の仕様書見たことのある人なんてスレ降臨しないよね?) >>839
>例外はあれどSIMDはベクトルを処理するのに使われる
その観点でわ現代の PC 向けプロセッサわ全てベクトル機と呼べるので 富岳を特別視するヒトわ、やはりおバカさんという結論に。。。
>昔のベクトル機だとワンチップ化されてなかった可能性がある。
8087 わ 8086 とわ別チップコプロセッサすけど、その命令わ x86 ISA の一部す。「命令」がメモリ上に記録されたコードの羅列に過ぎない以上、デコーダーが解釈するのが ISA なのであってハードウェアの詳細わ関係無いす。 >>826
いつを想定しているのかわからんが、
1991年だとSXは制御プロセッサにUP4800を使っていたと書かれていて
これのCPUは最低ラインナップでもMIPSの33MHzで、1991年のPC-98はx86の16MHzから20MHzだろう。 1991年のPC-98はV30だったかもしれない
ツッコミ入る前に言っておく >>840 の補足すけど、逆に最新のプロセッサであっても GPU 内蔵品わ非公開の全く異なる命令体系を持つ演算ユニットの集合体す。
結局昔と今の違いわ単なる半導体の集積度に過ぎないす。過去に何か特別なコトがあったかの様に語るのわ、狭い視点でわ無いすかね? >>843
そのとおりで現代も昔も似たような事で特別な事はない。
でも質問者が現代と昔のちょっとの差を意図して質問している可能性はあるので
真意を聞いてから答えを出すべき。
富岳がベクトルという説に対しては自分も支持しない。
現在存続しているISAがベクトル機能を取り込んだというのが正しい。 >>844
>でも質問者が現代と昔のちょっとの差を意図して質問している可能性はあるので
ここから先の話わ異論がある方がいるかもしれないすけど、牧野教授あたりわベクトルと SIMD の間に、その成り立ちに起因する本質的な違いがあると述べているす。
「スーパーコンピューティングの将来」
7. SSE の限界(2005/12/23)
ーーー
ソフトウェアの側から見るなら、 Cray-1 のベクトルレジスタが 64 語だった ものが 2 語になった、と見ることもできなくはありません。しかし、ハード ウェアの実装は根本的に違います。
ベクトル計算機では長いベクトルレジスタ に対して演算器は(もっとも単純な形では)1つだったのに対して、SSE/SSE2 で は基本的には 4/2 個の演算器が並列に動くからです。
この違いは、なんのために SSE 命令なりベクトル命令なりを導入したか、と いう目的の違いによっています。
既に見たように、ベクトル命令は比較的簡単 なハードウェアで1つの演算器を有効に使うために導入された、といってよい と思いますが、 SSE はありあまるハードウェアを少しは演算にも使おうとい うものです。
ーーー
NGワード関係で直リンできないコトをお詫びするす >>845
こちらは一般論的な話をしているのでなんでそういうレスになるのかよくわからんが、
ググって牧野先生の記事を見て復習した。 牧野教授の「スーパーコンピューティングの将来」の最新記事を読むと、A64fx ってメモリわ超高速なのに演算器とキャッシュが遅いと言う妙な設計なんすね。。。
姫野ベンチを設計時に無理強いするとこうなるすか?
147. 某マシン上の差分ステンシル計算 (2020/6/6)
ーーー
SIMD 幅は広く、レジスタ数が少なく、演算器レイテンシが大き く、L1 はあまり大きくなく、バンド幅もL2はそこそこあるがレイテンシが 大きくてバンド幅も小さいマシンを考えてみます。もちろん、具体的な 対象は A64fx です。
「京」も同様な問題があったのですが、「陽解法規則格 子流体でピーク性能の 10ー15%しかでない」ということについてです。
ーーー
NGワードで直リンできないコトをお詫びするす そういやMACオタちゃんディルドとかバイブレータとか持ってんのかね。。?
これいいよ!て奴おせーて。 A64FXってARMv-8+SVE512の多コア+HBM2
ってことは
構造的にXeon phi(Knights landing/mill)によく似てるって解釈でOK? >>850
俺はそれに近い解釈しているが、それだけで割り切れるほど簡単でもないらしい。
全部富士通謹製ARMコアなのだが、1チップ52コアは4コアが制御コア48コアが演算コアとして働くそうで。 >>850
Xeon Phi わ small-core + many-core + SMT4 で SUN Niagara や GPU の様にもっとスループットコンピューティング寄りだと思うす >>851
>1チップ52コアは4コアが制御コア48コアが演算コア
OSの割り込みが入ると計算コアの同期に乱れが生じるのでメニーコアでわ良くある構成す
コレわBG/Qの例
https://ascii.jp/elem/000/001/012/1012242/
ーーー
これを集積したBlue Gene/Qチップの全体が下の画像だ。360mm2のダイに、合計18ものプロセシングユニット(A2+QXP)を集約しており、このうち16個が計算、1個が通信管理などOSの作業に割り当てられている。
ーーー >>850
12+1 コアをクロスバーでつないで1 CMG、
4 CMGとIOを目の字の変則リングバスで接続、だからOKではなくNGなのでは Tofuは、6本足の単純3Dトーラスではなく10本足に強化
A64FXはCMG間を単純リングバスではなく目の字に強化
シンプルなものをそのままでは足かせになりかねない、かといって
理想を追う別方式は回路規模と性能のバランスが悪い、という判断で
シンプルなものを小強化することを選んでるって感じだな >>839
ニュー速板の富岳スレでVPP500の解体を
やった人がいるんだが。
(本人は今でもそれのCPUボードを1枚所持)
何十枚もの基板が組み合わさって,1枚の
ボードとして構成されてるような構造らしい アメリカのA64FXつかうコンピュータは、豆腐使わずにInifinibandつかうんでしょ?
もったいないよな >>851
>>853
ありがとう!
なるほど
A64FXは規模はちがうけどCellのPPE1個+SPE8個みたいなもんか
PS3で一時SONY死にかけたなあ >>858
CELL BE も SPE 数を増やした将来版でわ PPE も増えるコトになっていたす
https://www.itmedia.co.jp/news/spv/0911/25/news030.html
ーーー
次世代版CELL「PowerXCell 32i」を開発中止すると語っていた。このプロセッサは、2個のPPE(PowerPC Processor Element)と32個のSPE(Synergistic Processing Elements)を搭載する計画だった。
ーーー >>851
制御コアと演算コアで役割分担をしているけれど物理的には全く同じコアらしいぞ >>855
インタコネクトの強化わ正統進化だった様す。
コレ「京」派生システム唯一の海外案件である台湾気象局の報告書すけど、FX10 (SPARC64 VIIIfx) と FX100 (SPARC64 XIfx) を比較してるす
http://photino.cwb.gov.tw/rdcweb/lib/cd/cd03cons/compilation/2018/107M08_p65.pdf
ーーー
在模式運行效能測試方面,本年度以 C768 解析度,垂直層數 63 層,積分 步長為 225 秒為基準分別在氣象局 FUJITSU FX10 及 FX100 上進行測試,模式 在積分中計算速率是穩定的,
在 FX10 上計算核心數目揄チ 2 倍對於計算速率大 致上可揄チ 1.8~1.9 倍,以 1536 顆核心積分 5 天花費時間約為 6.87 小時;
而在 FX100 上以 1536 顆核心積分 5 天花費時間約為 2.44 小時,FX100 大致上比 FX10 計算速率快上 3 倍,但在 FX100 上使用超過 768 顆核心之後,揄チ 2 倍計算核 心數目,計算速率揄チ約 1.64 倍。
ーーー
要するに同一コア数でわ FX100 の方が3倍早いが、スケーラビリティに注目すると FX10 でわコア数と性能が比例していたのに、FX100 でわ768コア以上の領域でコア数を2倍に増やしても性能わ1.64倍しか向上しなかったとあるす。(図2.8、図2.9参照)
シュリンクしてコア数/性能が上がってもインタコネクトが限界だった様で。。。
なおSPARC64 VIIIfx と XIfx の比較わコレす
https://jp.fujitsu.com/platform/server/advantages/sparc64processor/ >>861 の訂正す。PRIMEHPC FX10 のプロセッサわ 京の次世代 SPARC64 IVfx す
SPARC64 VIIIfx わ京コンピュータそのものすね >>857
>>487 にも書いたすけど現段階で Tofu-D のドライバ/ネットワーク・スタックが普通の Linux でわ動かせない様に見えるす
富士通純正の FX700 すら OS が RHEL なので Infiniband 搭載す >>864
下記のプレゼンのp.20あたりが参考になるかと。
http://www.ipsj.or.jp/sig/os/index.php?plugin=attach&refer=ComSys2019&openfile=fugaku_system_software.pdf
富岳専用アプリわ直接 Linux システムコールを呼ばないす >>487 のリンク先の安藤壽茂氏の記事によると
ーーー
このため、理研はOS Jitterの小さいMcKernelという軽量OSを開発し、計算コアではMcKernelを使っている。一方、IO処理などの割り込みが必須な処理もあるので、こちらはアシスタントコアでLinuxを動かして実行する。
マネジメントソフトウェアやファイルシステムの開発は富士通が分担している。プログラム開発環境は並列プログラミング言語のXcalableMPとMPI通信用のMPICHは理研が開発しており、残りの部分は富士通が開発している。
ーーー
Tofu-D 対応の MPI わ McKernel 対応アプリ上でしか動かない感じす >>865
それ見てもIOの処理はLinuxがやっているように書いてあるが >>867
>>866 を素直に読むと、Linux kernel をアシスタントコアでしか動かさない特殊なスケジューリング機能を持つ専用 BIOS/Firmware が動いている様に見えるす
一方で McKernel わ A64fx 専用機能のドライバを含んでおり、アシスタントコアやら Tofu-D やらのドライバはこっちにしか無い。。。というのが私の推測す mckernelってこれだぞ
https://github.com/RIKEN-SysSoft/mckernel
そもそも計算に集中させるためにmckernelを使っているのになんで雑務までmckernelがやっていると思うのか >>869
MPI 等わレイテンシ勝負だからす
ハードウェアがどれだけ高速でも余計なソフトウェア・レイヤを経由すると無意味になるのわ RAM ディスクなどを使った経験があれば体感してるかと。。。 このデマクソコテとやり取りしても無駄ですよ
NG推奨です
テンプレにもだんごとか言う奴とコイツはNGって書いておいて欲しい
じゃなきゃワッチョイつけてくれ 初心者の方だと、エネマグラのAdorimeあたりがいいと思うす
いずれにしても長時間の慣れが必要す
私わ逝くまでに1年はかかったす(笑) メインフレームなんかだとコアごとに別OS動かしたりできるので、
その技術の応用? Apple Siriconに、(もしくはその次世代品に)x86/x86-64トランスレータ支援用のロジックが入っているってことはないですかね?難しいかな?トランスメタがやってたような感じのに似てる感じで Appleの本性を思い出せ
結局のところCPUパワーだ
Intelは消費電力高くなってパワー出せなくなったからAppleシリコンに移るのだ
トランスレーションなどにパワーは割かないだろう 最近のSoCはダークシリコンの問題もあるし。専用ブロックがドンドン増えている気がする。
シリコンの面積をトランスレータ支援には割かないだろうという推測も妥当だと思う。
しかしトランスレータ支援にシリコン割くことでx8664がかなり速くトランスコードできたりエミュレーションパフォーマンスが上がったりするなら互換性のためにやる意味無くはないんじゃないかともと思うけど、確かにAppleだもんな AMDは電力管理がいまだにびみょい
Appleの方がそこは強そう
Arm移行を決めたときはまだZen出るか出ないかくらいなのもあると思う >>879
x86/x64用 をRosetta2でA12Zを使ってエミュらせたら
Mac OSやアプリがグリグリ動いてしまう現実
Appleの開発チームは最初試しにやってみたら
噂通りで
結構といけるやん!
ってニヤニヤが止まらなかったろうな >>881
というかその必要が薄いって方が妥当かな
ARMの牙城に切り込めるだけの、SWがない
HWだけあったってしょうがねぇからな
どっかでシフトするにしてももうちっと冴えた方法だろう Adobe「他社がARM化についていけず脱落し、うちのシェアがさらに上がるぜ」 みんな忘れてるけど、ARM版Macの一番の売りは
iPhone、iPadのゲームがMacでできるようになることだよ
所詮、ほとんどの個人ユーザのパソコン利用目的なんてゲームだよ
クリエイターなんてほんの一部 クリエイターご用達の道具を持ってる人間はクリエイターより多い >>887
スマホのゲームをPCでやろうという人は
めったに居ないんじゃないか? スマホゲーは増えるだろうけどSteamとかにあるPCゲーは撤退が加速しそう 既存のソフトが駄目になる上に今後サポートしないソフトが続出しそう >>885
もしそれが訴訟になるならRosetta2だってVMwareだって訴訟になってしまう。 >>887
アップル製品のユーザーってゲームに
興味なさそうなんだけど
むしろ、お洒落イメージで買ってる
「意識高い系オタク」で、ゲーマー
なオタクとは正反対かと いや、寧ろ昔からフラッシュゲーのイメージががが。ゴリゴリのFPSとかちょっと想像つかない。 >>896
そこの設立にかかわった、Boris Babaian
というロシア人CPU設計者が開発した
エルブルスE2Kがロシア本国で製品化
されたらしいぞ
IA64同様のVILWだけどIA64より効率が
良いらしい
https://pc.watch.impress.co.jp/docs/article/991119/kaigai01.htm
1999年のトランメタとBoris Babaian
に関する記事
当の本人は旧ソ連時代に軍や政府向けの
コンピュータの研究をしてた模様 ゲーミングPCとiMacとLinuxミニマシン持ちだがMacでゲームはやらんな >>900
それItanium比で電力6割性能倍以上とぶちあげるも
資金集められなくて頓挫しなかったか >>902
https://www.anandtech.com/Show/Index/15823?cPage=6&all=False&sort=0&page=1&slug=russias-elbrus-a8cb-microarchitecture-8core-vliw-on-tsmc-28nm
アナンドテックの記事
どうやら製品化はできたらしい ARM Mac移行でPCゲーは減りそうだが、そこは別に次世代CS機に任せればよい
PS5やXb sXはGPUばかり注目されるがZen 2 8コア
前々世代・前世代のCS機と比べて非常に強力なCPUになった
9900kのターボには及ばないがその定格クロック並みには動く
ARM MacならiPhone/iPad専用ゲームをiPad pro以上の性能で
楽しめるのも利点になりそう >>904
ARM-MACが出るとPCゲーが減る理由は何?
今のMACはWin機同様にx86だけどPCゲーム
でのポジションは低いから、影響あるとか
思えん。 mac対応ゲーが余計少なくなるだろうというだけでは? 複アカ出来るならともかく紐付け変わらんかったら
わざわざiPhoneやiPadでやってるゲームをMacでやろうとか考えんと思う androidと違って現行機つかってれば設定落とさずに動作するもんな n社さんがその辺はからんでくるのでは?
米国のn社なのか日本のn社なのかといえば、どっちが主導なのかわからんけど。 日本のN社がJoy Conスマホゲー向けに解放すればあり得るかもしれんが
それはないと思うな まぁ、Macユーザーはツベの広告に出てくる棒を引っ張ってオッサンが燃えたり感電するようなゲームやってりゃ自由分だろ 棒を入れられてオッサンが悶えるゲームわやってみたいす >>900
>IA64同様のVILWだけどIA64より効率が
Babayan 教授の Elbrus-3 わ EPIC 的アイデアで VLIW 幅が変わってもバイナリ互換性保つことができる最初のプロセッサで、むしろ Itanium の先祖す。
https://en.wikipedia.org/wiki/Elbrus_(computer)
知財的な理由もあってか、後に Babayan 教授わ Intel のフェローになっているす
https://newsroom.intel.com/news-releases/intel-recognizes-technical-achievement-with-appointment-of-new-fellows-and-senior-fellows/ レス数が900を超えています。1000を超えると表示できなくなるよ。