CPUアーキテクチャについて語れ 53
■ このスレッドは過去ログ倉庫に格納されています
!extend:checked:vvvvv:1000:512 ↑ 次のスレを立てる時に上の文字をコピーしてください 前スレ CPUアーキテクチャについて語れ 52 http://egg.5ch.net/test/read.cgi/jisaku/1623126064/ VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>97 >ってことはスレッド性能のために演算粒度を上げないようにしてるってことか? >Power系 それだからSIMDも64-128bit止まり。 時間的粒度(一つのチップ上で動かす複数スレッドを切り替えるタイミング)の話なので全然関係無いす。 下記リストから用語を見繕って検索すると情報わ見つかるので読んで妄想カキコミを減らしてくれるコトを祈るばかりす - CGMT (IBM PowerPC RS64-II “Northstar”, 等) - FGMT (Sun “Niagara”, Intel “Larrabee”, 等) - SMT (Intel HyperThreading Technology, 等) >>99 >命令が増え過ぎたら滅多に使わない命令は削って未定義命令実行例外割り込み そのやり方でわ廃止命令のオペコードが無駄になるので新命令用のオペコードを確保するために命令長がどんどん伸びていくすけど良いすか? >>102 exeヘッダとCPUID命令でバージョン相当が確認出来れば競合しないのでは? いやよく知らんが >>103 >exeヘッダとCPUID命令 未定義命令トラップわ使えないかと。 あと廃止命令だけで無く、exe ファイル内の全命令を確認/変換する必要があるので別の ISA でエミュレーションするのと変わらないのでわ? 廃止命令による命令空間汚染なんかより 継ぎ接ぎによる今の非効率な命令エンコードを気にしろよ 木を見て森を見ず 今時数ビットを気にする時代でもないし >>105 >今時数ビットを気にする時代でもないし 命令長 32-bit の制限に縛られる RISC で「数ビット」わ深刻な問題すけど。。。 >>107 命令長を変えると完全に互換性を失うので、廃止命令をエミュする理由すら無くなるす 固定長だと命令デコード数をもりもり増やせる事はARMが証明してしまった。いくらL0があるとはいえ可変長は嫌ね >>108 32bit固定長が元々が失敗だったってこと >>109 固定長はいずれ破綻する x86が固定長だったらとっくの昔になくなってる なくなってた方が良かったかもしれんが >>110 >固定長はいずれ破綻する ARM わ破綻せずにモダンな ARMv8 に移行したし、そもそも ISA ごと乗り換えても問題無いのわ Apple が証明した歴史的事実かと >>104 未定義命令トラップ誰か使っちゃってるの? 暴走防止用? あれ1命令でサブルーチンコール出来るから便利なのに。 どーせ訳わかんねーCPU買わされるんだろーからメッチャイタズラしちゃえw PCと全レジスターを全部MRAM 化wMRAM128MBをCPU内臓w ソフトを128MB以内にすればいつ電源切れても再開出来る「マイクロUPS」を実装w ついでにPS Vitaをネイィティブ実行できるようにしちゃえwファミコンとかろっぱー等よそのCPUのバイナリをウルトラ高速実行出来るよう、命令ビットテーブルをソフトで指定出来るようにしちゃえw テレビラジオ録画CPU でふぉwxbox kinnectまるまるCPUに入れて超高速人体認識w 汎用レジスター8 bit長CPUたくさんいれちゃえw windows で使ってるサービスぜんぶチップセットあたりにぜんぶ常駐ハードウェアワンチップ化してcpuかえら追い出しちゃえw >>113 >未定義命令トラップ誰か使っちゃってるの? 「exeヘッダとCPUID命令」で ISA のバージョンを判定する場合に使えないというだけす。 ただし近年の OS で未定義命令トラップによるシステムコールを使わなくなった理由わ、スーパースカラが普通になった現在のプロセッサでわ割込によるパイプラインフラッシュで動作が激遅になるからす AVXやAVX512の機能は32bit固定長じゃどう頑張っても不可能 汎用整数でも64bit CPUが32bit即値すら指定出来ないって バックエンドの効率化のためにフロントエンドの回路比率が高まって来たのに フロントエンドをわずかに効率化するために バックエンドが犠牲になるのは本末転倒 >>112 使い捨て命令セットを作りたいならどうぞご自由に 結局、ISAなんて、エコシステムをどの程度整備できるかでしかないんだから、Appleがやったように、自社とその影響範囲をすべて差し替えられると確信できたら乗り換えてもなんも問題ない 中国だって同じように、Sunwayは独自…まぁあれはalpha感があるが…のもので事足りてるんだから、そういうことだろ ていうかいつまでRISCとかCISCとか言ってんだよ今令和だぞ? >>115 >AVXやAVX512の機能は32bit固定長じゃどう頑張っても不可能 >[中略] >バックエンドが犠牲になるのは本末転倒 一つの回答わ 富士通/ARM の SVE すけど、そもそもこの手の用途わアクセラレータへ移行というのが流行す AVX512 やらで電力効率が上がるなら Aurora が Larrabee の後継チップから GPU に置き換えられるコトも無かった訳だし、当の Intel すら AMX でそっちに舵を切ったす >>117 >結局、ISAなんて、エコシステムをどの程度整備できるかでしかないんだから、Appleがやったように、自社とその影響範囲をすべて差し替えられると確信できたら乗り換えてもなんも問題ない Apple 以前に Windows ユーザーのお馴染みの GPU がソレす。 皆さん何の疑いもなく使ってるのでわ? >>114 ふーん。 命令とオペコードがぐちゃぐちゃであっちこっちの企業や個人で拡張し過ぎて収拾つかなくなってるんだね。つまりは好き勝手にオペコードを決めていいという事だよね。 互換性は動かしてみないと分からん、と.... >>120 >命令とオペコードがぐちゃぐちゃであっちこっちの企業や個人で拡張し過ぎて収拾つかなくなってるんだね。 何処をどう読んだらその結論に? AVX512ねぇ。512ビット制御たって。 そこらうろついてる汚い格好したおばちゃんがこぞって買うような物にはなんないと思うけど。 光速度測定であっちこっちで重力変異を測定出来るんならいいけど、ここらの測定はたいがいは何やってもムダ 分子微細系計測も難しい 数学研究でテイラー展開やらで精度上げて新しい成果が出るとも思えないし うーん。光の指向性分散具合の計測ってわけにもいかんし アクセラレーターへの移行って言ってもワンホップ増えるわけでしょ データ移動にコストかけてる世界でそれ本当に性能出せるの? >>125-127 ちょうど大原氏がこの辺の現状と動向についてまとめた記事があるす https://www.itmedia.co.jp/news/spv/2011/25/news055_2.html ーーー ヘテロジニアス環境の理想で言えば、CPUとGPU、NPUその他が並列に並び、1つのメモリをCache CoherencyにUnified Accessできることが望ましいし、長期的には命令セットが共通化きれればより好ましい。 ーーー Intel AMX わ正にコレを実現しているす それはワンホップ増やさないで済むようにアクセラレーターまで統合という構想だと思う。 PezyだってWarrior統合とかやってたのも同じ理由だろう。 そりゃ、メモリ空間が統合されていてデータの置き場所を意識しないでよく、かつ、どこに置かれていようと十分なレイテンシと帯域でデータにアクセスできるのなら、それは理想的なメモリシステムだわな 今のところそれに一番近いのはNVIDIAのUnified Memoryだが、とはいえPCIeの帯域で律速するわけで… その辺の問題は、NVIDIAはGraceで解決しようとしてるし、PowerであればNVLinkを内部バスに取り込むことでボトルネックを軽減しようとしている 最近って言いながら十年前の記事を上げるなよ… >>131 >最近って言いながら十年前の記事を上げるなよ… 未来から来られた方とわお見それしたす(笑) ちなみに2021年時点で IBM わスーパーコンピュータ案件が取れなくなったのでアッサリ POWER10 から NVLink を削除したす。2030年11月の情報をご存知の様すからその後の展開を講釈して頂きたいモノす IBM の言い訳わこちら https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/53864-ibm-power10-bietet-30-kerne-mit-smt8-pcie-5-0-und-ddr5.html ーーー IBM and NVIDIA initially partnered to develop NVLINK host-to-GPU attach technology to overcome performance bottlenecks caused by the insufficiency of PCIe Gen3 capabilities. While this provided substantial differentiation relative to PCIe Gen3 and Gen4, the industry accelerated the pace of PCIe development. With the advent of PCIe Gen5, both IBM and NVIDIA determined that PCIe is once again sufficient for eliminating performance bottlenecks in host-to-GPU attach. Therefore a proprietary solution such as NVLINK is no longer a strong differentiator for host-to-GPU attach, and the POWER10 processor will not exploit NVLINK for host-to-GPU attach. ーーー coherency 維持するにもコストかかるからな。 ノード外まで coherenct なシステムも昔は存在したが滅びたわけで 規模が大きくなると諦めないといけなくなるぜ その手のをAMDがやるとしたらHPC向けAPUという事になるんだろうが 報道記事も2015年あたりでぱったりだなぁ >>133 >規模が大きくなると諦めないといけなくなるぜ POWER10 の話をしているなら IBM の目論見わ、その真逆す https://www.nextplatform.com/2021/08/13/the-power-of-power10s-memory-inception-clustering/ ーーー This 2 PB can be spread over the memory of multiple systems in IBM’s memory cluster, and all of it directly accessible from a Power10 core within any one of them. ーーー IBM 的にわデータ処理をアクセラレータで行い、サーバープロセッサわアクセラレータにメモリや IO 資源を提供するハブ化すると考えている模様す >>134 >報道記事も2015年あたりでぱったりだなぁ 先日発表された HPC 向け MCM GPU もチップ間接続わ Zen のチップレット間インタコネクトと同じ Infinity Fabric す。 同 GPU と Zen 3 を採用したスーパーコンピュータ “Frontier” わ CPU-GPU 間インタコネクトにやはりメモリコヒーレンシをサポートしたInfinity Fabric を採用するとアナウンスされているす https://www.hpe.com/us/en/newsroom/press-release/2019/05/cray-to-deliver-record-setting-frontier-supercomputer-at-ornl.html ーーー The new accelerator-centric compute blades will support a 4:1 GPU to CPU ratio with high speed AMD Infinity Fabric links and coherent memory between them within the node. ーーー >>136 仰せはわかるが、APUにはならんよね インターコネクト改善でレイテンシも削れるようにできてるんだろうけど、 まあ性能が出るかモノが出てきてから考えましょう、と。 >>137 >仰せはわかるが、APUにはならんよね IBM 渡来の思想でオンダイのインタコネクトも Infinity Fabric なので一緒かと https://pc.watch.impress.co.jp/docs/column/kaigai/1053318.html ーーー Infinity Fabricは、1つにはオンダイのインターコネクトの拡張だ。しかし、その一方でソケット間もサポートする。ソケットでは、CPUとCPUの間、CPUとGPUの間、CPUと他のアクセラレータの間をInfinity Fabricで接続する。 ーーー じゃあInfinity Fabricでレイテンシ極減して性能出るのに期待するとしよう。 PezyにせよEuroProcessorにせよアクセラレーター自体は流行っている。 個人的には富岳のような構成を支持するがそういう環境ばかりが正義ではないのは理解している。 >>139 >個人的には富岳のような構成を支持するがそういう環境ばかりが正義ではないのは理解している。 富岳の A64FX もノードあたりのメモリが 32GB しか無い段階で伝統的なサーバープロセッサと言うより、NIC を統合すればアクセラレータだけでスーパーコンピュータを作れる的な思想を感じるす。。。 ところでココって妙に SIMD 推しのヒト達が多い様に感じるすけど、現在一般的なアーキテクチャで最弱の SIMD である NEON 採用の Apple Silicon が良い性能を発揮しているのをどう見ているすか? >>142 SIMD 演算ユニットの幅やら数やらサポートする数値型などわ単純にピーク性能に直結するマイクロアーキテクチャ上の問題なので、ISA の優劣とわ別かと >144 補足 SGI UV 300の高速インターコネクト技術を継承 クロスバーチップSuperdome Flex ASIC クロスバーファブリックSuperdome Flex Grid https://h50146.www5.hpe.com/doc/catalog/proliant/pdfs/jhs15139.pdf >>141 SIMDに関しては128bitの add/mul + fma * 3という演算器数に振った構成そのままの性能というイメージ。 AVX2は256bitと言ってもデスクトップ用途でリニアに性能2倍になるアプリなんてほぼ無いし >>146 エンコの話題でAVX2で1.4倍くらいになりました、ってベンチ見て 凄いと思う人としょぼいと思う人で意見割れてたな。 ビットマップの拡大縮小命令(というかサブルーチン) とかどうだろwここの高速化回路検討w ソースビットマップのアドレスとサイズ、拡大縮小率を指定すると出力先RAMにサイズ変更したビットマップを出力してくれるみたいなの。 問題は中間補正値をどうするかだけどこれも指定出来るように.... 字が小さくてよく読めない俺向けw windowsも拡大縮小率を指定出来るけどけっこー重くなるんだよな ジジババおれうれしいw >>145 おお生き延びてたのか。 知らなかった。ありがとう >>150 そうか! GPUつきのノート買えば字が読みやすくなるのか! そういやでっかいテレビ買えばいいだけじゃん。なんだぁ〜。 AVXって独立した計算装置で CPUのコアと密接に繋が無くても良いんだろ >>153 命令とレジスタ自体わ定義されてても元々 FPU わ別チップで割り込み経由で呼び出していたすから、そういう実装がありえるのわ否定しないす 性能低下が大きいので誰もやらないと思うすけど。。。 私は小数計算をたくさんやるからSIMD推し 単精度ならCUDAを使ったりもするけど 普通に庶民が手に入る範囲だと10980XEが最強 1コアでAlderLakeのPコアの倍の性能、Eコアの4倍の性能 これが18コア どの辺がウンコ? shuffle? と思ったら純粋にFlopsの話も含んでるのか >>155 >私は小数計算をたくさんやるからSIMD推し >>156 >NEONはうんこ >機能的にはAVX512が強い ところが SPECfp2017 でも Apple M1 シリーズが良い結果を出していると言う事実が。。。 https://images.anandtech.com/graphs/graph17047/117493.png Mediatek の ARMv9 SoC “Dimensity 2000” がAntutu Benchmark で 1,000,000 超えたという噂が話題す Qualcomm の Snapdragon 888 で 858,734 程度なんだとか https://www.digitaltrends.com/mobile/mediateks-upcoming-flagship-soc-appeared-antutu/ ーーー According to unverified leaks, the Dimensity 2000 will allegedly feature a Cortex-X2 core at 3.0 GHz, three Cortex-A710 cores, and four A510, similar to Qualcomm’s Snapdragon 898. ーーー NEON → SVE2 で ARM は更なる進歩を実現するすかね?果たして正しい情報なのか腐れルーマーの類なのか。。。 SkylakeX/CascadeLakeのコアの半分以下の性能 糞だよ コンシューマー系intelはHaswellから性能があがってないからねえ なんとかしてほしいねえ AVX512搭載のRocketLakeですら本来の半分の性能だし 10980XEが今時点では最強 >>163 SVE2は基本SoA前提で応用範囲が狭い 期待してない 何を測ってるのか不明なウンコベンチをさらに全部足し合わせてしまう総合スコアでは何もわからんな >>165 >[i9-]10980XEが今時点では最強 コレ、SPECint2017 と SPECfp2017 合わせて幾何平均を取った結果なので直接比較わできないすけど、それほど輝かしい結果にわ見えないす https://images.anandtech.com/graphs/graph15785/116118.png SVE2は性能出るか出ないか言うなら、NEONより向上するかというのを考えたい。 いや、特に論拠を持ってるわけじゃないけど。 >>167 それが18Cあるからってことじゃない? >>170 コア性能の比較ということで。 一応1スレッドで SPECfp2017 を測定した結果すから、turbo boost も込みす。 >>171 最初から>>157 氏は>>157 のように書いてるんだし(10980XEはAVX512が36基)、そんな話は不要でしょ。 それより、そういう前提で>>159 の下記に何か言える人は言ってあげればいいんじゃない。 >なんか良い点思いつく? ちなみに、Geekbenchには7980XE〜10980XEやW-3175XのHackintoshが沢山居るね。 そりゃ倍精度演算繰り返すような処理のピーク性能では10980EXの方が高いでしょ。MACヲタはSPECfpで計測に使われてるソフト見てない疑惑。 個人的にはさらに高性能な3970Xや3990Xだって庶民に買えるじゃんとは思うけど。 >>174 3970X以上だとAVX512固有の機能が使えず、fp性能が同等クラスの3970Xでも価格が倍近くだから>>157 氏の選択肢に入らないってことかと思った。 あと、3980X/3990Xとかだとコア性能は高くても計算内容によってはメモリ4chしかないのがネックになるかも。 >>176 それはあるかも。 そのへん本人が説明してくれればな〜 >>174 >MACヲタはSPECfpで計測に使われてるソフト見てない疑惑。 伝統的に SPECfp わオープンソースの科学技術計算用ソフトで構成されるていたす。>>168 のリストにある通り2017年版わマルチメディア系ソフトも増えて、 - 511.povray_r - 526.blender_r - 538.imagick_r あたりが単精度浮動小数点性能が効くすけど、残りの10個のサブベンチわ主として倍精度性能を求められるかと。 まぁ、>>157 やその後の話見たら、>>176 くらいのことは考慮してレスしないと話が変な方向に行きそうだね。 >>178 の補足す もっとも SPECfp わ SPEC95 の頃から『メモリ速けりゃ全部OK』的な傾向わあったすから、Apple M1 シリーズの好成績わソレが理由という可能性も考えられるす Anandtech.com わベンチ結果のページ (http://www.anandtech.com/Bench )で自前で行った SPEC CPU のサブベンチの個別結果も公開しているすから、興味のある方わ i9-10980XE とM1 を比較して特徴を抽出できるす >>178 SIMDのピーク性能を測るようなベンチでは無いよねという話。まぁ当の157が出てこないし、なんでも良いんだけどさ >>172 >そんな話は不要でしょ。 コア性能が高いと語っている様な。。。 >>157 >1コアでAlderLakeのPコアの倍の性能、Eコアの4倍の性能 まーたこの知恵遅れはネットにある情報をつなぎ合わせてオナニーしてるよ…キモすぎ… >>182 あんた大丈夫か?>>157 って書いたのに「これが18コア」を見てない。>>170 でもそれを指摘済み。 >>181 >SIMDのピーク性能を測るようなベンチでは無い >>157 に書いてある主張わ上で書いた通りかと アプリベースのベンチで SIMD のピーク性能が測れないと言うことわSIMD の有用性そのものが疑われるすけど、そう言うコトが言いたいすか? Intrinsic 必須という意見わあるかと思うす >>185 >>157 氏は自分で書いたプログラムを実行しているようなので、その内容も詳しく聞かず話を進めることに意味はないでしょ。 既に書いてある内容からすると、AVX512気に入ってて、SIMD使用率が高いので、価格含めてそういう選択したのかな? って感じじゃない。特に現段階であーだこーだ言う話ではない。 >>184 >>>170 でもそれを指摘済み。 そこに拘るのわ自由すけど、複数のプロセッサを比較するなら条件を揃えるのが科学的態度す。 anandtech.com でわ n-way の SPECfp rate の計測も行なっているすけど、ココであえて 1-T の結果で比較しているのわマイクロアーキテクチャ的要素を比較する目的す ちなみに、Linpackなら10980XE定格(PL1 165W、PL2はXeon系なので1.2倍か?)で1000GFlops近く出そう。 前にこの辺りに書いたけど、うちの7980XEでPL1=PL2=165Wで、メモリとメッシュOCしてて1030GFlopsとか。 OCすれば1200〜1300GFlopsくらいは比較的容易。全力(実用性なし)で1700GFlops。 Alder 8+8定格(爆熱)は700GFlopsくらいだっけ。 CGレンダリングの定格比較だとCHINEBENCHなんかはAlder 8+8の方が圧倒的に速いね。 POWER9で自作してるか、自作したいって人、日本におるんかいな。 そんなのよりCortex-X系搭載のチップで自作したい ソケット規格が現状ないしオンボかな TrustZoneは使えるんだよね? >>189 例のアメリカで売ってるBTOキット 個人輸入してるのもいるかな? 50万ぐらいするけど SPEC fp って少なくとも昔は単精度、倍精度入り交じりで参考にし辛かったから 追いかけてないんだけど、今でも入り交じりなのかね >>195 TOP500 Nov.2021 版わこちら https://www.top500.org/lists/top500/2021/11/ top10 が変わり映えしないので面白みが無いすけど、11位以下にわ “Zen3” EPYC や “Ice Lake” Xeon の構成がチラホラと。。。 中国わ完全にステルスモードに入った感じす。 あと、それなりに海外にも売れていると聞く A64FX のシステムわ、まだ国内案件ばかりす まだ調整不足かGreen500での数値はパッとしないけど スキャンダル以降開発の継続が危ぶまれていたPEZY-SC3リリースできたんだな… SpecCPUでの結果は、同世代/同コア数/動作周波数が近い x86と同等以上なのに、アプリケーションベンチ。特にマルチメディア系 だと大敗するPower9 >>199 自作できないアーキなんて何度も出てきているので たまにそういうツッコミ入れてもらうのは構わないが、半ば諦めるくらいに構えておけ。 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.4 2024/05/19 Walang Kapalit ★ | Donguri System Team 5ちゃんねる