CPUアーキテクチャについて語れ 44
■ このスレッドは過去ログ倉庫に格納されています
ソニーはA76にPOWERVR8で新チップ起こせばスイッチ超える けどやらないので今はただのチキン >>502 iPhoneでこういうヤツ来て欲しい iOSとOSXが統合された新Macなら 歓迎 ttps://pc.watch.impress.co.jp/docs/news/1100308.html >>506 A76でPascalアーキのTegra搭載版Switch上位機種の方がいいわ PS4に対するPS4proみたいなヤツ >>506 ソフトがないとダメだろなぁ SIEも傘下のソフトウェアメーカーあるけど海外のAAAクラスばかりで大規模ゲームでターゲットはPS4のみ 海外ではVITAは日本以上に鳴かず飛ばず(日本のXbox市場ほどでは無いと想うけど) XPERIAブランド(も赤字続きでかなり失墜してるが)でスマホゲー作ってる方がまだマシかと スマホゲーはFGOとマギレコが好調でソニー黒字の大きな一要素にもなってるし 今powervrは問題ないん? 買収とかされたんじゃ? かといって他にGPUは……DMPとか? 安藤氏が MYCOM でここ数週間 Hot Chips のレポートを書いているすけど、今回は RISC-V の OoOE デザイン BROOM の話す https://news.mynavi.jp/article/broom-1/ 現段階で Cortex-A9 程度の性能ということすけど、設計がオープンソースで出回るコトで影響は大きいと思うす A9レベルより A7みたいな性能と消費電力のバランスが良いコアで 4コア程度のマルチコアIPが オープンかつ只なら 採用広がるかもね 組み込みとかなら良いけど、スマホとかハイパフォ/メインストリーム系とかは無理だな クロック低くても良いから周波数あたりのマークをこの3倍くらいにカチ上げないと まだ全く使い物にはレベルだろうが ttps://pc.watch.impress.co.jp/docs/news/1146315.html 噂のTDP12W&A76ベースのSD1000になれば多少使えるか・・・・ キャッチアップはしてくるはずだからインテルは穏やかじゃないだろうな >>516 ARMでx86Windowsが動いちゃくのは危機感あるだろう Skylakeの使い回しで次のIcelakeまで弾がない 出たとしてZen2でIPCは確実に抜かれる Ryzenショック、10nmプロセスの遅延、14nmプロセス需要増加 需要への供給量を満たすだけで革新はしばらくない 最近はARMも、コアごとにL2$+共用L3$になってきたんだよな もちろんそのほうがパフォーマンス出るからだろうが PC用CPUみたいな構成にどんどん近づく パフォーマンス重視すれば行きつくところは同じ 一部のベンチマークだけ早い自称高速なCPUだけじゃなく、 一般的なGUI OS/GUIアプリがきびきび動くCPUにするには、 結局PC用CPUっぽくなる >>518 A76はスマホ向けよりサーバーやモバイルノートを想定したCPU。 とはいえA12bionicのCPUがSkylakeやZen以上のIPCに匹敵するとは思えん。 RISCとCISCでIPCが同じなら性能には大差がある訳だが。 >>520 それ良くある誤解すけど、IPC の算出に使用される MIPS の値わベンチマークからの換算値が使用されるので機械語命令そのものでわ無いす https://en.wikipedia.org/wiki/Instructions_per_second#MIPS −−− For this reason, MIPS has become not a measure of instruction execution speed, but task performance speed compared to a reference. −−− ArmとはいえA11以降デコーダが7ワイド x86よりIPCが高いのも別に不思議でも無い AVXあたりの強みも今後SVEが来るとArmにキャッチアップされそう Wintelが死語になってる以上避けられないよね流れ的には 性能や機能増強するとARMの省電力性が失われ、結局x86系に流れるだけだな。 >>524 自作ならそう言う流れもあるかもしれないすけど、メーカー品はチップを複数ベンダーから選べたりアクセラレータと組合せて差別化できるので x86 より ARM が好まれる未来は否定できないす そうは言っても 結局、SoC作るトコなんて限られてしまって 皆同じになるのがオチなのさ >>526 そうすかね?今や自作系の最先端わ、かつて掲示板で書いたらキチガイ扱いされた手作業での BGA リワークをやってるインド人や、回路にプローブつけてメモリの直読みしてる米国や中国の高校生だったりするす。 Intel の EMIB とか SoC の低コスト化技術も進んでいるし、SoC の敷居は下がって行くことで自作で手が届く時代すら来るかも まるで今は全うな評価受けてるみたいな言い方はやめろ いやだから、いくらBGA張り替え出来ても ボールコンパチ品でも無い限り性能うpもできやしないって解ってるのかと 中華製リワーク機なんてIRの奴でも3万以下で買えるんだから eMMC張り替えとかやりたい奴は日本でも買ってるだろ それにwinCE時代見りゃわかるだろう SoCは消費電力や価格主要因じゃないんだ 筐体や液晶パネルが支配的なのに なんでarmにすれば勝つる的論調がいまだあるのか理解できない >>528 煽りで書いているので無いとすれば、YouTube で “BGA rework” とかで検索して何本か動画見てから AliExpressで必要機材と部品の値段を調べて見ることをお勧めするす 普通の処理を早くするためには、シングルスレッド性能を上げて、L2$増やして、共用L3$もつけないといけないが、 これやるとワッパがx86に近づいてくる ワッパを上げるには、共用L3$無し低性能多コアCPUみたいな構成が必要だが、 これじゃパフォーマンスが発揮できるアプリが少なくなる >>529 >いやだから、いくらBGA張り替え出来ても 貼り替えでなく、マザーボードレベルわ個人で設計/製造が可能になる未来を述べているす。 設計のオープンソース化に加えて、基板などの小ロット製造わ現状ですら趣味で手が届く領域に入っているかと ARMは2年後にはインテルやAMDのハイエンドモデルを追い抜くって言ってるようだけど、そんな簡単に追いつけるものでもないと思うのだが。 そもそも設計図屋に過ぎないだろう。 モバイル&鯖限定だから最高クロックでは差が付いたままだぞ。 ARMも性能上がってくるしインテルは大変そう(小並感 >>533 5年前にもそういわれて 今頃ARM鯖がメインにとか言われてた K12どうなった? それはさておき ARMはSnapdoragon1000?でWindowsノートに一石を投じるか? MacがApple自社製SoCに切り替わるか?が先だな どーしても実ソフトで成果だせんからね 所詮はベンチ用CPU intelがATOM復活させたほうがよさそう 外部ファブでも製造できるようにして、自社ファブに余裕があるときは自社、無いときは他社で製造すれば、 >>537 そう言ってたのは一部だけ 結構懐疑的な見方多かったよ 個人的には 86が駆逐したクソRISCベースが今更敵う訳無いだろワロス だけど ハイパフォ舐め過ぎね >>541 >86が駆逐したクソRISCベースが今更敵う訳無いだろワロスだけど むしろ歴史を鑑みるなら組込マイコン上がりに過ぎなかった x86 がハイエンドサーバーまで制覇した様に、組込上がりの ARM が同じ階段を上って行く可能性を見いだせるのでは? かつて x86 わ一介の組込向け CPU だったモノが PC という破壊的イノベーションの時流に乗ってハイエンドコンピューティングまで制覇するに至ったす。 今 ARM はスマホという新たな破壊的イノベーションの中心にある訳すけど、果たして歴史は繰り返されることになるすかね? 技術史的に興味深い展開だと思うす ARM税払いたくない需要にRISC-Vそれなりに出るんじゃないの? 毎年億単位で出る組み込みプロセッサとか もしくはRISC-V参入を表明してARM税減額交渉を行う需要とか 行き詰まりつつある製造プロセスと増大する一方の製造コストをどう乗り越えるのかが見物 >>542 先ず現状の半導体演算装置の特性として、演算時間よりフィードタイムが長い 及びデータフローの大部分をキャッシュで担保してるって事実がある かと言って単純に増やせば良いという訳でも無い コレを推測/先読み出来る能力が現状よりより大きなキャッシュ容量に対し十二分で有れば性能が向上する ひっくり返すとコアの面積と性能よりもキャッシュや予測とかその辺が重要なワケだ で有ればハイパフォに向けて設計されたISAの方が有利になる デコーダのコストが幾ら高かろうがコア自体の面積食おうが同じ事やらせた時のフィード回数が増えるよりはマシという事でもある つまりARMとかRISCとか全く見当違い x86_64よりもっとハイパフォに向けたISAこそ必要 現行でさえコア数で稼いでるだけでSDRAMよろしく基礎性能はほとんど上がってないのに パフォーマンスが良くてトントン、互換なしなんて誰が欲しがるのか RISC-Vは貧弱ながらも癖と無理が少なくて素性が良いから これをベースに拡張すればかなり理想に近いものは作れるんだけどな。 まあ互換性はなくなるけど。 QualcommはARMSoCによるサーバー事業撤退準備中らしいね 知らんかった せっかくCentriq 2400には期待していたんだが・・・ x86互換で置き換えられるからこそEPYCは美味しいわけか だめだMACオタの口調は脳ミソ夫で脳内再生される... niftyserveの頃もキャラ設定に頑なな奴はいたなあ。 人は今も昔も変わらんてことだな。 >>547 >ひっくり返すとコアの面積と性能よりもキャッシュや予測とかその辺が重要なワケだ それが性能を決定づけるほど重要ならオンチップのローカルメモリへのロードをコア動作と並列動作するようにプログラミング可能だった CELL-BE SPE の MFC (Memory Flow Controller) のコンセプトがメジャーになっている筈なんすけど… 所詮その辺の性能向上効果わ、ユーザーがオンチップメモリを直接制御するために必要なコストに見合わないから大容量キャッシュに頼ることになっているす(笑) なんか話がずれていってる気がする とりあえず>>549 のようにQualcommのサーバ撤退などがあったわけだから ARMが上位セグメント進出というのは当初言われていたほど成功してないと言えるだろう。 まあ当初の予想が過大だったのか。 煽って当て馬にしていいないいなXeon値下がったらいいなってポジでしかねえから EPYC出てくるとその立場すら奪われて AMDはOpteron A1100で沈没、Skybridgeキャンセル、K12キャンセル ARMによる上位セグメント進出は難しい 逆にIntelはタブレットやスマホ市場をAtomでのARM切り崩しに失敗して撤退 NviもTegra使ってやろうとしたが早々撤退したしな あんだけ色々整備してダンピングまがいのことまでやって全くシェアが作れなかったAtom シェアって言うか 結局、5万とか出してタブレット買う人は少なかった それだけの事だよね… iPad vs ARMアーキの泥タブだからなぁ スマホと変わらん まぁスマホだとIntelはAppleに載っかった形だけど、訴訟の行く末はどうなるかな >>552 アレの問題点はソコじゃない 帯に短し襷に長しな構成に依る それにソコをコード書かないとマズイなら結局VLIWみたいなものになる訳で 人間側がOoOやら投機やらまで分析して全部書けるワケがない 汎用性を損ない過ぎる 脱線するが、アレがあんなものになった遠因はあの191便事故だろうな ローカルメモリ付きのCPUは今でも中国が熱心にやってる 微細化が行き詰まったらx86も導入するのではないかな >>561 やるだろうけど、現状の制御からはあまり変えないと思われる ついでに何載っけるかが割と重要 HBMだとDRAM代替、じゃその間はそのままなのかどうか ローカルメモリとか一般アプリではまともに管理できないしマルチスレッドだとOSも管理できないから同じ容量ならハードウェアでそこそこ管理されるキャッシュの方が速くなる。 VLIWよりスーパースカラの方が速くなるのと理屈は同じ。 i9 9900kはIntelにしては2700k以来の使えるCPUだな コアはSkylakeと変わらんが8C/16Tは魅力的だわ 8700kとか半端なもんはいらん 1800Xに漸く追いついたな 原子サイズ以下のトランジスタって本当に製造できるのか 結局3-4waySMT化じゃなく2wayのまま多コア化競争に突入してしまったのだなあ やっぱり1スレッド時だけ高性能にしてもユニット毎の(省)電力制御が難しいという事なのか、 ドでかコアによる低歩留まりが問題なのか Intelしかプロセスの微細化に取り組んでいないのが現実 86はメモリアクセスが多すぎてスレッド増やしても性能上がらないんじゃね。 とりあえずZen2はAVX2を256ビット一括演算できればOK。 iGPUのRyzen GやRyzen Mobile等なら自力で解決可能になるのか POWERのSMT4だのSMT8だのってどんくらい効果あったの? メモリレイテンシはそりゃ隠蔽できてるんだろうけどユニットにちゃんとギッチリ命令充填できてんの?実用で むしろAVXは128bitの実行ユニット増やす方向に進まないだろうか ええけど、Intel向けに作られたバイナリとの互換性がね 2倍のクロック数でも実行できるユニット増えればと思った 分割命令間でデータの依存性解決を分離できるならAVXでも良いとは思うけど、それが出来ないか出来ても面積食うなら使わない方が良い筈 フロントだけ見ればAVXを2SSEにカチ割り出来れば良いことになるけど、AVXのレジスタから言ってコレによるオーバヘッドの方が大きくなるだろう 処理粒度は必要最低限にしないとキューが高深度化して仕方ない つまり1000個単位でないと使い物にならないGPGPUはゴミと >>580 形態が違うからアレはまた別 CPU並の汎用性とキャッシュ、予測機構諸々が付くならその通り ただバンドと演算機数でゴリ押す分、対象は大量に無いといけない 向いてる方向がCPUとはまた違うとも言える 自動車と貨物船の違いに類似するか あと、効率は悪いだろうが一発単位でも発行はできると思うぞ Fermi/GCN以降は両者SFU付き単演算機仕様だし >>581 セットアップに数1000クロック掛けて数命令だけ実行させて何の意味があるのかと。 CPUでSIMDだとセットアップがゼロだから小口でも意味があるのに。 効率悪いだろうが、と前置きしてるにしても効率悪すぎるw CPUがGT-Rやポルシェで、GPGPUが大型トレーラって感じだな 超並列でもCPUのほうが良い場合もあるしね あとどーしても、コードの難易度が上がってしまう GPUのバンド幅は1GPU当たりだと広いけど1Flop当たりだと中堅Xeonより狭い Xeon Gold 6132 0.084Byte/Flop 128GB/s 1523.2GFLOPS(FP32) Quadro RTX 8000 0.042Byte/Flop 672GB/s 15944GFLOPS(FP32) >>582 だからそこが要改善項目だ どういう形態になるかはわからんが、どうせアレイを増やせば増やせない回せない問題にぶち当たる 現状の発行方式はSWバイパスと言って良い構成だから、ハンドオーバーないしオフロードをもっと高効率にしなきゃな SIMDってのはスレッドでもタイムでも分散できる事から、結局中規模ユニットをBullのような共有分離式にすることになるやも >>586 実際のデータフローでどれくらい出るかだね 計算前はキャッシュもあり割の数値でも上回るそのXeonが圧倒的性能でないとおかしいけど の割にそのCPU作った本人はGPU作ってますつってるんだが >>587 新しく出て来るもの見てりゃ結論はデータの独立性に応じてFPGA,GPGPU,ワイドSIMDの使い分けで確定してるじゃん。ナローSIMDはモバイルやローエンドでしか生き残れない。 日本はB/Fにこだわりすぎたたとおもう トータルで速度・コスパ・ワッパがよければ、べつにB/Fなんてどうでもいいのにね B/Fは目的を達成するための手段の一つだったのが、逆にB/Fが目的化してしまった感じ B/Fがかなり低くても好成績が出せるHPLを競ってた状況の方こそ手段の目的化だった >>590 しかし B/F が低くても性能が出る粒子法による流体シミュレーションとか、ハードウェア技術進歩の方向性にソフトも対応するのは正しいと思うす >>588 俺はそうは思わんね 今は濫造の時期で、引き算始まってからが本番 もうちょいだろう SIMDアレイはナローで、要に応じて多連実装 ワイドSIMDはキツくなるリソースに対しメリットが薄すぎる、ごく当然だが“CPU”としては同じリソースでキャッシュ盛るか他強化した方が遥かにマシなんだから GPGPUの多重はSIMD用途から乖離して来ると思われる、数年内にパイプラインの再設計と効率化が主軸に移る、相対的に演算能力が目減りするか向かなくなる マス向けはFPGA/ASIC、ないしGPGPUの内演算に特化したアレイが占有 この二極化だろう 現実的な電力と面積で多連以上の総効率を叩き出せるワイドがあるなら、別だけど そんな魔法は無い >>592 管理ユニットが少なくなる分演算器の数増やすより幅広げた方が電力効率が良いんだが。演算器リッチにして全部稼働させると放熱が間に合わないからヒートスプレッダとしてロジックユニットより低発熱なキャッシュを増やすというのは後ろ向きでしかないぞ。 富士通がワイドSIMDを512bitで実行したらみたいな研究出してたよね 役人や政治家や偉い人から金引き出すために手段が目的化して無事脂肪 命令デコーダが弱いと高機能命令を複数内部命令に分解して実行する形で命令数を減らした方が性能が出るんだよね。 >>593 いやだから放熱間に合ってないなら増やした幅分のゲイン消えるよね それどころかCPUっつーもんは汎用なもんだから増やした分アクティブ増えて平均、というかtypicalといった方が適切かもだが回せなくなるよね 面積も食ってるからイニシャルコストも上がる 処理効率だけ見ると確かにそうだけどね、現実論としてプロセスの進歩が限界近い以上、落とし所はよりプアな方に修正しないと キャッシュは効果的な上限まで盛れると思えば良い、限度超えて非効率領域に突っ込む前提だと確かにそうなるけど >>594 アレも分離型の方がゲイン/リソースが良いって論文じゃ無かったか まぁ汎用に組み込むには重過ぎる幅だったと記憶してるけど >>597 GPUとか鯖用チップとかは熱があるからクロック落として使ってるんだが。ゲーム用がすべてではないんだよ。回路規模2倍でクロックと電圧を25%落として消費電力とんとん。どっちがいいかだよ。 IBMが大容量L3$積んだサーバ用CPUを5GHzとかで回してるけどね >>598 そりゃ回路規模下げる方 あとそういうの向けで下げてるんでは無く、一般向けを上げてると言った方が適切 比例関係では無いからね >>586 Xeon Gold 6132のFlops値は2ソケだね。メモリ帯域はもっとあるね。 >>602 Xeon Gold 6132 1CPU FP64 1.7GHz x 14core x 32 = 761.6GFLOPS FP32 1.7GHz x 14core x 32 = 1523.2GFLOPS DDR4-2666 6ch 21.3GB/s x 6ch >603 間違えた FP64 1.7GHz x 14core x 32 = 761.6GFLOPS FP32 1.7GHz x 14core x 64 = 1523.2GFLOPS 結局多くの用途でnvidia gpgpuが効率がいい、ってことになるんだよな nvidia gpgpuでカバーできないニッチ用途を他社がこそこそやってるって感じで ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる