AMDの次世代APU/CPU/SoCについて語ろう 298世代
■ このスレッドは過去ログ倉庫に格納されています
!extend:checked:vvvvv:1000:512 ___ \._ | 荒らし・煽り・厨房は放置が一番 /|_| | 釣られずにスルーしましょう |_/\! sage進行でマターリいきますお 前スレ AMDの次世代APU/CPU/SoCについて語ろう 297世代 https://egg.5ch.net/test/read.cgi/jisaku/1547626446/ VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>116 INTELの負けだよ。 AMDは10nmDDR4メモリ、DDR5メモリの恩恵諸に貰える。 7nm以降のAPUはDDR5搭載すれば、GTX750ti超え、GTX960-RX470くらいの規格並みの速度出せるんだもん。 これやっちゃうとINTEL専売特許、NVIDIA専売特許性が強かった市場殺せる ATOM、コアM枠用のSOCで2c4t3ghzのGPU性能2-3倍で古井戸動作可 7500uシリーズ枠で2700u+アルファの性能を実現しさらに安い ゲーミングノート枠でオンボでGTX1050並みの性能出しつつより少エネで安い デスクトップAPUならRX460級以上の性能、後々DDR5メモリOC駆動でRX470並みAPUをリリース デスクトップハイエンドでINTELを忘れさせる。 APUでもCPUでももう止められない。 AMDの次世代APUシリーズは標準的かつ統合的な規格となる可能性があって強い いままでINTEL、NVIDIAが専門ハードで割高な商品でだしてきた市場を統合APUで粉砕できる 何より7nm以降の規格の最大の恩恵はクロックじゃなくて省エネ性だから、省エネが強かったINTEL、NVIDIAは恩恵が小さく 省エネが弱かったAMDは省エネ駆動するほど恩恵が生まれる。 7nmEUVは高い石だけど、それでもノート市場では高すぎたINTEL、NVIDIAより安く高性能化できて、 デスクAPUでも恩恵でかい。費用対効果が大きい 1-5nm進化はクロックあんま伸びないけど、ノート、省エネ枠で効率化を測れば 頂点回し想定のデスクCPUやdGPUよりも性能伸ばしていける。 14nmベースで7nmをつくればコアは1.5倍、GPU性能は150-180% 7→5nmになればCPUコア1.3倍、GPU性能は130-140% 5→3nmになればCPUコア1.2倍、GPU性能は140%伸びる ノート、省エネ、APUほどコア数増加×効率化で性能ののびしろがでかい 1-3nm世代ならUシリーズあるいはUMPCでGTX1050並みの性能でるわな >>92 微細化は省エネ回しほど恩恵でかい ノートでクロック伸ばさずコア数増やして省エネ駆動させるほどスコア増加恩恵でかくて、安定駆動もできる InfinityFabricの限界があるから Zen/Zen+でDDR4-3200 Zen2でDDR4-3733 が現行のベスト性能な件 DDR4-2933でGT1030(GDDR5)と互角、GTX750TiとはDDR4-3600で互角なんだが IFの限界でZen+の3400GだとCPU性能が落ちるんだよな 対するIceLakeはDDR4-3200/LP-DDR4X-3733 公表されてるベンチマークはスペックが載ってないけど、 提灯記事で後々しばくしないようにしてるだろうからLP-DDR4X-3733と予想可能 Intelが比較に出した3700UはDDR4-2400だから、LP-DDR4X-3733vsDDR4-2400の戦い Vega11でもZen2ベースでDDR4-3733まで上げればGTX750Tiを越えるのは余裕な件 IFの限界を吸収する為にHMB2/HBCCを256MBでも良いから乗せて欲しい メインメモリのクロックアップとHMB2の消費電力のどちらが不利かは気になるところだけど HBM2、インターポーザ―、それらに対応させるためにメモコンを新設計したRyzenG そこまでやってGTX750Tiを超えるくらいなんてコストが見合わないし、消費者は見向きもしないだろう モバイル向けだとしてもRX560(CU14/16) 2/4GBとかのdGPUを載せた方が手っ取り早い ワッパなら勝てるかもしれんがコストを許容できるほどワッパを求めて、かつGPU性能も欲しいなんてピンポイントな人は少ないだろう 構成としては Vega M、HBM2 を EMIB で繋いだ Kaby Lake-G が似てるけど あれも性能は期待通りにでたものの コストは dGPU より高くなってしまって 値段よりもコンパクトさが大事な少数ユーザー向けの商品になったんだよね。 AMDの製品計画にないのは同様な結果となることがわかってるからだと思う。 3D実装のコストが今よりも劇的に下がれば目はあるとは思うが。 zen4からddr5だからifはddr4-3733の2倍のメモリー帯域位まで出来るんじゃないのか? それでもhbm2か3より少ないが DDR5の信号要件を満たすコストとCPU用スタックメモリ載っけるコストだとトントンかそこらだろ きっちり量産したらもう逆転する、オンダイUMCの面積もあるし 代償に容量に対策が必要だけど APUの次のdaliが気になるなー。 モバイル向けっつったってどこが利用するんやろ。タブレットも無いし。 とはいえ埋込CPUはいぜんはカジノのスロットマシーンに使われてたっていう話だし、そっち向けなんですかね。 AMD EPYC 7H12 Announced As New 280 Watt Processor For High Performance Computing https://www.phoronix.com/scan.php?page=news_item& ;px=AMD-EPYC-7H12 HPC向けのEPYCでBaseClockは7742と比べて2.25→2.6GHz、BoostClockは3.3GHzと0.1GHz低い _,..----、_ / ,r ̄\!!;へ /〃/ 、 , ;i i,__ i ‐=・ァj,ir=・゙) lk i.l /',!゙i\ i あえて言おう!インテルはカスであると!! ゙iヾ,. ,..-ニ_ / Y ト、 ト-:=┘i l ! \__j'.l 」-ゝr―‐==;十i _,r--――、 .ト、.j.!レ' ̄三! >ーr‐r‐r‐< _,.r<"「 l_____ ____,..r--r=ヾヽj,r―'"≦__ ̄ ̄r―'"\\ \r",.-、, \ ∧ ト-'‐'"三へ>ト-‐'"~ ゙i / \\(_.人 ヽ._ ヽ レ'へ._ノi 「 \ ゙l //./",「 ̄/ / / ヽ-ゝ. \ / レ'// .l l ! ! i/./ ./ / / / ,( \ ノハ レ'/ .! ! i ゙'!  ̄ ∠, / ヽ._ ,ター '",〈 ! /゙" ,r'" .l‐=ニ゙,「l ! 「 ̄!. /./ ー==' .l.ト、. -‐'"/!.ト, 今回のiPhone 11のA13は、TSMCの新しい7nmの「N7+(CLN7FF+)」で製造されていると言われている。 同じ消費電力時に20%の性能向上、または同じ性能時に30%の電力低減ができる。 https://pc.watch.impress.co.jp/docs/column/kaigai/1208397.html >>85 その辺はAMDじゃなくてTSMCの技術のおかげだろうに 分社化したGFが7nmを諦めてもしTSMCが頑張ってなかったら足踏みしていたのはAMDだって同じ 脆弱出まくりのCPU設計を馬鹿にするのはまだわかるが製造技術を馬鹿にするのはなんか違うと思うわ 虎の威を借るならぬTSMCの威を借る状態 選択が良かったのは間違いないけど85みたいなのはトンチンカンとしか言いようがない ウサギとカメのウサギさんが必死に言い訳してるような感じだな これまでのウサギさんの怠慢と自業自得が無ければウサギさんはもっと先を走ってただろうに なんか自社で完結してるのがエライって負け組日本企業の発想そのものだな それにギャグのように足踏みしまくってたインテルの製造技術は馬鹿にされて当然だろう HASWELL時代インテルに浮気したけどいつまで4コアなんだよバカヤローって思ってた KABYで絶望、初代RyzenでAMDに復帰 今さらインテルに期待なんかしない Ryzenがなかったら今頃6C12Tで65,000円だったろうよ。エクストリーム帯は12C24Tで230,000円てね >>130 その時は1:1から1:2にするだけでしょ >>136 TSMCの威を借りれば解決するならそれをやらないインテルが馬鹿だって話だろう どうせインテルだって無線やチップセットの委託をTSMCに出してるんだし条件は何も変わらんよ >TSMCが頑張ってなかったら また半島企業から借りてきた技術を使ってGFで生産するんだろうね それとも中国かな(白目 「借り済ます」で上手にやり繰り出来てしまうフレキシブルな設計こそがAMDの技術 3930Kは良い石だったよ、CPU5万+マザー2.5万で6C12Tを6年先取りできた ___ ,;f ヽ i: i | AMD | | | ///;ト, | ^ ^ ) ////゙l゙l; ハンニャ、ハラミッタ〜 (. >ノ(、_, )ヽ、} l .i .! | インテル、オウジョウニダ〜〜 ,,∧ヽ !-=ニ=- | │ | .| /\..\\`ニニ´ !, { .ノ.ノ / \ \ ̄ ̄ ̄../ / / . AMD Could Release Next Generation EPYC CPUs with Four-Way SMT | TechPowerUp https://www.techpowerup.com/259505/amd-could-release-next-generation-epyc-cpus-with-four-way-smt マジでZen3は4スレッドSMT実装するのか コアを大幅に改良するには2年欲しいところだからZEN2の次としては妥当じゃないか? ZENからZEN2も2年強かかったし。 トランジスタも20%程度しか増えないわけだし ZEN+みたいな1年でできる程度の小規模改良のネタとしてはそんなものだろう。 もっともサーバーはいいがデスクトップ用途はメリットが薄くなるね ZEN3で4スレッドSMTの場合、むしろZEN4が楽しみ。 4スレッドに見合った演算リソース拡張を1コアに詰め込めば シングルスレッドの性能を大幅に伸ばす可能性があるし できなかったとしてもマルチスレッドとして使えば最悪ムダにならない 4way-SMTは、intelがGoldenCoveあたりでやってきそう、って気はするけれど。 intelの場合、CCXは3コアでSMTは4の3C12Tを基本として、6C24Tでぶつけてくるような。 3Cなのは、リングバスとクロスバーの区別が無いコア数だから。 〜Coveでは、〜Lake比で2C分のトランジスタつぎ込めば、それだけSMTを強化する余地は出来そうだし スレッド数が少ない用途なら、逆HTとしてシングルスレッド性能を伸ばす方向に振れば良い訳だし。 >>146 やっとか どんな鳴物入れてきたか楽しみだな >>147 zen3は来年やで デスクトップ向けには2-way SMTでシングル重視、 (一部?)Epycで4-way SMTでマルチ重視みたいな感じかな win10のスレッド数上限が256だからまだいけるな。 serverは2ソケ512スレだからもう上限に達する。 SMTってレジスタを何面か持つことで、処理を入れ替える際に必要なレジスタの退避、復帰が要らないんだつけ >SMTってレジスタを何面か持つことで、処理を入れ替える際に必要なレジスタの退避、復帰が要らないんだつけ ウルトラスパークがそんな感じ >>153 ソレはSMTに限らずレジスタウィンドウとやらの応用で回避できるんじゃね 4SMT化のメリットは最小の操作粒度がほぼ完全に内部命令単位になる事だと思うわ 2SMT程度だと結局あんまり詰め込めないから効率がね 同時に回路規模の肥大化に伴いパイプ単位でのゲートが実装可能、というかそうせざるを得ないので電力効率を上げ易くなる筈 この路線は最終的にはフロントエンドと処理部とLSをそれぞれ好き勝手に配置する 謂わばコアという概念の無いプロセッサだと考えてるけど ゲート出来る所と出来ない所が出るから構造を工夫しないといけない 上手く出来ると良いな >>155 コアの概念無くなったら、8c16tと言わずに1M16tとか言うようになるのかな。 その場合の性能指標って何になるのやら。フロントエンドの最大数?なわけないよな。 POWERみたいな構造になっていくのかな HPCだとプログラムををカリカリチューンするからSMTはイラネって話もあるみたいだけど 多数のすぐ終わってしまう軽い処理の場合はパイプラインを共有してハードウエァーを効率的に使用できる またトランジスターの節約にもなる。当然シングルスレッドの性能向上には全く寄与しないしパイプラインの空き待ちで 効率がかえって落ちる場合もある。パイプラインを占有するような多数の重い処理のは不向きだね トランザクションが異常に多いネットサーバーなどには向いているが、今はFPGAが幅を利かしている。 浮動小数点演算を超並列で行う目的でかつて存在したインテルの多コアHPCは4SMTでAVX-512を使用していた。 今のプロセッサはメモリーアクセス待ちで演算器が遊んでることが多いから その間にレジスタないしキャッシュに載ってるデータを使う別スレッドを動かしてやれっていう面もある>SMT 投機的なデータロードを外した時のレイテンシを隠蔽できる。 ただ根本的にメモリバンド幅が足りてない場合には役に立たない。 SMTのスレッド数増やすなら同時にキャッシュ容量増加やメモリバンド幅増加もする筈で 特にキャッシュ増量はシングルスレッド性能向上にも役立つだろうね。 >>156 最大実行可能インフライト命令数、誤解を承知でスレッド数と言い換えることもできなくはないが まぁその辺の数字になるでしょ GPUで昔シェーダが分かれてたり、今でもROPとかジオメトリ/ピクセルとか色々あるじゃん あんな感じでも表記はできると思う >>157 突っ込めるリソースとの配分による それにSMT使わない状態でフル稼働させられるなら、原理上4SMTコアの方が速い 多分カリカリに弄った2Tセットで走らせた方が速いけど Zen2でフロントエンドの分岐予測周りに手を入れているんで、順当いいけば次はバックエンドという事で 同じトランジスタリソースを投入した時最も割りのいいのが4SMTという判断なんだろうな 多分単純にコア数を増やすケースだと、最大のコア数(パフォーマンス)を実現しようとした時にIFが耐えられなかったんだろう これはIFの論理設計の限界というよりは物理設計側の問題で、Zen2でいうIOダイのクロスバーが現実的なラインで実現できないんじゃねえかな デスクトップというよりはサーバのフラグシップのことを考えた選択という気はする コア増やしすぎても下位の比率が高くなり過ぎて面積比性能が悪化するしな 電力効率を考えるとOoOリソース強化は辛い ダイ面積効率を考えるとコアを増やすのも無駄が多い というのを踏まえてのSMT強化によるスループット向上かな。 ZenでSMT有効にしたときの性能向上幅が大きいのを見ても、パイプラインに命令を詰め込める余地はまだありそうだしね。 ボトルネックになりそうな所は当然補強してくるだろうけど。 トランジスタ費やす候補としてはAVX512か4SMTかだけど、 インテルがやたらAVX512の命令セット増やしてるのはGPU持たない身でHPCやDL関連分野へアピールするためであって、 GPUがあるAMDにしてみればAVX512を推進するメリットが希薄だから、ZEN3の目玉は4SMTだろうね 現状から行けばレジスタ周りさえ弄っちゃえばそのまま載せられそうだけどな 何処にフォーカスするかだけど、基本は頭の拡張だろう 4Issueのままか5-6Issue程度に抑えてL0拡張で12Op化とか 下側は現時点で過剰だし、手を入れるとしてもレジスタ周りくらいでしょ 内部レジスタと実行ポート増加にトランジスタ費やして得られる目玉はシングル性能の向上じゃね? 数増やして稼働率落ちたレジスタの活用候補としてAVX512や4SMTがあるだけで シングル性能の向上のためのSIMDなので↑が何言ってるかわからない >168はSIMDと書いてるからちょっとズレてると思う 細かい処理が連続するデータセンターとかサーバー用途なら4SMTは効きそうだけど他は微妙じゃないか? 他でも性能を伸ばそうとすると実行ユニット/キャッシュ/TLBも相応に強化しないといけない 4スレッドそれぞれがキャッシュをあまり必要としなければいいけど、そうでないとスレッドあたりのキャッシュ容量が減る(=キャッシュミスが増える) そうなるとメモリアクセスが増えてメモリ帯域がボトルネックとなりやすい Zen3はDDR4のままだしchも増やさないとなると4SMTにしたところで性能向上は小さいものとなる https://www.phoronix.com/scan.php?page=news_item& ;px=AMD-Ryzen-9-3900X-SMT-Perf 参考までに3900XのSMT ON/OFF 4SMTの効果や効率はともかく最近のAMDはワクワクさせてくれるから好き お茶を濁して停滞してるより好き でもブルみたいになるのはやめてくれよな! 性能上がる上がらないよりも新技術で夢見せてくれる方が楽しくていい エントリー向けのathlonですら8スレッドってすげぇ時代だよ 4SMTはEPYC用だろ 鯖には超有効だし 最近の鯖はコア数でアプリケーションの課金が決まること多いし 新技術より堅実でいいから、過去のAMDみたくずっこけてintel1強で全く競争働かなかった暗黒の時代はこりごり EPYCは4SMTモード、それ以外は2SMTモードとかでしょ 正直一般向けはSMTなしでもいいくらいコア数が多いけどね 4SMTは眉唾 あればスループットは上がるけど、十分機能させるためにはリソースが必要だからなあ 科学技術計算用途だとSMTはスレッドの切り替えが入ることで性能がかえって遅くなったりする Zen3(Milan)はPermutterで採用が予定されてるし4-SMT化をメインに据え置いた改良するかは怪しい あってもこれからXeonの値段下げてコスパを上げてくるであろうintelに対抗するため、DCやサーバー向けにオプションとして追加して1ソケットあたりのコスパを引き上げるくらいじゃないか その場合アーキテクチャの改良は小さいもので済ませられる 科学技術計算向けでSMTが性能劣化を招くことがあるってのは正しいけど 理由はスレッド切り替えじゃないでしょ。SMTは名前の通り同時に走ってるわけで切り替えコストは見えない。 理由はメモリーアクセスの競合(バンド幅不足) >>182 いや科学技術計算は演算器をフルで使うことが多い だからリソース的には余ってないのに詰め込むと競合して切り替えコストが発生する SMTはスレッド分のプログラムカウンタとレジスタを持つけどそれ以外は共用する 額面上の帯域というより、ランダムアクセス性能なんじゃないかという気はする。 HDD環境で、ガリガリやる作業を同時に走らせるより順番に走らせた方が早く終わるのと 似たような感じ。 >>183 まあでもAVX512準備として浮動小数点の方の演算ユニットは倍に増やすだろ。 その時に単にレジスタ長伸ばすだけにして普段の演算で暇にしてるか、数倍に増やして使い切る方策考えるかと 言われたら、後者の方がいいとは思うけどな。 なんなら最悪2コアを1モジュール扱いにして、AVX512の時だけ浮動小数点ユニット共用で使うようにしてもいい。 まあAMDにしてみれば二度と見たくねえと思うかもしれないが。 シングルスレッド性能上げるためにはどの道かなり効率の悪い投資を必要とするのでそのリソースを有効活用するならSMT EPYCは64Core/パッケージまで行ったが、ここから更にコアを増やすのはイロイロ厳しいので2SMT→4SMT って感じかな 逆にデスクトップ向けとかは2SMTに制限されるんじゃないか? 4SMTがある程度有効に機能するリソースがあればシングルスレッドでも2SMTでも性能向上するし、マーケティング上の差別化もしやすい >>183 プログラムカウンタもユーザー見えのレジスタもOoO用の内部的なレジスタも スレッド数に対して十分な数だけ存在するわけだし 演算器の数だってスレッド数よりは多いわけで 1スレッドだけ見るならともかく全スレッド合計したスループット的には低下しないのでは? 低下するのはキャッシュないしメモリーアクセスで比較的長時間の待ちが発生し 並列プロセス間の同期で不均一な待ち時間が発生する部分では? 並列に走ってるスレッド間の資源競合を切り替えっていうことにすごい違和感が HPC向けでSMT4にする愚行を犯すとは思えない SMT4はあくまで今、非常に受けが良いVM実行のほうの効率アップが目的でしょ (4-wayが本当に実装されるならの話だけど) >>187 まず十分な数と言うけど、プログラムカウンタはコアあたりに同時実行可能なスレッド数より多く持つものじゃない そこからおかしい スレッドと命令を混同してないか? SMTはそれぞれ独立したスレッドを実行するけど、命令のフェッチ、デコードは2つを交互に行い、それを混ぜて実行パイプラインに送る 演算器(実行ユニット)は共有するし、そして科学技術計算は基本複雑で実行時間も長くなる 1つのスレッドで演算器をフルに使ってるのに、他のスレッドの演算命令を実行しようとすると「待ち」か切り替えによるコストが発生する そうなると1つのスレッドの開始から終了まで時間がかかることになるから、今度はそのスレッドの結果に依存する(=独立しない)命令までが遅くなる それの積み重ねで総合的に遅くなったりする 自分はあくまで演算器を使い切るような科学技術計算を前提に話してる SMTをどう扱うかはOS依存なんだからリソース指定する方法もあるでしょ >>189 >自分はあくまで演算器を使い切るような科学技術計算を前提に話してる 自分の思い込みにのめり込んでるコジレっぷりすけど、現在TOP500の頂点に立つ HPC 向け POWER9 わ SMT4 コアす。 SMT をどの様に利用しているかわコレとか https://www.olcf.ornl.gov/wp-content/uploads/2018/12/summit_workshop_thompto_smt.pdf >>189 プログラムカウンターについてはスレッド数と同一な数が すなわち十分な数なんだから別に間違ってないでしょ。 命令のフェッチ・デコードをスレッドごとに交互にやるってのは誤り。 Zen 2のフロントエンドには4wayの命令デコーダーがあり 当然最大だと4命令同時にデコードできる。 命令ディスパッチはもっと並列度が高く6つのMicro-Opを同時にディスパッチできる。 これらがスレッド数より多いのはOoOで順序不同に複数命令を同時に実行するから。 OoOが分かってないってことはSMTも分かってないんだと思うよ。 データの揃った処理から両スレッドが投機的に演算器を使うし 物理レジスタ数は論理レジスタ×スレッド数よりずっと多いわけで 切り替えって言葉の使い方には相当な違和感がある。 SMT数に対して十分な実行ユニットが無い場合は、実行ユニットの取り合いによりスレッドごとに実行時間のばらつきが出て、全体では実行が遅くなったスレッドに律速されそう。 富士通のHPC向けCPUは最適化されたプログラムをすべてCPUで処理するのが前提だからSMTは無いんじゃなかったっけ。 アクセラレータを搭載するような母艦的役割のCPUは常に最適化されたプログラムを実行出来るとはj限らないのでSMTでスループットを上げる方を選んでるかと。 >>194 >富士通のHPC向けCPUは最適化されたプログラムをすべてCPUで処理するのが前提だからSMTは無いんじゃなかったっけ。 メモリを HBM2 オンリーにしたため、たった 32GB しか搭載できないのが理由かと? 仕様的にその辺のノートPC並みなので複数の独立したHPCジョブをこなす事が最初から不可能す >>195 HMB2 1TB/s 32GiB PCIe3.0x32 SSD 31.51GB/s PCIe3.0の最高通信速度の片方向31GB/sのSSDに直通させるからプログラミングで下手くそで無ければ速度は十分な件 これで駄目ならXeon/EPYC+GPGPUのHPCも使い物にならない GPU演算から分散はコア単位だと20GBの容量と片方向16GiB速度があれば足りるのは nVidia/AMDのGPGPUの最適化で証明されてるだろ 32GBしかVRAMが無いからGPGPUは無意味と言ってるのと同じやん >>195 SPARC64 fx系じゃなくてx86だが https://jp.fujitsu.com/platform/server/primergy/performance/pdf/wp-skylake-bios-settings-primergy-ww-ja.pdf だとレイテンシのバラツキを抑えるためと説明してるな。 スレッド間で必要とする資源が競合しててもスループットで見れば SMT化で向上することがほとんどだが スレッド間の同期処理の回数が多いと レイテンシのバラツキの影響で無駄な同期待ちが発生して スループットまで低下するからその話かな。 あとよく考えるとSIMD命令については物理レジスタも演算器も 複数スレッドを同時に動かすほどの余裕はないだろうから 切り替えという表現でも間違いとは言えない気がしてきた。 すまん。 SIMD命令を使うとSMTのスレッド間のレイテンシのバラツキがより拡大するだろな。 >>196 >32GBしかVRAMが無いからGPGPUは無意味と言ってるのと同じやん GPGPU わノードに搭載された大容量メインメモリにアクセスできるのに対して、A64FX の設計わガチで 32GB/node す。 激遅のノード間インタコネクトを介してしか大容量メモリを確保できないという傾いた設計す。 http://www.isee.nagoya-u.ac.jp/ ~umeda/vlasov/vlasov_tutorial_ppt.pdf >>198 だからRAMの代わりに大容量で高速なSSDを使うんだよ PCIE3.0x16ではなくPCIe3.0x32の規格の限界でね 31.51GiB/sはDDR4-1866 DualChannelクラスの速度だから HMB2と併用すれば十分速度を確保できる PCIe3.0x16の15.75GiB/s経由でCPU-GPU間を行き来するXeon/EPYCのGPGPUより高速で大容量な件 A64FXで容量が足りずに速度が出せないならXeon/EPYCでも演算速度が出せないぞ アルゴリズムから見直しが必要なレベル >>199 >だからRAMの代わりに大容量で高速なSSDを使うんだよ 僕の考えた怪獣が一番強い理論すか(笑) phi Knights Landingは1コアあたり2パイプライン(7段?)で4SMT、2AVX-512だったYO。 >>201 AVX512の物理レジスタは何セットあったんだろう? 2 VPU: 2x AVX512 units. https://www.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.25-Tuesday-Epub/HC27.25.70-Processors-Epub/HC27.25.710-Knights-Landing-Sodani-Intel.pdf KNL Tile: 2 Cores, each with 2 VPU 1M L2 shared between two Cores 2 VPU: 2x AVX512 units. 32SP/16DP per unit. X87, SSE, AVX1, AVX2 and EMU Core: Changed from Knights Corner (KNC) to KNL. Based on 2-wide OoO Silvermont™ Microarchitecture, but with many changes for HPC. 4 thread/core. Deeper OoO. Better RAS. Higher bandwidth. Larger TLBs. L2: 1MB 16-way. 1 Line Read and ½ Line Write per cycle. Coherent across all Tiles CHA: Caching/Home Agent. Distributed Tag Directory to keep L2s coherent. MESIF protocol. 2D-Mesh connections for Tile これも興味深い https://news.livedoor.com/article/detail/10377676/ KNLのコアは2命令のOut-of-Order実行をサポートし、4スレッドを並列実行するように拡張されている。 KNCでは2スレッドを実行しないと実行パイプラインをフルに使用することができなかったが、KNLでは、 1スレッドしか実行していない状態でも実行パイプラインをフルに使用でき、最大性能を達成できるとのことである。 >>201 KNC までのインオーダーコアと比べると改善されているとわ言え、この手の小規模コアでマルチスレッディングを採用する主目的わメモリアクセスレイテンシの隠蔽す。 GPUのコアも同じ理由で MT を採用してるす サーバー向けの x86 や POWER の SMT わシングルスレッドで使い切れない豪勢な実行ユニットを有効活用するためなので、また違うす Phiはクソ団子が大好きだったなあ デュアルEPYCサーバー買ったか団子 インテルに見捨てられ名実共にゴミと化したxeon phiとかいうゴミのことかー! https://andosprocinfo.web.fc2.com/Myweb/wadai19/20190316.htm 石油探査などのデータ処理企業のDUGが,単精度250PFlopsのクラウドを建設 このクラスタは,Intelが製造打ち切りを決めたKnights Landing(KNL)を使い,Intelに残っている38,000枚のKNLのウエファを総仕舞するのだそうです。 DUGは2004年にもKnights Corner(KNC)のウエファを総仕舞しており,ソフトウェアがそのまま動くのがメリットとのことです。 なお,この次のXeon Phiは無いのですが,XeonがAVX-512をサポートしており,コア数もKNLに近づいており,次はXeonで行けると考えているようです。 zen3ではCCXが4コアから8コアになるって噂が出てるね AMD技術者がZEN3とZEN4の概要を明かす。 ・ZEN3はソケット互換でメモリーはDDR4 ・ZEN3のCCXは8-core + L3 cacheの構成 ・ZEN3は2-waySMTのままでコア数も最大64-core ・ZEN3もCPUダイとIOダイの分離構成を踏襲 ・ZEN3は試作を開始して2020年第3四半期の投入予定 ・ZEN4ではソケットを変更(DDR5やPCI-E5.0対応?) https://www.overclock3d.net/news/cpu_mainboard/amd_reveals_early_zen_3_milan_architecture_details_and_zen_4_genoa_plans/1  ̄ ̄ ̄\/ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ / , \ / / l ヽ ,r' / ヾ,、 ゙, ./ イ/ ` ` 、 } { i | ゙ 、,,`' 、 , j レ'、, | ,:r'"''‐ `'゙、 ,、‐‐、 l ゝ」、 、 , ,、‐''゙゙、゙'、-――t'''/ / l | ,ゝ‐、_,',. ' ,O 〉 V .( ゙, j i ',.ヽソ. '、,,、 -'" / / j '‐レ゙ .,r' ノ l` ` 、 i'" ゙ヽ、,/ . ゙、 ,,、 -‐'" ノ ヽァ、 ゙、'´ .. ,r゙ ノ ヾ^゙ヽ、 . ゙, ./ ,、r' / \ !、 / ,、r'" / /`'ー- `'''"入 ̄ ,、r ''" ,、/ / く .Y'" .,、r'"/ / /" ` 、', ,、r''" /_____/ ,、 - ''"´ ̄ ̄`゙i zz,,,/ \ ,、 '" ,、 ''" | / \ ファンボイ大佐 配線爆発を避けるための4コアCCXだったはずだから、 単純に8コアにするだけではなく、何かしら基本構造の変更がありそう。 >>215 プロセスノードも消費電力枠もコア数もあまり変わらないという事わ、(ダイサイズに大きくしない限り)構成トランジスタ数も変わっていないと予想できるす。 結果的にコアに大きな改変わ加えられていないというのが順当な予測かと。 正統進化として命令の実行レイテンシなどが改善されてる安定な後継製品が期待できるのでわないすかね? >>220 同じアーキでコア数を増やすのを大変革と呼ぶならそうなのかもしれないすけど… >>221 単純にクロスバーのまま8cにしただけならね。 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる