AMDの次世代APU/CPU/SoCについて語ろう 298世代

**Socket774** (ﾜｯﾁｮｲ 6373-JDM+) · 2019/07/27(土) 05:52:41.99

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

**Socket774** (ﾜｯﾁｮｲ 1f36-QFl4) · 2019/09/13(金) 10:32:28.02

>>116
INTELの負けだよ。
AMDは10nmDDR4メモリ、DDR5メモリの恩恵諸に貰える。

7nm以降のAPUはDDR5搭載すれば、GTX750ti超え、GTX960-RX470くらいの規格並みの速度出せるんだもん。
これやっちゃうとINTEL専売特許、NVIDIA専売特許性が強かった市場殺せる

**Socket774** (ﾜｯﾁｮｲ 1f36-QFl4) · 2019/09/13(金) 10:36:22.86

ATOM、コアM枠用のSOCで2c4t3ghzのGPU性能2-3倍で古井戸動作可

7500uシリーズ枠で2700u+アルファの性能を実現しさらに安い

ゲーミングノート枠でオンボでGTX1050並みの性能出しつつより少エネで安い

デスクトップAPUならRX460級以上の性能、後々DDR5メモリOC駆動でRX470並みAPUをリリース

デスクトップハイエンドでINTELを忘れさせる。

APUでもCPUでももう止められない。

**Socket774** (ﾜｯﾁｮｲ 1f36-QFl4) · 2019/09/13(金) 10:46:09.26

AMDの次世代APUシリーズは標準的かつ統合的な規格となる可能性があって強い
いままでINTEL、NVIDIAが専門ハードで割高な商品でだしてきた市場を統合APUで粉砕できる

何より7nm以降の規格の最大の恩恵はクロックじゃなくて省エネ性だから、省エネが強かったINTEL、NVIDIAは恩恵が小さく
省エネが弱かったAMDは省エネ駆動するほど恩恵が生まれる。

7nmEUVは高い石だけど、それでもノート市場では高すぎたINTEL、NVIDIAより安く高性能化できて、
デスクAPUでも恩恵でかい。費用対効果が大きい

1-5nm進化はクロックあんま伸びないけど、ノート、省エネ枠で効率化を測れば
頂点回し想定のデスクCPUやdGPUよりも性能伸ばしていける。

14nmベースで7nmをつくればコアは1.5倍、GPU性能は150-180%
7→5nmになればCPUコア1.3倍、GPU性能は130-140%
5→3nmになればCPUコア1.2倍、GPU性能は140%伸びる

ノート、省エネ、APUほどコア数増加×効率化で性能ののびしろがでかい
1-3nm世代ならUシリーズあるいはUMPCでGTX1050並みの性能でるわな

**Socket774** (ﾜｯﾁｮｲ 1f36-QFl4) · 2019/09/13(金) 10:48:45.67

>>92
微細化は省エネ回しほど恩恵でかい

ノートでクロック伸ばさずコア数増やして省エネ駆動させるほどスコア増加恩恵でかくて、安定駆動もできる

**Socket774** · 2019/09/13(金) 11:30:58.19

InfinityFabricの限界があるから
Zen/Zen+でDDR4-3200
Zen2でDDR4-3733
が現行のベスト性能な件
DDR4-2933でGT1030(GDDR5)と互角、GTX750TiとはDDR4-3600で互角なんだが
IFの限界でZen+の3400GだとCPU性能が落ちるんだよな

対するIceLakeはDDR4-3200/LP-DDR4X-3733
公表されてるベンチマークはスペックが載ってないけど、
提灯記事で後々しばくしないようにしてるだろうからLP-DDR4X-3733と予想可能
Intelが比較に出した3700UはDDR4-2400だから、LP-DDR4X-3733vsDDR4-2400の戦い

Vega11でもZen2ベースでDDR4-3733まで上げればGTX750Tiを越えるのは余裕な件
IFの限界を吸収する為にHMB2/HBCCを256MBでも良いから乗せて欲しい

メインメモリのクロックアップとHMB2の消費電力のどちらが不利かは気になるところだけど

**Socket774** (ﾜｯﾁｮｲ 9fb1-3R4y) · 2019/09/13(金) 11:40:34.46

HBM2、インターポーザ―、それらに対応させるためにメモコンを新設計したRyzenG
そこまでやってGTX750Tiを超えるくらいなんてコストが見合わないし、消費者は見向きもしないだろう
モバイル向けだとしてもRX560(CU14/16) 2/4GBとかのdGPUを載せた方が手っ取り早い
ワッパなら勝てるかもしれんがコストを許容できるほどワッパを求めて、かつGPU性能も欲しいなんてピンポイントな人は少ないだろう

**Socket774** (ﾌﾞｰｲﾓ MM9f-rzRR) · 2019/09/13(金) 15:47:34.80

構成としては Vega M、HBM2 を EMIB で繋いだ Kaby Lake-G が似てるけど
あれも性能は期待通りにでたものの
コストは dGPU より高くなってしまって
値段よりもコンパクトさが大事な少数ユーザー向けの商品になったんだよね。

AMDの製品計画にないのは同様な結果となることがわかってるからだと思う。

3D実装のコストが今よりも劇的に下がれば目はあるとは思うが。

**Socket774** (ﾜｯﾁｮｲ ffcf-iuwM) · 2019/09/14(土) 14:20:53.69

zen4からddr5だからifはddr4-3733の２倍のメモリー帯域位まで出来るんじゃないのか？
それでもhbm2か3より少ないが

**Socket774** (ｱｳｱｳｶｰ Sa13-3vYh) · 2019/09/14(土) 15:48:57.32

DDR5の信号要件を満たすコストとCPU用スタックメモリ載っけるコストだとトントンかそこらだろ
きっちり量産したらもう逆転する、オンダイUMCの面積もあるし
代償に容量に対策が必要だけど

**Socket774** (ﾜｯﾁｮｲ 1fbe-mvkL) · 2019/09/18(水) 13:47:33.81

APUの次のdaliが気になるなー。
モバイル向けっつったってどこが利用するんやろ。タブレットも無いし。
とはいえ埋込CPUはいぜんはカジノのスロットマシーンに使われてたっていう話だし、そっち向けなんですかね。

**Socket774** (ﾜｯﾁｮｲ 9fb1-3R4y) · 2019/09/18(水) 22:10:25.21

AMD EPYC 7H12 Announced As New 280 Watt Processor For High Performance Computing
https://www.phoronix.com/scan.php?page=news_item&;px=AMD-EPYC-7H12

HPC向けのEPYCでBaseClockは7742と比べて2.25→2.6GHz、BoostClockは3.3GHzと0.1GHz低い

**Socket774** (ﾜｯﾁｮｲ 2173-Ms+D) · 2019/09/20(金) 20:00:34.02

　　　　　　　　　　　　　　　_,..----､_
　　　　　　　　　　　　　／ ,r￣＼!!;へ
　　　　　　　　　　　　 /〃/　　､　 ,　;i
　　　　　　　　　　　　 i,__ i　‐=･ｧj,ir=･ﾞ)
　　　　　　　　　　　　 lk i.l　　／',!ﾞi＼ i　　あえて言おう！インテルはカスであると！！
　　　　　　　　　　　　ﾞiヾ,.　　 ,..-ﾆ_　/
　　　　　　　　　　　　　Y ﾄ､　ﾄ-:=┘i
　　　　　　　　　　　　　 l　! ＼＿＿j'.l
　　　　　　　　　　　　　｣-ゝr―‐==;十i　　　　　　_,r--――､
　　　　　　　　　　　　　.ﾄ､.j.!ﾚ'￣三! ＞ｰr‐r‐r‐＜　 _,.r<"｢　l__＿__
　　　　＿＿__,..r--r＝ヾヽj,r―'"≦＿_￣￣r―'"＼＼　＼r",.-､,　＼
　　　 ∧　　ﾄ-'‐'"三へ＞ﾄ-‐'"~　　　ﾞi　 / 　　　＼＼(_.人　ヽ._　ヽ
　　　ﾚ'へ._ﾉi　｢　＼ﾞl　//./",｢￣／　/　/　　　　　　　ヽ-ゝ.　＼　　 /
　　　ﾚ'/／ .l　l　　　! ! i/./ ./　 /　　/　/　　　　　　　　 ,（　＼　　ノﾊ
　　　ﾚ'/　　.!　!　　 i　ﾞ'!　￣　∠,　 /　ヽ.＿　　　　　　　 ,ﾀｰ　　'",〈　!
　　　/ﾞ"　,r'"　.l‐=ﾆﾞ,｢l ! ｢￣!. ／.／　　ｰ=='　　　　　　　.l.ﾄ､.　-‐'"/!.ﾄ,

今回のiPhone 11のA13は、TSMCの新しい7nmの「N7+(CLN7FF+)」で製造されていると言われている。
同じ消費電力時に20%の性能向上、または同じ性能時に30%の電力低減ができる。
https://pc.watch.impress.co.jp/docs/column/kaigai/1208397.html

**Socket774** (ﾜｯﾁｮｲ 46cf-Fkxr) · 2019/09/21(土) 04:51:11.74

3950x 11月に
MD Delays Ryzen 9 3950X Until November
https://wccftech.com/amd-delays-ryzen-9-3950x-until-november/

公式フォーラムの投稿
https://community.amd.com/community/amd-corporate/blog/2019/09/20/an-update-of-amd-ryzen-processors-availability?fbclid=IwAR2XbVcV8aYx7nsiFJCCB2T2UOmVCuWLWkQNBFQYfNr4i-b3lRg8WrRxMzI

**Socket774** (ｱｳｱｳｳｰ Sa85-bbXb) · 2019/09/21(土) 11:40:52.79

>>85
その辺はAMDじゃなくてTSMCの技術のおかげだろうに
分社化したGFが7nmを諦めてもしTSMCが頑張ってなかったら足踏みしていたのはAMDだって同じ
脆弱出まくりのCPU設計を馬鹿にするのはまだわかるが製造技術を馬鹿にするのはなんか違うと思うわ
虎の威を借るならぬTSMCの威を借る状態

**Socket774** (ﾜｯﾁｮｲ adbe-QbYD) · 2019/09/21(土) 12:36:06.92

製造会社を選んだ決断は褒めるに値すると思いますが

**Socket774** (ｽｯｯﾌﾟ Sd22-nyN5) · 2019/09/21(土) 12:47:43.73

選択が良かったのは間違いないけど85みたいなのはトンチンカンとしか言いようがない

**Socket774** (ｱｳｱｳｳｰ Sa85-LvSm) · 2019/09/21(土) 13:15:40.50

ウサギとカメのウサギさんが必死に言い訳してるような感じだな
これまでのウサギさんの怠慢と自業自得が無ければウサギさんはもっと先を走ってただろうに

**Socket774** (ﾜｯﾁｮｲ 79b1-Jkp9) · 2019/09/21(土) 13:23:26.36

なんか自社で完結してるのがエライって負け組日本企業の発想そのものだな

それにギャグのように足踏みしまくってたインテルの製造技術は馬鹿にされて当然だろう

**Socket774** (ｱｳｱｳｳｰ Sa85-a0fg) · 2019/09/21(土) 13:44:36.61

HASWELL時代インテルに浮気したけどいつまで4コアなんだよバカヤローって思ってた
KABYで絶望、初代RyzenでAMDに復帰
今さらインテルに期待なんかしない
Ryzenがなかったら今頃6C12Tで65,000円だったろうよ。エクストリーム帯は12C24Tで230,000円てね

**Socket774** (ﾜｯﾁｮｲ 0581-HyjT) · 2019/09/21(土) 18:34:23.46

>>130
その時は1:1から1:2にするだけでしょ

**Socket774** (ｵｯﾍﾟｹ Sr51-yMwr) · 2019/09/21(土) 19:32:17.39

>>136
TSMCの威を借りれば解決するならそれをやらないインテルが馬鹿だって話だろう
どうせインテルだって無線やチップセットの委託をTSMCに出してるんだし条件は何も変わらんよ

>TSMCが頑張ってなかったら
また半島企業から借りてきた技術を使ってGFで生産するんだろうねそれとも中国かな（白目
「借り済ます」で上手にやり繰り出来てしまうフレキシブルな設計こそがAMDの技術

**Socket774** (ｽｯﾌﾟ Sd82-/N/j) · 2019/09/21(土) 19:34:53.16

3930Kは良い石だったよ、CPU5万＋マザー2.5万で6C12Tを6年先取りできた

**Socket774** (ﾜｯﾁｮｲ 2173-Ms+D) · 2019/09/23(月) 13:58:27.77

　　　　　＿＿＿
　　　 ,;f　　　　　ヽ
　　　i:　　　　　　 i
　　　|　　　 AMD 　|
　　　|　　　　　　　　|　　///;ﾄ,
　　　|　　　　^　　^　)　////ﾞlﾞl;　ハンニャ、ハラミッタ～
　　　(.　　>ﾉ(､_, )ヽ､} l 　 .i .! |　　　　インテル、オウジョウニダ～～
　　 ,,∧ヽ　!-=ﾆ=- | │　　| .|
　／＼..＼＼｀ﾆﾆ´ !,　{　　 .ﾉ.ﾉ
／　＼＼￣￣￣../　　 / / .

**Socket774** (ﾜｯﾁｮｲ c1de-AVYV) · 2019/09/25(水) 01:25:41.87

AMD Could Release Next Generation EPYC CPUs with Four-Way SMT | TechPowerUp
https://www.techpowerup.com/259505/amd-could-release-next-generation-epyc-cpus-with-four-way-smt

マジでZen3は4スレッドSMT実装するのか

**Socket774** (ﾜｯﾁｮｲ c1e5-eGkO) · 2019/09/25(水) 03:09:49.42

コアを大幅に改良するには2年欲しいところだからZEN2の次としては妥当じゃないか？
ZENからZEN2も2年強かかったし。
トランジスタも20%程度しか増えないわけだし
ZEN+みたいな1年でできる程度の小規模改良のネタとしてはそんなものだろう。
もっともサーバーはいいがデスクトップ用途はメリットが薄くなるね

ZEN3で4スレッドSMTの場合、むしろZEN4が楽しみ。
4スレッドに見合った演算リソース拡張を1コアに詰め込めば
シングルスレッドの性能を大幅に伸ばす可能性があるし
できなかったとしてもマルチスレッドとして使えば最悪ムダにならない

**Socket774** (ﾜｯﾁｮｲ fd11-Ms+D) · 2019/09/25(水) 03:27:27.92

4way-SMTは、intelがGoldenCoveあたりでやってきそう、って気はするけれど。
intelの場合、CCXは3コアでSMTは4の3C12Tを基本として、6C24Tでぶつけてくるような。
3Cなのは、リングバスとクロスバーの区別が無いコア数だから。

～Coveでは、～Lake比で2C分のトランジスタつぎ込めば、それだけSMTを強化する余地は出来そうだし
スレッド数が少ない用途なら、逆HTとしてシングルスレッド性能を伸ばす方向に振れば良い訳だし。

**Socket774** (ﾜｯﾁｮｲ 5939-1OQF) · 2019/09/25(水) 07:31:41.91

>>146
やっとか
どんな鳴物入れてきたか楽しみだな

**Socket774** (ﾜｯﾁｮｲ 8261-Ms+D) · 2019/09/25(水) 09:34:08.57

>>147
zen3は来年やで
デスクトップ向けには2-way SMTでシングル重視、
（一部？）Epycで4-way SMTでマルチ重視みたいな感じかな

**Socket774** (ｵｯﾍﾟｹ Sr51-0VQq) · 2019/09/25(水) 09:41:17.94

win10のスレッド数上限が256だからまだいけるな。
serverは2ソケ512スレだからもう上限に達する。

**Socket774** (ﾜｯﾁｮｲ 5174-I/5H) · 2019/09/25(水) 09:49:36.69

4SMTとかそういうIPCのあげかたは勘弁

**Socket774** (ｵｲｺﾗﾐﾈｵ MM16-4w6J) · 2019/09/25(水) 11:42:37.96

SMTってレジスタを何面か持つことで、処理を入れ替える際に必要なレジスタの退避、復帰が要らないんだつけ

**Socket774** (ﾜｯﾁｮｲ fe73-9GzD) · 2019/09/25(水) 11:56:51.26

>SMTってレジスタを何面か持つことで、処理を入れ替える際に必要なレジスタの退避、復帰が要らないんだつけ
ウルトラスパークがそんな感じ

**Socket774** (ﾜｯﾁｮｲ 5939-1OQF) · 2019/09/25(水) 12:25:54.37

>>153
ソレはSMTに限らずレジスタウィンドウとやらの応用で回避できるんじゃね

4SMT化のメリットは最小の操作粒度がほぼ完全に内部命令単位になる事だと思うわ
2SMT程度だと結局あんまり詰め込めないから効率がね
同時に回路規模の肥大化に伴いパイプ単位でのゲートが実装可能、というかそうせざるを得ないので電力効率を上げ易くなる筈

この路線は最終的にはフロントエンドと処理部とLSをそれぞれ好き勝手に配置する
謂わばコアという概念の無いプロセッサだと考えてるけど
ゲート出来る所と出来ない所が出るから構造を工夫しないといけない
上手く出来ると良いな

**Socket774** (ﾜｯﾁｮｲ c958-Ms+D) · 2019/09/25(水) 12:42:42.63

>>155
コアの概念無くなったら、8c16tと言わずに1M16tとか言うようになるのかな。
その場合の性能指標って何になるのやら。フロントエンドの最大数？なわけないよな。

**Socket774** (ﾜｯﾁｮｲ 2962-a0fg) · 2019/09/25(水) 12:55:14.72

POWERみたいな構造になっていくのかな
HPCだとプログラムををカリカリチューンするからSMTはｲﾗﾈって話もあるみたいだけど

**Socket774** (ﾜｯﾁｮｲ fe73-9GzD) · 2019/09/25(水) 13:22:31.84

多数のすぐ終わってしまう軽い処理の場合はパイプラインを共有してハードウエァーを効率的に使用できる
またトランジスターの節約にもなる。当然シングルスレッドの性能向上には全く寄与しないしパイプラインの空き待ちで
効率がかえって落ちる場合もある。パイプラインを占有するような多数の重い処理のは不向きだね
トランザクションが異常に多いネットサーバーなどには向いているが、今はFPGAが幅を利かしている。
浮動小数点演算を超並列で行う目的でかつて存在したインテルの多コアHPCは4SMTでAVX-512を使用していた。

**Socket774** (ﾌﾞｰｲﾓ MM22-PBdO) · 2019/09/25(水) 19:17:49.65

今のプロセッサはメモリーアクセス待ちで演算器が遊んでることが多いから
その間にレジスタないしキャッシュに載ってるデータを使う別スレッドを動かしてやれっていう面もある>SMT
投機的なデータロードを外した時のレイテンシを隠蔽できる。
ただ根本的にメモリバンド幅が足りてない場合には役に立たない。

SMTのスレッド数増やすなら同時にキャッシュ容量増加やメモリバンド幅増加もする筈で
特にキャッシュ増量はシングルスレッド性能向上にも役立つだろうね。

**Socket774** (ｱｳｱｳｶｰ Sac9-1OQF) · 2019/09/25(水) 21:17:30.81

>>156
最大実行可能インフライト命令数、誤解を承知でスレッド数と言い換えることもできなくはないが
まぁその辺の数字になるでしょ
GPUで昔シェーダが分かれてたり、今でもROPとかジオメトリ/ピクセルとか色々あるじゃん
あんな感じでも表記はできると思う

>>157
突っ込めるリソースとの配分による
それにSMT使わない状態でフル稼働させられるなら、原理上4SMTコアの方が速い
多分カリカリに弄った2Tセットで走らせた方が速いけど

**Socket774** (ﾜｯﾁｮｲ eec0-vp+B) · 2019/09/25(水) 22:06:58.78

Zen2でフロントエンドの分岐予測周りに手を入れているんで、順当いいけば次はバックエンドという事で
同じトランジスタリソースを投入した時最も割りのいいのが4SMTという判断なんだろうな

多分単純にコア数を増やすケースだと、最大のコア数(パフォーマンス)を実現しようとした時にIFが耐えられなかったんだろう
これはIFの論理設計の限界というよりは物理設計側の問題で、Zen2でいうIOダイのクロスバーが現実的なラインで実現できないんじゃねえかな
デスクトップというよりはサーバのフラグシップのことを考えた選択という気はする

**Socket774** (ﾜｯﾁｮｲ 8261-Ms+D) · 2019/09/25(水) 23:13:22.29

たしかにIFが頭打ちってのはありそう

**Socket774** (ﾜｯﾁｮｲ 0739-0x6Y) · 2019/09/26(木) 00:10:16.38

コア増やしすぎても下位の比率が高くなり過ぎて面積比性能が悪化するしな

**Socket774** (ﾜｯﾁｮｲ 8762-rE8j) · 2019/09/26(木) 01:34:49.96

電力効率を考えるとOoOリソース強化は辛い
ダイ面積効率を考えるとコアを増やすのも無駄が多い

というのを踏まえてのSMT強化によるスループット向上かな。
ZenでSMT有効にしたときの性能向上幅が大きいのを見ても、パイプラインに命令を詰め込める余地はまだありそうだしね。
ボトルネックになりそうな所は当然補強してくるだろうけど。

**Socket774** (ﾜｯﾁｮｲ 7fc0-Ow3g) · 2019/09/26(木) 02:42:03.07

トランジスタ費やす候補としてはAVX512か4SMTかだけど、
インテルがやたらAVX512の命令セット増やしてるのはGPU持たない身でHPCやDL関連分野へアピールするためであって、
GPUがあるAMDにしてみればAVX512を推進するメリットが希薄だから、ZEN3の目玉は4SMTだろうね

**Socket774** (ﾜｯﾁｮｲ 0739-0x6Y) · 2019/09/26(木) 04:03:54.61

現状から行けばレジスタ周りさえ弄っちゃえばそのまま載せられそうだけどな
何処にフォーカスするかだけど、基本は頭の拡張だろう
4Issueのままか5-6Issue程度に抑えてL0拡張で12Op化とか
下側は現時点で過剰だし、手を入れるとしてもレジスタ周りくらいでしょ

**Socket774** (ｵｯﾍﾟｹ Srbb-oKTM) · 2019/09/26(木) 07:19:43.53

内部レジスタと実行ポート増加にトランジスタ費やして得られる目玉はシングル性能の向上じゃね？
数増やして稼働率落ちたレジスタの活用候補としてAVX512や4SMTがあるだけで

**Socket774** (ﾜｯﾁｮｲ 7fc0-Ow3g) · 2019/09/26(木) 08:24:43.35

シングル性能の向上のためのSIMDなので↑が何言ってるかわからない

**Socket774** (ﾜｯﾁｮｲ ff73-srNF) · 2019/09/26(木) 22:06:13.47

>>168
https://images.anandtech.com/doci/10435/SMT_performanceIBM.png

**Socket774** (ﾜｯﾁｮｲ 5f61-S/NQ) · 2019/09/26(木) 22:09:08.91

>168はSIMDと書いてるからちょっとズレてると思う

**Socket774** (ﾜｯﾁｮｲ ff73-srNF) · 2019/09/26(木) 22:42:50.81

これはどうも失礼しました

**Socket774** (ﾜｯﾁｮｲ 07b1-A8KY) · 2019/09/27(金) 04:00:47.15

細かい処理が連続するデータセンターとかサーバー用途なら4SMTは効きそうだけど他は微妙じゃないか？
他でも性能を伸ばそうとすると実行ユニット/キャッシュ/TLBも相応に強化しないといけない

4スレッドそれぞれがキャッシュをあまり必要としなければいいけど、そうでないとスレッドあたりのキャッシュ容量が減る（＝キャッシュミスが増える）
そうなるとメモリアクセスが増えてメモリ帯域がボトルネックとなりやすい
Zen3はDDR4のままだしchも増やさないとなると4SMTにしたところで性能向上は小さいものとなる

**Socket774** (ﾜｯﾁｮｲ 07b1-A8KY) · 2019/09/27(金) 04:10:21.45

https://www.phoronix.com/scan.php?page=news_item&;px=AMD-Ryzen-9-3900X-SMT-Perf
参考までに3900XのSMT ON/OFF

**Socket774** (ｽﾌﾟｯｯ Sdff-1m6m) · 2019/09/27(金) 04:25:09.65

4SMTの効果や効率はともかく最近のAMDはワクワクさせてくれるから好き
お茶を濁して停滞してるより好き
でもブルみたいになるのはやめてくれよな！

**Socket774** (ﾌﾞｰｲﾓ MM7f-KN6h) · 2019/09/27(金) 07:21:36.85

性能上がる上がらないよりも新技術で夢見せてくれる方が楽しくていい

**Socket774** (ﾌﾞｰｲﾓ MM7f-+MBy) · 2019/09/27(金) 08:49:40.92

エントリー向けのathlonですら8スレッドってすげぇ時代だよ

**Socket774** (ﾜｯﾁｮｲ 07b1-Sxlc) · 2019/09/27(金) 11:53:57.41

4SMTはEPYC用だろ
鯖には超有効だし
最近の鯖はコア数でアプリケーションの課金が決まること多いし

**Socket774** (ﾜｯﾁｮｲ 4774-NS1t) · 2019/09/27(金) 17:12:05.92

新技術より堅実でいいから、過去のAMDみたくずっこけてintel1強で全く競争働かなかった暗黒の時代はこりごり

**Socket774** (ｱｳｱｳｶｰ Sa9b-FTXU) · 2019/09/27(金) 17:12:31.08

EPYCは4SMTモード、それ以外は2SMTモードとかでしょ
正直一般向けはSMTなしでもいいくらいコア数が多いけどね

**Socket774** (ﾜｯﾁｮｲ 8762-S/NQ) · 2019/09/27(金) 17:14:25.93

4SMTは眉唾
あればスループットは上がるけど、十分機能させるためにはリソースが必要だからなあ

**Socket774** (ﾜｯﾁｮｲ 07b1-A8KY) · 2019/09/27(金) 18:03:14.94

科学技術計算用途だとSMTはスレッドの切り替えが入ることで性能がかえって遅くなったりする
Zen3(Milan)はPermutterで採用が予定されてるし4-SMT化をメインに据え置いた改良するかは怪しい
あってもこれからXeonの値段下げてコスパを上げてくるであろうintelに対抗するため、DCやサーバー向けにオプションとして追加して1ソケットあたりのコスパを引き上げるくらいじゃないか
その場合アーキテクチャの改良は小さいもので済ませられる

**Socket774** (ﾌﾞｰｲﾓ MM7f-Wc61) · 2019/09/27(金) 20:23:23.62

科学技術計算向けでSMTが性能劣化を招くことがあるってのは正しいけど
理由はスレッド切り替えじゃないでしょ。SMTは名前の通り同時に走ってるわけで切り替えコストは見えない。
理由はメモリーアクセスの競合(バンド幅不足)

**Socket774** (ﾜｯﾁｮｲ 07b1-A8KY) · 2019/09/27(金) 20:32:29.77

>>182
いや科学技術計算は演算器をフルで使うことが多い
だからリソース的には余ってないのに詰め込むと競合して切り替えコストが発生する
SMTはスレッド分のプログラムカウンタとレジスタを持つけどそれ以外は共用する

**Socket774** (ﾜｯﾁｮｲ 7f34-rP+5) · 2019/09/27(金) 20:36:51.16

額面上の帯域というより、ランダムアクセス性能なんじゃないかという気はする。
HDD環境で、ガリガリやる作業を同時に走らせるより順番に走らせた方が早く終わるのと
似たような感じ。

**Socket774** (ﾜｯﾁｮｲ 8758-S/NQ) · 2019/09/27(金) 20:40:48.81

>>183
まあでもAVX512準備として浮動小数点の方の演算ユニットは倍に増やすだろ。
その時に単にレジスタ長伸ばすだけにして普段の演算で暇にしてるか、数倍に増やして使い切る方策考えるかと
言われたら、後者の方がいいとは思うけどな。

なんなら最悪2コアを1モジュール扱いにして、AVX512の時だけ浮動小数点ユニット共用で使うようにしてもいい。
まあAMDにしてみれば二度と見たくねえと思うかもしれないが。

**Socket774** (ﾜｯﾁｮｲ 7fc0-C0UK) · 2019/09/27(金) 20:41:57.44

シングルスレッド性能上げるためにはどの道かなり効率の悪い投資を必要とするのでそのリソースを有効活用するならSMT
EPYCは64Core/パッケージまで行ったが、ここから更にコアを増やすのはイロイロ厳しいので2SMT→4SMT
って感じかな
逆にデスクトップ向けとかは2SMTに制限されるんじゃないか?
4SMTがある程度有効に機能するリソースがあればシングルスレッドでも2SMTでも性能向上するし、マーケティング上の差別化もしやすい

**Socket774** (ﾌﾞｰｲﾓ MM7f-Wc61) · 2019/09/27(金) 20:56:28.89

>>183
プログラムカウンタもユーザー見えのレジスタもOoO用の内部的なレジスタも
スレッド数に対して十分な数だけ存在するわけだし
演算器の数だってスレッド数よりは多いわけで
1スレッドだけ見るならともかく全スレッド合計したスループット的には低下しないのでは？
低下するのはキャッシュないしメモリーアクセスで比較的長時間の待ちが発生し
並列プロセス間の同期で不均一な待ち時間が発生する部分では?

並列に走ってるスレッド間の資源競合を切り替えっていうことにすごい違和感が

**Socket774** (ﾜｯﾁｮｲ 5f61-S/NQ) · 2019/09/27(金) 21:21:55.28

HPC向けでSMT4にする愚行を犯すとは思えない
SMT4はあくまで今、非常に受けが良いVM実行のほうの効率アップが目的でしょ
（4-wayが本当に実装されるならの話だけど）

**Socket774** (ﾜｯﾁｮｲ 07b1-A8KY) · 2019/09/27(金) 22:04:36.27

>>187
まず十分な数と言うけど、プログラムカウンタはコアあたりに同時実行可能なスレッド数より多く持つものじゃない
そこからおかしい
スレッドと命令を混同してないか？
SMTはそれぞれ独立したスレッドを実行するけど、命令のフェッチ、デコードは2つを交互に行い、それを混ぜて実行パイプラインに送る
演算器（実行ユニット）は共有するし、そして科学技術計算は基本複雑で実行時間も長くなる
１つのスレッドで演算器をフルに使ってるのに、他のスレッドの演算命令を実行しようとすると「待ち」か切り替えによるコストが発生する
そうなると１つのスレッドの開始から終了まで時間がかかることになるから、今度はそのスレッドの結果に依存する（＝独立しない）命令までが遅くなる
それの積み重ねで総合的に遅くなったりする

自分はあくまで演算器を使い切るような科学技術計算を前提に話してる

**Socket774** (ｵｲｺﾗﾐﾈｵ MM4f-Yoaq) · 2019/09/27(金) 22:42:29.44

SMTをどう扱うかはOS依存なんだからリソース指定する方法もあるでしょ

**MACオタ＞189 さん** (ﾜｯﾁｮｲ 6706-CSG3) · 2019/09/28(土) 02:20:03.78

>>189
>自分はあくまで演算器を使い切るような科学技術計算を前提に話してる

自分の思い込みにのめり込んでるコジレっぷりすけど、現在TOP500の頂点に立つ HPC 向け POWER9 わ SMT4 コアす。

SMT をどの様に利用しているかわコレとか
https://www.olcf.ornl.gov/wp-content/uploads/2018/12/summit_workshop_thompto_smt.pdf

**Socket774** (ﾜｯﾁｮｲ 5fbc-po2u) · 2019/09/28(土) 02:21:24.03

Macヲタ臭い

**Socket774** (ﾌﾞｰｲﾓ MM7f-Wc61) · 2019/09/28(土) 02:37:53.63

>>189
プログラムカウンターについてはスレッド数と同一な数が
すなわち十分な数なんだから別に間違ってないでしょ。

命令のフェッチ・デコードをスレッドごとに交互にやるってのは誤り。
Zen 2のフロントエンドには4wayの命令デコーダーがあり
当然最大だと4命令同時にデコードできる。
命令ディスパッチはもっと並列度が高く6つのMicro-Opを同時にディスパッチできる。
これらがスレッド数より多いのはOoOで順序不同に複数命令を同時に実行するから。

OoOが分かってないってことはSMTも分かってないんだと思うよ。
データの揃った処理から両スレッドが投機的に演算器を使うし
物理レジスタ数は論理レジスタ×スレッド数よりずっと多いわけで
切り替えって言葉の使い方には相当な違和感がある。

**Socket774** (ﾜｯﾁｮｲ 8762-S/NQ) · 2019/09/28(土) 06:29:15.42

SMT数に対して十分な実行ユニットが無い場合は、実行ユニットの取り合いによりスレッドごとに実行時間のばらつきが出て、全体では実行が遅くなったスレッドに律速されそう。
富士通のHPC向けCPUは最適化されたプログラムをすべてCPUで処理するのが前提だからSMTは無いんじゃなかったっけ。
アクセラレータを搭載するような母艦的役割のCPUは常に最適化されたプログラムを実行出来るとはj限らないのでSMTでスループットを上げる方を選んでるかと。

**MACオタ＞194 さん** (ﾜｯﾁｮｲ 6706-CSG3) · 2019/09/28(土) 08:46:34.85

>>194
>富士通のHPC向けCPUは最適化されたプログラムをすべてCPUで処理するのが前提だからSMTは無いんじゃなかったっけ。

メモリを HBM2 オンリーにしたため、たった 32GB しか搭載できないのが理由かと？
仕様的にその辺のノートPC並みなので複数の独立したHPCジョブをこなす事が最初から不可能す

**Socket774** · 2019/09/28(土) 09:24:48.37

>>195
HMB2 1TB/s 32GiB
PCIe3.0x32 SSD 31.51GB/s

PCIe3.0の最高通信速度の片方向31GB/sのSSDに直通させるからプログラミングで下手くそで無ければ速度は十分な件
これで駄目ならXeon/EPYC+GPGPUのHPCも使い物にならない

GPU演算から分散はコア単位だと20GBの容量と片方向16GiB速度があれば足りるのは
nVidia/AMDのGPGPUの最適化で証明されてるだろ
32GBしかVRAMが無いからGPGPUは無意味と言ってるのと同じやん

**Socket774** (ﾌﾞｰｲﾓ MM7f-Wc61) · 2019/09/28(土) 09:45:17.86

>>195
SPARC64 fx系じゃなくてx86だが
https://jp.fujitsu.com/platform/server/primergy/performance/pdf/wp-skylake-bios-settings-primergy-ww-ja.pdf
だとレイテンシのバラツキを抑えるためと説明してるな。
スレッド間で必要とする資源が競合しててもスループットで見れば
SMT化で向上することがほとんどだが
スレッド間の同期処理の回数が多いと
レイテンシのバラツキの影響で無駄な同期待ちが発生して
スループットまで低下するからその話かな。

あとよく考えるとSIMD命令については物理レジスタも演算器も
複数スレッドを同時に動かすほどの余裕はないだろうから
切り替えという表現でも間違いとは言えない気がしてきた。
すまん。
SIMD命令を使うとSMTのスレッド間のレイテンシのバラツキがより拡大するだろな。

**MACオタ＞194 さん** (ﾜｯﾁｮｲ 6706-CSG3) · 2019/09/28(土) 10:05:00.88

>>196
>32GBしかVRAMが無いからGPGPUは無意味と言ってるのと同じやん

GPGPU わノードに搭載された大容量メインメモリにアクセスできるのに対して、A64FX の設計わガチで 32GB/node す。
激遅のノード間インタコネクトを介してしか大容量メモリを確保できないという傾いた設計す。
http://www.isee.nagoya-u.ac.jp/~umeda/vlasov/vlasov_tutorial_ppt.pdf

**Socket774** · 2019/09/28(土) 11:00:03.38

>>198
だからRAMの代わりに大容量で高速なSSDを使うんだよ
PCIE3.0x16ではなくPCIe3.0x32の規格の限界でね
31.51GiB/sはDDR4-1866 DualChannelクラスの速度だから
HMB2と併用すれば十分速度を確保できる

PCIe3.0x16の15.75GiB/s経由でCPU-GPU間を行き来するXeon/EPYCのGPGPUより高速で大容量な件
A64FXで容量が足りずに速度が出せないならXeon/EPYCでも演算速度が出せないぞ
アルゴリズムから見直しが必要なレベル

**MACオタ＞199 さん** (ﾜｯﾁｮｲ 6706-CSG3) · 2019/09/28(土) 11:31:23.03

>>199
>だからRAMの代わりに大容量で高速なSSDを使うんだよ

僕の考えた怪獣が一番強い理論すか(笑)

**Socket774** (ﾜｯﾁｮｲ ff73-srNF) · 2019/09/28(土) 12:34:43.45

phi Knights Landingは1コアあたり2パイプライン（7段？）で４SMT、２AVX-512だったＹＯ。

**Socket774** (ﾌﾞｰｲﾓ MM7f-Wc61) · 2019/09/28(土) 13:27:59.01

>>201
AVX512の物理レジスタは何セットあったんだろう？

**Socket774** (ﾜｯﾁｮｲ ff73-srNF) · 2019/09/28(土) 18:04:33.94

2 VPU: 2x AVX512 units.

https://www.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.25-Tuesday-Epub/HC27.25.70-Processors-Epub/HC27.25.710-Knights-Landing-Sodani-Intel.pdf
KNL Tile:
2 Cores, each with 2 VPU
1M L2 shared between two Cores
2 VPU: 2x AVX512 units. 32SP/16DP per unit. X87, SSE, AVX1, AVX2 and EMU
Core: Changed from Knights Corner (KNC) to KNL. Based on 2-wide OoO
Silvermont™ Microarchitecture, but with many changes for HPC.
4 thread/core. Deeper OoO. Better RAS. Higher bandwidth. Larger TLBs.
L2: 1MB 16-way. 1 Line Read and ½ Line Write per cycle. Coherent across all Tiles
CHA: Caching/Home Agent. Distributed Tag Directory to keep L2s coherent. MESIF
protocol. 2D-Mesh connections for Tile

**Socket774** (ﾜｯﾁｮｲ ff73-srNF) · 2019/09/28(土) 18:11:10.86

これも興味深い
https://news.livedoor.com/article/detail/10377676/
KNLのコアは2命令のOut-of-Order実行をサポートし、4スレッドを並列実行するように拡張されている。
KNCでは2スレッドを実行しないと実行パイプラインをフルに使用することができなかったが、KNLでは、
1スレッドしか実行していない状態でも実行パイプラインをフルに使用でき、最大性能を達成できるとのことである。

**MACオタ＞201 さん** (ﾜｯﾁｮｲ 6706-CSG3) · 2019/09/28(土) 18:20:01.37

>>201
KNC までのインオーダーコアと比べると改善されているとわ言え、この手の小規模コアでマルチスレッディングを採用する主目的わメモリアクセスレイテンシの隠蔽す。
GPUのコアも同じ理由で MT を採用してるす

サーバー向けの x86 や POWER の SMT わシングルスレッドで使い切れない豪勢な実行ユニットを有効活用するためなので、また違うす

**Socket774** (ｱｳｱｳｶｰ Sa9b-l8MG) · 2019/09/28(土) 18:31:27.63

団子はキモキャラにジョブチェンジしたの？

**Socket774** (ﾜｯﾁｮｲ 7fbb-kLFp) · 2019/09/29(日) 14:27:38.53

Phiはクソ団子が大好きだったなあ
デュアルEPYCサーバー買ったか団子

**Socket774** (ﾜｯﾁｮｲ bf73-rE8j) · 2019/09/29(日) 15:22:09.77

インテルに見捨てられ名実共にゴミと化したxeon phiとかいうゴミのことかー！

**Socket774** (ﾜｯﾁｮｲ ff73-srNF) · 2019/09/29(日) 16:09:33.83

https://andosprocinfo.web.fc2.com/Myweb/wadai19/20190316.htm
石油探査などのデータ処理企業のDUGが，単精度250PFlopsのクラウドを建設

このクラスタは，Intelが製造打ち切りを決めたKnights Landing（KNL)を使い，Intelに残っている38,000枚のKNLのウエファを総仕舞するのだそうです。
DUGは2004年にもKnights Corner（KNC)のウエファを総仕舞しており，ソフトウェアがそのまま動くのがメリットとのことです。

なお，この次のXeon Phiは無いのですが，XeonがAVX-512をサポートしており，コア数もKNLに近づいており，次はXeonで行けると考えているようです。

**Socket774** (ﾜｯﾁｮｲ e781-FYaZ) · 2019/09/29(日) 23:26:23.95

>>207
ほんと団子の口は災の元だよな

**Socket774** (ｵｯﾍﾟｹ Srbd-QZBV) · 2019/10/03(木) 07:40:15.07

【速報】Microsoft、13/15型のSuface Laptop 3。AMD CPUモデルも
https://pc.watch.impress.co.jp/docs/news/1210613.html

280,280円（税込）Ryzen 7 /SSD：512GB /メモリ：16GB
https://www.biccamera.com/bc/item/7287923/

ご祝儀価格が酷過ぎ
231,880円（税込）Ryzen 7 /SSD：256GB /メモリ：16GB
https://www.biccamera.com/bc/item/7287921/

183,480円（税込）Ryzen 5 /SSD：256GB /メモリ：*8GB
https://www.biccamera.com/bc/item/7287940/

参考 HP ENVY x360 15（AMD）
https://jp.ext.hp.com/m/notebooks/personal/envy_15_x360_ds0000/
73,000円～(ちょっと前までは6万円台で祭りやってた)

**Socket774** (ﾜｯﾁｮｲ 9e73-zkH7) · 2019/10/05(土) 09:35:47.65

zen3ではCCXが4コアから8コアになるって噂が出てるね

**Socket774** (ﾜｯﾁｮｲ b5b1-K1zK) · 2019/10/05(土) 09:55:36.92

https://youtu.be/2IqD7U9oNpQ
https://youtu.be/2IqD7U9oNpQ?t=1223
噂レベルではなくね

**Socket774** (ﾜｯﾁｮｲ a562-G1PU) · 2019/10/05(土) 12:10:48.84

やっぱり2SMTじゃないですかー

**Socket774** (ｻｻｸｯﾃﾛﾙ Spbd-/trd) · 2019/10/05(土) 12:59:11.44

AMD技術者がZEN3とZEN4の概要を明かす。
・ZEN3はソケット互換でメモリーはDDR4
・ZEN3のCCXは8-core + L3 cacheの構成
・ZEN3は2-waySMTのままでコア数も最大64-core
・ZEN3もCPUダイとIOダイの分離構成を踏襲
・ZEN3は試作を開始して2020年第3四半期の投入予定
・ZEN4ではソケットを変更(DDR5やPCI-E5.0対応？)

https://www.overclock3d.net/news/cpu_mainboard/amd_reveals_early_zen_3_milan_architecture_details_and_zen_4_genoa_plans/1

**Socket774** (ｻｻｸｯﾃﾛﾙ Spbd-/trd) · 2019/10/05(土) 13:01:07.35

￣￣￣＼／￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣

　　　　　／　　,　　　　　　　　　　　　　　　＼
　　　／　　 / l　　　　　　　　　　　　　　　　ヽ
　　,r'　　　 /　ヽﾞ,､　　　　　　　　　　　　　　　ﾞ,
　./　　　ｲ/　　　 ` ` ､　　　　　　　　　　　　　　}
　{ i　　 | ﾞ　　　　　　､,,`' ､ ,　　　　　　　　　　　j
　ﾚ'､,　 |　　　　　 ,:r'"''‐　`'ﾞ、　 ,､‐‐､　　　　 l
　　　ゝ」､､ , ,､‐''ﾞﾞ､ﾞ'､-――t'''/ ／　l　　　　 |　
　　　　,ゝ‐､_,',.　 ' ,O 〉　　　 V .( ﾞ,　j　　　　i　　
　　　　',.ヽｿ.　'､,,､ -'"　　　　　　 /　/　　　　 j　
　　　　'‐ﾚﾞ　　　　　　　　　　　　 .,r'　　　　ノ　　　
　　　　　 l` `　　　　　､　　　　 i'"　ﾞヽ､,／　　　　　　
.　　　　　ﾞ､　　,,､ -‐'" 　　　　ﾉ　　　　ヽｧ､　
　　　　　　ﾞ､'´ ..　　　　　　　,rﾞ　　　　　ノ　ヾ＾ﾞヽ、
.　　　　　　　ﾞ,　　　　　　　 ./　　　　,､ｒ'　　／　　　＼
　　　　　　　　!、　　　　　／　　,､ｒ'"　　／　　　　　 /`'ｰ-
　　　　　　　　　`'''"入￣ ,､r ''"　　 ,､／　　　　　／
　　　　　　　　　　く　.Y'"　　 .,､r'"／　　　　　／
　　　　　　　　　/" ` ､',　,､r''"　／__＿＿＿／
　　　　　,､ - ''"´￣￣｀ﾞi zz,,,／　＼
　　 ,､ '"　　,､ ''"　　　　|　／　　　　＼
　　　　　　　　　　　ファンボイ大佐

**Socket774** (ﾜｯﾁｮｲ 6d35-7/rX) · 2019/10/06(日) 10:15:46.04

クロスパー？リングバス？

**Socket774** (ﾜﾝﾐﾝｸﾞｸ MM7a-IzOd) · 2019/10/06(日) 10:27:46.49

配線爆発を避けるための4コアCCXだったはずだから、
単純に8コアにするだけではなく、何かしら基本構造の変更がありそう。

**MACオタ＞215 さん** (ｶﾞｯｸｼ 063e-arkt) · 2019/10/06(日) 12:17:45.81

>>215
プロセスノードも消費電力枠もコア数もあまり変わらないという事わ、(ダイサイズに大きくしない限り)構成トランジスタ数も変わっていないと予想できるす。
結果的にコアに大きな改変わ加えられていないというのが順当な予測かと。

正統進化として命令の実行レイテンシなどが改善されてる安定な後継製品が期待できるのでわないすかね？

**Socket774** (ﾜｯﾁｮｲ b5b1-StTZ) · 2019/10/06(日) 12:22:00.10

8コアCCXなんて大変化だろ

**MACオタ＞220 さん** (ｶﾞｯｸｼ 063e-arkt) · 2019/10/06(日) 12:39:59.00

>>220
同じアーキでコア数を増やすのを大変革と呼ぶならそうなのかもしれないすけど…

**Socket774** (ﾜﾝﾐﾝｸﾞｸ MM7a-IzOd) · 2019/10/06(日) 12:45:45.74

>>221
単純にクロスバーのまま8cにしただけならね。