X



AMDの次世代APU/CPU/SoCについて語ろう 298世代

■ このスレッドは過去ログ倉庫に格納されています
0001Socket774 (ワッチョイ 6373-JDM+)
垢版 |
2019/07/27(土) 05:52:41.99ID:mUqAUL6l0
!extend:checked:vvvvv:1000:512
___
\._  | 荒らし・煽り・厨房は放置が一番
/|_| | 釣られずにスルーしましょう
|_/\! sage進行でマターリいきますお

前スレ
AMDの次世代APU/CPU/SoCについて語ろう 297世代
https://egg.5ch.net/test/read.cgi/jisaku/1547626446/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0123Socket774 (ワッチョイ 1f36-QFl4)
垢版 |
2019/09/13(金) 10:32:28.02ID:t8UIGY7m0
>>116
INTELの負けだよ。
AMDは10nmDDR4メモリ、DDR5メモリの恩恵諸に貰える。

7nm以降のAPUはDDR5搭載すれば、GTX750ti超え、GTX960-RX470くらいの規格並みの速度出せるんだもん。
これやっちゃうとINTEL専売特許、NVIDIA専売特許性が強かった市場殺せる
0124Socket774 (ワッチョイ 1f36-QFl4)
垢版 |
2019/09/13(金) 10:36:22.86ID:t8UIGY7m0
ATOM、コアM枠用のSOCで2c4t3ghzのGPU性能2-3倍で古井戸動作可

7500uシリーズ枠で2700u+アルファの性能を実現しさらに安い

ゲーミングノート枠でオンボでGTX1050並みの性能出しつつより少エネで安い

デスクトップAPUならRX460級以上の性能、後々DDR5メモリOC駆動でRX470並みAPUをリリース

デスクトップハイエンドでINTELを忘れさせる。

APUでもCPUでももう止められない。
0125Socket774 (ワッチョイ 1f36-QFl4)
垢版 |
2019/09/13(金) 10:46:09.26ID:t8UIGY7m0
AMDの次世代APUシリーズは標準的かつ統合的な規格となる可能性があって強い
いままでINTEL、NVIDIAが専門ハードで割高な商品でだしてきた市場を統合APUで粉砕できる

何より7nm以降の規格の最大の恩恵はクロックじゃなくて省エネ性だから、省エネが強かったINTEL、NVIDIAは恩恵が小さく
省エネが弱かったAMDは省エネ駆動するほど恩恵が生まれる。

7nmEUVは高い石だけど、それでもノート市場では高すぎたINTEL、NVIDIAより安く高性能化できて、
デスクAPUでも恩恵でかい。費用対効果が大きい

1-5nm進化はクロックあんま伸びないけど、ノート、省エネ枠で効率化を測れば
頂点回し想定のデスクCPUやdGPUよりも性能伸ばしていける。

14nmベースで7nmをつくればコアは1.5倍、GPU性能は150-180%
7→5nmになればCPUコア1.3倍、GPU性能は130-140%
5→3nmになればCPUコア1.2倍、GPU性能は140%伸びる

ノート、省エネ、APUほどコア数増加×効率化で性能ののびしろがでかい
1-3nm世代ならUシリーズあるいはUMPCでGTX1050並みの性能でるわな
0126Socket774 (ワッチョイ 1f36-QFl4)
垢版 |
2019/09/13(金) 10:48:45.67ID:t8UIGY7m0
>>92
微細化は省エネ回しほど恩恵でかい

ノートでクロック伸ばさずコア数増やして省エネ駆動させるほどスコア増加恩恵でかくて、安定駆動もできる
0127Socket774
垢版 |
2019/09/13(金) 11:30:58.19
InfinityFabricの限界があるから
Zen/Zen+でDDR4-3200
Zen2でDDR4-3733
が現行のベスト性能な件
DDR4-2933でGT1030(GDDR5)と互角、GTX750TiとはDDR4-3600で互角なんだが
IFの限界でZen+の3400GだとCPU性能が落ちるんだよな

対するIceLakeはDDR4-3200/LP-DDR4X-3733
公表されてるベンチマークはスペックが載ってないけど、
提灯記事で後々しばくしないようにしてるだろうからLP-DDR4X-3733と予想可能
Intelが比較に出した3700UはDDR4-2400だから、LP-DDR4X-3733vsDDR4-2400の戦い

Vega11でもZen2ベースでDDR4-3733まで上げればGTX750Tiを越えるのは余裕な件
IFの限界を吸収する為にHMB2/HBCCを256MBでも良いから乗せて欲しい

メインメモリのクロックアップとHMB2の消費電力のどちらが不利かは気になるところだけど
0128Socket774 (ワッチョイ 9fb1-3R4y)
垢版 |
2019/09/13(金) 11:40:34.46ID:2BOap7Hz0
HBM2、インターポーザ―、それらに対応させるためにメモコンを新設計したRyzenG
そこまでやってGTX750Tiを超えるくらいなんてコストが見合わないし、消費者は見向きもしないだろう
モバイル向けだとしてもRX560(CU14/16) 2/4GBとかのdGPUを載せた方が手っ取り早い
ワッパなら勝てるかもしれんがコストを許容できるほどワッパを求めて、かつGPU性能も欲しいなんてピンポイントな人は少ないだろう
0129Socket774 (ブーイモ MM9f-rzRR)
垢版 |
2019/09/13(金) 15:47:34.80ID:EL5XMzbcM
構成としては Vega M、HBM2 を EMIB で繋いだ Kaby Lake-G が似てるけど
あれも性能は期待通りにでたものの
コストは dGPU より高くなってしまって
値段よりもコンパクトさが大事な少数ユーザー向けの商品になったんだよね。

AMDの製品計画にないのは同様な結果となることがわかってるからだと思う。

3D実装のコストが今よりも劇的に下がれば目はあるとは思うが。
0130Socket774 (ワッチョイ ffcf-iuwM)
垢版 |
2019/09/14(土) 14:20:53.69ID:VZdiTjWT0
zen4からddr5だからifはddr4-3733の2倍のメモリー帯域位まで出来るんじゃないのか?
それでもhbm2か3より少ないが
0131Socket774 (アウアウカー Sa13-3vYh)
垢版 |
2019/09/14(土) 15:48:57.32ID:ZfMtqmMWa
DDR5の信号要件を満たすコストとCPU用スタックメモリ載っけるコストだとトントンかそこらだろ
きっちり量産したらもう逆転する、オンダイUMCの面積もあるし
代償に容量に対策が必要だけど
0132Socket774 (ワッチョイ 1fbe-mvkL)
垢版 |
2019/09/18(水) 13:47:33.81ID:Sa5x/Mnz0
APUの次のdaliが気になるなー。
モバイル向けっつったってどこが利用するんやろ。タブレットも無いし。
とはいえ埋込CPUはいぜんはカジノのスロットマシーンに使われてたっていう話だし、そっち向けなんですかね。
0134Socket774 (ワッチョイ 2173-Ms+D)
垢版 |
2019/09/20(金) 20:00:34.02ID:4X+OmeY20
               _,..----、_
              / ,r ̄\!!;へ
             /〃/   、  , ;i
             i,__ i ‐=・ァj,ir=・゙)
             lk i.l  /',!゙i\ i  あえて言おう!インテルはカスであると!!
             ゙iヾ,.   ,..-ニ_ /
             Y ト、  ト-:=┘i
              l ! \__j'.l
              」-ゝr―‐==;十i      _,r--――、
             .ト、.j.!レ' ̄三! >ーr‐r‐r‐<  _,.r<"「 l_____
     ____,..r--r=ヾヽj,r―'"≦__ ̄ ̄r―'"\\ \r",.-、, \
    ∧   ト-'‐'"三へ>ト-‐'"~    ゙i  /       \\(_.人 ヽ._ ヽ
    レ'へ._ノi 「 \ ゙l //./",「 ̄/ / /       ヽ-ゝ. \   /
    レ'// .l l   ! ! i/./ ./  /  / /         ,(  \  ノハ
    レ'/  .! !   i ゙'!  ̄ ∠,  /  ヽ._        ,ター  '",〈 !
   /゙" ,r'" .l‐=ニ゙,「l ! 「 ̄!. /./   ー=='       .l.ト、. -‐'"/!.ト,

今回のiPhone 11のA13は、TSMCの新しい7nmの「N7+(CLN7FF+)」で製造されていると言われている。
同じ消費電力時に20%の性能向上、または同じ性能時に30%の電力低減ができる。
https://pc.watch.impress.co.jp/docs/column/kaigai/1208397.html
0136Socket774 (アウアウウー Sa85-bbXb)
垢版 |
2019/09/21(土) 11:40:52.79ID:UZKT9D4ua
>>85
その辺はAMDじゃなくてTSMCの技術のおかげだろうに
分社化したGFが7nmを諦めてもしTSMCが頑張ってなかったら足踏みしていたのはAMDだって同じ
脆弱出まくりのCPU設計を馬鹿にするのはまだわかるが製造技術を馬鹿にするのはなんか違うと思うわ
虎の威を借るならぬTSMCの威を借る状態
0139Socket774 (アウアウウー Sa85-LvSm)
垢版 |
2019/09/21(土) 13:15:40.50ID:XnIjUilna
ウサギとカメのウサギさんが必死に言い訳してるような感じだな
これまでのウサギさんの怠慢と自業自得が無ければウサギさんはもっと先を走ってただろうに
0140Socket774 (ワッチョイ 79b1-Jkp9)
垢版 |
2019/09/21(土) 13:23:26.36ID:8S5b3S1y0
なんか自社で完結してるのがエライって負け組日本企業の発想そのものだな

それにギャグのように足踏みしまくってたインテルの製造技術は馬鹿にされて当然だろう
0141Socket774 (アウアウウー Sa85-a0fg)
垢版 |
2019/09/21(土) 13:44:36.61ID:+DCKb4JPa
HASWELL時代インテルに浮気したけどいつまで4コアなんだよバカヤローって思ってた
KABYで絶望、初代RyzenでAMDに復帰
今さらインテルに期待なんかしない
Ryzenがなかったら今頃6C12Tで65,000円だったろうよ。エクストリーム帯は12C24Tで230,000円てね
0143Socket774 (オッペケ Sr51-yMwr)
垢版 |
2019/09/21(土) 19:32:17.39ID:+2NfeUKsr
>>136
TSMCの威を借りれば解決するならそれをやらないインテルが馬鹿だって話だろう
どうせインテルだって無線やチップセットの委託をTSMCに出してるんだし条件は何も変わらんよ

>TSMCが頑張ってなかったら
また半島企業から借りてきた技術を使ってGFで生産するんだろうね それとも中国かな(白目
「借り済ます」で上手にやり繰り出来てしまうフレキシブルな設計こそがAMDの技術
0145Socket774 (ワッチョイ 2173-Ms+D)
垢版 |
2019/09/23(月) 13:58:27.77ID:BDR18cma0
     ___
    ,;f     ヽ
   i:         i
   |    AMD  |
   |        |  ///;ト,
   |    ^  ^ ) ////゙l゙l; ハンニャ、ハラミッタ〜
   (.  >ノ(、_, )ヽ、} l   .i .! |    インテル、オウジョウニダ〜〜
   ,,∧ヽ !-=ニ=- | │   | .|
 /\..\\`ニニ´ !, {   .ノ.ノ
/  \ \ ̄ ̄ ̄../   / / .
0147Socket774 (ワッチョイ c1e5-eGkO)
垢版 |
2019/09/25(水) 03:09:49.42ID:JvPKIKNT0
コアを大幅に改良するには2年欲しいところだからZEN2の次としては妥当じゃないか?
ZENからZEN2も2年強かかったし。
トランジスタも20%程度しか増えないわけだし
ZEN+みたいな1年でできる程度の小規模改良のネタとしてはそんなものだろう。
もっともサーバーはいいがデスクトップ用途はメリットが薄くなるね

ZEN3で4スレッドSMTの場合、むしろZEN4が楽しみ。
4スレッドに見合った演算リソース拡張を1コアに詰め込めば
シングルスレッドの性能を大幅に伸ばす可能性があるし
できなかったとしてもマルチスレッドとして使えば最悪ムダにならない
0148Socket774 (ワッチョイ fd11-Ms+D)
垢版 |
2019/09/25(水) 03:27:27.92ID:Ts3ADH3F0
4way-SMTは、intelがGoldenCoveあたりでやってきそう、って気はするけれど。
intelの場合、CCXは3コアでSMTは4の3C12Tを基本として、6C24Tでぶつけてくるような。
3Cなのは、リングバスとクロスバーの区別が無いコア数だから。

〜Coveでは、〜Lake比で2C分のトランジスタつぎ込めば、それだけSMTを強化する余地は出来そうだし
スレッド数が少ない用途なら、逆HTとしてシングルスレッド性能を伸ばす方向に振れば良い訳だし。
0150Socket774 (ワッチョイ 8261-Ms+D)
垢版 |
2019/09/25(水) 09:34:08.57ID:2zzxNCur0
>>147
zen3は来年やで
デスクトップ向けには2-way SMTでシングル重視、
(一部?)Epycで4-way SMTでマルチ重視みたいな感じかな
0151Socket774 (オッペケ Sr51-0VQq)
垢版 |
2019/09/25(水) 09:41:17.94ID:oz+5WDlgr
win10のスレッド数上限が256だからまだいけるな。
serverは2ソケ512スレだからもう上限に達する。
0153Socket774 (オイコラミネオ MM16-4w6J)
垢版 |
2019/09/25(水) 11:42:37.96ID:9fmXA2o0M
SMTってレジスタを何面か持つことで、処理を入れ替える際に必要なレジスタの退避、復帰が要らないんだつけ
0154Socket774 (ワッチョイ fe73-9GzD)
垢版 |
2019/09/25(水) 11:56:51.26ID:FMWIrd/H0
>SMTってレジスタを何面か持つことで、処理を入れ替える際に必要なレジスタの退避、復帰が要らないんだつけ
ウルトラスパークがそんな感じ
0155Socket774 (ワッチョイ 5939-1OQF)
垢版 |
2019/09/25(水) 12:25:54.37ID:GF6IfVn+0
>>153
ソレはSMTに限らずレジスタウィンドウとやらの応用で回避できるんじゃね

4SMT化のメリットは最小の操作粒度がほぼ完全に内部命令単位になる事だと思うわ
2SMT程度だと結局あんまり詰め込めないから効率がね
同時に回路規模の肥大化に伴いパイプ単位でのゲートが実装可能、というかそうせざるを得ないので電力効率を上げ易くなる筈

この路線は最終的にはフロントエンドと処理部とLSをそれぞれ好き勝手に配置する
謂わばコアという概念の無いプロセッサだと考えてるけど
ゲート出来る所と出来ない所が出るから構造を工夫しないといけない
上手く出来ると良いな
0156Socket774 (ワッチョイ c958-Ms+D)
垢版 |
2019/09/25(水) 12:42:42.63ID:7g06F1nb0
>>155
コアの概念無くなったら、8c16tと言わずに1M16tとか言うようになるのかな。
その場合の性能指標って何になるのやら。フロントエンドの最大数?なわけないよな。
0157Socket774 (ワッチョイ 2962-a0fg)
垢版 |
2019/09/25(水) 12:55:14.72ID:mnKK1QYY0
POWERみたいな構造になっていくのかな
HPCだとプログラムををカリカリチューンするからSMTはイラネって話もあるみたいだけど
0158Socket774 (ワッチョイ fe73-9GzD)
垢版 |
2019/09/25(水) 13:22:31.84ID:FMWIrd/H0
多数のすぐ終わってしまう軽い処理の場合はパイプラインを共有してハードウエァーを効率的に使用できる
またトランジスターの節約にもなる。当然シングルスレッドの性能向上には全く寄与しないしパイプラインの空き待ちで
効率がかえって落ちる場合もある。パイプラインを占有するような多数の重い処理のは不向きだね
トランザクションが異常に多いネットサーバーなどには向いているが、今はFPGAが幅を利かしている。
浮動小数点演算を超並列で行う目的でかつて存在したインテルの多コアHPCは4SMTでAVX-512を使用していた。
0159Socket774 (ブーイモ MM22-PBdO)
垢版 |
2019/09/25(水) 19:17:49.65ID:pnH4KeNJM
今のプロセッサはメモリーアクセス待ちで演算器が遊んでることが多いから
その間にレジスタないしキャッシュに載ってるデータを使う別スレッドを動かしてやれっていう面もある>SMT
投機的なデータロードを外した時のレイテンシを隠蔽できる。
ただ根本的にメモリバンド幅が足りてない場合には役に立たない。

SMTのスレッド数増やすなら同時にキャッシュ容量増加やメモリバンド幅増加もする筈で
特にキャッシュ増量はシングルスレッド性能向上にも役立つだろうね。
0160Socket774 (アウアウカー Sac9-1OQF)
垢版 |
2019/09/25(水) 21:17:30.81ID:Sp2F381ja
>>156
最大実行可能インフライト命令数、誤解を承知でスレッド数と言い換えることもできなくはないが
まぁその辺の数字になるでしょ
GPUで昔シェーダが分かれてたり、今でもROPとかジオメトリ/ピクセルとか色々あるじゃん
あんな感じでも表記はできると思う

>>157
突っ込めるリソースとの配分による
それにSMT使わない状態でフル稼働させられるなら、原理上4SMTコアの方が速い
多分カリカリに弄った2Tセットで走らせた方が速いけど
0161Socket774 (ワッチョイ eec0-vp+B)
垢版 |
2019/09/25(水) 22:06:58.78ID:k0cnXXIS0
Zen2でフロントエンドの分岐予測周りに手を入れているんで、順当いいけば次はバックエンドという事で
同じトランジスタリソースを投入した時最も割りのいいのが4SMTという判断なんだろうな

多分単純にコア数を増やすケースだと、最大のコア数(パフォーマンス)を実現しようとした時にIFが耐えられなかったんだろう
これはIFの論理設計の限界というよりは物理設計側の問題で、Zen2でいうIOダイのクロスバーが現実的なラインで実現できないんじゃねえかな
デスクトップというよりはサーバのフラグシップのことを考えた選択という気はする
0164Socket774 (ワッチョイ 8762-rE8j)
垢版 |
2019/09/26(木) 01:34:49.96ID:LhirWJ2Z0
電力効率を考えるとOoOリソース強化は辛い
ダイ面積効率を考えるとコアを増やすのも無駄が多い

というのを踏まえてのSMT強化によるスループット向上かな。
ZenでSMT有効にしたときの性能向上幅が大きいのを見ても、パイプラインに命令を詰め込める余地はまだありそうだしね。
ボトルネックになりそうな所は当然補強してくるだろうけど。
0165Socket774 (ワッチョイ 7fc0-Ow3g)
垢版 |
2019/09/26(木) 02:42:03.07ID:C/h8EqQF0
トランジスタ費やす候補としてはAVX512か4SMTかだけど、
インテルがやたらAVX512の命令セット増やしてるのはGPU持たない身でHPCやDL関連分野へアピールするためであって、
GPUがあるAMDにしてみればAVX512を推進するメリットが希薄だから、ZEN3の目玉は4SMTだろうね
0166Socket774 (ワッチョイ 0739-0x6Y)
垢版 |
2019/09/26(木) 04:03:54.61ID:z+EEMGf70
現状から行けばレジスタ周りさえ弄っちゃえばそのまま載せられそうだけどな
何処にフォーカスするかだけど、基本は頭の拡張だろう
4Issueのままか5-6Issue程度に抑えてL0拡張で12Op化とか
下側は現時点で過剰だし、手を入れるとしてもレジスタ周りくらいでしょ
0167Socket774 (オッペケ Srbb-oKTM)
垢版 |
2019/09/26(木) 07:19:43.53ID:k7oIjTfxr
内部レジスタと実行ポート増加にトランジスタ費やして得られる目玉はシングル性能の向上じゃね?
数増やして稼働率落ちたレジスタの活用候補としてAVX512や4SMTがあるだけで
0172Socket774 (ワッチョイ 07b1-A8KY)
垢版 |
2019/09/27(金) 04:00:47.15ID:NWcCM9B10
細かい処理が連続するデータセンターとかサーバー用途なら4SMTは効きそうだけど他は微妙じゃないか?
他でも性能を伸ばそうとすると実行ユニット/キャッシュ/TLBも相応に強化しないといけない

4スレッドそれぞれがキャッシュをあまり必要としなければいいけど、そうでないとスレッドあたりのキャッシュ容量が減る(=キャッシュミスが増える)
そうなるとメモリアクセスが増えてメモリ帯域がボトルネックとなりやすい
Zen3はDDR4のままだしchも増やさないとなると4SMTにしたところで性能向上は小さいものとなる
0174Socket774 (スプッッ Sdff-1m6m)
垢版 |
2019/09/27(金) 04:25:09.65ID:uH6LackKd
4SMTの効果や効率はともかく最近のAMDはワクワクさせてくれるから好き
お茶を濁して停滞してるより好き
でもブルみたいになるのはやめてくれよな!
0177Socket774 (ワッチョイ 07b1-Sxlc)
垢版 |
2019/09/27(金) 11:53:57.41ID:/mDP8Lq60
4SMTはEPYC用だろ
鯖には超有効だし
最近の鯖はコア数でアプリケーションの課金が決まること多いし
0178Socket774 (ワッチョイ 4774-NS1t)
垢版 |
2019/09/27(金) 17:12:05.92ID:FVNHSirl0
新技術より堅実でいいから、過去のAMDみたくずっこけてintel1強で全く競争働かなかった暗黒の時代はこりごり
0179Socket774 (アウアウカー Sa9b-FTXU)
垢版 |
2019/09/27(金) 17:12:31.08ID:3GdkPuvMa
EPYCは4SMTモード、それ以外は2SMTモードとかでしょ
正直一般向けはSMTなしでもいいくらいコア数が多いけどね
0180Socket774 (ワッチョイ 8762-S/NQ)
垢版 |
2019/09/27(金) 17:14:25.93ID:oHEWsj+p0
4SMTは眉唾
あればスループットは上がるけど、十分機能させるためにはリソースが必要だからなあ
0181Socket774 (ワッチョイ 07b1-A8KY)
垢版 |
2019/09/27(金) 18:03:14.94ID:NWcCM9B10
科学技術計算用途だとSMTはスレッドの切り替えが入ることで性能がかえって遅くなったりする
Zen3(Milan)はPermutterで採用が予定されてるし4-SMT化をメインに据え置いた改良するかは怪しい
あってもこれからXeonの値段下げてコスパを上げてくるであろうintelに対抗するため、DCやサーバー向けにオプションとして追加して1ソケットあたりのコスパを引き上げるくらいじゃないか
その場合アーキテクチャの改良は小さいもので済ませられる
0182Socket774 (ブーイモ MM7f-Wc61)
垢版 |
2019/09/27(金) 20:23:23.62ID:6vRL7IkWM
科学技術計算向けでSMTが性能劣化を招くことがあるってのは正しいけど
理由はスレッド切り替えじゃないでしょ。SMTは名前の通り同時に走ってるわけで切り替えコストは見えない。
理由はメモリーアクセスの競合(バンド幅不足)
0183Socket774 (ワッチョイ 07b1-A8KY)
垢版 |
2019/09/27(金) 20:32:29.77ID:NWcCM9B10
>>182
いや科学技術計算は演算器をフルで使うことが多い
だからリソース的には余ってないのに詰め込むと競合して切り替えコストが発生する
SMTはスレッド分のプログラムカウンタとレジスタを持つけどそれ以外は共用する
0184Socket774 (ワッチョイ 7f34-rP+5)
垢版 |
2019/09/27(金) 20:36:51.16ID:SKwjaD++0
額面上の帯域というより、ランダムアクセス性能なんじゃないかという気はする。
HDD環境で、ガリガリやる作業を同時に走らせるより順番に走らせた方が早く終わるのと
似たような感じ。
0185Socket774 (ワッチョイ 8758-S/NQ)
垢版 |
2019/09/27(金) 20:40:48.81ID:GaV5N+Mq0
>>183
まあでもAVX512準備として浮動小数点の方の演算ユニットは倍に増やすだろ。
その時に単にレジスタ長伸ばすだけにして普段の演算で暇にしてるか、数倍に増やして使い切る方策考えるかと
言われたら、後者の方がいいとは思うけどな。

なんなら最悪2コアを1モジュール扱いにして、AVX512の時だけ浮動小数点ユニット共用で使うようにしてもいい。
まあAMDにしてみれば二度と見たくねえと思うかもしれないが。
0186Socket774 (ワッチョイ 7fc0-C0UK)
垢版 |
2019/09/27(金) 20:41:57.44ID:g9/7jJHF0
シングルスレッド性能上げるためにはどの道かなり効率の悪い投資を必要とするのでそのリソースを有効活用するならSMT
EPYCは64Core/パッケージまで行ったが、ここから更にコアを増やすのはイロイロ厳しいので2SMT→4SMT
って感じかな
逆にデスクトップ向けとかは2SMTに制限されるんじゃないか?
4SMTがある程度有効に機能するリソースがあればシングルスレッドでも2SMTでも性能向上するし、マーケティング上の差別化もしやすい
0187Socket774 (ブーイモ MM7f-Wc61)
垢版 |
2019/09/27(金) 20:56:28.89ID:6vRL7IkWM
>>183
プログラムカウンタもユーザー見えのレジスタもOoO用の内部的なレジスタも
スレッド数に対して十分な数だけ存在するわけだし
演算器の数だってスレッド数よりは多いわけで
1スレッドだけ見るならともかく全スレッド合計したスループット的には低下しないのでは?
低下するのはキャッシュないしメモリーアクセスで比較的長時間の待ちが発生し
並列プロセス間の同期で不均一な待ち時間が発生する部分では?

並列に走ってるスレッド間の資源競合を切り替えっていうことにすごい違和感が
0188Socket774 (ワッチョイ 5f61-S/NQ)
垢版 |
2019/09/27(金) 21:21:55.28ID:EHjQOF8S0
HPC向けでSMT4にする愚行を犯すとは思えない
SMT4はあくまで今、非常に受けが良いVM実行のほうの効率アップが目的でしょ
(4-wayが本当に実装されるならの話だけど)
0189Socket774 (ワッチョイ 07b1-A8KY)
垢版 |
2019/09/27(金) 22:04:36.27ID:NWcCM9B10
>>187
まず十分な数と言うけど、プログラムカウンタはコアあたりに同時実行可能なスレッド数より多く持つものじゃない
そこからおかしい
スレッドと命令を混同してないか?
SMTはそれぞれ独立したスレッドを実行するけど、命令のフェッチ、デコードは2つを交互に行い、それを混ぜて実行パイプラインに送る
演算器(実行ユニット)は共有するし、そして科学技術計算は基本複雑で実行時間も長くなる
1つのスレッドで演算器をフルに使ってるのに、他のスレッドの演算命令を実行しようとすると「待ち」か切り替えによるコストが発生する
そうなると1つのスレッドの開始から終了まで時間がかかることになるから、今度はそのスレッドの結果に依存する(=独立しない)命令までが遅くなる
それの積み重ねで総合的に遅くなったりする

自分はあくまで演算器を使い切るような科学技術計算を前提に話してる
0191MACオタ>189 さん (ワッチョイ 6706-CSG3)
垢版 |
2019/09/28(土) 02:20:03.78ID:zhMEUkjV0
>>189
>自分はあくまで演算器を使い切るような科学技術計算を前提に話してる

自分の思い込みにのめり込んでるコジレっぷりすけど、現在TOP500の頂点に立つ HPC 向け POWER9 わ SMT4 コアす。

SMT をどの様に利用しているかわコレとか
https://www.olcf.ornl.gov/wp-content/uploads/2018/12/summit_workshop_thompto_smt.pdf
0193Socket774 (ブーイモ MM7f-Wc61)
垢版 |
2019/09/28(土) 02:37:53.63ID:TN/sc6bVM
>>189
プログラムカウンターについてはスレッド数と同一な数が
すなわち十分な数なんだから別に間違ってないでしょ。

命令のフェッチ・デコードをスレッドごとに交互にやるってのは誤り。
Zen 2のフロントエンドには4wayの命令デコーダーがあり
当然最大だと4命令同時にデコードできる。
命令ディスパッチはもっと並列度が高く6つのMicro-Opを同時にディスパッチできる。
これらがスレッド数より多いのはOoOで順序不同に複数命令を同時に実行するから。

OoOが分かってないってことはSMTも分かってないんだと思うよ。
データの揃った処理から両スレッドが投機的に演算器を使うし
物理レジスタ数は論理レジスタ×スレッド数よりずっと多いわけで
切り替えって言葉の使い方には相当な違和感がある。
0194Socket774 (ワッチョイ 8762-S/NQ)
垢版 |
2019/09/28(土) 06:29:15.42ID:o4GWsfrv0
SMT数に対して十分な実行ユニットが無い場合は、実行ユニットの取り合いによりスレッドごとに実行時間のばらつきが出て、全体では実行が遅くなったスレッドに律速されそう。
富士通のHPC向けCPUは最適化されたプログラムをすべてCPUで処理するのが前提だからSMTは無いんじゃなかったっけ。
アクセラレータを搭載するような母艦的役割のCPUは常に最適化されたプログラムを実行出来るとはj限らないのでSMTでスループットを上げる方を選んでるかと。
0195MACオタ>194 さん (ワッチョイ 6706-CSG3)
垢版 |
2019/09/28(土) 08:46:34.85ID:zhMEUkjV0
>>194
>富士通のHPC向けCPUは最適化されたプログラムをすべてCPUで処理するのが前提だからSMTは無いんじゃなかったっけ。

メモリを HBM2 オンリーにしたため、たった 32GB しか搭載できないのが理由かと?
仕様的にその辺のノートPC並みなので複数の独立したHPCジョブをこなす事が最初から不可能す
0196Socket774
垢版 |
2019/09/28(土) 09:24:48.37
>>195
HMB2 1TB/s 32GiB
PCIe3.0x32 SSD 31.51GB/s

PCIe3.0の最高通信速度の片方向31GB/sのSSDに直通させるからプログラミングで下手くそで無ければ速度は十分な件
これで駄目ならXeon/EPYC+GPGPUのHPCも使い物にならない

GPU演算から分散はコア単位だと20GBの容量と片方向16GiB速度があれば足りるのは
nVidia/AMDのGPGPUの最適化で証明されてるだろ
32GBしかVRAMが無いからGPGPUは無意味と言ってるのと同じやん
0197Socket774 (ブーイモ MM7f-Wc61)
垢版 |
2019/09/28(土) 09:45:17.86ID:BGuHKat6M
>>195
SPARC64 fx系じゃなくてx86だが
https://jp.fujitsu.com/platform/server/primergy/performance/pdf/wp-skylake-bios-settings-primergy-ww-ja.pdf
だとレイテンシのバラツキを抑えるためと説明してるな。
スレッド間で必要とする資源が競合しててもスループットで見れば
SMT化で向上することがほとんどだが
スレッド間の同期処理の回数が多いと
レイテンシのバラツキの影響で無駄な同期待ちが発生して
スループットまで低下するからその話かな。

あとよく考えるとSIMD命令については物理レジスタも演算器も
複数スレッドを同時に動かすほどの余裕はないだろうから
切り替えという表現でも間違いとは言えない気がしてきた。
すまん。
SIMD命令を使うとSMTのスレッド間のレイテンシのバラツキがより拡大するだろな。
0198MACオタ>194 さん (ワッチョイ 6706-CSG3)
垢版 |
2019/09/28(土) 10:05:00.88ID:zhMEUkjV0
>>196
>32GBしかVRAMが無いからGPGPUは無意味と言ってるのと同じやん

GPGPU わノードに搭載された大容量メインメモリにアクセスできるのに対して、A64FX の設計わガチで 32GB/node す。
激遅のノード間インタコネクトを介してしか大容量メモリを確保できないという傾いた設計す。
http://www.isee.nagoya-u.ac.jp/~umeda/vlasov/vlasov_tutorial_ppt.pdf
0199Socket774
垢版 |
2019/09/28(土) 11:00:03.38
>>198
だからRAMの代わりに大容量で高速なSSDを使うんだよ
PCIE3.0x16ではなくPCIe3.0x32の規格の限界でね
31.51GiB/sはDDR4-1866 DualChannelクラスの速度だから
HMB2と併用すれば十分速度を確保できる

PCIe3.0x16の15.75GiB/s経由でCPU-GPU間を行き来するXeon/EPYCのGPGPUより高速で大容量な件
A64FXで容量が足りずに速度が出せないならXeon/EPYCでも演算速度が出せないぞ
アルゴリズムから見直しが必要なレベル
0200MACオタ>199 さん (ワッチョイ 6706-CSG3)
垢版 |
2019/09/28(土) 11:31:23.03ID:zhMEUkjV0
>>199
>だからRAMの代わりに大容量で高速なSSDを使うんだよ

僕の考えた怪獣が一番強い理論すか(笑)
0203Socket774 (ワッチョイ ff73-srNF)
垢版 |
2019/09/28(土) 18:04:33.94ID:J056ZQyf0
2 VPU: 2x AVX512 units.

https://www.hotchips.org/wp-content/uploads/hc_archives/hc27/HC27.25-Tuesday-Epub/HC27.25.70-Processors-Epub/HC27.25.710-Knights-Landing-Sodani-Intel.pdf
KNL Tile:
2 Cores, each with 2 VPU
1M L2 shared between two Cores
2 VPU: 2x AVX512 units. 32SP/16DP per unit. X87, SSE, AVX1, AVX2 and EMU
Core: Changed from Knights Corner (KNC) to KNL. Based on 2-wide OoO
Silvermont&#8482; Microarchitecture, but with many changes for HPC.
4 thread/core. Deeper OoO. Better RAS. Higher bandwidth. Larger TLBs.
L2: 1MB 16-way. 1 Line Read and &#189; Line Write per cycle. Coherent across all Tiles
CHA: Caching/Home Agent. Distributed Tag Directory to keep L2s coherent. MESIF
protocol. 2D-Mesh connections for Tile
0204Socket774 (ワッチョイ ff73-srNF)
垢版 |
2019/09/28(土) 18:11:10.86ID:J056ZQyf0
これも興味深い
https://news.livedoor.com/article/detail/10377676/
KNLのコアは2命令のOut-of-Order実行をサポートし、4スレッドを並列実行するように拡張されている。
KNCでは2スレッドを実行しないと実行パイプラインをフルに使用することができなかったが、KNLでは、
1スレッドしか実行していない状態でも実行パイプラインをフルに使用でき、最大性能を達成できるとのことである。
0205MACオタ>201 さん (ワッチョイ 6706-CSG3)
垢版 |
2019/09/28(土) 18:20:01.37ID:zhMEUkjV0
>>201
KNC までのインオーダーコアと比べると改善されているとわ言え、この手の小規模コアでマルチスレッディングを採用する主目的わメモリアクセスレイテンシの隠蔽す。
GPUのコアも同じ理由で MT を採用してるす

サーバー向けの x86 や POWER の SMT わシングルスレッドで使い切れない豪勢な実行ユニットを有効活用するためなので、また違うす
0209Socket774 (ワッチョイ ff73-srNF)
垢版 |
2019/09/29(日) 16:09:33.83ID:NMKfQrQJ0
https://andosprocinfo.web.fc2.com/Myweb/wadai19/20190316.htm
石油探査などのデータ処理企業のDUGが,単精度250PFlopsのクラウドを建設

このクラスタは,Intelが製造打ち切りを決めたKnights Landing(KNL)を使い,Intelに残っている38,000枚のKNLのウエファを総仕舞するのだそうです。
DUGは2004年にもKnights Corner(KNC)のウエファを総仕舞しており,ソフトウェアがそのまま動くのがメリットとのことです。

なお,この次のXeon Phiは無いのですが,XeonがAVX-512をサポートしており,コア数もKNLに近づいており,次はXeonで行けると考えているようです。
0211Socket774 (オッペケ Srbd-QZBV)
垢版 |
2019/10/03(木) 07:40:15.07ID:8CuWMlMJr
【速報】Microsoft、13/15型のSuface Laptop 3。AMD CPUモデルも
https://pc.watch.impress.co.jp/docs/news/1210613.html

280,280円(税込)Ryzen 7 /SSD:512GB /メモリ:16GB
https://www.biccamera.com/bc/item/7287923/

ご祝儀価格が酷過ぎ
231,880円(税込)Ryzen 7 /SSD:256GB /メモリ:16GB
https://www.biccamera.com/bc/item/7287921/

183,480円(税込)Ryzen 5 /SSD:256GB /メモリ:*8GB
https://www.biccamera.com/bc/item/7287940/


参考 HP ENVY x360 15(AMD)
https://jp.ext.hp.com/m/notebooks/personal/envy_15_x360_ds0000/
73,000円〜(ちょっと前までは6万円台で祭りやってた)
0215Socket774 (ササクッテロル Spbd-/trd)
垢版 |
2019/10/05(土) 12:59:11.44ID:CoH4WkqDp
AMD技術者がZEN3とZEN4の概要を明かす。
・ZEN3はソケット互換でメモリーはDDR4
・ZEN3のCCXは8-core + L3 cacheの構成
・ZEN3は2-waySMTのままでコア数も最大64-core
・ZEN3もCPUダイとIOダイの分離構成を踏襲
・ZEN3は試作を開始して2020年第3四半期の投入予定
・ZEN4ではソケットを変更(DDR5やPCI-E5.0対応?)

https://www.overclock3d.net/news/cpu_mainboard/amd_reveals_early_zen_3_milan_architecture_details_and_zen_4_genoa_plans/1
0216Socket774 (ササクッテロル Spbd-/trd)
垢版 |
2019/10/05(土) 13:01:07.35ID:CoH4WkqDp
 ̄ ̄ ̄\/ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

     /  ,                \
    /   / l                 ヽ
  ,r'    /  ヾ,、               ゙,
 ./   イ/    ` ` 、              }
 { i   | ゙      、,,`' 、 ,           j
 レ'、,  |      ,:r'"''‐ `'゙、  ,、‐‐、      l
   ゝ」、 、 , ,、‐''゙゙、゙'、-――t'''/ / l     | 
    ,ゝ‐、_,',.  ' ,O 〉     V .( ゙, j     i  
    ',.ヽソ. '、,,、 -'"       / /     j 
     '‐レ゙             .,r'    ノ   
      l` `      、     i'" ゙ヽ、,/      
.      ゙、  ,,、 -‐'"      ノ    ヽァ、 
       ゙、'´ ..       ,r゙     ノ ヾ^゙ヽ、
.       ゙,        ./    ,、r'  /   \
        !、     /  ,、r'"   /      /`'ー-
         `'''"入 ̄ ,、r ''"   ,、/      /
          く  .Y'"   .,、r'"/      /
         /" ` 、', ,、r''" /_____/
     ,、 - ''"´ ̄ ̄`゙i zz,,,/ \
   ,、 '"  ,、 ''"    | /    \
           ファンボイ大佐
0218Socket774 (ワンミングク MM7a-IzOd)
垢版 |
2019/10/06(日) 10:27:46.49ID:nu0QV1xoM
配線爆発を避けるための4コアCCXだったはずだから、
単純に8コアにするだけではなく、何かしら基本構造の変更がありそう。
0219MACオタ>215 さん (ガックシ 063e-arkt)
垢版 |
2019/10/06(日) 12:17:45.81ID:xE6z58r46
>>215
プロセスノードも消費電力枠もコア数もあまり変わらないという事わ、(ダイサイズに大きくしない限り)構成トランジスタ数も変わっていないと予想できるす。
結果的にコアに大きな改変わ加えられていないというのが順当な予測かと。

正統進化として命令の実行レイテンシなどが改善されてる安定な後継製品が期待できるのでわないすかね?
0221MACオタ>220 さん (ガックシ 063e-arkt)
垢版 |
2019/10/06(日) 12:39:59.00ID:xE6z58r46
>>220
同じアーキでコア数を増やすのを大変革と呼ぶならそうなのかもしれないすけど…
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況