Intelの次世代技術について語ろう 103
■ このスレッドは過去ログ倉庫に格納されています
>>45
プロトコルはUPI互換だと思うけどなあ。
ピン数増やしてクロック下げる程度の変更じゃない?
キャッシュコヒーレンシの問題があるから同一タイル内の線をそのまま伸ばしても動かないよ。 1600平方mmのダイは作れないから分割して作ってEMIBで繋げたということであれば、何も問題ないのでは。
L3は全タイルで共有とArchitecture Dayで言ってるし。 メッシュは1本が64バイト幅x双方向のようだけど、これが1タイルに最大5x6くらいじゃないかね。
Sapphire ESのぶっ壊し画像のリーク時に画像から寸法を割り出して>>42に書いたようなことを
考えてみた人は分かると思うけど、メッシュ6本の面だとシングルエンドでも6000本以上になるが、
55umピッチならあのEMIBサイズで十分収まりそうだよ。 >>47
> L3は全タイルで共有とArchitecture Dayで言ってるし。
現状のUPI使ったマルチソケット機と同様に、ソフトウェアから見て論理的には共有って話じゃないの?
> 1600平方mmのダイは作れないから分割して作ってEMIBで繋げたということであれば、何も問題ないのでは。
その場合、L3アクセスのたびに全タイルにアドレス流す必要があって遅くなるし電力も食うでしょう。
UPIプロトコル使ってディレクトリ管理した方が
アドレス流す頻度が減って、低レイテンシかつ省電力になるはず。 細かい点では色々工夫してるだろうけど、下記からの説明に出て来るスライドでは、ソフトウェアが
モノリシックと同じように扱える点や、すべてのスレッドが全タイルのリソースにフルアクセスとか
かなり協調してるね。物理的にはメッシュ接続レベルでやってそうだよね。
https://www.youtube.com/watch?v=3zyQNiJw82U&t=250 >>50 URLの最後が加工されちゃっったね。4分10秒辺りから。 あと、UPIのマルチでL3を共有とは言わないよね。
コヒーレンシを維持してるってだけだよね。 >>52
それは知らないなあ。
言わないかもしれん。
でもコヒーレンシプロトコルを介さずホントにタイル間でフラットな L3 キャッシュを共有するんだとすると
Sapphire Rapids は EPYC に L3 access latency で劣る可能性が高くなって
むしろ残念要因じゃない?
Intel Architecture Day のその発表の URL ってないの?
実はその発表の shared L3 cache ってタイル間じゃなくてコア間共有って意味で発表してたりしない? Architecture Dayの発表は仕組みとかじゃなくて効果とか狙いどころしか言ってない感じかね。
SapphireでL3が全タイル内で共有は>>50の動画の13分15秒辺りのスライドにはっきり書いてある。
そのスライドはメディアも引用してたと思うけど...
そもそも、キャッシュのコヒーレンシの維持は、ソケット内全域のL3共有以前に重要な別の話でしょ。
L3などのキャッシュをどれだけ広い範囲で共有できるかはその次の問題で、必須ではないけど
理想は広い方がよくて、それをどれだけ広くできるかは技術的にどう克服できるかということ。
Zenも、Zen2までは1つのダイ内でもL3が分割されていて、ワークロードによっては厳しい場合も
あるからZen3で改善した訳だし。 >>54
広ければ広いほど遅く、かつ電力食いなるので
広いのがいいとばかりは言えないんだよ。 13分20秒だった。
下記のように簡潔に書いてある。
Increased Shard Last Level Cache (LLC)
Up to >100MB LLC shared across ALL cores ※ALLは大文字で書いてある
そう言ったものなどを土台として、>>50で示した動画の部分で言っているような効果を実現した
ということではないかと。
メッシュは現状でもクロックが低いせいか、i9-7980XEやW-3175XでOC遊びしているとL3の
レイテンシやメモリのレイテンシはIntelメインストリームよりかなり大きいね。
i9-7980XEとW-3175Xの比較でもW-3175Xの方がL3のレイテンシやメモリのレイテンシ共に
少し大きいのが分かる。
i9-7980XEやW-3175Xを両方同じメッシュクロック、コアクロック、メモリクロック、メモリタイミング、
同じ銘柄のDIMM、同じく2DIMM/chでAIDA64で比較するとこんな感じ。メモリレイテンシは、
遅いといってもZenよりは速いかな。
L3レイテンシ メモリレイテンシ
i9-7980XE 17ns台 19ns台
W-3175X 50ns弱 53ns辺り
SapphireはCore-Xも出るという噂だけど、自分は暫く様子見だと思う。
何れにしても、SapphireのEMIBは55umピッチと判明し、各タイル間に数千本の接続を行うに
十分な物量となっている。 一部入れ替わってたw
L3レイテンシ メモリレイテンシ
i9-7980XE 17ns台 50ns弱
W-3175X 19ns台 53ns辺り あと、L2のレイテンシもi9-7980XEやW-3175Xは遅いね。AVX512対応で容量と帯域重視で、
更にIce/Sapphireで拡大する流れ。一部ベンチには効果あるけど、一般人には余り効果ないかな。
L1は帯域確保した上で遅くなってないようだ。
Xeonは、Skylake以降メインストリームと大分違う性格付けになってきたね。 >>38
問題ねーな
元から7nmEUV、5nmEUVが桁外れのコスパ性能だから、このプロセスメインで利益を狙うのは約定事項で
2030年代でも5nmEUVは量産で使う予定で5-7nm時代はIntel 14nm時代よりも長くなる
そしてAMDは5-7nnm勝負で圧倒できるの確定で、5-7nmが26年くらいまで続いても、その間他社の逆転カードは揃わない
そして28-30年になるとガリウム登場で、ガリウムになると
・消費電力40-50%にダウン
・放熱量激増で熱は1/2以下にカット
・性能は2割向上
だからベースクロックを高められる恩恵がある
なんで5-28nmプロセスのままガリウム行くと思うよ
ガリウムなら28nmでも7-12nmくらいの性能、7nmEUVで2-3nm級の性能だからな Intelが2兆円以上を投じてヨーロッパに半導体工場を建設する予定であることが判明
ttps://gigazine.net/news/20210908-intel-europe-95-billion-dollar/ 知ってた速報なんだか似たような話が流れすぎてて
一つの計画なのか複数の計画があるのかよく分からないとゆうね >>60
ガリウムの産出量知ってる?希少すぎてハイエンドのごく一部でしか使えないよ Intel Packaging Update - 「Foveros」と「EMIB」による高密度実装、HotChipsで最新世代の新情報
https://news.mynavi.jp/article/20210902-1963101/ 色んな高機能素材を使え使えと言う奴居るけど
結局鉄鋼に勝てる素材が無いのと似てるな
産出量と汎用性が最重要
シリコンは半導体界の鉄鋼やで >>63
今時の最先端半導体プロセスで Ga ウエハを使う訳で無く、トランジスタを構成するナノメータレベルの薄膜材料に Ga やら Hf やらを使うだけす。
そもそも自作界隈って Ga 合金をヒートシンクのグリスがわりに使ってないすか? ダイとヒートスプレッダの間に使ってるっす(殻割りってやつ) >>60のいうガリウムってパワー半導体向けの酸化ガリウムのことでしょきっと HotChipsでもSapphire Rapidsの話(質問に答えてくれた内容かな?)。
https://servernews.ru/1047385
斜めの接続はなく、メッシュぽい動きと説明されたようだ。
※Skylake-SPのときにメッシュ上の斜めの通信は、まず縦に送って、その次に横に送る(斜め方向だと、
往路と復路が違う経路になる)と説明があったけど、Sapphireの4タイルでもそれと同じ同じ動きになるそうだ。 インテルの情報からは窒化ガリウムの窒の字も見当たらないからファンになる たぶん熱設計的にゲーミングノートとかスリムタワー以下が死にそう え?インテルの最新CPU使うならミドルタワー以下の自作erは死ねって?
随分と過激だな AlderLakeのPコアはIPC的にはZen3の1.1倍くらいな感じ。
Eコアが結構マルチスレッド性能を引き上げてて面白いな Pコア1個だけにして残りはEコアのベンチ番長作ろうぜ シングルスレッドベンチのみPコアが活躍するのでは?
マルチスレッドベンチを認識するとPコアの電源供給を停止してEコアだけ稼働させる仕組みかもしれんな 別にベンチを認識する必要は無い
使われ方や冷却状況を見て適切なコアに割り振るだけ Alderの後はさらにEコアが増えるようだし
シングルベンチやシングルしか使わない処理重視から
電力やトランジスタ効率重視のメニーコア系にだんだんと移っていくんじゃ? ゲームとか考えると当面Pは8くらいはあった方がいいか。
8+32くらいあると相当使えそう。 >>82 ブレードサーバーで使えば実装密度上げられるかな。 あのダイイメージの通りPコア1個の面積でEコア4個置けるとしたら、8+8と4+24が同面積。
選べと言われたら後者を選ぶかな コア間接続が肥大するから4+24は無理じゃなかろうか
>>78
Eコアで実行して性能が上がったのか
雑用コードをEコアで実行したから
結果的にPコアの演算密度が上がって性能が上がったのか気になる 今日日シングルスレッド性能が重要な処理なんてそれこそベンチとゲームくらいしかない
EコアはJasperLakeの後継なんだから速くて当然
Pコアの系譜が延々と爆熱化してる中で
Eコアの系譜はGemini辺りからIPC劇的に向上してるからな 電力も劇的に増加して結局SkylakeぐらいのIPCと電力になってるんだよな コンシュマーじゃEコア増やすとしても32コアくらいが限界かな。
x265みたいなマルチコアがバリバリ効くアプリでもそのへんまで行くとけっこう頭打ち コンシューマーって何だよwww
一般人が普通に使うソフトならスマホで良いってことにもなる
一応自作PC板だしいろんな用途があることを忘れずに それもそうだね。コンシューマって曖昧すぎたわ。ThreadRipperだって一般ユーザ向けに売ってんだから何でもありか AlderはPCIe帯域かなり増えたね。PCIe 3.0換算でチップセットも含めると88レーン分か。
Core-Xでも52レーンしかないのに贅沢だな。
あとは、M/B側でレーン分割などが使い易いのが出るといいのかな。 >>86
軽い作業はIce Lake2コア並みの4コアで十分と考えているAppleとは真逆だな
あちらは噂だと3nm世代でのハイエンドでPコア28+Eコア4コアらしいからな
A16世代だからIPCは現行のZen3の140%よりもっと速いんだろうけど 勘違いしてるようだけど
Eコアは軽い作業用じゃないぞ Appleはスモールコアが遅いんだろ、IPC云々じゃなくて絶対性能として
IntelにもXeonPhiという爆熱低性能の産廃が昔あってな
ちゃんと並列化してもシングルスレッド性能が低すぎてどうしようもなかった
ある程度の速度が出せるならクロック数を上げるよりコア数を増やした方がスループットが出せる
それが高効率の本質 Appleというよりarm系はLittle.bigだからね EコアのSIMDは128bit(2サイクル)なのか256bitなのか >>104
L1Dへのアクセスが2x16バイトロードと2x16バイトストアみたいなので前者だと思う。 >>106
あーなるほど、そうやって見ると128bitなのか! Kaby Lake-G搭載の「Radeon RX Vega M」向けドライバが2年9カ月ぶりに更新
ttps://pc.watch.impress.co.jp/docs/news/1350493.html
やる気なさすぎワロタ 「スポンサード」記事だなw
紙媒体の雑誌とか新聞とかの「記事っぽい広告」に騙されないように気を付けて>< インプレスはもはやPR入れておけばおk、と本気でやってるからな Sapphire Rapids に関するIntelエンジニアへの個別インタビュー記事が下記など幾つかあるようだ。
https://www.eetasia.com/intel-brings-chiplets-to-data-center-cpus/
・ダイ間はメッシュのバス幅そのままでなく、シリコン面積節約のため少し幅を狭めてクロックを上げて通しているようだ。
最初は4倍クロックにしようとしたが上手くいかなかったとのこと。結局どうしたか書いてないが、Skylake-SPのメッシュ
クロックと大差ないなら2倍でも5.4GT/sに収まるので2倍辺りか(Sapphire Rapids-Xが出たとき、今ほどメッシュのOC
幅が取れなくなるかな)。
別記事で、ダイ間の遅延時間(忘れたが4〜8nsくらいと言っていた気がする、ダイ内の1ホップより大分大きいのでは
ないかと感じた)を述べたものがあったが、バス幅&クロック変更でそれだけ遅延するということか。
・HBMサポート版は一般版と一緒には出て来なそうな話。HBMサポート版ではHBMコントローラのエリア確保のため
暗号、圧縮等の一部のアクセラレータを外す。メッシュにも手が入る。(帯域が1つのメッシュストップやメッシュラインに
集中しないうような配慮が必要とか??) 競争力のある性能じゃないんだな。ということは第10世代のCoreXみたいに
「価格性能比2倍!!」→実は半額セールでした。
ってやつか。 >>114
価格でしか競争できない会社はいずれ立ち行かなくなる コア数性能ともに負けてるなら価格で勝負しないとお話にならん
相手は製造問題あるから安値攻勢でいけば数年は耐えられる alder lakeが思いの外上手く行ってて
今まで出てきてるベンチマークが正しければ
zen3の7割のダイ面積で同等の性能を達成して
3世代分くらいのアドバンテージを一気に獲得してて、
8コア以下の主流レンジではzen4でのIPC20%では逆転できない差がつきそうだし、
モバイルに適用すればApple A13やM1に追いつきそうなスコア出してる intelが安くしたのはダイ面積が小さいので本当に安くできるっぽいからなんだよな。
ファブがintelのアキレス腱かと思っていたら、
TSMCへの集中問題もあってにわかに強みに変わってきた。 alderも現物を見るまでは本当に噂道理のスペックで出るのかどうか信じない >>126
AMDはスレッドリッパーがハイエンドだぞ
まだZen2で手加減してもらってるのにボロ負け状態だろ >>128
zen3でスリッパ作るのは技術的な困難はないのに出てないから、単純に売れる見込みがないんやろ >>128
スリッパ使いこなしてるの将棋の藤井くらいじゃん
一般人はメインストリームで十分でしょ 「でも、それは〜」と言い訳ばかりが上手くなるインテルとその信者w スペックに嘘はないだろうが
ベンチはPL2超の領域での時限付きブーストだわな
それで5900Xあたりとギリ勝負できると
ワッパ?お察し…、みたいな PL2へのブーストって10%も稼げない(稼げたらrocketでzenに見た目対抗できるほどスコア盛れてる)から
alder i5とryzen5で50%の差がついてるのはひっくり返しようがないんだよね
zen4の6コアでもalderの6+4コア55W版を追い抜くのはまず無理 i5とRyzen5は比べられるもんでしょ
価格も近いみたいだしな TDP65Wと125Wの製品やモバイルのTDP55W版で比べるのもいいけど
競合よりTDPが大きいんだからそれだけ性能差が無いと話にならない 11900Kと5900Xを比較してたら
なんで8コアと12コア比較してんの?って思うタイプなんだろう
まあIntelAMDでやたら勝ち負けに拘ってる層が一定数いるよな
そういうやつは自分の推してるほうが不利になる条件にはケチつけがち 競合製品と相対的比較で選ばれるわけだし
自社の前世代からUPと言われても >>129
11月頃に発売ってのがもっぱらの噂だよ>Zen 3 Threadripper
発売が遅れてるのはたぶん生産が追いついてないせいかと もしも Alderlakeの6+4コアがZen 4の6コアと同価格で安いなら
Zen 4の6コアが値下げしてくるのは確定してるわけで
Intel派、AMD派、こだわらない派の全員にとって嬉しい話だろう。
そしてAMDが全く対抗できなくなったら
Intelがまた舐めプに戻り
永遠に続くかと思われたあの最大4コア時代みたいなことになるので
もしもそうなったらみんなAMDを応援すべきw >>143
書き間違えた。
同価格で安いなら→同価格で速いなら 競争は大事よ一方だけ強いとクルザニッチ時代のインテルのように性能伸びない
今のAMDのように価格が上昇と良いことない ■ このスレッドは過去ログ倉庫に格納されています