Intelの次世代技術について語ろう 91©2ch.net
レス数が950を超えています。1000を超えると書き込みができなくなります。
Intelの次世代製品や、それに関連する技術についてのスレッドです。
■前スレ
Intelの次世代技術について語ろう 90
http://egg.2ch.net/test/read.cgi/jisaku/1499796238/ 僕たちRyzenブラザーズ!
 ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
AmD AmD
( ・∀・) AmD (・∀・ )
( つ )つ ( ・∀・) /( б ) age
l⌒__ノ (○ ) ∪⌒__ノ age
し' し' (_)`∪ノ (_/ ヽ_)
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
AMD,ノートPC向けの新世代APU「Ryzen Processor with Radeon Vega Graphics」発表。「性能はKaby Lake-Uを上回る」
http://www.4gamer.net/games/300/G030061/20171025016/ >>843
AI向けプロセッサをCPUに統合するとしたら「サファイアラビッド」からの可能性大! SkylakeでAVX-512は実装済
HTTや64bitのようにオフにしてただけ skylakeにはAVX-512の回路が載ってるコアと載ってないコアの2種類がある
これについては>>848の記事に詳しく書いてある 疑問に思ったのはデータパスなどだってばよ
port5にFMAユニット追加ということは
port5は元から256bit FMAユニットを使いこなせるように作られてたの?ってこと
つまりポン付けでFMAついかすればいいようになってたのかってこと 載ってる・載ってないの違いがあるのは2つめのFMA演算器で、内部的にはAVX-512対応済みで無効化しているだけだと思う(有効化してもAVXとスループット変わらんけど) なんか不正確
AVX512はSkylakeから載っている(と思われる)
演算ポートが1個の物と2個の物がある
Skylakeは1個、SkylakeXは2個
1個だと256bit 2個からは性能が上がらない
性能の低いAVX512のリリースはAVX512の普及を妨げる為、マーケティング上の戦略で無効にしたんでしょう その割にはXeon SilverとかGold下位とかFMAポート1個しかないのも売ってるけどなんでかな(差別化要因?) その辺は、アホがAVX512は使えないって騒ぐことは無さそうだから
とか? 当然、バリバリ演算するならもっと上を買えって意味も > 疑問に思ったのはデータパスなどだってばよ
何語だ?
日本語でいいよ AI新命令のターゲットは、推論+小規模な学習じゃないの?
エッジ用の
大規模な学習は、専用のDNNアクセラレータなり、nvidiaのカードなり使うでしょ? >>857
誰もskylakeに実行可能命令としてAVX512が実装されているかどうかを聞いてるんじゃない
早い話が>833,848のスライドでいう追加されたAVXユニットの隣が
そのAVXユニットにデータを供給するために追加されたバスの可能性はないの?ってこと http://www.numberworld.org/y-cruncher/news.html#2017_8_15
メモリ帯域がボトルネックになるプログラム
1 billion digits of Pi - Core i9 7900X @3.8GHz
AVX2 2133MHz メッシュ2.4GHz
51.624s
AVX512 2133MHz メッシュ2.4GHz
45.468s
AVX2 2133MHz メッシュ3.2GHz
50.448s
AVX512 2133MHz メッシュ3.2GHz
44.291s
AVX2 3400MHz メッシュ2.4GHz
47.233s
AVX512 3400MHz メッシュ2.4GHz
38.405s
AVX2 3400MHz メッシュ3.2GHz
45.451s
AVX512 3400MHz メッシュ3.2GHz
36.355s
L2に最適化すればもう少しどうにかできるかもしれないらしい
いまのところ多コアのXeonでクロック下がる分は取り戻せない http://www.numberworld.org/y-cruncher/news.html#2017_7_6
メモリ帯域がボトルネックにならないプログラム
10 billion Hex-Digit of Pi - Plouffe's 4-term BBP Formula
Core i9 7900X @4.0GHz
4 threads/4 cores
AVX2
113.700s 94W
AVX512
59.900s 134W
8 threads/8 cores
AVX2
57.146s 159W
AVX512
30.061s 239W
こっちはかなり効果的 性能上がる分そのまんま消費電力も増えてる感
これがAVXと通常命令混雑の時、どうなるか…… >>870 交じり具合によってはy-cruncherの人が書いてる"Phantom throttling"
にするってことなんだろうね。
AVX512の高消費電力命令が来たとき、直ぐに電圧上げたりクロック落としたり
できないから、その間は通常命令はそれまでのクロックで実行し、AVX512は
半速で処理して電圧が下がるの防ぐってことかね?
>>867のは十分電圧上げた設定で"Phantom throttling"にならないようにして
全力性能出させたみたいだね。 >>873
上と下でタイム全然が違うのは
上Chudnovskyの公式
http://円周率.jp/formula/ramanujan.html
普通のπの計算
下BBPの公式
http://円周率.jp/formula/bbp.html
16進数表記でn桁目の値だけを求める
で計算してるものが違うから
>>867のBBP Formulaの方はプログラムとデータがほとんどキャッシュに収まってAVX512で性能上がった分がかなりタイム上昇につながってる
純粋なSIMD性能に近いのはこっち
>>866のメモリ帯域ベンチ色が強くなるChudnovsky Formulaモードだとメモリ帯域足りなくて使い切れてない
シングルスレッドならそれが緩和されてそれなり?に速くなってる >Memory bandwidth is a significant bottleneck:
>y-cruncher was already slightly memory-bound on Haswell-E.
>Now on Skylake X, it is much worse. While I had anticpiated a memory bottleneck on Skylake X with AVX512,
>it seems that I've underestimated the severity of it:
>
>
>(The CPU frequencies in this benchmark were chosen to be low enough to avoid any throttling or phantom throttling.)
1 billion digits of Pi - Core i9 7900X @ 3.8 GHz
1 thread 2133 MHz
AVX2
444.434s
AVX512
325.543s
20 threads 2133 MHz
AVX2
51.884s
AVX512
45.658s
って書いてあるしPhantom throttlingは起きてないんじゃないかな
>>866
1 billion digits of Pi - Core i9 7900X @3.8GHz
AVX2 2133MHz メッシュ2.4GHz
51.624s
AVX512 2133MHz メッシュ2.4GHz
45.468s
メッシュを3.2GHz、メモリを3400MHzより上に設定すると不安定になり始めるみたいだけど
http://hwbot.org/submission/3593822_mysticial_y_cruncher___pi_1b_core_i9_7900x_38sec_522ms
https://d1ebmxcfh8bf9c.cloudfront.net/u45658/image_id_1868317.jpg
y-cruncherの作者Mysticialさんの環境だとChudnovsky Formulaモードでサーマルスロットリングが起きないぎりぎりのラインが4GHz
それで3.8GHzまで落としてる http://www.overclock.net/t/1634045/skylake-x-phantom-throttling
http://cdn.overclock.net/5/50/50df5c97_phantom-throttling.png
Phantom Throttlingってのはクロックは変化せず温度と消費電力が急激に低下する現象につけた名前らしいね
それにともなって性能も半分以下に低下
負荷がかかってVCCINが1.65v辺りまで低下すると起きるとか
解決方法は上に書いてあるけどOCする人ならいじる設定なのでそういう人は起きにくいはず
こっちが普通のサーマルスロットリング、クロックダウンしてるけど性能低下はPhantom Throttling程ではない
http://cdn.overclock.net/e/e3/e38d087c_phantom-throttling2.png
y-cruncherのサイトの"Phantom throttling" of performance when certain thermal limits are exceeded:の項に行って
Clock Speedの4GHzの数字のリンクでクロックは変化してないのに温度と消費電力は下がってる所のモニタリングソフトの画像が見られる
http://www.numberworld.org/y-cruncher/news.html#2017_7_6 >>874 いや、>>866がメモリ帯域ネックなのは理解してて、"Phantom throttling"で
AVX512が性能出てないと言ってるわけじゃない。
あくまで、「>>867は」"Phantom throttling"の影響がほとんどない状態の結果のようだ
と言っただけ。
"Phantom throttling"は、>>873に書いたように意図的にそうしてるんだと思ってる。
ベンチマーカーなんかは、Xeonの定格なんかからかなり外れたところで動かすから、
y-cruncher、Sandra、IntelのLinpackとかAVX512使ったベンチでは設定に注意が
必要そうだね。Sandarだと7900Xの人達は大分限界まで追い込んでる感じがする。 Intel 10 nm CPUs to See Very Limited Initial Launch in 2017
https://www.techpowerup.com/238307/intel-10-nm-cpus-to-see-very-limited-initial-launch-in-2017
誰でも目にできるのか分からないが今年中に出ることは出る模様
大量に店頭に並ぶのは来年後半 >>877
こっちの読み方が悪かった、ごめんね
Phantom throttling中でもAVX性能だけ下げてAVX使わない処理はクロック表示分の性能出るかもしれないってことね
y-cruncherの作者によれば実際はクロックダウンしてるけどモニタリングソフトだと読めないらしんだけど、どうなんだろう
結構謎が多い現象 >>880 先週末はSkylake-Xスレで買った人の話があって、OCで一般命令の
クロックを(無駄な電圧掛けないようにして)上げられるところまで上げて、
かつAVX512も上げられるところまで上げる上手い方法がないようだった。
消費電力が何倍も違う命令が入り混じってるのは難しそうだね。
※FIVRがどんなに速くても、出力変化させるのに百クロック単位の時間が
掛かりそう。 それこそヘテロジニアスマルチコアにした方がよかったんでは
AVX512処理専用コア コア別れてるとレイテンシが大きいしプログラミングもめんどいからそれGPGPUでよくね?
ってなってしまうしそこは譲れないところな気がする / ̄\
| 淫厨 | ____
\_/ / 時 .あ ま ヽ
| .| 間 .わ だ |
/  ̄  ̄ \ .| .じ て |
/ ::\:::/:: \ | ゃ る |
/ .<●>::::::<●> \ | な よ |
| (__人__) | ヽ い う /
\ ` ⌒´ / \ な /
, __. ィイ´ |:|: 〃 `i,r-- 、_  ̄ ̄
〃/ '" !:! |:| :、 . .: 〃 i // ` ヽヾ
/ / |:| ヾ,、` ´// ヽ !:! '、`
! |:| // ヾ==' ' i i' |:| ',
| ...:// l / __ , |:|::.. |
とニとヾ_-‐' ∨ i l ' l |< 天 ヾ,-、_: : : .ヽ
と二ヽ` ヽ、_::{:! l l ! |' 夂__ -'_,ド 、_}-、_:ヽ
“Cannon Lake”は今年中にごく少量出荷される模様―本格出荷は'18Q2
https://www.techpowerup.com/238307/intel-10-nm-cpus-to-see-very-limited-initial-launch-in-2017 >>885
なぁに
重SIMDアレイなんて下手すりゃL3よりレイテンシあるようなもん
ノーカンノーカン >>881
skylake-xでFIVR復活してたんだ
初めて知った
>>888
一般向けに(安価に)出回らなかったのが痛い
もっともCPUクロックと大きく乖離したコプロは使いずらそうではある Knights LandingはフロントエンドがAtomだから貧弱すぎて2ポートあるAVX-512のポートを埋めづらいので性能を出しにくいらしいね データシートのVoltage and Current Specificationsによると、電圧の種類は
Haswell の1+1(memory) ほど極端ではなくIOやSystem Agent の電圧は
別で入力するみたいだ >>890
まあただGPGPUよりかは良さげだが
スケーラビリティでも今のとこペタスケールのDL出来てるのってPhiだけだし >>890
人間が気合と根性入れないと性能が出ない
古き良きプロセッサみたいですな >>889
LGA2066環境はFIVRのskylak-Xと非FIVRのkabylake-Xの両環境に対応している! Skylake-X乗ってるときはIVRにとってのinput電圧となる1.55〜1.8Vほどを印加
KabyLake-X乗ってるときはVIDに従い直でCPU Voltageを供給 Google Pixel 2にはPixel Visual CoreというGoogleが開発した画像処理ASICが載ってるんだけど
分解してみたらこのチップにintelのロゴが付いていた模様
開発にまで関与しているのか製造を請け負っただけなのかは不明
https://www.ifixit.com/Teardown/Google+Pixel+2+XL+Teardown/98093 リスク生産開始が来年Q2って誰も使わなくね?
Intelはもうファブに投資するのやめるの? これ見るとIce Lakeは2019年Q2か…
その頃Zen2出てるから負ける >>899
せっかくインテルFab使う気だったとこが続々とファウンドリに切り替えてるらしい >>902
そういうソースはないけど、そこで作るとしていたメーカーがtsmc向けに設計しなおしてるって噂はあった つまるところ「続々と切り替えてる」は誇張という訳ね 確かに誇張だろうな
続々というほどIntelに顧客はいないからね PanasonicやARMどうなった?
Intel使った製品は出てきて無いよな
┼/\ ___ ヽ _|_ ___ -┼- ヽ __ .―フ
┼ .土 / |_ |/―┐ / ヽ .田  ̄/ / ∠_
.、| 口 \ 、_) /|. 〈_、 \ //|\ /´ヽ_ \ o_)
r‐┐ r‐┐ r‐┐
|_|. __ .__| |__ .| |
| ̄| | ̄!'´. `ヽ |__ __| | |
| | |. .r"⌒ヽ .| | |. ___ | |
| | | | | | | | ,r''" .`ヽ | |
| | | | | | | !__i'. ,r"⌒ヽ i| |
|_| |_| |_| !、___ _ ̄ ̄ __.,|
! !、 ̄ ̄,―,
ゝ、_  ̄ _ノ
_ ._l_ ._l_  ̄ ̄
\/\// /|\ /|\ / __ _/_ │ │ ─┼─ | _/__
/ ┬┬ \ 二二二二 | / \ L │ ─┼─ | ./ __
─┼┼─ / | ヽ | / ___| │ r―┼ヽ | /
/ |_/ / 、| ヽ レ \_ \ノ\ ノ \ノ \ ヽ_ノ ./ \__ >>900
珈琲8コアとZ380の投入時期は18年8月と予想されてらから、アイス登場の19年4月以降まで7か月以上のブランクが生じる事になる。 自分たちの製品の方が調整が早く終わるんだからよその製品より早く出るに決まってるだろ
ICEは17Q4か18Q1 >>912
すごく間違えた
ICEは18Q4か19Q1 >>914
たぶんね。10nm今年出すとかいってるみたいだけど、この段階で特定モバイル向けに
ごく少量しか出せないようじゃどうあっても来年全量まかなえないし。
となれば、当然一番熱の拘束緩いデスクトップ向けが置いて行かれるのは必然。
バックアッププランとしてRefresh版くらいは用意してるだろ。Icelakeは2019年とみる。 10nmでクソでかいチップを作れるようになるのは来年後半なのでは... KnightsHillの次に2020年に”KNP”なるKnights新型プロセッサの予定が入っているがこれも10nmなのかな? ___
;;/ ノ( \;
;/ _ノ 三ヽ、_ \;
;/ ノ(( 。 )三( ゚ )∪\;
;.| ⌒ (__人__) ノ( |.; ←淫厨
..;\ u. . |++++| ⌒ /; エピックが64コアになるとかいう噂があるが、フルコアでそのコア数だとPHI超えるか?
クロック上がらなくて産廃ってことは無いと思うけど。 第2世代EPYCは64-core/128-threadになる可能性があるらしい
(つまり第2世代のスリッパは32コア64スレッド/第3世代の雷禅は16コア32スレッドとなる)
https://hothardware.com/news/amd-epyc-2-64-cores-128-threads-and-256mb-l3-cache メモリch増やさないと、そっちの要件が緩い用途にしか使えなそうだね。 ZenとZen2では仕様が違う
Zenの弱点はZenリフレッシュ(Zen+)の時点で解消済みと言う事だ メモリってDDRの世代進んでも、そんなに速くなってないよね。
Sandraのメモリ帯域でみるとDDR3-1600(Sandy-EPの頃)→DDR4-2666(現在)
で5年掛けてch当たり1.6倍程度。
コア当たりのキャッシュ大きくするとかってのは、そういう面での対策の一つか? >>932 まあ、自称7nmで低コストでどんだけ集積できるか見せてもらおうじゃないか
ってとこか。
※L3がダイ毎に分断されてて、L3極端に増やすのは効果あるんだろうか?
元記事は読んでないが。 >>935
奴らは最終的に共通キャッシュとしてHBMを使う
m3は言うなればCCX単位のキャッシュで、m3同士のやり取りは必要無いと思われる なるほど。今後キャッシュの階層を増やすのは必要なのかも知れないね。
問題はプログラム書く人がそれを活かせるかどうかかな。 DDR5は容量は増えないんだっけ
相当な高帯域になるのはいいけど、容量が増えた方が嬉しいような 容量を増やすには、Flashみたいに○層積層DRAMを作るか、
1パッケージに複数ダイを詰めるのがいいのでは? _,. -‐/ヽ‐- 、
,. '´ / ヽ 丶、__
/ ハ \ 、 `く ̄ ̄\
/ _/, l { ハ ヽ \ ヽ.\ ヽ
/ / / .i! 八 |ト、 .ハ ヘ ヘ \ /
. i { ,' lト、 ヽ l,.rヒナ|ト. ハ ハ ハ
r‐┴r=y┴ 、 |__,LL ハ ,'リ|八 |Nl | l / ',
ヽrf十 | 'Y´|l | |ヽ. l| .///,ィfiヽ | ,'| | |
|:::::}ト| l| リ|// ノ|/ ' {トr} } | /ハ ,' ,'
_/ヽ八l| リ〈 ____ 弋ノ ,,,l/\|/ /
´ ̄`ト、__| 八{トィf'¨¨` 、 八ー┴' /
/,.r‐┘ {ヽ.\ヾ゛ r‐=ァ ,.イハ ト、 淫厨のばーかww
,r‐< \ ノヽ-<´ ̄`ヽ乂ソ /::,':.:.|:.:.:ヽ
rfヽ. ヽ. 〉 ___,. rくァーく/:::/ :;小、:.:ハ
ト、 \ V / /「ヽ\ \_|「>-く:_//lノ┴┴―‐‐、_
. _| \ __)ーく¨´ / | ハ::::\ ヽ \ヽ ヽハ'"¨¨¨¨¨¨`リ┴-、
//\_ _,.>-‐く / .∧::::::\}!〉 〉ト、 八 /ー‐‐|
/ .//: :/ \__/ ./ / ヽ::::::リ\八_ヽ\.ヽrzzzイー―‐' |
. / //: ::/::::/.:/ト、_/ ,' ヽ/ ::::::ヽ ヽヾ: \ \'´ ̄`¨ }
/ //: ::/::::/.:/: :.:./`ヽ ̄ ̄ .{ ./∧ ::::::ハ ! |:::::::| ハ|「`¨ /|
/ 〃: : ,'::::/.:/: :.:./::/ ::::\ 八 ∧::::::::l! i |:::::::l ∧ー‐‐' /! 現状128GB DIMMあるけど、これを2DIMM/ch刺せるのはSky-SPではM付きだけだね。
Mなしは768GBまで。 Qualcommはいつまで市場を支配できるかわからんしね
今売るのもありかと 格安スマホは、MediaTekつかったり、
最近の中華スマホ勢が自社SoCつくりはじめた モデム部門をintelに売却した
BroadcomがQualcommを買収ねぇ >>934
消費電力に対する容量の増加にほぼ全振りしてるような進化の仕方だしね。 >>927
Phiの利点は高ベクタ(AVX512)の多コアだから
フルコアでAVX256(FPUは128bit)止まりなEpycとは市場が被らない レス数が950を超えています。1000を超えると書き込みができなくなります。