Intelの次世代技術について語ろう 91©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
Intelの次世代製品や、それに関連する技術についてのスレッドです。
■前スレ
Intelの次世代技術について語ろう 90
http://egg.2ch.net/test/read.cgi/jisaku/1499796238/ >>750
https://twitter.com/search?q=46nm%20%40intel&src=typd
intelの株屋の話だとfin heightが46nmになったみたいだね、@intelで確認したと言ってるが実際確認できなかった 人権なんてあったもんじゃない
人権無視の国日本!
広告配信システムのOpenXにバックドアが仕掛けられる
電通のおわり!
OpenXは2010年8月より電通子会社のサイバー・コミュニケーションズとアドエクスチェンジの独占的パートナーシップを締結、広告リクエストは開始当初より600%と急成長を遂げてきた・・・・
だってお!wwwwwwwwwwwwwwwwwwwwww
嘘も百回言えば真実となる広告産業のナチス的手法
電通自殺者を
ホロコーストを忘れるな諸君!
芸術よ永遠なれ!
自由主義者よ永遠なれ! intel fin heightの遷移
34nm(22nm)→42nm(14nm)→46nm(14nm+)→46nm(10nm)→53nm(10nm+or++)? これで10nmが14nm++に比べて冴えないのがなんとなく理解できるし性能が飛躍する10nm++でfin heightを53nmにする計画? >>759
x64がひどいのは事実だが今さら変えられん。
SSEのオペコードもどうしようもない。
SSEのプリフィクスだけはAVXで整理して
拡張部分のエンコーディングはまあ許容範囲内だから
AVXだけなら合格点だ。 もう命令セットを直接いじる事は少なくなってきたから、ライブラリやコンパイラで吸収してもらわんとな。 >>759
実際にそれを用いる人らにとってはどうでもいいというか
整理されてスマートになったアーキテクチャとやらで
RISCみたいにプログラムを行う実際の顧客が発狂するような仕様になるだけ こういうもん整理するとか行って整理できたためしがない >>762
高けーな
畳一畳の高層ビルみたいな感じになってるな SSEは最低でもSSE命令のプリフィクスとREXプリフィクスの2つのプリフィクスを処理しないといけない。
AVXにはREXプリフィクスは付かないからデコードが楽になる。
何種類かあるAVXプリフィクスはプリデコーダで較的容易に一番長いタイプに変換可能であり、SSEもREXプリフィクスの処理の分遅くなってもAVXに準拠した命令に変換可能なのでデコーダ以降は一種類でいい。
厳密にはSSEとAVXでレジスタの未使用bitの扱いに非互換の部分があるがこれは内部命令が両方に対応しているがAVX命令の方が処理が軽くて速いまたは消費電力が少ないようになっている。
今後はAVXのSSE代替命令を使うようにすればいい。少なくともコンパイラは対応している。
すでにMMXとx87は代替命令を用意して発展的解消している。互換処理で遅くなっても過去のCPUよりは速いので問題はない。 x64は大枠においては良いのだがプリフィクスの整理をしなかったのと64bitモードからシームレスに16モードに移れず32bitOSと互換性をなくしてしまったのが問題。
Microsoftはこの問題に対して最終的に仮想マシンを立ち上げて32bitOSを走らせるという力業で対応したが、そのサポートもWindows7のProfessional以上にのみ限定で終わった。 >>770
計算ソフトでSSEとAVXで倍以上の速度差が出るときあるんだが
そういうのが原因なのかな >>772
単純にSSEが128bit/8レジスタ/2オペランド,AVXが256bit/16レジスタ/3オペランドの実装になっていればそうなるな。 純粋に大量の計算をSIMDでガシガシしていく用途では倍近く
動画エンコードのようなシングルの重要な処理が入ると3割程度 /\ 100%
むしろIntelの方がシェアが高く感じられる /. \
/. \
/ \
/ \
/ \
/ \
/ \
/ \
/ ,────> \ 0%
/ / /
/ / /
. / / ̄ ̄ ̄ /
/ / ̄ ̄ ̄ /
. / / /
. / / /
/ ____/ /
\ / /
. \ /
. \ /
\ /
. \ /
\ /
\ /
\. /
\. /
\/ 64bitだとSSEも16レジスタじゃないけ?
AVX512は32本 >>777
SSEのレジスタ16本は手作業での最適化を32bit版と別にコーディングしないといけない上にCPUによっては逆に遅くなるから使ってないソフトも多いだろう。 visual studioなんかだと、32ビット版でSIMDを使おうとすると、関数の引数に制限があったりと、コードの互換性にかなり手間だった記憶があるな。 >>753-754
Raven RidgeのiGPUがMX150(≒GT1030)に迫る性能という話を聞くと、IntelとAMDの奇跡の融合がただのガセネタだったのはちと残念 >>778
Intrinsic使えばそんなことはない
逆に言えばアセンブリで書く人は32bitと64bitで別々に最適化したい人 >>781
AVX非対応のx64てWindowsだとほとんど32bitで使われてるんじゃない?
SandyBridgeが圧倒的すぎて64bitを使うような人は皆買い換えちゃったでしょ。
誰も使ってない狭い市場向けにオプションを開発しても割に合わないよ。 Intrinsicとアセンブラはまだまだ差が大きい 32bitはオワコン
レジスタ数も8本から増やしてもらえない
IntelやAMDからも見捨てられてる
パフォーマンスが必要なソフトで32bit環境なんて
考えられない
32bit版の最適化は手を抜いて
64bit版に注力するのが良い """リ"(( (''|ii,,,、-'ー-''(:ノノ
ii、-'"―、;; ii、〉 ひ 7;;
省 媚 `(`ノ : {彡
み び {;;;;) 退 >彡
ぬ ぬ i"::/ ! !. か (:::;;;
! !. | ;;;ヽ_ ぬ / |
マ-i,、-、r''" ;;;;;;ノYi )''" し
::::、 ii、 t;;; :::::;;;;i':::::U ::::::::
::::::ヽ ヽ,,~ヽー、;; ::::::( ::::::::r
::U::: `' 、ヽ、、 t;;;|ヽ;;;ヽ淫ノ;;;
::::::::::;;、、、;;;;≧ミ=、,n,|ヽ;}ii |;;;;;
Z:r"タ"'",=、''''ー、~'ー、ノノ|,i;ー
三>'=='="チ=ー':`'"、;;;;;ン
U " ::::::::::::::;;;;;;'''"ヽ|;;j彡"
、::: ::::::::::::::,イ:::;;;;;;;~'-、,j;;jー''":
:、 ', U ::::::::::::::U::;;;;;;;;;;;、 リ;;;| :"
:::t ':, ::::::::::::::::::::''"(⌒ /;;ヽ
:::::t ヽ ::::::::(j: ::::ヽ`'(;;;;;;;)''"
::::::::t U::::::::: _,,,、;;_゙' 、;;;;;;;、ノ
::::::::::', :::::::: イ'r、、"'''ー―ー-''"
::::::::::::ヽ ::::::: ij('ブ `""`´´"´
::::::::::::::ヽ u ......~'''""~~ ̄ ̄ ̄
:::::::::::::::::ヽ :::::J::::::::::::r;;;;;;;;;;;;ヽ
|.| ::::::::::::::::::::::ヽ::::::::;;;;;::::;;;;;
U :::::::::: :::::::::::::ヽ >>782
Pentium、Celeronとかは今もAVX非対応 AVXが効果あるような用途でPentium?
とりあえず動くようにするだけでパフォーマンスは考えなくていい
もともとパフォーマンスとか気にしてない人たち用なんで
最適化が重要なのは、新しいCPUの64bit環境 パフォーマンスが必要な一部のソフト以外32bitで問題ない
VMとかで32bitXP動かして、XP時代のMSVCをつかって32bitでビルドすれば
ほとんどの環境で動作する パフォーマンスが必要な一部のソフトの為のハイパフォーマンスCPUだろうが Windows 10 64bit
VS2017
でも
32bit XPで動作するバイナリがビルドが出来る パフォーマンスが不要ならネイティブアプリである必要も無いけど >>786
全ラインナップでAVX対応してるのはAMDだけだしな CoffeeのPenGはAVXとHTT有効
CeleronはAVXとHTTと引き換えに1コアにデグレードでいいよ
AVX有効2コアHTT無しだと旧PenG喰っちゃいかねないから ガタガタ オロオロ
/In_/ ガタガタ
<<``ДД´´;>> /In_/,‐, グラグラ
// \\ {{∩∩;`Д´ >ノノノ オロオロ
⊂⊂ lノつ' ヽヽ l'
| | (⌒)) }} | | (⌒)) }}
,,し'⌒^ ,,し'⌒^ つかよくレジスタ16本とかでAVX命令行けるよね(512は別だけど)
この辺は可変長の恩恵なんだろうか AVX512は512bitレジスタがスレッドごとに32本
各コア、クロックごとに512bitFMAを2個ずつ実行可能 命令はプレフィックスによる拡張で非常に複雑
8bit時代をいまだに引きずっている 64bitは固定長+SIMD
32bitはエミュ
で良かったのに AVX512のクロックの下がり方はかなり大きいな。
ベクトルが2倍になっても性能は1.45〜1.68倍くらい
AVX512/AVX2 base/T all/T one 2→512
Xeon Gold 6126F 12C 1.7/2.2 2.6/3.3/3.7 135W 652.8GFLOPS 1.5454 $1931
Xeon Gold 6130F 16C 1.3/1.7 2.1/2.8/3.7 125W 665.6GFLOPS 1.5294 $2049
Xeon Gold 6142F 16C 1.6/2.2 2.6/3.3/3.7 160W 819.2GFLOPS 1.4545 $3101
Xeon Gold 6138F 20C 1.3/1.6 2.0/2.7/3.7 135W 832.0GFLOPS 1.6250 $2767
Xeon Gold 6148F 20C 1.6/1.9 2.4/3.1/3.7 150W 1024.0GFLOPS 1.6842 $3227
Xeon Platinum 8160F 24C 1.4/1.8 2.1/2.8/3.7 160W 1075.2GFLOPS 1.5555 $4856
Xeon Platinum 8176F 28C 1.3/1.7 2.1/2.8/3.8 173W 1164.8GFLOPS 1.5294 $8874 AVXに絡まない処理が巻き添え食らうペナルティーも見落とせない 内部命令にコード変換する時点で外部命令は自由に変えて良かった。
AMDはそこを理解せずに古いコードをそのまま64bitに持ち込んで失敗した。 x64命令は、駄作ではないが最良でもない、ほどほどの出来栄えの命令セットとして
長く使われる 高ベクトル計算を活かすにはRISCじゃ無理
HPC-ACEみたいにレジスタ拡張しまくればいけるかもしらんが メモリーなオペランドもOK(パイプラインストールしまくり
レジスター(SIMD)はどうせ肥大化しまくるし
あとはメニーコア VLIWにするよりメモリアクセスを含めてOoOするほうが速いってわかっちゃったからなぁ >>803
微妙なトランジスタの増加でその性能なら十分すぎる
コア数を1.5倍にするよりはるかに効率的 メモリーなオペランドあるx86のほうがOoOのありがたみがあるという メモリーなオペランドは、内部的には複数命令に分かれる 実計算ソフトでSkylake-SPはBDW-EPより最大+138%のパフォーマンスアップ
さらにCST等、自分達の方がIntelライブラリよりさらにXeonのパフォーマンスを向上出来てると宣伝
サードパーティ含めこんだけ上げまくれるのに、ダメ路線とするのは流石にどうかしてる >>812
微妙なトランジスタの数?
ま、3〜4割の性能向上というのは大きくはあるけど
それに必要なトランジスタ数は少なくはないはず BDW-EP 485mm^2、7.2B transistors
てのは出てたが(うろ覚え)
Skylake-SPに関しちゃ何もなかったな
けっこう増えてると思う
まあその分きちんと伸ばしてるんでいいんだけど nonAVX AVX512
base/all T/8C T/1C T base/all T/8C T/1C T
Xeon Gold 6144 08C 3.5/4.1/4.1/4.2 2.2/2.8/2.8/3.5 $2925
Xeon Gols 6150 18C 2.7/3.4/3.4/3.7 1.9/2.5/3.2/3.5 $3358
nonAVXではどの動作でも6144/8Cの方が動作周波数が高い。
AVX512ではbase clockは6144/8C の方が高いが8C Turbo clockは
6150/18Cの方が高い。逆転している。面白いな >>814
いつの話をしてるんだ。今は1命令で処理してるだろ。 >>816 ダイサイズはAMDツェッペリンと大差なさそう。28Cが700平方mm、18Cが480平方mm。
ツェッペリンはインタコネクトとかPCIeの多さで面積食ってるようだけど。
※>>803は3〜4割じゃなくて5〜6割りでしょ。なぜ小さくなるw >>818 8C稼働/10Cダイ、8C稼働/18Cダイで、放熱は後者が楽だからとか。 コア間のインターコネクトでも面積に差が出るので
ちゃんと見積もるならコアとキャッシュの面積で比べないと駄目 AVX512のせいでコアサイズが5〜6割も大きくなる訳じゃないからいんじゃない
ってのが>>812氏の話かな。
Sky-SPはL2比率が大きい(これもAVX512のためか)のもサイズに効いてくる? Intel「Core i9-7980XE」、「Core i9-7960X」、「Core i9-7940X」
ついにきた18コア「Core i9-7980XE」など3モデルが発売
http://ascii.jp/elem/000/001/575/1575938/ x64命令はintelのEPICアーキテクチャに対するamdのアンチテーゼなのだからx86の呪縛から逃れられないのは当たり前
中長期視野に立った改革でなく目の前の利益を狙ったものだ。だが、それが大いに受けたそれだけ
惜しむらくはintelがitaniumをEPICでなく普通にRISCにして置けば今のような状況には陥らなかったと思う(結果論) >>819
内部ってuOPのこと
IACAを見ればuOPが別な事がわかる x86の呪縛と言っても…
それはアーキテクチャを研究する人の認識であって
アーキテクチャで研究する人とは違うのだから
その辺の齟齬理解しないと >>821
そういうことらしいな。
8C/18C AVX512では残りの10コアが、nonAVXではどちらも
SIMDエリアが遊んでいるからクロックをあげられる、と 28コアのXeon Gold 8180の動作周波数について漏れなく伝えるためには
nonAVAに6種、AVX2に7種、AVX512に9種、合計22種もの数値が必要になった。
コア数とAVXとで2次元の表になっちゃったからな。
2007年まではたったひとつの数字で事足りていた。 >>820
ごめん、一般的なエンコードを想像しながら書いた
(出典のよくわからないデータは読み飛ばすに限る)
>>826
それはL2、L3とかインターコネクトも含めての比較ではってこと?
それはちょっとに比較としてはナンセンスかと >>831 まぁ、元々AVX2→AVX512の話だから、君の話はずれてる。 >>832
TSMCの7nmはビアのみCo、GFの7nmはCuのまま
想定される電流密度にもよるはず / /,, __ `ヽ、
/ /// .. ... ヽ
/ ,、i i / /// / 'ヽ
/ i,,/ ``、ヽl i i / ノ ノ ノ / ヽ
/( i' ..::::::``ii, , //ノノ/,; ',,, ノノ l
iヽ/ ..::: ::: ) ) 彡 彡' |
;ミ! :: ..: :: /ノ 彡 _,, ' .ノ
;ミi(((ii,、 : : :::: /. 彡 _,, ' .ノ ;IntelがAI向けプロセッサをCPUに統合する可能性を示唆!
__,,, --------;ミlヽi_\(( O .: 彡 ノノ.ノ
::::::::::::::::::::::::::::::`| ''\u`、ミi、' i、_,,,,, -'''))) ヽン / ノ
_________::::::::::::::::::|  ̄~/ ミ `、ーu-';_,;;;;''' ),ノ) ノ、
|:::::::::::::::::| .......:: / '~ :::ヽ ̄~~~ /__ノー'---、__
. !:::::::::::::: l| .: , ./、 、 :. ..:;;/、 `:: ヽ
i:::/ ̄'i | ::.ヽ ヽ ー'''' : .::;i~ :: ::. ::
:.. ヽ : ,i | .~''- ,,,,___ ,;/`::.. :::__,, ----=
:::::::... ヽ : i ::| .:"'' ..,,, /i`:::::: .::::::./
\::::::... \| :::| ::: ,, -''"::: \ :::::::/
https://pc.watch.impress.co.jp/docs/column/ubiq/1088131.html IntelがAI向けプロセッサをCPUに統合するとしたらdesktopでAVX512に何をやらせるつもりなのかな? >821 >829
Xeon ScalableのSpecification Updateというドキュメントから
Platinum XCC die
Glod 61xx XCC die
Glod 51xx XCC die、HCC die
Silver HCC die、LCC die
Bronze LCC die
Gold、Platinumでは、HCCやLCCのコア数で
足りるからそちらを使う、とはなっていないらしい 機械学習には学習処理と推論処理があって学習の方ははAVX使うんじゃないの? >>839 6150と6144はどっちもXCCだね。他の事情かね。
※Thermal Guide はS-Specじゃなくてモデル名でダイ種別が書いてあるので分かり易かった。
HCC以下はUPIが2つでGold 5100以下でしか使えないんだっけ。 あとは単純にTDPの差がAVX512 8C動作辺りだと影響してくるとかかね。 AIっつーても半精度のベクトル演算追加程度のもんでしょ
部分的にFPGAみたいなの載せて設定可能なデータフロープロセッサとかやってきたら面白いけど Nervana NNPは結局学習もできるみたいだよ
Xeonだと現行ので深層学習関連のはINT16、INT8サポートしか今のところないけど(4VNNI等はPhi専用だろうし) しかもそれも、AVX2で似たようなのが元々あったものだし >>833-835
skylake-xの上はアンコアっぽいから無視するとしても、最終的に倍近くなってない? メモコンのタイルと見比べると、各タイルの右上か左上にある領域がルーター部で、それ以外はコアとキャッシュ領域な感じ
>>833の解析はたぶん間違い そんなスライドがあったのか
てっきり整然と並んでる上の二段がL2とL3かと思ってたよ
でもルーター部の下と横にSRAMがあればその上の層に配線を通せるから理に叶った配置か
L2がごちゃごちゃして見えるのはバス幅を増やしてるせいかもしれないね >>848
初めて見た
データバスはどうなってるんだろう
skylakeの時点でAVX512に対応できるように
あらかじめ拡張済みだったんかいな 僕たちRyzenブラザーズ!
 ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
AmD AmD
( ・∀・) AmD (・∀・ )
( つ )つ ( ・∀・) /( б ) age
l⌒__ノ (○ ) ∪⌒__ノ age
し' し' (_)`∪ノ (_/ ヽ_)
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
AMD,ノートPC向けの新世代APU「Ryzen Processor with Radeon Vega Graphics」発表。「性能はKaby Lake-Uを上回る」
http://www.4gamer.net/games/300/G030061/20171025016/ >>843
AI向けプロセッサをCPUに統合するとしたら「サファイアラビッド」からの可能性大! SkylakeでAVX-512は実装済
HTTや64bitのようにオフにしてただけ skylakeにはAVX-512の回路が載ってるコアと載ってないコアの2種類がある
これについては>>848の記事に詳しく書いてある 疑問に思ったのはデータパスなどだってばよ
port5にFMAユニット追加ということは
port5は元から256bit FMAユニットを使いこなせるように作られてたの?ってこと
つまりポン付けでFMAついかすればいいようになってたのかってこと 載ってる・載ってないの違いがあるのは2つめのFMA演算器で、内部的にはAVX-512対応済みで無効化しているだけだと思う(有効化してもAVXとスループット変わらんけど) なんか不正確
AVX512はSkylakeから載っている(と思われる)
演算ポートが1個の物と2個の物がある
Skylakeは1個、SkylakeXは2個
1個だと256bit 2個からは性能が上がらない
性能の低いAVX512のリリースはAVX512の普及を妨げる為、マーケティング上の戦略で無効にしたんでしょう その割にはXeon SilverとかGold下位とかFMAポート1個しかないのも売ってるけどなんでかな(差別化要因?) その辺は、アホがAVX512は使えないって騒ぐことは無さそうだから
とか? ■ このスレッドは過去ログ倉庫に格納されています