Intelの次世代技術について語ろう 87 [無断転載禁止]©2ch.net

**Socket774** · 2017/04/11(火) 14:02:05.06

VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
Intelの次世代製品や、それに関連する技術についてのスレッドです。　　　　

■前スレ
Intelの次世代技術について語ろう 86
http://egg.2ch.net/test/read.cgi/jisaku/1476083004/

**Socket774** · 2017/05/10(水) 23:32:15.76

レツノ使ってるけど、至って健康だが？

**,,・´∀｀・,,）っ-○○○** · 2017/05/10(水) 23:32:45.08

数字見ても普通にNECレノボが国内シェアトップですよ。
中華リスクを逆手にとって米沢生産モデルをプレミアムモデルとして出してるし、ほんと上手いね。

**Socket774** · 2017/05/11(木) 00:10:50.94

>>492
誇張しすぎだろう…

**Socket774** · 2017/05/11(木) 00:17:33.11

>>495
いやあ同時代の他社の液晶と比べたら一目瞭然よ
このころはノート向けでもsRGB100%が見えてきたときにこの画質は言い訳できんよ

**Socket774** · 2017/05/11(木) 00:19:05.45

SXのころからパナのLet'sの出来を疑う人が出始めたからなあ
このあたりでMacとかThinkPadとか見始める人が出てきてるし
ただ企業向けがNECや富士通東芝が次々バタバタいってたから
消極的選択でレッツえらばれてたので結構売れてるんだがね

**Socket774** · 2017/05/11(木) 01:30:18.47

。。。
すまんノートで厚くなりすぎた次言ってどうぞ

**Socket774** · 2017/05/11(木) 02:50:19.80

板違い他所でやれ

**Socket774** · 2017/05/11(木) 02:50:47.99

500

**Socket774** · 2017/05/11(木) 02:52:04.12

レッツノートは落としたりぶつけたりしても壊れる確率が少ないので使ってた人や会社は多いはず
本当にPCを外に持ち運ぶ使い方をしてる人の場合ね

まあ日本の場合、ノートPCをずっと家でつかって持ち出さない人が多いので、
そういった人は大画面高性能バッテリー持たないタイプが最適だろうが、
頻繁に持ち出す人はレッツノートが人気があった

**Socket774** · 2017/05/11(木) 03:56:36.44

VoltaのV100が発表されたらしい
7.5TFlops(DP)、HBM2 16GB(900GB/s)ということで、
とても大雑把に見てKNLの2倍ぐらいか

ディープラーニングとしては、概要発表だけされてるLake CrestみたいなASICアプローチと比べてどうなのかは気になる
汎用アクセラレータという面では、Knights Hillが2018年？だとして、
これぐらいかもう少し上の規模にはなるのかなあ

**Socket774** · 2017/05/11(木) 05:48:25.59

既存の単精度・倍精度・半精度コアだけじゃなく、機械学習用コアも追加すればいいのに
もちろんcudaもそのコアを効率よく使えるように拡張して

個人向けGPUには、機械学習用コアの開発用として使えるくらいの最低限のコアだけ入れて置いて、
tesla系で機械学習コア山盛りバージョンを出せばいい

**Socket774** · 2017/05/11(木) 06:32:12.11

Xavierにはある

**Socket774** · 2017/05/11(木) 06:47:46.37

ダイサイズがでか過ぎる……KNLでもでか過ぎるとしてぶっ叩かれてたのに

**Socket774** · 2017/05/11(木) 07:59:19.78

https://devblogs.nvidia.com/parallelforall/inside-volta/

tensor coreは専用っぽい
https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2017/05/image3.png

**Socket774** · 2017/05/11(木) 09:10:39.69

その論理で行けばFP64とINTとFP32もそれぞれ専用ユニットということになる
さすがにないだろ

**Socket774** · 2017/05/11(木) 09:27:17.90

シリコンインターポーザー使ってるんだからダイを分割すればよかったのに

**Socket774** · 2017/05/11(木) 09:49:50.63

そしてそのダイ間接続にもSiを使い高コストになるんですね

**Socket774** · 2017/05/11(木) 12:06:04.90

>>507
nvのFP64はもともと専用ユニット

**Socket774** · 2017/05/11(木) 14:53:11.06

>>505
KNLもたぶんそうだけど、この手のプロセッサは並列度が高いタスクしかやらない前提で、
演算器詰め込めるだけ詰め込みたいわけだから、でかいこと自体は正当化される気がする。高く売れるし

とはいえ公称815mm^2って聞いたことがない。前例あるんだろうか
（2017年に使える技術で頑張れるだけ頑張ったらこうなるという感じか）

**Socket774** · 2017/05/11(木) 15:26:27.25

NVIDIAの新社屋を訪問、NVIDIAらしいポリゴンを組み合わせたデザインが特徴
http://ascii.jp/elem/000/001/481/1481063/

**Socket774** · 2017/05/11(木) 15:33:52.13

この前発表されたSPARC64 XIIが794mm2

**Socket774** · 2017/05/11(木) 15:40:27.16

>>513
24時間以上連続稼働できてかつ壊れないという、GPUとはまた違った方面だからなあ

**Socket774** · 2017/05/11(木) 15:47:46.95

>>506
多分、CUDA8コアで1コア分カウントしてるんじゃない？
トランジスタ数はCUDAコアみたら、まあ概ねその通りの増加量だし
なにか別のコア付けたという風には考えにくいんじゃね
あとHPCアプリはP100比でこんなもんなのか
こらあKNHの方が遥かに筋が良さそうですな

**Socket774** · 2017/05/11(木) 15:55:47.76

>>513
そんなのが発表されてたのか。でかいなあ

**Socket774** · 2017/05/11(木) 18:48:51.32

intも別ユニット

Unlike Pascal GPUs, which could not execute FP32 and INT32 instructions simultaneously, the Volta GV100 SM
includes separate FP32 and INT32 cores, allowing simultaneous execution of FP32 and INT32 operations at full throughput, while also increasing instruction issue throughput.
Dependent instruction issue latency is also reduced for core FMA math operations, requiring only four clock cycles on Volta, compared to six cycles on Pascal.

**Socket774** · 2017/05/11(木) 19:11:04.83

Radeon方式で行くのか

**Socket774** · 2017/05/11(木) 19:15:00.74

tensorも別ユニット
pascalのfp32のトレーニングに対して12倍
fp16に対して6倍

120TFLOPSってvoltaの15tflopsを8倍しないと無理な数字
int8出すらないし、そもそもint8でトレーニングは出来ない

専用機能のユニット

**Socket774** · 2017/05/11(木) 19:16:12.77

そもそもflopsだしな

**Socket774** · 2017/05/11(木) 19:23:50.38

DL専用コアは、1つの命令で○FLOPS相当の計算をやるから
とかそういった換算をしてるのでは？

**Socket774** · 2017/05/11(木) 19:27:26.24

CUDAコアにDL用の手入れをしているんじゃないんかね
まあだからトランジスタ数はCUDAコアに比例してるだけの感じ

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 00:20:23.68

IntelはAVX512BWでバイト単位のプレディケーションやデータ並び替えに対応するがこいつはどうだろうか

**Socket774** · 2017/05/12(金) 00:32:10.87

Tensor Coreって4x4の行列演算器のことじゃないの
通常はその一部を使用
FP64がFP32演算機の一部を使うような感じで、完全独立じゃないでしょ
（完全独立だったら別チップ作ったほうが良いし）

**Socket774** · 2017/05/12(金) 05:32:17.89

まあね
CUDAの拡張でしょう、517もこれは独立してるか否かのことであって
CUDAではないという訳じゃないからねえ
Radeonと同じ構成になってるだけ、あっちはINT24だけれとも
別コアの場合、トランジスタはもっと増えなければおかしいし

**Socket774** · 2017/05/12(金) 06:37:51.32

アクセラレータです

**Socket774** · 2017/05/12(金) 07:07:50.61

DLはそのうちASICになるっていわれてたしな
FP64も専用つかって電力効率第一にするnvとしては当然の選択

INTもわけたのか

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 07:39:17.94

TensorCoreクラスタがFP32クラスタの2倍ってのが時代を象徴してるのかな

**Socket774** · 2017/05/12(金) 07:42:52.62

http://pc.watch.impress.co.jp/docs/column/kaigai/1059175.html
本格的に深層学習へ舵を切った真のジャイアントコア「Tesla V100」

**Socket774** · 2017/05/12(金) 08:40:00.84

IntelにとってはVoltaよりもこっちのほうが脅威だな
2018年に7nm 48コアのStarship
http://wccftech.com/amd-cpu-roadmap-leak-7-nm-starship-14nm-naples-snowy-owl-zen-core/
http://cdn.wccftech.com/wp-content/uploads/2017/05/AMD-Enterprise-CPU-2015-2019-Roadmap_1-1.jpg

**Socket774** · 2017/05/12(金) 08:51:39.84

ただなんでも詰め込んでちょいと不格好にはなったと思う
DGX-1の960TOPSは3Uで2100TOPSの一応専用機に比べたら、不利だし
スパコンとしてみたらジャンプアップは微妙でもある、HPCにおいてKeplerの20倍やら50倍やらとかいう話はどこへ？

**Socket774** · 2017/05/12(金) 09:21:37.95

トランジスタ密度を計算してみた
800mm2で210億トランジスタだから、100mm2あたり26億でVega相当の500mm2だと130億くらい
Vegaが500mm2で150億くらいだから、密度というか集積度合いはVegaの方が1割以上上

TSMC 12nmは16nm+みたいなものだから、ディープラーニング向け以外、ゲーム性能は実質Pascal程度と見たほうがいい
Pascal Refresh + ディープラーニング向け機能 = Voltaかな

**Socket774** · 2017/05/12(金) 11:05:54.33

>>532
えぇ・・・
何の為に16→12にしたんですかね・・・

**Socket774** · 2017/05/12(金) 11:19:54.70

そりゃ宣伝文句のためだよ
バカ正直に16nm+とか言ったら皆んなシラケるだろ

**Socket774** · 2017/05/12(金) 11:24:07.97

ちなみにソースはコレ
http://pc.watch.impress.co.jp/docs/column/kaigai/1059175.html
>プロセスはTSMCの“12nm” FinFETプロセス。
>このプロセスは、16nm世代プロセスをマージンの切り詰めや回路設計、セルライブラリの縮小などによって高密度化したものだ。
>技術の根幹部分は成熟した16nmである

後藤氏が予想ではなく断言しているから本当だろう

**Socket774** · 2017/05/12(金) 11:26:58.12

まあ、ゲーム向けの性能向上はSkylake→Kabylakeみたいになりそう
GDDR6対応の分高性能化するけど、それはAMDも一緒だから差別化にはならない
PasclaとVegaが同等なら、Volta相手でも善戦するねこりゃ

**Socket774** · 2017/05/12(金) 11:28:14.77

>>534
熱いinteldisでもあるわけか

新プロセスで12nmにした上で800mm^2
とっても嫌な予感がする

**Socket774** · 2017/05/12(金) 11:32:29.61

トランジスタ的には熟成させた16nmだから、800mm2でもなんとか作れるんだろうくらいで考えていい
ぶっちゃけディープラーニング強化したPascalだな

**Socket774** · 2017/05/12(金) 11:40:46.80

12nmのVoltaはTeslaだけでコンシューマ向けは16nmFinFET使うって話もあるね
まあコンシューマモデルは劇的な性能向上はないかもしれないな、それなりには上がるだろうが

**Socket774** · 2017/05/12(金) 12:05:08.25

4x4行列演算ってことは、単純に考えると積和演算器が並んでるのかなと思ったけど、
深層学習向けってことで精度とかの工夫ができるのね

確かに、なんとなくだけど（ハードウェアの都合だけで言えば）専用のASIC起こした方が効率良さそうな気はする
Lake Crestとかも含めた専用アーキテクチャの着眼点はその辺なのかな

**Socket774** · 2017/05/12(金) 12:12:02.89

‪Semiconductor Engineering .:. Intel Inside The Package‬
http://semiengineering.com/intel-inside-the-package

**Socket774** · 2017/05/12(金) 12:30:14.50

IntelもNvidiaも自社のクソ高いCPU/GPUを売らないといけないから内蔵している
両社ともコンパイラとプロセッサのセットで囲い込んでるから強いんであって、専用ASICとか売っても意味はない

**Socket774** · 2017/05/12(金) 13:06:55.00

　ディープラーニングへと大きく舵を切ったNVIDIA。
現在ディープラーニングでは、トレーニングにおいてGPUが確固とした位置を確立し、
従来のHPC(High Performance Computing)市場だけでなく、一般のデータセンターにまでディープラーニング向けとして浸透を始めている。

NVIDIAは、IntelやAMDといったほかの大手CPU/GPUメーカーが打ち手を間違えた敵失もあって、
トレーニングにおいてはかなり優位に立っている。

**Socket774** · 2017/05/12(金) 13:36:37.39

AMDの本格参入は7nmからだろうね
DL専用コアも要はFP16専用のユニットだからそう難しいものじゃないし、AMDが開発していてもおかしくない
Async機能使えば、DL、GPGPU、グラフィックの並列運用も可能
HBCCで膨大なストレージやメインメモリ使用も可能

基本的にAMDはNvidiaやInteｌが作れるものは同様に作れる
+アルファでAPUやHSA的なことが出来るのが強み
IntelやNvidiaは単体しか無いからそれが弱点

Naplesや16コア相手にXeonが厳しいのは確かだから、当然それに頼っているTeslaも厳しくなる

**Socket774** · 2017/05/12(金) 13:56:54.26

で
だれがAMDで動くライブラリやその他ソフトサポートするの

**Socket774** · 2017/05/12(金) 14:00:49.95

突如として現れるAMDポエム

**Socket774** · 2017/05/12(金) 14:04:30.32

>>545
ソフト面はPS4が何とかしてくれるって昔言ってたような、その認知バイアス君

**Socket774** · 2017/05/12(金) 14:15:23.84

Naplesや16コアのやつとVegaはセットだからな、売るために必死にサポートするよ
そもそもV100とはサイズもコストも違いすぎるから競合はしない
性能で勝てるP100やGDDR系のGP102が相手だから余裕

**Socket774** · 2017/05/12(金) 14:22:04.39

800mm2でHBM2 4StackのV100がそんな簡単に量産できて大量に売れるわけもない
P100も似たようなもんだから、市場に出回るのは大した量じゃない
MI25とかは一般向けGPUの選別品でしか無いから、数的にはだいぶ余裕がある

**Socket774** · 2017/05/12(金) 14:51:04.56

>>541
EMIBええな

**Socket774** · 2017/05/12(金) 15:00:07.52

HBMはEMIBや類似の技術が盛り込まれてからが本番だね
つまりはkabylake-Gがその急先鋒に・・・

**Socket774** · 2017/05/12(金) 15:06:31.17

>>541
我々の10nm技術は1平方ミリあたり約1億トランジスタ、他の10nmとはほぼ一世代違い
ワイヤは細くすればするほど遅くなりインターコネクトも遅くなる
もうスケーリングではトランジスタは高速化しない
静電容量はまだ自然に下がるので動作電力は削減できる
シングルスレッドに頼るCPUよりもパラレルコンピューティング
スケーリングはグラフィックス回路で上手く働く

EMIBといいトランジスタ密度といいもうAMDやNVIDIAに使わせた方がいいんじゃね？
インテルの言う通りの密度格差ならGV100とか3分の1の面積で作れるぞ

**Socket774** · 2017/05/12(金) 16:04:23.57

まあ本命はFPGAじゃないんかね

**Socket774** · 2017/05/12(金) 17:15:27.05

xavierにはtensorもついてるんだろうな
GV100からFP64だけ抜くとつじつまが合う

**Socket774** · 2017/05/12(金) 17:26:44.75

Tensor CoreはFP16とFP32の混合でXavierはINT8だから違うよ

**Socket774** · 2017/05/12(金) 19:09:44.77

単にOPSなのでfpともintともいえない

512spで1.25GHz INT8なら5TOPS
INT32も同数で、INT8サポートならさらに5TOPS
gv100同様にSMあたり64spならSMは8になるので
tensorは64 core、1.25GHzで10TOPS

これで計20TDLOPS

さらにDLAで30TOPS

http://pc.watch.impress.co.jp/img/pcw/docs/1059/175/published-13.png

**Socket774** · 2017/05/12(金) 19:12:19.75

将来は高クロックなコンポーネントとその他でプロセス分離したのが出てくるのかもね
iGPUのバリエーションが増えたりするのかなあ

**Socket774** · 2017/05/12(金) 19:23:13.76

tegraはもう車載ようで、ゲームようじゃないからなぁ

ゲーム向けのGV104とかはtensorないだろうし

**Socket774** · 2017/05/12(金) 19:37:57.62

いい加減スレ違い

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 19:50:09.25

ピクセルシェーダは16ビットや12ビット程度でも十分使えるぞ
当然TensorCoreもゲームで有効活用できる、
AMDが無駄と切り捨てた256ビットや512ビットのSIMDエンジンも使いどころがあるからこそやってる

ひとつも大型案件取れてない製品になんの脅威を感じる必要があるんだと。

**Socket774** · 2017/05/12(金) 20:20:02.38

buildやってた

http://pc.watch.impress.co.jp/docs/news/1059418.html
Microsoft、ARM64上でWindows 10を動作させるデモを公開

**Socket774** · 2017/05/12(金) 20:23:02.14

パフォーマンス次第ではタブレットとかはこれになりそうだな

**Socket774** · 2017/05/12(金) 20:25:07.72

これってどういうこと
--------
　Volta世代では、スレッド実行アーキテクチャも変わった。従来は、1個のwarpの中の32スレッドはプログラムカウンタ(PC)を共有し、マスクレジスタによるプレディケーションでコントロールフローを制御してきた。

　それに対して、Volta世代では、warp内の各スレッドレーンがそれぞれPCを持つようになり、個々にスケジューリングが可能となった。

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 20:33:18.23

まんまの意味だと思うけど
何気にすごいこと言ってる

**Socket774** · 2017/05/12(金) 20:57:57.29

>>559
じゃあNervanaの話でも出すか

**Socket774** · 2017/05/12(金) 21:17:21.31

>>563
これ、トランジスタ効率悪ぅなるんちゃう?
いくらGPUコンピューティングが複雑になって条件分岐が増えるとはいえ。

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 21:32:42.02

>>562
Win10S＋ApolloLakeでいい気が
まあポストCherryTrailがなくなった今、8インチクラスのSurface出すならSnapdragonは有力候補ではあるんだよな

**Socket774** · 2017/05/12(金) 21:37:25.91

Asyncで動くのかどうかってこと

**Socket774** · 2017/05/12(金) 21:44:25.81

プログラムカウンターとスケジューラーを個別に持つからAsync動作は可能

**Socket774** · 2017/05/12(金) 22:15:23.57

>>569
PCは持ってるがスケジューラが個別とは言ってないな

だんだん近くなーる

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 22:16:28.32

GPD Pocketがなかなか評判いいな
ApolloLake-Zが待たれるぞこれ

**Socket774** · 2017/05/12(金) 23:22:40.35

warpないのスレッドを
同じ処理するグループ毎に小分けして(sub warp)処理できるらしい

演算パーティションあたり16個のspだが
subが8スレッド毎とかはわかるんだけど

**Socket774** · 2017/05/13(土) 11:44:05.20

>>569 >>570
スケジューラが頑張るのでAsync動作できるっぽいね
頑張るのはいいけど>>566の言う通りトランジスタ効率悪くなる気が…

**Socket774** · 2017/05/13(土) 14:47:13.14

プレディケーション付きSIMDのハードでSPMDをやるってのがGPGPUのテンプレートだと思うんだけど
ハードもSPMD側に寄ると実行時コンパイルでwarp自体がバラバラにされんの？

**Socket774** · 2017/05/13(土) 15:17:55.72

どうもそういうことではないのかな
粒度がwarp単位だったのがwarp内の分岐方向の同じスレッド単位になるというのが正しいっぽい

**Socket774** · 2017/05/13(土) 15:17:57.06

i9で素数括り崩壊か
iと被るから11にしなかったのかな
AMDの方はRyzen 11でも問題無い

**Socket774** · 2017/05/13(土) 15:27:00.52

また暖房路線に回帰するのかよｗ
あれなら多少スペック良くてもRYZENのがいいよ

**Socket774** · 2017/05/13(土) 15:28:07.72

i9かっけぇ～!

**Socket774** · 2017/05/13(土) 15:31:50.86

なんかそういうリークあったらしいけど、果たして >i9

Intelの普遍性のあるブランディングのお手本は自動車のBMWかと思ってたけど、そうでもないのかな
Gulftownだったっけ？の頃にもi9という噂だけあったような

**Socket774** · 2017/05/13(土) 15:36:22.46

クロック高いな

**Socket774** · 2017/05/13(土) 16:37:40.64

>>576
>>577
お仕事お疲れ様です

**Socket774** · 2017/05/13(土) 17:12:50.09

i9出すのはいいけど値段どうすんだよ
AMDに合わせる訳にいかんだろうに

**Socket774** · 2017/05/13(土) 17:22:57.39

このスペックなら別に値下げしないんじゃない？
同価格帯でコアが増える程度になるのでは
$1109 8C16T 3.2-3.7GHz -> 10C20T 3.3-4.3GHz
$628 6C12T 3.6-3.8GHz -> 8C16T 3.6-4.3GHz
$441 6C12T 3.4-3.6GHz -> 6C12T 3.5-4.0GHz
CoffeeLake-Sがすぐ出るんならHEDTをこれ以上下げても仕方ない

**Socket774** · 2017/05/13(土) 18:56:24.26

8コア以上でもOC前提でいいならほぼ確実に4.2-4.5Ghz全コア回せるし特にAMDに価格合わせる必要ないだろ

**Socket774** · 2017/05/13(土) 19:44:27.61

12cで殻割りOC前提とか恐すぎだろ

**Socket774** · 2017/05/13(土) 19:44:54.91

どうせ今回もi7なんだろ
もういいよi9出る詐欺は

**Socket774** · 2017/05/13(土) 20:07:52.67

KBL-Xの方はパッケージをハンダにしてOCer向けに売るのかな
そうじゃないと存在意義あんまりないよね

**Socket774** · 2017/05/13(土) 20:15:31.42

95W越えは皆等しくソルダリングだよ

**Socket774** · 2017/05/13(土) 20:37:21.29

i7が4C8Tから10C20Tまでカバーしてるのがおかしんだよ

**Socket774** · 2017/05/13(土) 21:06:07.15

IPC 10%up + メモコン性能向上にクロック実質全コア0.5～1.0Ghz増量だから
安売りする必要はないと思うけどねこの性能なら同じ同じコア数で最大45%ぐらいは速いだろうし

**Socket774** · 2017/05/13(土) 21:35:25.56

なおTDPは

**,,・´∀｀・,,）っ-○○○** · 2017/05/13(土) 22:23:52.67

>>589
UやY込なら2C4Tだな