Intelの次世代技術について語ろう 87 [無断転載禁止]©2ch.net

**Socket774** · 2017/04/11(火) 14:02:05.06

VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvv:1000:512:----: EXT was configured
Intelの次世代製品や、それに関連する技術についてのスレッドです。　　　　

■前スレ
Intelの次世代技術について語ろう 86
http://egg.2ch.net/test/read.cgi/jisaku/1476083004/

**Socket774** · 2017/05/10(水) 20:54:06.79

>>453
PCが飯のタネのエンジニアにとってHP/DELLの『適当な』なんて一番あり得ないだろ
それ買うくらいならMacかてぃんｋPadにするわな

**Socket774** · 2017/05/10(水) 21:08:05.24

今Mac使ってると意識高いバカ系とかリア充ってイジメの対象になるから学生は就職も考えてオフィス使えるWindowsが多いよ

**Socket774** · 2017/05/10(水) 21:17:51.84

>>473
だからわざわざクリエイター系に限定して聞いてるんじゃん
そんな回答求めてないんだわ
ホントマカーはこれだから…

**Socket774** · 2017/05/10(水) 21:18:11.07

>>454 >>459
KNLとXeonならそら後者の方が圧倒的にコードが楽じゃない？
目的も別だし・・・・最近KNLがクラウドに登場したがまあ稀なケースでしょう

**Socket774** · 2017/05/10(水) 21:26:37.37

CUDAは最適化すれば早いけどコードを使い回せないしそんな事に工数を取りたく無い
みたいなのは過去にあった気がする

**Socket774** · 2017/05/10(水) 21:27:30.81

>>477
うんだから二人ともそういうこと書いてるよね
ちゃんと読めよ

**Socket774** · 2017/05/10(水) 21:29:19.30

こういうの見るとMacスゲーて思う

インストール不要で複数OSが高速起動する東大の変態Mac
http://ascii.jp/elem/000/001/162/1162651/

**Socket774** · 2017/05/10(水) 21:30:38.81

>>477
KNLはシングルスレッドが残念なくらい遅いんだよ。
KNL上でmake -j272なんて事も出来るんだけど、
18コアのXeonの方がはるかに速い。
AVX512をいかに使えるかと言うのが重要なんだけど、今度はクロックが下がってしまう。
でも、ハマると速いんだけどね。

**Socket774** · 2017/05/10(水) 21:38:02.41

SIMD演算をうまく詰め込めないと.....PhiはAtomに成り下がってしまう

**Socket774** · 2017/05/10(水) 21:40:24.97

>>480
こんなんCitrixが10年前に通ってきた道じゃん…

**Socket774** · 2017/05/10(水) 21:44:58.43

>>474
俺は嫌だけどな
レノボなんて何が入ってるやらわかったもんじゃ無いし
開発者ってそういうセキュリティ気にしないんだろうか
やろうと思えば幾らでも仕込めるのにさ

**Socket774** · 2017/05/10(水) 21:52:53.97

>>484
そんなこといったらWindowsやIntelCPUなんて一切使えなくなるけどな
あれはアメリカの公聴会でIntelやMSがNSAやCIAの要請でバックドア入れたことを
はっきり明言してるわけだし

別に国家レベルの組織が裏で何かして利益があるようなクリティカルな仕事してないなら
別に何使ったっていいと思うがね

**,,・´∀｀・,,）っ-○○○** · 2017/05/10(水) 21:57:24.23

ThinkPadはハード仕様もオープンでるハードウェアのメンテマンスマニュアルが公開されてて保守パーツを自分で揃えて部品交換することもできる

むしろ自作er志向のノートだろ

見えない敵と戦う系が大騒ぎしたプリインストールアプリにしてるし何のハードのデータ収集してるかは明らかにしてるし消せば綺麗さっぱりよ

**Socket774** · 2017/05/10(水) 21:59:34.93

>>486
でもなぜか自作erは部品が選べることにメリットを感じたネトウヨ系が結構寄ってくるんで
ThinkPadを目の敵にしてLet'sNoteや東芝SSDをマンセーする傾向にある

頭が痛い

**Socket774** · 2017/05/10(水) 22:06:52.03

リスク無いよね、というわけにはいかないだろうけど、
じゃあ安全だと言える代替案はあるのかという話もあり

雑な印象としては、ThinkPadに関しては昔から使っている人も多い気はするし、団子のいうことも感覚的にわからんではないけど、
定量的なデータはたぶん無いから議論しても微妙

**Socket774** · 2017/05/10(水) 22:08:36.09

結局国家的大企業的ななにかいじくるんじゃないなら別にThinkPadでもええやんって話になる

**Socket774** · 2017/05/10(水) 22:10:17.13

正直愛国こじらせてLet'sNoteSXあたり必死で使った挙句
目を壊した人とか見たら同情できない

結局自分が使いやすいのが一番よ

**Socket774** · 2017/05/10(水) 22:56:01.39

>>490
目を壊したって何かあったの？

**Socket774** · 2017/05/10(水) 23:29:59.33

>>491
SXの液晶はカスタムのわりに画質が悪い

http://thehikaku.net/pc/panasonic/sx.html
http://thehikaku.net/pc/panasonic/image/14sx3/gamen4.jpg

**Socket774** · 2017/05/10(水) 23:32:15.76

レツノ使ってるけど、至って健康だが？

**,,・´∀｀・,,）っ-○○○** · 2017/05/10(水) 23:32:45.08

数字見ても普通にNECレノボが国内シェアトップですよ。
中華リスクを逆手にとって米沢生産モデルをプレミアムモデルとして出してるし、ほんと上手いね。

**Socket774** · 2017/05/11(木) 00:10:50.94

>>492
誇張しすぎだろう…

**Socket774** · 2017/05/11(木) 00:17:33.11

>>495
いやあ同時代の他社の液晶と比べたら一目瞭然よ
このころはノート向けでもsRGB100%が見えてきたときにこの画質は言い訳できんよ

**Socket774** · 2017/05/11(木) 00:19:05.45

SXのころからパナのLet'sの出来を疑う人が出始めたからなあ
このあたりでMacとかThinkPadとか見始める人が出てきてるし
ただ企業向けがNECや富士通東芝が次々バタバタいってたから
消極的選択でレッツえらばれてたので結構売れてるんだがね

**Socket774** · 2017/05/11(木) 01:30:18.47

。。。
すまんノートで厚くなりすぎた次言ってどうぞ

**Socket774** · 2017/05/11(木) 02:50:19.80

板違い他所でやれ

**Socket774** · 2017/05/11(木) 02:50:47.99

500

**Socket774** · 2017/05/11(木) 02:52:04.12

レッツノートは落としたりぶつけたりしても壊れる確率が少ないので使ってた人や会社は多いはず
本当にPCを外に持ち運ぶ使い方をしてる人の場合ね

まあ日本の場合、ノートPCをずっと家でつかって持ち出さない人が多いので、
そういった人は大画面高性能バッテリー持たないタイプが最適だろうが、
頻繁に持ち出す人はレッツノートが人気があった

**Socket774** · 2017/05/11(木) 03:56:36.44

VoltaのV100が発表されたらしい
7.5TFlops(DP)、HBM2 16GB(900GB/s)ということで、
とても大雑把に見てKNLの2倍ぐらいか

ディープラーニングとしては、概要発表だけされてるLake CrestみたいなASICアプローチと比べてどうなのかは気になる
汎用アクセラレータという面では、Knights Hillが2018年？だとして、
これぐらいかもう少し上の規模にはなるのかなあ

**Socket774** · 2017/05/11(木) 05:48:25.59

既存の単精度・倍精度・半精度コアだけじゃなく、機械学習用コアも追加すればいいのに
もちろんcudaもそのコアを効率よく使えるように拡張して

個人向けGPUには、機械学習用コアの開発用として使えるくらいの最低限のコアだけ入れて置いて、
tesla系で機械学習コア山盛りバージョンを出せばいい

**Socket774** · 2017/05/11(木) 06:32:12.11

Xavierにはある

**Socket774** · 2017/05/11(木) 06:47:46.37

ダイサイズがでか過ぎる……KNLでもでか過ぎるとしてぶっ叩かれてたのに

**Socket774** · 2017/05/11(木) 07:59:19.78

https://devblogs.nvidia.com/parallelforall/inside-volta/

tensor coreは専用っぽい
https://devblogs.nvidia.com/parallelforall/wp-content/uploads/2017/05/image3.png

**Socket774** · 2017/05/11(木) 09:10:39.69

その論理で行けばFP64とINTとFP32もそれぞれ専用ユニットということになる
さすがにないだろ

**Socket774** · 2017/05/11(木) 09:27:17.90

シリコンインターポーザー使ってるんだからダイを分割すればよかったのに

**Socket774** · 2017/05/11(木) 09:49:50.63

そしてそのダイ間接続にもSiを使い高コストになるんですね

**Socket774** · 2017/05/11(木) 12:06:04.90

>>507
nvのFP64はもともと専用ユニット

**Socket774** · 2017/05/11(木) 14:53:11.06

>>505
KNLもたぶんそうだけど、この手のプロセッサは並列度が高いタスクしかやらない前提で、
演算器詰め込めるだけ詰め込みたいわけだから、でかいこと自体は正当化される気がする。高く売れるし

とはいえ公称815mm^2って聞いたことがない。前例あるんだろうか
（2017年に使える技術で頑張れるだけ頑張ったらこうなるという感じか）

**Socket774** · 2017/05/11(木) 15:26:27.25

NVIDIAの新社屋を訪問、NVIDIAらしいポリゴンを組み合わせたデザインが特徴
http://ascii.jp/elem/000/001/481/1481063/

**Socket774** · 2017/05/11(木) 15:33:52.13

この前発表されたSPARC64 XIIが794mm2

**Socket774** · 2017/05/11(木) 15:40:27.16

>>513
24時間以上連続稼働できてかつ壊れないという、GPUとはまた違った方面だからなあ

**Socket774** · 2017/05/11(木) 15:47:46.95

>>506
多分、CUDA8コアで1コア分カウントしてるんじゃない？
トランジスタ数はCUDAコアみたら、まあ概ねその通りの増加量だし
なにか別のコア付けたという風には考えにくいんじゃね
あとHPCアプリはP100比でこんなもんなのか
こらあKNHの方が遥かに筋が良さそうですな

**Socket774** · 2017/05/11(木) 15:55:47.76

>>513
そんなのが発表されてたのか。でかいなあ

**Socket774** · 2017/05/11(木) 18:48:51.32

intも別ユニット

Unlike Pascal GPUs, which could not execute FP32 and INT32 instructions simultaneously, the Volta GV100 SM
includes separate FP32 and INT32 cores, allowing simultaneous execution of FP32 and INT32 operations at full throughput, while also increasing instruction issue throughput.
Dependent instruction issue latency is also reduced for core FMA math operations, requiring only four clock cycles on Volta, compared to six cycles on Pascal.

**Socket774** · 2017/05/11(木) 19:11:04.83

Radeon方式で行くのか

**Socket774** · 2017/05/11(木) 19:15:00.74

tensorも別ユニット
pascalのfp32のトレーニングに対して12倍
fp16に対して6倍

120TFLOPSってvoltaの15tflopsを8倍しないと無理な数字
int8出すらないし、そもそもint8でトレーニングは出来ない

専用機能のユニット

**Socket774** · 2017/05/11(木) 19:16:12.77

そもそもflopsだしな

**Socket774** · 2017/05/11(木) 19:23:50.38

DL専用コアは、1つの命令で○FLOPS相当の計算をやるから
とかそういった換算をしてるのでは？

**Socket774** · 2017/05/11(木) 19:27:26.24

CUDAコアにDL用の手入れをしているんじゃないんかね
まあだからトランジスタ数はCUDAコアに比例してるだけの感じ

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 00:20:23.68

IntelはAVX512BWでバイト単位のプレディケーションやデータ並び替えに対応するがこいつはどうだろうか

**Socket774** · 2017/05/12(金) 00:32:10.87

Tensor Coreって4x4の行列演算器のことじゃないの
通常はその一部を使用
FP64がFP32演算機の一部を使うような感じで、完全独立じゃないでしょ
（完全独立だったら別チップ作ったほうが良いし）

**Socket774** · 2017/05/12(金) 05:32:17.89

まあね
CUDAの拡張でしょう、517もこれは独立してるか否かのことであって
CUDAではないという訳じゃないからねえ
Radeonと同じ構成になってるだけ、あっちはINT24だけれとも
別コアの場合、トランジスタはもっと増えなければおかしいし

**Socket774** · 2017/05/12(金) 06:37:51.32

アクセラレータです

**Socket774** · 2017/05/12(金) 07:07:50.61

DLはそのうちASICになるっていわれてたしな
FP64も専用つかって電力効率第一にするnvとしては当然の選択

INTもわけたのか

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 07:39:17.94

TensorCoreクラスタがFP32クラスタの2倍ってのが時代を象徴してるのかな

**Socket774** · 2017/05/12(金) 07:42:52.62

http://pc.watch.impress.co.jp/docs/column/kaigai/1059175.html
本格的に深層学習へ舵を切った真のジャイアントコア「Tesla V100」

**Socket774** · 2017/05/12(金) 08:40:00.84

IntelにとってはVoltaよりもこっちのほうが脅威だな
2018年に7nm 48コアのStarship
http://wccftech.com/amd-cpu-roadmap-leak-7-nm-starship-14nm-naples-snowy-owl-zen-core/
http://cdn.wccftech.com/wp-content/uploads/2017/05/AMD-Enterprise-CPU-2015-2019-Roadmap_1-1.jpg

**Socket774** · 2017/05/12(金) 08:51:39.84

ただなんでも詰め込んでちょいと不格好にはなったと思う
DGX-1の960TOPSは3Uで2100TOPSの一応専用機に比べたら、不利だし
スパコンとしてみたらジャンプアップは微妙でもある、HPCにおいてKeplerの20倍やら50倍やらとかいう話はどこへ？

**Socket774** · 2017/05/12(金) 09:21:37.95

トランジスタ密度を計算してみた
800mm2で210億トランジスタだから、100mm2あたり26億でVega相当の500mm2だと130億くらい
Vegaが500mm2で150億くらいだから、密度というか集積度合いはVegaの方が1割以上上

TSMC 12nmは16nm+みたいなものだから、ディープラーニング向け以外、ゲーム性能は実質Pascal程度と見たほうがいい
Pascal Refresh + ディープラーニング向け機能 = Voltaかな

**Socket774** · 2017/05/12(金) 11:05:54.33

>>532
えぇ・・・
何の為に16→12にしたんですかね・・・

**Socket774** · 2017/05/12(金) 11:19:54.70

そりゃ宣伝文句のためだよ
バカ正直に16nm+とか言ったら皆んなシラケるだろ

**Socket774** · 2017/05/12(金) 11:24:07.97

ちなみにソースはコレ
http://pc.watch.impress.co.jp/docs/column/kaigai/1059175.html
>プロセスはTSMCの“12nm” FinFETプロセス。
>このプロセスは、16nm世代プロセスをマージンの切り詰めや回路設計、セルライブラリの縮小などによって高密度化したものだ。
>技術の根幹部分は成熟した16nmである

後藤氏が予想ではなく断言しているから本当だろう

**Socket774** · 2017/05/12(金) 11:26:58.12

まあ、ゲーム向けの性能向上はSkylake→Kabylakeみたいになりそう
GDDR6対応の分高性能化するけど、それはAMDも一緒だから差別化にはならない
PasclaとVegaが同等なら、Volta相手でも善戦するねこりゃ

**Socket774** · 2017/05/12(金) 11:28:14.77

>>534
熱いinteldisでもあるわけか

新プロセスで12nmにした上で800mm^2
とっても嫌な予感がする

**Socket774** · 2017/05/12(金) 11:32:29.61

トランジスタ的には熟成させた16nmだから、800mm2でもなんとか作れるんだろうくらいで考えていい
ぶっちゃけディープラーニング強化したPascalだな

**Socket774** · 2017/05/12(金) 11:40:46.80

12nmのVoltaはTeslaだけでコンシューマ向けは16nmFinFET使うって話もあるね
まあコンシューマモデルは劇的な性能向上はないかもしれないな、それなりには上がるだろうが

**Socket774** · 2017/05/12(金) 12:05:08.25

4x4行列演算ってことは、単純に考えると積和演算器が並んでるのかなと思ったけど、
深層学習向けってことで精度とかの工夫ができるのね

確かに、なんとなくだけど（ハードウェアの都合だけで言えば）専用のASIC起こした方が効率良さそうな気はする
Lake Crestとかも含めた専用アーキテクチャの着眼点はその辺なのかな

**Socket774** · 2017/05/12(金) 12:12:02.89

‪Semiconductor Engineering .:. Intel Inside The Package‬
http://semiengineering.com/intel-inside-the-package

**Socket774** · 2017/05/12(金) 12:30:14.50

IntelもNvidiaも自社のクソ高いCPU/GPUを売らないといけないから内蔵している
両社ともコンパイラとプロセッサのセットで囲い込んでるから強いんであって、専用ASICとか売っても意味はない

**Socket774** · 2017/05/12(金) 13:06:55.00

　ディープラーニングへと大きく舵を切ったNVIDIA。
現在ディープラーニングでは、トレーニングにおいてGPUが確固とした位置を確立し、
従来のHPC(High Performance Computing)市場だけでなく、一般のデータセンターにまでディープラーニング向けとして浸透を始めている。

NVIDIAは、IntelやAMDといったほかの大手CPU/GPUメーカーが打ち手を間違えた敵失もあって、
トレーニングにおいてはかなり優位に立っている。

**Socket774** · 2017/05/12(金) 13:36:37.39

AMDの本格参入は7nmからだろうね
DL専用コアも要はFP16専用のユニットだからそう難しいものじゃないし、AMDが開発していてもおかしくない
Async機能使えば、DL、GPGPU、グラフィックの並列運用も可能
HBCCで膨大なストレージやメインメモリ使用も可能

基本的にAMDはNvidiaやInteｌが作れるものは同様に作れる
+アルファでAPUやHSA的なことが出来るのが強み
IntelやNvidiaは単体しか無いからそれが弱点

Naplesや16コア相手にXeonが厳しいのは確かだから、当然それに頼っているTeslaも厳しくなる

**Socket774** · 2017/05/12(金) 13:56:54.26

で
だれがAMDで動くライブラリやその他ソフトサポートするの

**Socket774** · 2017/05/12(金) 14:00:49.95

突如として現れるAMDポエム

**Socket774** · 2017/05/12(金) 14:04:30.32

>>545
ソフト面はPS4が何とかしてくれるって昔言ってたような、その認知バイアス君

**Socket774** · 2017/05/12(金) 14:15:23.84

Naplesや16コアのやつとVegaはセットだからな、売るために必死にサポートするよ
そもそもV100とはサイズもコストも違いすぎるから競合はしない
性能で勝てるP100やGDDR系のGP102が相手だから余裕

**Socket774** · 2017/05/12(金) 14:22:04.39

800mm2でHBM2 4StackのV100がそんな簡単に量産できて大量に売れるわけもない
P100も似たようなもんだから、市場に出回るのは大した量じゃない
MI25とかは一般向けGPUの選別品でしか無いから、数的にはだいぶ余裕がある

**Socket774** · 2017/05/12(金) 14:51:04.56

>>541
EMIBええな

**Socket774** · 2017/05/12(金) 15:00:07.52

HBMはEMIBや類似の技術が盛り込まれてからが本番だね
つまりはkabylake-Gがその急先鋒に・・・

**Socket774** · 2017/05/12(金) 15:06:31.17

>>541
我々の10nm技術は1平方ミリあたり約1億トランジスタ、他の10nmとはほぼ一世代違い
ワイヤは細くすればするほど遅くなりインターコネクトも遅くなる
もうスケーリングではトランジスタは高速化しない
静電容量はまだ自然に下がるので動作電力は削減できる
シングルスレッドに頼るCPUよりもパラレルコンピューティング
スケーリングはグラフィックス回路で上手く働く

EMIBといいトランジスタ密度といいもうAMDやNVIDIAに使わせた方がいいんじゃね？
インテルの言う通りの密度格差ならGV100とか3分の1の面積で作れるぞ

**Socket774** · 2017/05/12(金) 16:04:23.57

まあ本命はFPGAじゃないんかね

**Socket774** · 2017/05/12(金) 17:15:27.05

xavierにはtensorもついてるんだろうな
GV100からFP64だけ抜くとつじつまが合う

**Socket774** · 2017/05/12(金) 17:26:44.75

Tensor CoreはFP16とFP32の混合でXavierはINT8だから違うよ

**Socket774** · 2017/05/12(金) 19:09:44.77

単にOPSなのでfpともintともいえない

512spで1.25GHz INT8なら5TOPS
INT32も同数で、INT8サポートならさらに5TOPS
gv100同様にSMあたり64spならSMは8になるので
tensorは64 core、1.25GHzで10TOPS

これで計20TDLOPS

さらにDLAで30TOPS

http://pc.watch.impress.co.jp/img/pcw/docs/1059/175/published-13.png

**Socket774** · 2017/05/12(金) 19:12:19.75

将来は高クロックなコンポーネントとその他でプロセス分離したのが出てくるのかもね
iGPUのバリエーションが増えたりするのかなあ

**Socket774** · 2017/05/12(金) 19:23:13.76

tegraはもう車載ようで、ゲームようじゃないからなぁ

ゲーム向けのGV104とかはtensorないだろうし

**Socket774** · 2017/05/12(金) 19:37:57.62

いい加減スレ違い

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 19:50:09.25

ピクセルシェーダは16ビットや12ビット程度でも十分使えるぞ
当然TensorCoreもゲームで有効活用できる、
AMDが無駄と切り捨てた256ビットや512ビットのSIMDエンジンも使いどころがあるからこそやってる

ひとつも大型案件取れてない製品になんの脅威を感じる必要があるんだと。

**Socket774** · 2017/05/12(金) 20:20:02.38

buildやってた

http://pc.watch.impress.co.jp/docs/news/1059418.html
Microsoft、ARM64上でWindows 10を動作させるデモを公開

**Socket774** · 2017/05/12(金) 20:23:02.14

パフォーマンス次第ではタブレットとかはこれになりそうだな

**Socket774** · 2017/05/12(金) 20:25:07.72

これってどういうこと
--------
　Volta世代では、スレッド実行アーキテクチャも変わった。従来は、1個のwarpの中の32スレッドはプログラムカウンタ(PC)を共有し、マスクレジスタによるプレディケーションでコントロールフローを制御してきた。

　それに対して、Volta世代では、warp内の各スレッドレーンがそれぞれPCを持つようになり、個々にスケジューリングが可能となった。

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 20:33:18.23

まんまの意味だと思うけど
何気にすごいこと言ってる

**Socket774** · 2017/05/12(金) 20:57:57.29

>>559
じゃあNervanaの話でも出すか

**Socket774** · 2017/05/12(金) 21:17:21.31

>>563
これ、トランジスタ効率悪ぅなるんちゃう?
いくらGPUコンピューティングが複雑になって条件分岐が増えるとはいえ。

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 21:32:42.02

>>562
Win10S＋ApolloLakeでいい気が
まあポストCherryTrailがなくなった今、8インチクラスのSurface出すならSnapdragonは有力候補ではあるんだよな

**Socket774** · 2017/05/12(金) 21:37:25.91

Asyncで動くのかどうかってこと

**Socket774** · 2017/05/12(金) 21:44:25.81

プログラムカウンターとスケジューラーを個別に持つからAsync動作は可能

**Socket774** · 2017/05/12(金) 22:15:23.57

>>569
PCは持ってるがスケジューラが個別とは言ってないな

だんだん近くなーる

**,,・´∀｀・,,）っ-○○○** · 2017/05/12(金) 22:16:28.32

GPD Pocketがなかなか評判いいな
ApolloLake-Zが待たれるぞこれ

**Socket774** · 2017/05/12(金) 23:22:40.35

warpないのスレッドを
同じ処理するグループ毎に小分けして(sub warp)処理できるらしい

演算パーティションあたり16個のspだが
subが8スレッド毎とかはわかるんだけど

**Socket774** · 2017/05/13(土) 11:44:05.20

>>569 >>570
スケジューラが頑張るのでAsync動作できるっぽいね
頑張るのはいいけど>>566の言う通りトランジスタ効率悪くなる気が…