【PC】M1 Mac、「TensorFlow」の新Mac版でのトレーニングが従来の7倍速 [田杉山脈★]

**田杉山脈 ★** · 2020/11/19(木) 22:28:52.89

米Appleは11月18日（現地時間）、Macに最適化した「TensorFlow 2.4」のmacOS向けフォークのプレリリース版をGitHubで公開したと発表した。

　TensorFlowは米Googleが2015年にオープンソース（Apache License 2.0）で公開した機械学習プラットフォーム。ツール、ライブラリ、コミュニティリソースを備え、Linux、Windows、macOS、Android、iOSをサポートする。

　これまでのMac版TensorFlowは、MacでのトレーニングでCPUのみを使っていたが、新バージョンは「ML Compute」を活用することで、CPUだけでなく、GPUも最大限に活用する。これはIntel Macだけでなく、M1搭載の最新モデルでも可能だ。

　例えば、M1搭載の13インチMacBook Proでのトレーニングは、ベンチマークで従来の最大7倍高速という結果だった。

ML ComputeをTensorFlowおよびそのアドオンのバックエンドとして使うために、既存のスクリプトを変更する必要はない。新バージョンを使うには、AppleのGitHubリポジトリからTensorFlow 2.4フォークをダウンロードし、インストールするだけだ。

　Googleは、この新バージョンをTensorFlowのマスターブランチに統合する予定だ。
https://www.itmedia.co.jp/news/articles/2011/19/news089.html

**名刺は切らしておりまして** · 2020/11/19(木) 22:32:35.18

CPUしか使ってなかったのを、GPU使うようになったら速くなったって
そらそうだろうねとしか言いようがない

**名刺は切らしておりまして** · 2020/11/19(木) 22:33:26.77

なんの話？
ネット記事がIT関連ばっかだった頃はこういう記事で埋めつくされていたことを思い出したよ
キングストンの512MBメモリが出たとかそんなの

**名刺は切らしておりまして** · 2020/11/19(木) 22:38:08.54

「7倍高速」と聞くと、耳をそばだてる価値があるが、
「最大7倍高速」だと、ちょっと疑義も入る。

**名刺は切らしておりまして** · 2020/11/19(木) 22:44:14.79

>>1
おれのWin10RTX3080マシンより早いのか？

**名刺は切らしておりまして** · 2020/11/19(木) 22:45:21.54

>>4
その程度の理解で良いよ。

深層学習の計算効率は大体予想とは異なる。

**名刺は切らしておりまして** · 2020/11/19(木) 22:45:49.95

>>5
3090と出来なかったところでダメだな。

**名刺は切らしておりまして** · 2020/11/19(木) 22:54:31.64

そもそも従来ってどの程度の比較対象なんだ

**名刺は切らしておりまして** · 2020/11/19(木) 23:00:07.08

>>2 Intel版は2～3割くらいしか早くなっていないぞ。
M1 版は多分Nural CPUも使う様になってるのでは？

**名刺は切らしておりまして** · 2020/11/19(木) 23:12:44.98

M1チップは画期的だよ
なぜかというと光（電子）の速度の物理限界からくる制約を乗り越えたからだ
そもそもなんでクロックは3GHz程度までしか上がらないのかというと電子が遅いからだ
3GHzにもなると1クロック時間で電子は配線の中を10センチしか進めない
CPUとメモリなどの他のデバイスとの配線は往復10センチでは済まないので1クロックでは電子が届かず、応答があるまで何クロックか待たされることになる
だから高速化する手っ取り早い方法は配線を物理的に短くすることだ、これはずっと前から言われていた
そこでM1チップはCPUの上に3次元積層でメモリを載せてワンチップにしてしまった、だからクロックの無駄がないし短時間なら3GHz以上に上げることもできる

**名刺は切らしておりまして** · 2020/11/19(木) 23:13:40.19

>>5
intelアーキってもうほとんど意味なさない95以前のソフト動かすためななあるよーなアーキばっかだから

全廃したらそりゃ軽くなる罠と。
（アポーはとにかく使わなくなった旧仕様のデバイスに関してはひたすら削りにくるのが20年前からの仕様だから。

**名刺は切らしておりまして** · 2020/11/19(木) 23:16:31.03

尚、アポーは削った分以上は絶対に盛ってくるので体感速度は速いと感じるヤツほとんどいないんだがな。

セレロン企業用使ってて窓使ってるとある時期から無茶苦茶重くなってタイピングすらついてこなくなる、なんて事は流石に無いが。

**名刺は切らしておりまして** · 2020/11/19(木) 23:17:03.22

で、何年後にAMD搭載MacがM(x)Macより７倍速と言い出すの？

**名刺は切らしておりまして** · 2020/11/19(木) 23:19:04.48

これはML界隈の人はmac買うしかないな

**名刺は切らしておりまして** · 2020/11/19(木) 23:26:09.45

シネベンでもGPU使われるのか？ Rosseta2は魔法か？

501 Socket774 2020/11/18(水) 22:50:21.99 ID:6TRA5vTp0
AMDユーザーによると、M1はCinebench R23シングルコア測定時にGPUも使用するからスコアが跳ね上がるらしいぞ

**名刺は切らしておりまして** · 2020/11/19(木) 23:26:59.87

M1をターゲットにコンパイルす場合のアーキテクチャ指定って
X86_64でもなくarm64でもなくM1みたいな新しい識別子があるの？

**名刺は切らしておりまして** · 2020/11/19(木) 23:28:31.33

>>9
今度のマックはKPUも積んでるんだ
これからAMDやインテルも積んでくるかGPUの外付けみたいな感じで乗っけてくるんじゃ無いかなぁ

**名刺は切らしておりまして** · 2020/11/19(木) 23:31:11.84

比較してるCPUだけの機械学習とか元々使い物にならないだろ
信者とエアプだけが盛り上がる提灯記事

**名刺は切らしておりまして** · 2020/11/19(木) 23:44:53.52

クソ雑魚のインテルとは比べるけど
強敵のAMDとは比べないのですね
わかります

**名刺は切らしておりまして** · 2020/11/19(木) 23:53:16.68

Windowsいれられないなら買わない

**名刺は切らしておりまして** · 2020/11/19(木) 23:56:17.42

インテルじゃなくてNVIDIAでしょ比較対象は
マックは今までAMDのGPUしか使えなかったので、、、

**名刺は切らしておりまして** · 2020/11/20(金) 00:02:11.75

モバイルCPUの7倍速はガッカリ速度だぞ
まぁ非CUDAの学習ライブラリが増えるのは良いこと

**名刺は切らしておりまして** · 2020/11/20(金) 00:12:00.27

>>10
いや、Pen4とか4GHz超えてなかった？爆熱だったけど。

**名刺は切らしておりまして** · 2020/11/20(金) 00:15:18.70

専用の計算機が入ってるんだから
もうちょい速くてもいいんじゃね？って言いそうになったんだが
GTX2080とかのCUDA勢と比べて速いのかな

**名刺は切らしておりまして** · 2020/11/20(金) 00:17:49.06

比較対象の従来のmacbook13インチってディスクリートgpu載ってなかったじゃん

**名刺は切らしておりまして** · 2020/11/20(金) 00:19:43.88

>>3
記事の意味分かってないだろ

**名刺は切らしておりまして** · 2020/11/20(金) 00:22:42.97

来年のiMacに期待するわ

**名刺は切らしておりまして** · 2020/11/20(金) 00:39:37.51

>16
で、現状でのメモリは16GBまでなんだって？

**名刺は切らしておりまして** · 2020/11/20(金) 00:40:27.67

間違った
>10
16ごめん

**名刺は切らしておりまして** · 2020/11/20(金) 01:29:43.84

過去x倍はいいから絶対時間で示せ
effnetB7のimagenet訓練は何分で終わるとかさ

**名刺は切らしておりまして** · 2020/11/20(金) 01:33:07.23

そもそもnVidiaに見捨てられたMacで機械学習やる馬鹿なんていないと思ってたんだが、違うのか？
GeForceがないとCudaもネイティブ動作しないんだろ？

**名刺は切らしておりまして** · 2020/11/20(金) 02:52:09.05

CUDAだとどのへんGPUと同等なんだろ？

**名刺は切らしておりまして** · 2020/11/20(金) 08:18:32.97

>>21
今までって表現は微妙
少なくともGTX1080までは使えたわけだし

**名刺は切らしておりまして** · 2020/11/20(金) 09:38:14.22

>>30
ソース見に行くとお望みのグラフがある
>>1 が手抜きでグラフ貼ってないだけ

**名刺は切らしておりまして** · 2020/11/20(金) 09:59:16.83

なんなのこれよく分かんない測定で早い早いって
アドビでもハンドブレイクでもいいから
どっちがどうなのか同一ソフトのエンコで調べて！

**名刺は切らしておりまして** · 2020/11/20(金) 10:15:04.22

記事を読む限り、あくまでM1のGPUをさらに活用した場合となってるんで、M1のニューラルエンジン使うようにさらに最適化したらさらに早くなるんじゃない？

**名刺は切らしておりまして** · 2020/11/20(金) 10:18:41.96

>>23
現行のモバイル用Core iシリーズでも4GHzは超えてる（デスクトップ用は5GHz超もある）
そもそも>>10はパイプラインすら理解してないんじゃ。。。

**名刺は切らしておりまして** · 2020/11/20(金) 10:21:29.33

>>28
そこがいただけなかった
32積んでたら公式でスペック全盛りにして、真っ先に買ってたわ

**名刺は切らしておりまして** · 2020/11/20(金) 10:26:15.24

>>32
CUDAと性能比較してくれないとまったく意味なし！

**名刺は切らしておりまして** · 2020/11/20(金) 10:34:24.27

nvidiaの2080tiがdual-xeonより100倍速かった！

**名刺は切らしておりまして** · 2020/11/20(金) 10:58:32.73

これMacBookProでやってるけど
CPUもGPUもフル活用するなら
ファンレスのMacBookAirだとさすがにアッチッチになったりしない？

**名刺は切らしておりまして** · 2020/11/20(金) 13:09:19.00

マカー信者「うおおおおおお！」

**名刺は切らしておりまして** · 2020/11/20(金) 17:44:28.22

>>17
KPUって何？
ググっても大学の名前しか出てこない

**名刺は切らしておりまして** · 2020/11/20(金) 20:49:13.87

>>3
ここで訊くより自分で調べた方が早いぞ

**名刺は切らしておりまして** · 2020/11/21(土) 02:42:05.35

>>43
http://www.stillwater-sc.com/assets/content/stillwater-kpu.html

**名刺は切らしておりまして** · 2020/11/21(土) 04:18:44.75

>>24
CUDAのが100倍～1000倍早いよ。専用チップだもの

**名刺は切らしておりまして** · 2020/11/21(土) 05:30:23.24

>>46
何TFLOPよ？

**名刺は切らしておりまして** · 2020/11/21(土) 05:45:46.93

演算性能は演算器数 x 動作周波数で決まる
昨今は最適化が進んでアーキテクチャが違っても極端な差は出ない

どれだけ演算器を効率良く使えるかはライブラリ次第だが、TensorFlowに固定すればその辺りも限定できてベンチマークには良かったりする

2080Tiは13.45TFLOPSだが、この100～1000倍の性能をモバイルSoCに埋め込むのは物理的に無理なんだ

**名刺は切らしておりまして** · 2020/11/21(土) 10:13:11.03

アムドは最強すぎるからインテルと戦うしかないのさアームは

**名刺は切らしておりまして** · 2020/11/21(土) 10:23:08.36

当社比七倍じゃなくてGeForceとガチで同じデータセット同じライブラリで勝負したベンチ記事がでるまで分からんな

**名刺は切らしておりまして** · 2020/11/21(土) 10:52:52.65

>>45
ありがとう
へー Knowledge Processing Unit

シグマ……うっ頭が

**名刺は切らしておりまして** · 2020/11/21(土) 11:01:49.26

2080TiはTensorCoreを使うと107.58TFLOPSやね
ちなみにM1は2.6TFLOPSとのこと

**名刺は切らしておりまして** · 2020/11/21(土) 11:24:44.42

>>14
もともとML界隈の人はMacと必要に応じてLinux

**名刺は切らしておりまして** · 2020/11/21(土) 11:37:09.63

テンソルフローに最適なのって8bit演算器が大量にあるチップよね
GPUもFPU（半精度くらい？）をSIMDすればそれに近い効率が得られると思うが実際やってるの？
RADEON系でそういう実装見たことあったが

**名刺は切らしておりまして** · 2020/11/21(土) 11:40:45.21

>>52
FLOPSなの？浮動小数でやってるん？

**名刺は切らしておりまして** · 2020/11/21(土) 11:43:22.00

学習と推論で違う
学習は基本FP32で推論する時に学習モデルをFP16やUINT8に量子化する(しない場合もある)

**名刺は切らしておりまして** · 2020/11/21(土) 11:45:36.11

>>54
7がそう

**名刺は切らしておりまして** · 2020/11/21(土) 17:52:54.46

NVIDIAよりこれくらい速い！っと出来ないところがなんとも

**名刺は切らしておりまして** · 2020/11/21(土) 21:27:16.40

何処かでGTX 1050相当だと言う記事を見た記憶
モバイルGPUとTGP 220WとかのディスクリートGPUは同次元では語れない

**名刺は切らしておりまして** · 2020/11/22(日) 05:22:15.24

NVIDIAと縁切っちゃったのにその後ディープラーニング大流行が誤算だったな
まあMacでローカルで大規模なディープラーニングは無理だから大人しくAWSとか使っとけと

**名刺は切らしておりまして** · 2020/11/23(月) 23:42:23.87

>>55
ニューラルネットワークの演算を浮動小数点以外で、どうやるの？

**名刺は切らしておりまして** · 2020/11/24(火) 11:46:43.18

>>61
Google TPUはv2までは16ビット演算しかやってない。
これは既存の強化学習方式の場合、ニューロン同志の結合は重みでしか判定していない
ため、厳格な演算結果を導出する必要はないことに理由がある。
また、推論だけなら、精度を8ビットまで落としても実行は可能。

**名刺は切らしておりまして** · 2020/11/24(火) 15:49:21.93

推論はweight=1bit & activation=2bitまである
GPUには意味ないけどFPGAには有効っぽい