【PC】M1 Mac、「TensorFlow」の新Mac版でのトレーニングが従来の7倍速 [田杉山脈★]
■ このスレッドは過去ログ倉庫に格納されています
米Appleは11月18日(現地時間)、Macに最適化した「TensorFlow 2.4」のmacOS向けフォークのプレリリース版をGitHubで公開したと発表した。
TensorFlowは米Googleが2015年にオープンソース(Apache License 2.0)で公開した機械学習プラットフォーム。ツール、ライブラリ、コミュニティリソースを備え、Linux、Windows、macOS、Android、iOSをサポートする。
これまでのMac版TensorFlowは、MacでのトレーニングでCPUのみを使っていたが、新バージョンは「ML Compute」を活用することで、CPUだけでなく、GPUも最大限に活用する。これはIntel Macだけでなく、M1搭載の最新モデルでも可能だ。
例えば、M1搭載の13インチMacBook Proでのトレーニングは、ベンチマークで従来の最大7倍高速という結果だった。
ML ComputeをTensorFlowおよびそのアドオンのバックエンドとして使うために、既存のスクリプトを変更する必要はない。新バージョンを使うには、AppleのGitHubリポジトリからTensorFlow 2.4フォークをダウンロードし、インストールするだけだ。
Googleは、この新バージョンをTensorFlowのマスターブランチに統合する予定だ。
https://www.itmedia.co.jp/news/articles/2011/19/news089.html CPUしか使ってなかったのを、GPU使うようになったら速くなったって
そらそうだろうねとしか言いようがない なんの話?
ネット記事がIT関連ばっかだった頃はこういう記事で埋めつくされていたことを思い出したよ
キングストンの512MBメモリが出たとかそんなの 「7倍高速」と聞くと、耳をそばだてる価値があるが、
「最大7倍高速」だと、ちょっと疑義も入る。 >>1
おれのWin10RTX3080マシンより早いのか? >>4
その程度の理解で良いよ。
深層学習の計算効率は大体予想とは異なる。 >>2 Intel版は2〜3割くらいしか早くなっていないぞ。
M1 版は多分Nural CPUも使う様になってるのでは? M1チップは画期的だよ
なぜかというと光(電子)の速度の物理限界からくる制約を乗り越えたからだ
そもそもなんでクロックは3GHz程度までしか上がらないのかというと電子が遅いからだ
3GHzにもなると1クロック時間で電子は配線の中を10センチしか進めない
CPUとメモリなどの他のデバイスとの配線は往復10センチでは済まないので1クロックでは電子が届かず、応答があるまで何クロックか待たされることになる
だから高速化する手っ取り早い方法は配線を物理的に短くすることだ、これはずっと前から言われていた
そこでM1チップはCPUの上に3次元積層でメモリを載せてワンチップにしてしまった、だからクロックの無駄がないし短時間なら3GHz以上に上げることもできる >>5
intelアーキってもうほとんど意味なさない95以前のソフト動かすためななあるよーなアーキばっかだから
全廃したらそりゃ軽くなる罠と。
(アポーはとにかく使わなくなった旧仕様のデバイスに関してはひたすら削りにくるのが20年前からの仕様だから。 尚、アポーは削った分以上は絶対に盛ってくるので体感速度は速いと感じるヤツほとんどいないんだがな。
セレロン企業用使ってて窓使ってるとある時期から無茶苦茶重くなってタイピングすらついてこなくなる、なんて事は流石に無いが。 で、何年後にAMD搭載MacがM(x)Macより7倍速と言い出すの? シネベンでもGPU使われるのか? Rosseta2は魔法か?
501 Socket774 2020/11/18(水) 22:50:21.99 ID:6TRA5vTp0
AMDユーザーによると、M1はCinebench R23シングルコア測定時にGPUも使用するからスコアが跳ね上がるらしいぞ M1をターゲットにコンパイルす場合のアーキテクチャ指定って
X86_64でもなくarm64でもなくM1みたいな新しい識別子があるの? >>9
今度のマックはKPUも積んでるんだ
これからAMDやインテルも積んでくるかGPUの外付けみたいな感じで乗っけてくるんじゃ無いかなぁ 比較してるCPUだけの機械学習とか元々使い物にならないだろ
信者とエアプだけが盛り上がる提灯記事 クソ雑魚のインテルとは比べるけど
強敵のAMDとは比べないのですね
わかります インテルじゃなくてNVIDIAでしょ比較対象は
マックは今までAMDのGPUしか使えなかったので、、、 モバイルCPUの7倍速はガッカリ速度だぞ
まぁ非CUDAの学習ライブラリが増えるのは良いこと >>10
いや、Pen4とか4GHz超えてなかった?爆熱だったけど。 専用の計算機が入ってるんだから
もうちょい速くてもいいんじゃね?って言いそうになったんだが
GTX2080とかのCUDA勢と比べて速いのかな 比較対象の従来のmacbook13インチってディスクリートgpu載ってなかったじゃん >16
で、現状でのメモリは16GBまでなんだって? 過去x倍はいいから絶対時間で示せ
effnetB7のimagenet訓練は何分で終わるとかさ そもそもnVidiaに見捨てられたMacで機械学習やる馬鹿なんていないと思ってたんだが、違うのか?
GeForceがないとCudaもネイティブ動作しないんだろ? >>21
今までって表現は微妙
少なくともGTX1080までは使えたわけだし >>30
ソース見に行くとお望みのグラフがある
>>1 が手抜きでグラフ貼ってないだけ なんなのこれよく分かんない測定で早い早いって
アドビでもハンドブレイクでもいいから
どっちがどうなのか同一ソフトのエンコで調べて! 記事を読む限り、あくまでM1のGPUをさらに活用した場合となってるんで、M1のニューラルエンジン使うようにさらに最適化したらさらに早くなるんじゃない? >>23
現行のモバイル用Core iシリーズでも4GHzは超えてる(デスクトップ用は5GHz超もある)
そもそも>>10はパイプラインすら理解してないんじゃ。。。 >>28
そこがいただけなかった
32積んでたら公式でスペック全盛りにして、真っ先に買ってたわ >>32
CUDAと性能比較してくれないとまったく意味なし! nvidiaの2080tiがdual-xeonより100倍速かった! これMacBookProでやってるけど
CPUもGPUもフル活用するなら
ファンレスのMacBookAirだとさすがにアッチッチになったりしない? >>17
KPUって何?
ググっても大学の名前しか出てこない >>24
CUDAのが100倍〜1000倍早いよ。専用チップだもの 演算性能は演算器数 x 動作周波数で決まる
昨今は最適化が進んでアーキテクチャが違っても極端な差は出ない
どれだけ演算器を効率良く使えるかはライブラリ次第だが、TensorFlowに固定すればその辺りも限定できてベンチマークには良かったりする
2080Tiは13.45TFLOPSだが、この100〜1000倍の性能をモバイルSoCに埋め込むのは物理的に無理なんだ アムドは最強すぎるからインテルと戦うしかないのさアームは 当社比七倍じゃなくてGeForceとガチで同じデータセット同じライブラリで勝負したベンチ記事がでるまで分からんな >>45
ありがとう
へー Knowledge Processing Unit
シグマ……うっ頭が 2080TiはTensorCoreを使うと107.58TFLOPSやね
ちなみにM1は2.6TFLOPSとのこと >>14
もともとML界隈の人はMacと必要に応じてLinux テンソルフローに最適なのって8bit演算器が大量にあるチップよね
GPUもFPU(半精度くらい?)をSIMDすればそれに近い効率が得られると思うが実際やってるの?
RADEON系でそういう実装見たことあったが 学習と推論で違う
学習は基本FP32で推論する時に学習モデルをFP16やUINT8に量子化する(しない場合もある) NVIDIAよりこれくらい速い!っと出来ないところがなんとも 何処かでGTX 1050相当だと言う記事を見た記憶
モバイルGPUとTGP 220WとかのディスクリートGPUは同次元では語れない NVIDIAと縁切っちゃったのにその後ディープラーニング大流行が誤算だったな
まあMacでローカルで大規模なディープラーニングは無理だから大人しくAWSとか使っとけと >>55
ニューラルネットワークの演算を浮動小数点以外で、どうやるの? >>61
Google TPUはv2までは16ビット演算しかやってない。
これは既存の強化学習方式の場合、ニューロン同志の結合は重みでしか判定していない
ため、厳格な演算結果を導出する必要はないことに理由がある。
また、推論だけなら、精度を8ビットまで落としても実行は可能。 推論はweight=1bit & activation=2bitまである
GPUには意味ないけどFPGAには有効っぽい ■ このスレッドは過去ログ倉庫に格納されています