【LLM】1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も [すらいむ★]

■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
垢版 |
2024/02/28(水) 23:09:44.46ID:VVSGeMBG
1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も

 2月は中国では春節というお正月があり、春節にはみんな休む。
 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。
 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。
 もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。

 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリースした。それが「BitNet 1.58Bits」だ。

 もともとMicrosoftはかねてから「1ビット量子化」の研究を続けて来た。
 しかし、32ビット浮動小数点での計算が主流な時代にはあまりに野心的で荒唐無稽なプロジェクトに見えていたのは否めない。
 しかし、現在、大規模言語モデル(LLM;Large Language Model)は8ビット、4ビットで量子化されるのが当たり前になり、量子化しても性能劣化はある程度まで抑えられることも知られるようになった。

(以下略、続きはソースでご確認ください)

wirelesswire 2024.02.28
https://wirelesswire.jp/2024/02/86094/
2名無しのひみつ
垢版 |
2024/02/28(水) 23:35:55.74ID:Da5RaJ1Z
エヌビディアぇ…
3名無しのひみつ
垢版 |
2024/02/28(水) 23:38:12.08ID:eT8LqT0e
2ゲット
4名無しのひみつ
垢版 |
2024/02/28(水) 23:38:20.25ID:HYrwgsdn
エヌディビア、あああああ。

つかの間の昇天株価...
2024/02/28(水) 23:42:04.22ID:8hRo7bx2
1bit脳なんてマッチ箱以下なんやな(笑
6名無しのひみつ
垢版 |
2024/02/28(水) 23:58:24.35ID:4ZohjHzW
家庭用量子コンピュータ「量(りょう)子」
7名無しのひみつ
垢版 |
2024/02/29(木) 00:44:06.38ID:GUwd2cwq
SACDの音楽記録とか、D級アンプは、0と1あるいは−1と1の2つの状態だけ(つまり1ビット)で信号を
コーディングしている。二値のパルス波形の時間変化の密度平均でもってアナログ波形を表しているのだ。
だから別に不思議なことでもなんでもないだろう。
8名無しのひみつ
垢版 |
2024/02/29(木) 01:01:24.76ID:pMhoGVml
>Microsoftの中国チーム

なにこれ?
こんなのがあるのか?
9名無しのひみつ
垢版 |
2024/02/29(木) 01:01:48.41ID:c92RQO4+
NVIDIAの次が見えてきたら、株価暴落だろ(笑)
10名無しのひみつ
垢版 |
2024/02/29(木) 01:15:56.70ID:CTmZt2iV
勘でしかないけれど個々のデータは4ビットで収まる0〜215
(2√3*3√2)^2=216で十分なような気がする
GPUで215を上限とした4ビット長のデータをフーリエ変換するアルゴリズムとGPGPUのSIMDのような命令で可変長なアドレスに整数型で加算しまくって
最後に倍精度浮動小数などに変換で良いような気がする
まあ。前述のように根拠のない勘でしかないです。
11名無しのひみつ
垢版 |
2024/02/29(木) 01:43:03.95ID:TPafWJ3r
>>Microsoftの中国チーム

信じていいのか?
2024/02/29(木) 01:55:24.63ID:s6Z1THJX
>>7
ΔΣね。オーバーサンプリングしてるから情報量的には変わらんやろ。
ビット数と隠れ層と精度と時間がトレードオフで、今パレートのスイートスポット探ってる最中なんやろな。
13名無しのひみつ
垢版 |
2024/02/29(木) 01:58:03.97ID:b2zMt52J
これが本当の1bit脳
冗談は置いといて、1ビット量子化の場合エンベディング(ベクトル化)はどうやるんだろ
14名無しのひみつ
垢版 |
2024/02/29(木) 02:30:27.83ID:0P7E1NaO
階層をフラットにして、数値計算もニューロンに学習させればいいいってことかね
2024/02/29(木) 02:54:11.49ID:C/e1FVIw
人間が一度に把握できる数は4個だと言われているから
人間と同等のAIを作るなら2Bitだろう
2024/02/29(木) 02:56:39.81ID:C/e1FVIw
つーかこれ少bitのAIプロセッサを作る事になってCUDAは効率が悪いからお払い箱になるのか
今のままだと電力効率悪すぎるしな
17名無しのひみつ
垢版 |
2024/02/29(木) 03:59:23.76ID:c3THCHFd
Microsoft*中国=不安要素無限大やな
18名無しのひみつ
垢版 |
2024/02/29(木) 04:01:52.81ID:oWq9FOzG
>>11
>非常に驚異的なことが書いてあるのだが、残念ながらBitNetによるLLMの実装とモデルはまだ公開されていない。
>だから彼らの主張が本当かどうかはまだ誰にもわからないのだが、

ホントかどうか誰にもわからねえだとw
19名無しのひみつ
垢版 |
2024/02/29(木) 04:15:58.14ID:0KDmAa4H
8.9倍速い程度ではGPUにCPUが叶うことはありません。
アーキテクチャの最適化がない状態では話になりません。
計算機は4bit, 8bit, 16bit, 32bit, 64bitという流れで拡張されてきました。計算機の歴史において、科学計算の精度を上げるためには高桁数の浮動小数点を扱う必要があると長年考えられてきました。8bitから16bitに進化した後、高桁の浮動小数を計算するのには時間がかかり過ぎる問題に直面していたため、32bit floatを高速処理するための専用回路を発明しました。その結果は長らく32bitが主流となり、2015年まではこれが主流となりました。
しかし、DeepLearningの登場で、32bitはメモリが肥大化し過ぎて大きなノード数を確保できなくなることや、bitを落としても精度の劣化は非常に小さい事がわかったため、16bit floatが計算に使われるようになりました。half floatと呼ばれるようになった16bit floatで作られたモデルは、実測値で32bit floatモデルよりも速度が非常に遅いという結果になりました。想定外の結果ですが驚くことではありません。これはhalf floatに対する専用回路が存在しなかったためです。そこで2015年以降のハードウェア設計では16bit float専用回路を搭載したものが登場し、大規模モデル、高速処理、省エネに大きく貢献しました。
DeepLearningモデルの精度はどの程度までbitを落としてもよいのか?を研究する人が増えました。すぐに2
値化、つまり1bitモデル(バイナリモデル)が作られましたが、精度は明らかに悪化しました。浮動小数の計算より整数の計算のほうが圧倒的に速いため、int型のモデルの検証も進みました。4bit intも精度vs速度では非常に有益である事がわかったため、ハードウェアは4bit int専用回路も製作されることになりました。
これが今日までのハードウェアアーキテクチャの進化の歴史です。
1bitが有益であれば将来のアーキテクチャで対応されるでしょう。
2024/02/29(木) 04:50:36.27ID:JCmTKC78
1bitハードを多数並列とかになるんやろか
2024/02/29(木) 04:53:30.21ID:zqjyyldK
だけど絶対無理16ビットと互角に戦うには周波数が16倍必要32ビットなら32倍必要周波数上げれないだろ
2024/02/29(木) 06:25:27.83ID:MbeSRaMh
>>19
根本的なことを君は理解できないしてない
そもそもそこまでの性能が不要になると言うことだ
GPUがCPUに敵う必要はない
23名無しのひみつ
垢版 |
2024/02/29(木) 06:49:27.58ID:/0zn2n09
例えばモニタの白点しか映ってないものを
人間なら瞬時でわかるが、CPUはいちいちGRAMを頭から検出して比較して場所を探さなきゃいけない
CPUが一発程度の処理で済むくらいの進歩か?
24名無しのひみつ
垢版 |
2024/02/29(木) 07:17:54.29ID:7PW0wpQu
>>19
何言ってんだかわからんが、昔からfloat16bit単精度、32bitはdoubleで倍精度だったろ
そしてcudaというかnvidiaも初めは単精度しか無かったぞ?
2024/02/29(木) 07:56:13.19ID:yxWVp1q2
0と1に-1を取り入れることで計算コストを下げたまま1.58ビットに増やすアプローチか
速さだけでなくLlamaより精度も上で規模が大きくなるほど精度は更によくなると
眉唾すぎて評価は実装が出てくるまでは保留だな
26名無しのひみつ
垢版 |
2024/02/29(木) 08:22:12.18ID:9Cid7DPu
東工大とLG、コンデンサ容量を1000倍にできる強誘電性二量体分子液晶を開発
>>低温で巨大な自発分極および比誘電率を有する強誘電性二量体分子液晶の開発に成功
>>構造解析中であるとしているが依然として極性構造を示し、小さなドメインに分子の極性凝集がある可能性を示しており、これらの極性相は巨大な双極子モーメントを反映した8000を超える比誘電率を示すことを解明したとする。
>>例えば、コンデンサに適用する場合、理論値として従来技術比で1000倍の容量を実現できるため、電子機器の小型化と低消費電力化が実現できるようになる。
>>また、圧電素子や静電アクチュエータへ適用する場合は、理論値としてやはり従来技術比で1000倍の出力を出すことができるようになるため、低電圧駆動が可能となり、
>>今まで高電圧のため人間に装着できなかった手指や歩行をアシストする製品も装着することができるようになるとする。
>>さらに、3次元映像表示素子への応用では、微細画素構造において画素間のクロストークが発生しにくく、高速光スイッチングが可能となり、ホログラフィックディスプレイの実現技術として有望であることが示されたとしている。
27名無しのひみつ
垢版 |
2024/02/29(木) 08:34:24.63ID:EtSWk9tX
Microsoft中国ってなんかお掃除ソフト作ってたよな
怖くて使ってないけど
2024/02/29(木) 09:14:37.68ID:cHGJ6qGV
7年くらい前に
「i7 6700のみを搭載したマシンに比べて
i7 6700 + GTX1080ti搭載マシンで深層学習を行ったら
20倍速かった」って話は出ていた

より性能の低いGPUだと15倍とか12倍とかになったなあ
CPUで10分掛かる計算が50秒で終わっていたり
いずれにしてもCPUだけなら業務時間8時間潰れるくらいの計算が
40~50分あるいは30分以下で終わってくれるなら有難い事だろうな

でも今のcudaコア数が10000を超えるような最新マシンだと
GTX1080tiの3倍以上だからi7 6700だけなら8時間かかる計算が10分で終わる?って考えたくはなるが

まあスレッドリッパー使ったら3~5倍くらい速かったって報告もどっかで見たけどなw
29名無しのひみつ
垢版 |
2024/02/29(木) 09:23:21.53ID:oLt1Wr6d
log3/log2=1.58ビットということか
30
垢版 |
2024/02/29(木) 09:31:49.82ID:bQRn0QGc
ゲイツさあ
2024/02/29(木) 09:45:17.12ID:c203YtLx
GPUだからってAMDがいいわけじゃない
使用に適したソフト、開発環境そういった
諸々を抑えてるからNVIDIAが優位なわけで
有力な技術がでようが
そう簡単に逆転を許すはずもないね
32名無しのひみつ
垢版 |
2024/02/29(木) 09:53:29.20ID:XsmVtTSn
ゲイツは名誉チャイニーズなのか
33名無しのひみつ
垢版 |
2024/02/29(木) 09:56:10.59ID:PrZNSwjd
MSの中国人はハイプな仕事しかしてない
騙し

今は4bitいや5bitが正解
34名無しのひみつ
垢版 |
2024/02/29(木) 10:03:02.64ID:qmWQKGwL
ハッタリ臭いな。

中国からノーベル賞級の
独創的な発明など未だ無い
もんな。
35名無しのひみつ
垢版 |
2024/02/29(木) 10:35:02.36ID:9goebzT7
>>7
ノード数が数十倍に増えるけどなwww
2024/02/29(木) 10:45:06.54ID:3k+jULeh
まだ様子見だな
GPU無しでStable Diffusion動くようになったら褒め称えるわ
37名無しのひみつ
垢版 |
2024/02/29(木) 10:53:31.33ID:au/k9OoN
とりあえず、この技術を使ったデモが見てみたいな
ChatGPTみたいに会話するとか画像生成するとか
そしてそれをどんなスペックのマシンで出来るのか
それを見てみないと何とも言えない
2024/02/29(木) 10:56:50.01ID:tX7NdOOL
>>18
2行くらい後は読めないのか?
39名無しのひみつ
垢版 |
2024/02/29(木) 11:17:44.07ID:3nQ4/1SP
情報理論的にはe(2.6)bitが最適だが
40名無しのひみつ
垢版 |
2024/02/29(木) 11:25:46.79ID:MS566tFF
>>11
中国はよくバカにされるが、AI分野では大国だよ。
41名無しのひみつ
垢版 |
2024/02/29(木) 11:31:33.77ID:3fW8H5wO
エヌビディア終わる?
42名無しのひみつ
垢版 |
2024/02/29(木) 12:15:04.81ID:mVY35jI2
LLVMより早そう
43名無しのひみつ
垢版 |
2024/02/29(木) 12:17:10.56ID:mVY35jI2
>>15
ひとつ、ふたつ、みっつ、たくさん
ゼロも必要だな。
2024/02/29(木) 12:37:51.34ID:gYZkE0Wm
次は更に減らして01でできるかという挑戦か
45名無しのひみつ
垢版 |
2024/02/29(木) 13:22:18.19ID:Vu5ZGLFL
>>36
動くぞ
遅いだけだ
46名無しのひみつ
垢版 |
2024/02/29(木) 19:27:18.28ID:w7Lv0nHP
単にウエイトの係数の話だろ
2024/02/29(木) 20:42:26.24ID:3/z0fOo/
1メガショック
2024/02/29(木) 21:39:18.88ID:G3WBZBRw
いまだに現金使ってる国に言われたくないだろうな
49名無しのひみつ
垢版 |
2024/02/29(木) 21:41:17.81ID:IGfxlv16
>>48
自国通貨に信用がないだけだろw
50名無しのひみつ
垢版 |
2024/02/29(木) 22:23:23.32ID:okPtS4tF
今夜のうちにNVIDIAの株売っとけよ
51名無しのひみつ
垢版 |
2024/02/29(木) 22:24:23.93ID:okPtS4tF
ちょいと調べたけど本物っぽいし
52名無しのひみつ
垢版 |
2024/02/29(木) 22:41:58.89ID:DzIh1LSs
前にも似た話を聞いたきがするのだが
国内の研究だったはず
2024/03/01(金) 07:42:38.57ID:556XhDRM
3レベルロジックって、また古の技術が復活したもんやな
54名無しのひみつ
垢版 |
2024/03/01(金) 08:38:30.07ID:yjAwKiOY
エヌビディアがこれ専用のプロセッサを作ればいいだけでは
55名無しのひみつ
垢版 |
2024/03/01(金) 10:26:49.06ID:5R/8ZN4X
東京理科大学のスパースターナリーニューラルネットワークAIチップかな
2024/03/01(金) 13:58:43.65ID:fnr/lEXP
Microsoftが1.58ビットの大規模言語モデルをリリース、行列計算を足し算にできて計算コスト激減へ
https://gigazine.net/news/20240229-microsoft-1bit-llm/

やっぱりそうだったかという感じ
複雑過ぎるのは脳に無理
57名無しのひみつ
垢版 |
2024/03/01(金) 15:05:55.63ID:RVSeKBna
>>56
ちょっと意味が分からない
必要な計算してないし結果も正しく求められてないじゃん
2024/03/01(金) 15:41:22.81ID:TFOOGu/a
nvidia高原からの壮大な滝を見れたら感動するだろう
59名無しのひみつ
垢版 |
2024/03/01(金) 18:09:09.27ID:1DY9oCqs
これ主流になったら記憶素子メーカーの大逆転ありえるな
2024/03/01(金) 20:48:56.07ID:aQh0wf94
ソフトウェアもアナログからデジタルに移行って感じか
(ちょっと意味不明)
2024/03/01(金) 23:37:45.08ID:ouHIOhMt
専用ハード開発しなくてもFPGAで論理回路組めば高速に演算できそう
RTX3060はヤフオクにだしてFPGAボード買うか
2024/03/01(金) 23:47:38.80ID:GEaVhHuA
これ速さもそうだけど、電力を大幅に節約できるのがでかいだろ
2024/03/01(金) 23:57:51.04ID:l5rgyAz4
1行も論文見てない驚き屋がBitNet b1.58ではなく
BitNetの論文のリンク張ってて底が知れる
2024/03/02(土) 02:49:10.73ID:thy5ywaa
Binary and Ternary Natural Language Generation
https://arxiv.org/abs/2306.01841
W2A8
W1A8

Token-Scaled Logit Distillation for Ternary Weight Generative Language Models

https://arxiv.org/abs/2308.06744
W2A16


驚き屋が驚かなかった先行研究
3値を1.58bitと表現したことで驚き屋が食いついた模様
2024/03/02(土) 03:16:07.86ID:2JxRJydi
3値なんだから、マイナス電流使ってアナログコンピュータ化か?
2024/03/02(土) 03:42:13.55ID:qWgOtt+o
それはちょっと実装に時間がかかりそう
目先は2bitでやるんと違う?

将来的には3値DRAMとかFLASHを応用して超並列化
2024/03/02(土) 13:41:38.30ID:iaDpyfWD
>>8
ここ科学N+だけど、それでもMSR又はMSRAて有名じゃないのか・・・・・
2024/03/02(土) 13:53:51.51ID:iSFqmlG9
二値だともっと簡単になるが、三値との比較はだれかやったのだろうか
2024/03/02(土) 14:46:49.73ID:q4waPiRd
null,-1,0,+1で実質4値かもしれない
2024/03/02(土) 17:26:37.76ID:2fOTc3FF
http://rio2016.5ch.net/test/read.cgi/math/1702392788/184-187
71名無しのひみつ
垢版 |
2024/03/03(日) 11:54:21.51ID:hCJpwWrB
パルスの密度で0から1の間のアナログ値を近似すれば、
足し算的な計算(正しい足し算ではない)は2つのお互いに相関のないパルス列のORで、
かけ算の計算は2つのお互いに相関にないパルス列のANDで実現できる。
 ただし、複雑な演算をパルス列のままでやると、相関がある信号同士のANDやORでは
かけ算や足し算にならなくなる。ときどき整流してアナログ値に戻して、そのアナログ
値を元にして再びパルス変調するとか、面倒なことになりそうだ。
2024/03/03(日) 13:51:03.34ID:0Q7XL37P
オーディオも高速1bitがハイエンドだけど粗密で記憶するのかしら
2024/03/06(水) 09:24:08.99ID:su8T7W/q
GPU不要というより、より効率的な新たなデバイスが出来るという事やわな
2024/03/06(水) 23:08:08.15ID:EJquS8L8
これCGとかのAI以外のGPUも駆逐する可能性あるな
75名無しのひみつ
垢版 |
2024/03/08(金) 13:07:41.15ID:UVi1of4f
1月26日LSI合同ゼミ@Waseda
D級アンプの性能改善
群馬大学大学院 工学研究科
電気電子工学専攻 小林研究室
趙 楠
https://kobaweb.ei.st.gunma-u.ac.jp/news/pdf/LSI-38.pdf

昔から(今から50年以上も前から)D級アンプは使われてた。
電力効率が良いのと、負帰還をかけずに直線性の良い大電力への増幅が
可能だったから。ただしスイッチング素子のオンオフ動作が速いことが前提。
それ以前から(真空管回路の時代、たとえば二次大戦中)似たような概念と
して、チョッパーアンプというものがあり、低周波域での増幅器の1/fノイズを
避けて、直流に低周波に近い信号を高周波にオンオフで変調をかけて、高周波
域でだけ増幅することで増幅素子の非線形性による影響を無くして、
安定に大きな利得を得るという方式も使われて来た。
76名無しのひみつ
垢版 |
2024/03/08(金) 19:09:01.25ID:UVi1of4f
Tensoftflow でロスが下がるのに待ちくたびれてラーメンを食べに店屋に行って帰ってきてみても
まだやっているのを見て、悟った。Tensorflowは使うのをやめよう、人生の無駄だと。
77名無しのひみつ
垢版 |
2024/03/09(土) 14:16:51.59ID:z3k9Xxye
>>76
gpu使って計算したのか?
2024/03/10(日) 07:48:34.90ID:N0fYxZir
先日、発表されたGDDR7のデーターバスが3値らしい
量産の基盤技術はあるという事やな
■ このスレッドは過去ログ倉庫に格納されています
16歳の水野カイトが封印の刀を見つけ、時間が裂けて黒い風と亡霊の侍が現れ、霊の時雨と契約して呪われた刀の継承者となる場面

ニューススポーツなんでも実況