【機械学習】GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法が登場、一体どんな手法なのか？ [oops★]

**oops ★** · 2023/06/04(日) 11:42:27.35

GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく増加してしまいます。そんな中、メモリの消費量を激減させつつ少ないデータでトレーニングできる手法「QLoRA」が登場しました。

（中略）

ファインチューニングの際にはモデル全体をメモリに配置する必要があるのはもちろん、トレーニング対象のパラメーターごとに調整のための計算結果をメモリに保存する必要があり、全てのパラメーターを調整対象にする従来のファインチューニングでは元のモデルの何倍ものサイズのメモリを必要とします。例えば、650億(65B)パラメーターのモデルであれば、パラメーター1つにつき16bitで量子化するとモデルをメモリのロードするだけで650億×16bitの130GB分メモリを消費してしまう上に、トレーニングの手法次第ではあるものの650GB程度の計算結果を保存する必要があり、ファインチューニングを行うには合計で780GB分のGPUメモリが必要でした。

こうしたメモリ消費問題を解決するために考案されたのがLoRAというファインチューニングの手法です。LoRAでは、元のモデルのパラメーター行列を低ランク近似した新たな行列をトレーニング対象にすることで、トレーニングに必要なメモリの消費量を削減しています。

（以下略）

※記事全文はソース元にて

2023年06月03日 12時00分
https://gigazine.net/news/20230603-qlora-finetuning-llm/

■論文
QLoRA: Efficient Finetuning of Quantized LLMs
https://arxiv.org/abs/2305.14314

■ソースコード
QLoRA: Efficient Finetuning of Quantized LLMs
https://github.com/artidoro/qlora

2023/06/04(日) 11:43:16.29

本田望結、胸元ざっくりのシースルー姿が大反響「めちゃめちゃキレイ」「セクシーですね」「スタイルいいし大人色っぽい」
https://ghuz.whitemarketid.net/0604/fasz/cg9c84.html

2023/06/04(日) 11:45:43.72

ファインチューニングを行うには合計で780GB分のGPUメモリが必要でした。

2023/06/04(日) 12:01:11.18

末尾再帰みたいな小細工かな

2023/06/04(日) 12:05:49.21

これ小学生の時に俺が思いついたアイデアと同じだな。特許取っておけば良かった。

2023/06/04(日) 12:17:42.30

>>3
NVIDIAのH100が10枚。
4700万円とNV LINK。
毎度あり。

2023/06/04(日) 13:06:48.90

>>5
お前おっさんだからもう期限切れじゃん

2023/06/04(日) 13:08:10.57

＞このLoRAをベースに、追加で3つのテクニックを利用することで650億(65B)パラメーターのモデルを48GBしか
メモリを搭載していないGPUでトレーニング可能にしたうえ、24時間のトレーニングで
ChatGPTの99.3%に匹敵する性能を引き出すことに成功したとのこと。

NVIDIAだとTeslaならA16、A40、A100、H100
QuadroならRTX8000、RTXA6000、RTX6000Ada世代なんてので可能って事か

国産でこういうのを安く作れるようになればいい、が
今の日本じゃ期待薄

NVIDIAのGPUはVRAMが多いと物凄く高い
AMDは深層学習とどうも反りが合わない
IntelのGPUは近年出来て安いものでも容量そこそこ多目というが
一番多いのでも16GB
battlemage世代で64GBのVRAMとか出来たら良いんだけどなｗ

更なるマニアになるとGPUに半田ごてを当てて
何とかメモリ増設に成功した！って奴もいるようだが
その多くで壊してしまったようだ

2023/06/04(日) 14:18:49.31

ピアツーピア？

2023/06/04(日) 14:52:42.58

ただのディスクスワップ

2023/06/04(日) 16:53:41.72

そこの最適化を今までやってなかったって意外だわ

2023/06/04(日) 19:30:17.85

まず記事をファインチューンしろよ

2023/06/05(月) 08:12:24.10

そもそもスパースサンプリングでよくね？

2023/06/05(月) 17:19:19.29

縮退化ってやつ？
それとも単なるjpegみたいな間引き？

2023/06/05(月) 19:52:02.61

ハードもソフトも駄目になった国があるって知ってるよ！

2023/06/06(火) 00:04:21.86

この手の論文って頻繁ではないにせよために目にするんだが、
例えば、Chat GPT はOpenCrawlerのデータを使ってる。
このデータは160TBもあるんだが、この論文の発表者が160TB
のデータをダウンロードして試験してみたとは思えないんだよね。
元データが160TBあるとしたら、そこから　HTMLタグを除去の
前処理をかけるためにはさらにその数倍のディスクスペースが必要となる。
したがって、このクラスのLLMのトレーニングを行うためにはGPU
環境だけでなく、CPU環境やディスクスペースもかなり巨大なものが必要となる。

2023/06/06(火) 02:29:26.60

今後は画像全体で体とか動かせるようになると思う
スポーツとかできるようになってドラマを作れる

2023/06/06(火) 02:32:38.32

漫画とかも動く
すでに絵をアップロードするとその絵が動くサイトは存在する
動画生成サイトが

2023/06/06(火) 03:45:40.13

>>16
？

2023/06/06(火) 04:21:21.39

最終的にはメモリの5%も使わないんだろ。知ってるんだから

2023/06/06(火) 06:38:02.48

>>16
論文読んでないだろ?
どこのリソース使ったかも書いてあるのに

2023/06/06(火) 12:31:02.29

>>11
最適化なんて誰でもやっててあらゆる企業が取り組んでる
GPT-3だって最適化によって可能になった
今回はそれをさらに最適化できるようになったという話だ

2023/06/06(火) 13:23:52.59

>>11
Googleの漏洩内部文書読んでないのか?

勝者は我々ではもちろんなく
OpenAIでもない
オープンソースにし
ありとあらゆる改良が押し寄せてる
MetaのLLaMAが最後の勝者になる
既にAPIがデファクトスタンダードになりつつある

という内容だった

2023/06/10(土) 17:23:06.84

例えば赤ちゃんが言葉を学ぶのだって
本の数人の声だよね

2023/06/11(日) 02:18:53.64

>>24
読み書き出来るようになるまで5~6年かかりますけどね

**名無しのひみつ** · 2023/06/18(日) 18:45:25.90

これで医者は要らんな、ざまわ

**社説＋で新規スレ立て人募集中** · 2023/08/07(月) 09:25:48.17

>>16
逐次展開して処理してまた圧縮すれば一時領域は少なくて済む😅