【機械学習】GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法が登場、一体どんな手法なのか？ [oops★]

2023/06/06(火) 00:04:21.86

この手の論文って頻繁ではないにせよために目にするんだが、
例えば、Chat GPT はOpenCrawlerのデータを使ってる。
このデータは160TBもあるんだが、この論文の発表者が160TB
のデータをダウンロードして試験してみたとは思えないんだよね。
元データが160TBあるとしたら、そこから　HTMLタグを除去の
前処理をかけるためにはさらにその数倍のディスクスペースが必要となる。
したがって、このクラスのLLMのトレーニングを行うためにはGPU
環境だけでなく、CPU環境やディスクスペースもかなり巨大なものが必要となる。