この手の論文って頻繁ではないにせよために目にするんだが、
例えば、Chat GPT はOpenCrawlerのデータを使ってる。
このデータは160TBもあるんだが、この論文の発表者が160TB
のデータをダウンロードして試験してみたとは思えないんだよね。
元データが160TBあるとしたら、そこから HTMLタグを除去の
前処理をかけるためにはさらにその数倍のディスクスペースが必要となる。
したがって、このクラスのLLMのトレーニングを行うためにはGPU
環境だけでなく、CPU環境やディスクスペースもかなり巨大なものが必要となる。