【AI】Googleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している [すらいむ★]

**すらいむ ★** · 2023/04/20(木) 23:12:33.24

対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

　Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。
　C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。

　See the websites that make AI bots like ChatGPT sound so smart - Washington Post
　https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

（以下略、続きはソースでご確認ください）

Gigazine 2023年04月20日 13時00分
https://gigazine.net/news/20230420-ai-chatbot-learning-google-meta-c4/