【AI】AIモデルのトレーニングデータを開示することを義務付ける法案が提出される 米 [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
AIモデルのトレーニングデータを開示することを義務付ける法案が提出される
アメリカのカリフォルニア州選出の民主党議員であるアンナ・エシュー議員と、バージニア州選出の民主党議員であるドン・ベイヤー議員が、AIモデルのトレーニングデータに著作権で保護されたデータが利用されているか否かを明確にするために、トレーニングデータのソースを開示することを求める法案を提出しました。
AI companies would be required to disclose copyrighted training data under new bill - The Verge
https://www.theverge.com/2023/12/22/24012757/ai-foundation-model-transparency-act-bill-copyright-regulation
(以下略、続きはソースでご確認ください)
Gigazine 2023年12月24日 13時00分
https://gigazine.net/news/20231224-ai-required-disclose-training-data-bill/ >>1
六法全書とか読むほうがよっぽどマシだと思うけど
本当に送付された膨大な開示データ見るの? >トレーニングデータのソースと推論プロセス中のデータ保持方法
これって、一定以上の大規模データを保持できるのはGAFAなどの巨大企業だけ、
みたいになりそうだけどね。AIベンチャーはアメリカから逃げだすんじゃね? 「一番○○な××は何ですか?」
「▲△です(JACS2023,)」
みたいに参考文献も出力したらいいのに。
現状は「本当かなあ」と思うしかない。 一度、LLMを作ろうと思ってOpenAIの発表論文読んで同じOpenCrawlerの
データダウンロードしてみたが160TBもあって挫折した。
これ、中のデータは一々、著作権表示されてないから、著作権表示しろって
言われてもOpenCrawlerのデータを使用してます以上のことは言えない。
これを突き詰めるとGoogleの検索結果ページにも著作権表示が必要とかいう
ことになってかなり無理なことを言ってる。 また素人騙し
ネットの有象無象のデータがベースモデルで
ファウンデーションモデルや基幹モデルどいわれるものは
一番代表はメタのLLama2
これフリー仕様
しかしメタもいってる
このままじゃ使えるものじゃない
ファインチューンやRAGとか使えるようにするためのものは結局バイアス作ってるから使えるわけ
業界用語とか業界コミュニケーションとか社内とか
そっちは金かけて作るから明らかにするのは別のリスクが出る
だからトレーニングデータを出すということは意味のないネット全部をこれですと指さすだけかもしくは企業や業界のノウハウを出せ言ってることになる
どちらもバカ 日本国政府がチャットGPTの日本政府カスタマイズモデルを作るのに全公開しろ
って言ってるレベル こういう話はGnu/FSFのライセンスと同じで自分だけが得する話はない >>7
金持ってるところがベースモデルを作れる
コストと時間でね
だからそこをやってくれてるベースをフリーにしてあとカスタマイズだけしろというメタは
人類に貴重な貢献してる >>5
それがLLMならLLMを作ってることになる
OpenAIのファインチューンAPI使うならこの法律できたらオープンAIが献上する話になるな
それがローカルRAGならLLMじゃないからさてどうなるかな
RAGまでやるなら社内システム開示と同じだな >>8
youtu.be/ht3XV_nbduQ
Perplexityってのがそれやってるといってるぞ ■ このスレッドは過去ログ倉庫に格納されています