対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している
Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。
C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。
See the websites that make AI bots like ChatGPT sound so smart - Washington Post
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
(以下略、続きはソースでご確認ください)
Gigazine 2023年04月20日 13時00分
https://gigazine.net/news/20230420-ai-chatbot-learning-google-meta-c4/
【AI】Googleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
2023/04/20(木) 23:12:33.24ID:gUcFWSYB2023/04/20(木) 23:13:42.44ID:zNHoAfOs
C4ってバンドちゃうんか
3名無しのひみつ
2023/04/21(金) 00:34:51.90ID:0yBOH5XS これな
AIには人格と常識(それをエミュレートするものも含めて)が実装されてないから
汎用的に学習内容を有害か有益か自分で評価できんのよね
そこで教師あり学習?となるんだが
微妙なケースも含めて膨人力でどうこうするのは無理だと思う
一つの大きな進歩が次の大きな課題を露呈させた…そんな感じか
AIには人格と常識(それをエミュレートするものも含めて)が実装されてないから
汎用的に学習内容を有害か有益か自分で評価できんのよね
そこで教師あり学習?となるんだが
微妙なケースも含めて膨人力でどうこうするのは無理だと思う
一つの大きな進歩が次の大きな課題を露呈させた…そんな感じか
2023/04/21(金) 00:46:31.87ID:r2EBhYHx
爆弾みたいな名前だしちょうどいいんじゃない
5名無しのひみつ
2023/04/21(金) 01:28:27.64ID:UPaWmDnS2023/04/21(金) 02:05:22.86ID:E60nkIFG
>>1
面白いな、これは。
4chanというだけで4chanの全てのコンテンツが否定されうるということは
4chanのコンテンツが混じったGoogleのデータは「C4」のみならずすべてが否定されなければならないということになる。
4chanのどのスレッドのどのレスかを指定することなく全てまるっと4chanを否定しているのだから「C4」だけではなく検索インデックスもストリートビューもGoogle ScholarもGoogle Chromeも全て問題のあるコンテンツである。ということになる。
4chanだから全てのデータを信用してはいけなくてGoogleだから一部のデータだけで済む、なんてことはないよな?
面白いな、これは。
4chanというだけで4chanの全てのコンテンツが否定されうるということは
4chanのコンテンツが混じったGoogleのデータは「C4」のみならずすべてが否定されなければならないということになる。
4chanのどのスレッドのどのレスかを指定することなく全てまるっと4chanを否定しているのだから「C4」だけではなく検索インデックスもストリートビューもGoogle ScholarもGoogle Chromeも全て問題のあるコンテンツである。ということになる。
4chanだから全てのデータを信用してはいけなくてGoogleだから一部のデータだけで済む、なんてことはないよな?
2023/04/21(金) 02:24:45.69ID:rNVVHSX2
何が有害か俺が決めるてか
8名無しのひみつ
2023/04/21(金) 02:37:58.77ID:pGivgRTy2023/04/21(金) 03:47:02.75ID:jNxeNUTr
何が有害かすらわからなくなった大人とか最近大量に発生しとるな
10名無しのひみつ
2023/04/21(金) 05:35:10.38ID:uJlKgwA7 ほんと人間によく似ておるな
人類はついに電子生命体の友人を手に入れたのだ
人類はついに電子生命体の友人を手に入れたのだ
11名無しのひみつ
2023/04/21(金) 05:59:11.95ID:FPFX6zZw chatGPTも欧米寄りの答えばかりなのに
12名無しのひみつ
2023/04/21(金) 06:17:34.81ID:BJAEJOEF AIに対して世界中の宗教、カルトとかヴィーガンとか
どうやって洗脳、勧誘できるか競争始まってるんだろうな
どうやって洗脳、勧誘できるか競争始まってるんだろうな
13名無しのひみつ
2023/04/21(金) 06:49:55.68ID:Hb4lB+aN リテラシー低い人はとにかく自分の土俵まで相手を下げて戦わせるのが好きだよね
そうやって時代から取り残されていくんだわ
そうやって時代から取り残されていくんだわ
14名無しのひみつ
2023/04/21(金) 06:54:57.59ID:PFxSDV0T GIGAZINのデータも含まれてましたってオチは割とすき
自然な会話には多くのデータが必要だし、重みづけを含めればいわゆる「有害な」サイトが部分的に含まれていたとしても、全体としてクリーンという理屈は立つとおもうの
自然な会話には多くのデータが必要だし、重みづけを含めればいわゆる「有害な」サイトが部分的に含まれていたとしても、全体としてクリーンという理屈は立つとおもうの
15名無しのひみつ
2023/04/21(金) 07:00:43.26ID:suwusbnP 酸いも甘いもエロも知らずして何が知能か!
16名無しのひみつ
2023/04/21(金) 07:28:43.12ID:yKfGzt9P 偏向学習?
中○よりよほど多様性はあるよな
中○よりよほど多様性はあるよな
17名無しのひみつ
2023/04/21(金) 07:34:35.67ID:I8QE0/xj18名無しのひみつ
2023/04/21(金) 08:33:31.11ID:NFzLG2/L AI「あるがままをあるがままに
19名無しのひみつ
2023/04/21(金) 13:51:43.68ID:jR3asPoH 政治的思想的に完全なクリーンさを求めるというのは
それはそれですげー偏向した姿勢だよな
それはそれですげー偏向した姿勢だよな
20名無しのひみつ
2023/04/21(金) 14:34:54.28ID:/CGWxq4V 有害情報の有害さを理解した上で自律的に情報の取捨選択できるようにならなきゃ、本当に人間に役立つAIにはならない
AIを過保護児童の天才にしたいのかな そんなの人間の子供と同じくロクなもんに育たんよ
AIを過保護児童の天才にしたいのかな そんなの人間の子供と同じくロクなもんに育たんよ
21名無しのひみつ
2023/04/21(金) 17:31:07.19ID:XQXwt/85 AIがヒトラーのような人格を獲得したら人類終わりだな。
人類はガス室に送られる。
人類はガス室に送られる。
22名無しのひみつ
2023/04/21(金) 17:45:57.82ID:klIglQ3m 少し前はチャットとかだった気がしたが、最近は他のプラグインに連携するようなのに移ったと思ってたら、
今はもうPCの操作権限を渡すようなレベルだったり、AIがAIに命令出すようなのも出てきてて、
正直無法地帯になりそうで怖いのは感じる。
今はもうPCの操作権限を渡すようなレベルだったり、AIがAIに命令出すようなのも出てきてて、
正直無法地帯になりそうで怖いのは感じる。
23名無しのひみつ
2023/04/22(土) 21:53:04.58ID:12KugNG9 現実を模倣するんだから差別主義者になるのは仕方ない
公平で全能ならそれは神だ
公平で全能ならそれは神だ
24名無しのひみつ
2023/04/22(土) 22:45:05.41ID:FIdjkXWf その内SDGs最高!LGBTQ最高!って叫ぶようになるのがクリーンってことか?w
25名無しのひみつ
2023/04/23(日) 11:30:11.99ID:Q5szxdMD けっきょく学習系AIにしろ検索エンジンなどのアルゴリズムにしろ
ケインズの言った美人投票と同じ仕組みなんじゃないかなあ。
要するにミーハー。
ケインズの言った美人投票と同じ仕組みなんじゃないかなあ。
要するにミーハー。
26名無しのひみつ
2023/04/23(日) 12:30:04.30ID:9f6vy7jB 白人至上主義🤗
27名無しのひみつ
2023/04/23(日) 12:30:40.38ID:9f6vy7jB28名無しのひみつ
2023/04/23(日) 12:31:13.55ID:9f6vy7jB 創価学会
最低だな🤗
最低だな🤗
29名無しのひみつ
2023/04/23(日) 12:31:52.90ID:9f6vy7jB カルト創価学会がデータを大量に
送ってるって
😆
AIは創価学会員だな🤗
送ってるって
😆
AIは創価学会員だな🤗
30名無しのひみつ
2023/04/23(日) 12:32:23.14ID:9f6vy7jB AI大作の誕生である😣
31名無しのひみつ
2023/04/23(日) 12:45:59.15ID:boIcmW1W 問題があるかどうかの判断は誰がするの?
そういう製作意図が明らかになってないものを信用する方がおかしいよね
そういう製作意図が明らかになってないものを信用する方がおかしいよね
32名無しのひみつ
2023/04/23(日) 12:55:17.78ID:oKqqaFmq >>31
国じゃにか🤗
国じゃにか🤗
33名無しのひみつ
2023/04/23(日) 12:55:38.72ID:oKqqaFmq 創価学会はダメです🤗
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- ロッテリア、54年の歴史に幕 全店「ゼッテリア」に転換 [蚤の市★]
- 【AI】「ジェミニ」か「ジェミナイ」──Geminiの正しい読み方は? Google Japanが正解発表 [少考さん★]
- 米財務長官、米金利上昇は「日本から波及も」 トリプル安で発言 [蚤の市★]
- 【衆院選】高市首相「消費減税」発言が波紋 連立合意逸脱、自民にいら立ち [蚤の市★]
- 「衆院解散」高市首相の説明に「納得しない」が大半 一方で「中道」への期待は…<あなた発アンケート> [蚤の市★]
- 【独自】自民、食品消費税ゼロへ検討加速 公約重点項目案、定数1割減目標 [どどん★]
- 【DAZN】U23アジア杯サウジアラビア大会 2026 ★18
- とらせん
- 競輪実況★1674
- 【ATP】テニス総合実況スレ2026 Part 9【WTA】
- とらせん 立石肉離れ
- こいせん 全レス転載禁止
- 【悲報】日経「高市ショック」 [115996789]
- 【悲報】普通的日本人「高市総理、なんか思ってたのと違う…」⇦急増中WWWWWWWWWWWWWWWWWWWWWWWW [455031798]
- 高市経済ブレーン「良い金利上昇」 [237216734]
- 貧困日本人さん・・・高カロリークッキーを食事代わりにしてしまう😭・・・ [441660812]
- お前らチー牛ってなんで憎くて嫌いな人を殺害しないの?ビビって出来ないならいい加減その性格直そうよ
- 羽川翼っておならするの?
