【AI】2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは？ [すらいむ★]

**すらいむ ★** · 2023/11/09(木) 21:14:19.98

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは？

　インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。
　AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。

　Researchers warn we could run out of data to train AI by 2026. What then?
　https://theconversation.com/researchers-warn-we-could-run-out-of-data-to-train-ai-by-2026-what-then-216741

（以下略、続きはソースでご確認ください）

Gigazine 2023年11月08日 12時00分
https://gigazine.net/news/20231108-run-out-data-train-ai/

**名無しのひみつ** · 2023/11/09(木) 22:01:38.89

枯渇した後のAIの振る舞いが楽しみやん？

**名無しのひみつ** · 2023/11/09(木) 22:04:02.90

将棋や囲碁だと人間の作ったデータだけでは
少なすぎるので自己対局で学習という方向に
なったけどLLMで同じことはできるのか

**名無しのひみつ** · 2023/11/09(木) 22:08:29.38

>>1
＞研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。

なるほど
webサイトのデータも大量に取ってしまったし
しかも幾つものニュースサイトが自社のデータをAIに使うのを禁ずるというポリシーを打ち出してるからなあ

データが無いなら人を雇って作らせるしかない、か
有料でニュースやブログを書いてもらってそれを参考図書にする、みたいな

日本に関しては、国会図書館に所蔵されている全データを使った言語モデルとか
あるいはlineやmixiや「ここ」のデータもまだあまり活用され切ってないよなあｗ

**名無しのひみつ** · 2023/11/09(木) 22:32:31.62

　
ゴミ食わせ
　出て来たゴミを
　　ゴミが読む

**名無しのひみつ** · 2023/11/09(木) 22:34:42.48

「評価するAI」が絶対に必要

**名無しのひみつ** · 2023/11/10(金) 01:47:56.87

やはりロボットが要るな。言語化出来ていない知識経験の収集まで自動化するには、ハード面でもブレイクスルーが必要。アンドロイド的なハードウェアをAIに与えられたら、やっと人間の役目が終わる。

**名無しのひみつ** · 2023/11/10(金) 14:54:07.94

人間がいる限り常時データ生産してるんだか枯渇なんかするわけがない

**名無しのひみつ** · 2023/11/10(金) 16:35:56.54

>>8
生産量と消費量の比較問題

**名無しのひみつ** · 2023/11/10(金) 16:51:40.12

AIの学習データをAIが生成するというマッチポンプw

**名無しのひみつ** · 2023/11/10(金) 16:54:32.37

>>7
いい暮らししてる人間のところで育ったロボットは高値がついて、
そうでないのはそれなりのお値段で売られるようになるんだろう

データはコピーできるからみんな同じ中身、って考えちゃダメだと思う
自分だけのAI、自分の趣味に合うAIってのを追及するようになる
プライベートな情報を学習させたりもするだろうし

スマホの待ち受け画面より多種多様なロボを連れ歩くんだろうな
一族で代々引き継ぐロボとかな

**名無しのひみつ** · 2023/11/10(金) 17:13:57.72

>>3
ChatGPTも強化学習を使っているらしいけど
良くは知らない

**名無しのひみつ** · 2023/11/10(金) 17:23:00.61

従来の小さなニューラルネットワークでも「メタ学習」で
ChatGPTを凌駕するほど高度な生成AIができるとの報告、Nature誌
https://aiboom.net/archives/57838
この新技術は、限られたデータ量であっても高い効果を発揮するとされ、
生成AIにおける多くの課題—コスト、資源、データの制約—を解決する
新たな進路を開く可能性があります。

**名無しのひみつ** · 2023/11/10(金) 17:25:11.47

>>5
それだな。
悪貨は良貨を駆逐する。
いい情報はもっと出てこなくなるぞ。
だれが好きこのんで巨大企業を肥やすんだよ。

**名無しのひみつ** · 2023/11/10(金) 17:28:38.95

>>13
フェイク誘導簡単ってことでもある

**名無しのひみつ** · 2023/11/10(金) 18:01:26.28

今の方法は明らかに効率が悪いから効率を上げたほうがいい

**名無しのひみつ** · 2023/11/10(金) 18:24:25.81

AI「ちょっと人間の脳みそに電極刺して、データーぶっこ抜いてみようぜ！」

**名無しのひみつ** · 2023/11/12(日) 07:05:09.90

TikTok LiteでPayPayやAmazonギフトなどに変換可能な4000円分のﾎﾟｲﾝﾄをプレゼント中！
※既存TikTokユーザーの方はTikTokアプリからログアウトしてアンインストールすればできる可能性があります。

1.SIMの入ったスマホ・タブレットを用意する
2.以下のTikTok Litのサイトからアプリをダウンロード（ダウンロードだけでまだ起動しない）
https://lite.tiktok.com/t/ZSNfDwVky/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリを起動
4.アプリ内でTikTok未使用の電話番号かメールアドレスを使用して登禄
5.10日間連続のチェックインで合計で4000円分のﾎﾟｲﾝﾄゲット

ﾎﾟｲﾝﾄはPayPayやAmazonギフト券に変換可能！
家族・友人に紹介したり通常タスクをこなせば更にﾎﾟｲﾝﾄを追加でゲットできます。

**名無しのひみつ** · 2023/11/12(日) 07:22:25.23

>>1
電力、マシンパワーの方が枯渇やばいだろうけど
世界のリードの1角であるグーグルのような資金があれば
気にするのはそっちの方か

まあ、数学的に識別する数が1つ増えるたびに必要なデータが指数関数的に増加する次元の壁があるのだから
ニュースはそのインスタンスの1つにすぎないわな

**名無しのひみつ** · 2023/11/12(日) 09:10:34.76

>>18
既にやってるよ

**名無しのひみつ** · 2023/11/12(日) 09:16:29.45

>>18
ティックトックで各国の若者のデータを取りまくってるって噂があったねｗ

それがもっと利用者の利害に関わる事に使われたかどうかはともかく
各国の何億もの人が使えば使うほど、色んなデータは貯まる訳だな

まさに>>1の言うAIのトレーニングデータ収集のために
こうやって宣伝して利用者増やしてるんだな、と

で、登録したらどうなるかは知らんがなｗ

**名無しのひみつ** · 2023/11/12(日) 19:30:29.86

昔はITの教科書出版とも言われるオライリーからスパイダー制作入門なんて本が売られてた。
出版社はどこか忘れたけど、AZURE ML入門の書籍には、Twitter舐め尽くしてデータを抜く例題が分かりやすく書かれてた。
いまはChronium webdriver で、人が操作するのと判別つかないブラウザ操作でクロールできる。

**名無しのひみつ** · 2023/11/13(月) 05:19:04.44

AI用サンプルは、人的入力で済むものなら、いまは中国インドで山ほど行われてる。
2020年代前に早々に中国でAI関連の会社が複数立ち上がったのはこれ。人的な入力ではいまや間に合ってないからこれからどうなるかわからんけどね。

**名無しのひみつ** · 2023/11/13(月) 08:26:06.51

>>18
これなら楽しんでポイントを稼げそう