【AI】2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは? [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは?
インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。
AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。
Researchers warn we could run out of data to train AI by 2026. What then?
https://theconversation.com/researchers-warn-we-could-run-out-of-data-to-train-ai-by-2026-what-then-216741
(以下略、続きはソースでご確認ください)
Gigazine 2023年11月08日 12時00分
https://gigazine.net/news/20231108-run-out-data-train-ai/ 将棋や囲碁だと人間の作ったデータだけでは
少なすぎるので自己対局で学習という方向に
なったけどLLMで同じことはできるのか >>1
>研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。
なるほど
webサイトのデータも大量に取ってしまったし
しかも幾つものニュースサイトが自社のデータをAIに使うのを禁ずるというポリシーを打ち出してるからなあ
データが無いなら人を雇って作らせるしかない、か
有料でニュースやブログを書いてもらってそれを参考図書にする、みたいな
日本に関しては、国会図書館に所蔵されている全データを使った言語モデルとか
あるいはlineやmixiや「ここ」のデータもまだあまり活用され切ってないよなあw やはりロボットが要るな。言語化出来ていない知識経験の収集まで自動化するには、ハード面でもブレイクスルーが必要。アンドロイド的なハードウェアをAIに与えられたら、やっと人間の役目が終わる。 人間がいる限り常時データ生産してるんだか枯渇なんかするわけがない AIの学習データをAIが生成するというマッチポンプw >>7
いい暮らししてる人間のところで育ったロボットは高値がついて、
そうでないのはそれなりのお値段で売られるようになるんだろう
データはコピーできるからみんな同じ中身、って考えちゃダメだと思う
自分だけのAI、自分の趣味に合うAIってのを追及するようになる
プライベートな情報を学習させたりもするだろうし
スマホの待ち受け画面より多種多様なロボを連れ歩くんだろうな
一族で代々引き継ぐロボとかな >>3
ChatGPTも強化学習を使っているらしいけど
良くは知らない 従来の小さなニューラルネットワークでも「メタ学習」で
ChatGPTを凌駕するほど高度な生成AIができるとの報告、Nature誌
https://aiboom.net/archives/57838
この新技術は、限られたデータ量であっても高い効果を発揮するとされ、
生成AIにおける多くの課題—コスト、資源、データの制約—を解決する
新たな進路を開く可能性があります。 >>5
それだな。
悪貨は良貨を駆逐する。
いい情報はもっと出てこなくなるぞ。
だれが好きこのんで巨大企業を肥やすんだよ。 今の方法は明らかに効率が悪いから効率を上げたほうがいい AI「ちょっと人間の脳みそに電極刺して、データーぶっこ抜いてみようぜ!」 TikTok LiteでPayPayやAmazonギフトなどに変換可能な4000円分のポイントをプレゼント中!
※既存TikTokユーザーの方はTikTokアプリからログアウトしてアンインストールすればできる可能性があります。
1.SIMの入ったスマホ・タブレットを用意する
2.以下のTikTok Litのサイトからアプリをダウンロード(ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfDwVky/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリを起動
4.アプリ内でTikTok未使用の電話番号かメールアドレスを使用して登禄
5.10日間連続のチェックインで合計で4000円分のポイントゲット
ポイントはPayPayやAmazonギフト券に変換可能!
家族・友人に紹介したり通常タスクをこなせば更にポイントを追加でゲットできます。 >>1
電力、マシンパワーの方が枯渇やばいだろうけど
世界のリードの1角であるグーグルのような資金があれば
気にするのはそっちの方か
まあ、数学的に識別する数が1つ増えるたびに必要なデータが指数関数的に増加する次元の壁があるのだから
ニュースはそのインスタンスの1つにすぎないわな >>18
ティックトックで各国の若者のデータを取りまくってるって噂があったねw
それがもっと利用者の利害に関わる事に使われたかどうかはともかく
各国の何億もの人が使えば使うほど、色んなデータは貯まる訳だな
まさに>>1の言うAIのトレーニングデータ収集のために
こうやって宣伝して利用者増やしてるんだな、と
で、登録したらどうなるかは知らんがなw 昔はITの教科書出版とも言われるオライリーからスパイダー制作入門なんて本が売られてた。
出版社はどこか忘れたけど、AZURE ML入門の書籍には、Twitter舐め尽くしてデータを抜く例題が分かりやすく書かれてた。
いまはChronium webdriver で、人が操作するのと判別つかないブラウザ操作でクロールできる。 AI用サンプルは、人的入力で済むものなら、いまは中国インドで山ほど行われてる。
2020年代前に早々に中国でAI関連の会社が複数立ち上がったのはこれ。人的な入力ではいまや間に合ってないからこれからどうなるかわからんけどね。 ■ このスレッドは過去ログ倉庫に格納されています