X



【IT】強化学習の壁「ビッグ・ベビー問題」に挑む新ベンチマーク[11/22]
■ このスレッドは過去ログ倉庫に格納されています
0001しじみ ★垢版2018/11/23(金) 15:54:12.33ID:CAP_USER
強化学習は、いわゆる「ビッグ・ベビー問題」に直面している。

強化学習は、設定した目標を達成するために報酬と罰を用いる機械学習の手法の1つだ。だが、強化学習アルゴリズムの効果を測るためのベンチマーク・タスクとなっているアタリのビデオゲームやシミュレーション環境は自然界の複雑性を反映していない。

その結果、強化学習のアルゴリズムは現実世界の問題と向き合うことなく洗練されていき、決定論的で狭義に定義された環境の外で活動するにはあまりに脆弱になってしまう(「ビッグ・ベビー」と呼ばれる意味がお分かりいただけるだろうか)。

これでは、変化し続ける物理環境に適応できるロボットを最終的に開発するという強化学習の目的を達成できない。たとえば、水を注ぐようにロボットを訓練するのであれば、どんな流し台でも水を注げるようにしたいはずだ。だがビデオゲームで強化学習アルゴリズムのベンチマークをすることは、「1つの流し台で訓練、試験、評価をする」ようなものだと、マギル大学の博士課程生であり、フェイスブックのAI研究チームでパートタイム研究者を務めるエイミー・チャンはいう。

そこでチャンと共同研究者らは、自然界をより反映した3つのベンチマーク・タスクを提案した。そのうち2つは視覚推論に焦点を当てたもので、アルゴリズムは自然の画像の中で、画像を分類したり、目標を見つけたりできるようにする。3つめは、既存のビデオゲームのベンチマーク・タスクにおいて、ビデオゲームの黒い背景を、ランダムに選択された動画クリップに変換するというものだ。

「元々のビデオゲーム・ベンチマーク・タスクでは、強化学習のモデルはすべての画面を記憶できます。動画を使うこの設定では、画面は毎回異なるので、実際に、そのシーンを視覚的に認識し、何が起こっているのかを理解する必要があります」。

「この設定は、現実世界のロボット工学に既存のものより遥かに近いと思います」。

研究者たちが既存の強化アルゴリズムをチャンらの提案したベンチマークでテストしたところ、アルゴリズムは大きなつまずきを見せた。「つまり、強化学習において、より一般化された堅牢なモデルを見い出すためには、まだやるべきことがあるということです」とチャンは話している。

https://cdn.technologyreview.jp/wp-content/uploads/sites/2/2018/11/21184504/animated-gif-source-3.gif

https://www.technologyreview.jp/nl/ai-cant-just-play-video-games-all-day-if-its-ever-going-to-grow-up/
0002ニュースソース検討中@自治議論スレ垢版2018/11/23(金) 17:21:55.09ID:7/D1hDGj
日本語なら「畳水練問題」と言うのが判りやすいと思う。
0003ニュースソース検討中@自治議論スレ垢版2018/11/23(金) 19:08:19.13ID:M/4wcvBq
>>2
畳の上の水練は小さなプールでも泳げない可能性があるが、一つの水路では泳げるのだからその命名は間違いだ。
0009ニュースソース検討中@自治議論スレ垢版2018/11/23(金) 20:13:24.99ID:Bb4VLQGc
複雑性が織り込めない、ちょっと違うけど、一種の過学習みたいな? 
でも そういうマシンをたくさん、ネットワークでつなげておけば そんな苦労するこはないかぁ
0010ニュースソース検討中@自治議論スレ垢版2018/11/23(金) 20:28:47.85ID:vu6ILovV
結局は箱庭ってことだ
0011ニュースソース検討中@自治議論スレ垢版2018/11/23(金) 20:35:52.07ID:YHKJDxrG
       /  ̄`Y  ̄ ヽ
      /  /       ヽ
      ,i / // / i   i l ヽ
      |  // / l | | | | ト、 |
      | || i/ .⌒  ⌒ | |
     (S|| |  (●) (●) |  紅白落選?辞退だお!
      | || |     .ノ  )| ⌒ヽ /⌒\
      (''ヽヽ、_ 〜'_/| |  〉 〉  ,、  )_____
     / /          (__ノ └‐ー< 壱 /.万 / |
    /〈_/\_________ノ.../.万 /.|彡|
  / 壱//万 / 壱//万 / 壱//万 /.|彡|彡|
/ 壱//万 / 壱//万 / 壱//万./.|彡|彡|/i
|≡≡|__|≡≡.|≡≡|__|≡≡.|≡≡|__|≡≡.|彡|彡|//√;
|≡≡|__|≡≡.|≡≡|__|≡≡.|≡≡|__|≡≡.|彡|//√‖
|≡≡|__|≡≡.|≡≡|__|≡≡.|≡≡|__|≡≡.|//√‖;<<
二二二二二二二二二二二二二二二二二;√;‖;<</i
<○;√. <○;√  <○;√.  <○;√..;‖ ;くく //√
 .; ‖   . ; ‖   . ; ‖    .; ‖  くく ..//√‖
  くく     くく     くく     くく    //√‖;<<
二二二二二二二二二二二二二二二二二;√;‖;<<
<●;√. <●;√  <●;√.  <●;√..;‖ ;くく
 .; ‖   . ; ‖   . ; ‖    .; ‖  くく
  くく     くく     くく     くく
0014ニュースソース検討中@自治議論スレ垢版2018/11/24(土) 11:09:25.11ID:b3/3juwk
1970年代の第一次AIブームの時に躓いたところで同じように躓いてるね。東ロボくんの躓きと遠因は一緒。

>>12
フレーム問題(事象の複雑さを枝切する基準をどう決めていいかわからない)も、
ビッグベビー問題(DLは事象の複雑さに汎用に対応させることが出来ない)も、
事象の複雑さに対応できないという問題なので、まあそれなりに近いのではなかろうか。

枝切の方法を決めた上で、対処しなければならないフレームを選別して過度な学習をさせない程度に学習させて、
未対応な事象が来たら改めて学習、みたいな構造にAIはなっていくと思うよ。
0018ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 08:06:47.58ID:2SEFU7I6
>どんな流し台でも水を注げるようにしたいはずだ。
これが間違ってるんだと思うが。
0021ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 11:25:53.19ID:MaTwwbi9
ビデオゲームの場合は最初に「ゲームの得点が高ければよい」と人間がルールを決めてやるところが問題
AIが何をもって良いゲームプレイか自分で決めることが一番大事
人間なら、
・ゲームセンターなら小遣い(クレジット)を無駄にせず長い時間遊べること
・ゲームを人より早く攻略すること
・年に1本しか買ってもらえないカートリッジなら、くそげーでもゲームを楽しみつくすこと
・自分でルールを作って遊ぶこと

とてもAIにはまだまだ課題が多いね
0023ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 11:43:52.27ID:GoOTYSbb
>>14
まるっきり見当違いなんだけど、よく頭悪いって言われない?
0024ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 13:24:29.11ID:nf0WFDTE
>>9さんが書いている「過学習(過剰適応)」問題とどう違うんだろう。
過学習とはたしか、ある特定の環境にのみ最適化されてしまうと、
状況が異なる環境に遭遇したときにその対応につまずいてしまうこと。
0025ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 13:40:41.61ID:nf0WFDTE
だから「学習(適応)もほどほどに」というわけだ。

フレーム問題とは何だろうか?
情報処理(計算)が天文学的なことになってしまうやつか?

それも関係があるかもしれないね。今のコンピュータでは明らかに制約条件だ。
0026ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 13:41:23.42ID:SMDsFQ6/
つまり、何?
もっとさ、バカでもわかるように説明してくれないかな?
みたらし団子の味を覚えても、きりたんぽの味は食ってみなきゃわからないって事なの?
0027ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 13:42:30.63ID:reT1J6Cv
そもそも、いまのDNNって人間っぽい知覚に適しているのは分かったけれど、意思決定みたいなものも同じ仕組みでなんとかなるの?
動物や虫みたいなものは模倣できても、人と同じレベルになるには、まだまだブレークスルーが必要そうに思えるんだが。
0028ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 13:45:16.05ID:izq5q/hN
リムパックベンチマークに全精力を傾けて、それだけを計算機の指標として
計算機システムを開発したりシステムを整備してきた日本はこれを笑えない。
0029ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 13:56:20.21ID:nf0WFDTE
北極に最も適応した動物がいたとして、その動物は北極では子孫繁栄競争で最も有利。
ところが、地球温暖化という環境変化が急激に起こると、それが致命的になってしまう。
北極に最適化されていたことが強みだったのに、それが逆に最大の弱みになってしまう。
0030ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 14:04:45.37ID:/tszibZd
>>26
動物ってすごいなー、人間ってすごいなー ってこと
0031ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 14:05:33.19ID:/tszibZd
虫のレベルにさえ追いつかない。生命の驚異
病気で苦しまないでよいのは機械の勝ち!
0032ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 15:26:48.80ID:nf0WFDTE
「専門バカ問題」と呼んだほうが分かりやすいんじゃないの?
0033ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 17:16:14.92ID:7rlsQV+Q
ベンチマーク対象とするビデオゲームの選び方が恣意的
8bit-16bit世代ばかり
ピクセルベースの学習で結果が出やすいのはわかるけどさ
0035ニュースソース検討中@自治議論スレ垢版2018/11/25(日) 17:47:26.51ID:WqoVI0qk
単純作業以外は、ネズミにも達していないだけ
0037ニュースソース検討中@自治議論スレ垢版2018/11/26(月) 08:24:00.93ID:DPgRYrvR
自動で水が出る蛇口に最初に出会ったときは焦った
あちこち触ってるうちに水が出て止まらずさらに焦った
を繰り返してるうちに自動だと悟った
って事が今の擬似AIでは無理だってことかな?
0038ニュースソース検討中@自治議論スレ垢版2018/11/26(月) 12:20:41.52ID:ovKr85nk
んなもんコストの問題だろ。
趣味なら無限の流し台生成するコードでも入れるなり好きにすりゃいいだけ
0039ニュースソース検討中@自治議論スレ垢版2018/11/26(月) 17:55:23.76ID:C7h1DRqs
>>38
「流し台を使う」ことは日常生活における様々なルールの応用が必要だということ
例えば水が出ないときは→水が氷っているのでヒーターに電源を入れる必要がある→電気を使うブレーカーを上げる必要がある→電気代を支払う…と現実では複雑性が増していくわけ
0040ニュースソース検討中@自治議論スレ垢版2018/11/27(火) 08:40:45.18ID:jss8N0++
>>9
ミッションに関わる部分で環境の再現性が低いと学習効率が低下するのが本質的な問題かと

ゲームですら100万とか1000万回の試行してるわけなので、現実世界では1億回、10億回とか試行が必要になってしまう

シミュレーションならまだしも現実世界ではそれだけの試行は膨大な時間とコストを要してしまう
0041ニュースソース検討中@自治議論スレ垢版2018/11/27(火) 08:46:06.19ID:w+ly7B1e
>>17
すごく良い例えですね
0042ニュースソース検討中@自治議論スレ垢版2018/12/21(金) 21:45:17.57ID:kbGd6Own
☆ 改憲しましょう。『憲法改正國民投票法』、でググってみて
ください。国会の改憲発議はすでに可能です。平和は勝ち取るものです。
拡散も含め、ぜひよろしくお願い致します。☆
0043ニュースソース検討中@自治議論スレ垢版2019/01/23(水) 01:40:50.18ID:1R0+FNrp
>>17
実に興味深い
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況