【ＩＴ】強化学習の壁「ビッグ・ベビー問題」に挑む新ベンチマーク［11/22］

**しじみ ★** · 2018/11/23(金) 15:54:12.33

強化学習は、いわゆる「ビッグ・ベビー問題」に直面している。

強化学習は、設定した目標を達成するために報酬と罰を用いる機械学習の手法の1つだ。だが、強化学習アルゴリズムの効果を測るためのベンチマーク・タスクとなっているアタリのビデオゲームやシミュレーション環境は自然界の複雑性を反映していない。

その結果、強化学習のアルゴリズムは現実世界の問題と向き合うことなく洗練されていき、決定論的で狭義に定義された環境の外で活動するにはあまりに脆弱になってしまう（「ビッグ・ベビー」と呼ばれる意味がお分かりいただけるだろうか）。

これでは、変化し続ける物理環境に適応できるロボットを最終的に開発するという強化学習の目的を達成できない。たとえば、水を注ぐようにロボットを訓練するのであれば、どんな流し台でも水を注げるようにしたいはずだ。だがビデオゲームで強化学習アルゴリズムのベンチマークをすることは、「1つの流し台で訓練、試験、評価をする」ようなものだと、マギル大学の博士課程生であり、フェイスブックのAI研究チームでパートタイム研究者を務めるエイミー・チャンはいう。

そこでチャンと共同研究者らは、自然界をより反映した3つのベンチマーク・タスクを提案した。そのうち2つは視覚推論に焦点を当てたもので、アルゴリズムは自然の画像の中で、画像を分類したり、目標を見つけたりできるようにする。3つめは、既存のビデオゲームのベンチマーク・タスクにおいて、ビデオゲームの黒い背景を、ランダムに選択された動画クリップに変換するというものだ。

「元々のビデオゲーム・ベンチマーク・タスクでは、強化学習のモデルはすべての画面を記憶できます。動画を使うこの設定では、画面は毎回異なるので、実際に、そのシーンを視覚的に認識し、何が起こっているのかを理解する必要があります」。

「この設定は、現実世界のロボット工学に既存のものより遥かに近いと思います」。

研究者たちが既存の強化アルゴリズムをチャンらの提案したベンチマークでテストしたところ、アルゴリズムは大きなつまずきを見せた。「つまり、強化学習において、より一般化された堅牢なモデルを見い出すためには、まだやるべきことがあるということです」とチャンは話している。

https://cdn.technologyreview.jp/wp-content/uploads/sites/2/2018/11/21184504/animated-gif-source-3.gif

https://www.technologyreview.jp/nl/ai-cant-just-play-video-games-all-day-if-its-ever-going-to-grow-up/

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 17:21:55.09

日本語なら「畳水練問題」と言うのが判りやすいと思う。

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 19:08:19.13

>>2
畳の上の水練は小さなプールでも泳げない可能性があるが、一つの水路では泳げるのだからその命名は間違いだ。

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 19:30:53.43

自宅の警備なら完璧にできるよビッグベビー

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 19:48:08.74

>>4
自宅の警備を妄想してるだけだから実際の自宅警備はできない

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 19:50:15.97

パートタイマーの研究職ってあるんだな

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 20:07:58.87

>>6
大学の研究室にわんさかいるじゃん
何も珍しくない

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 20:10:21.81

おかサーファー問題

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 20:13:24.99

複雑性が織り込めない、ちょっと違うけど、一種の過学習みたいな？　
でも　そういうマシンをたくさん、ネットワークでつなげておけば　そんな苦労するこはないかぁ
？

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 20:28:47.85

結局は箱庭ってことだ

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 20:35:52.07

　　　　　　／￣｀Y ￣ヽ
　　　　　 /　 / 　　　　　　ヽ
　　　　 ,i　/ // / i 　　i l　ヽ
　　　　 |　 //　/ l | | | | ﾄ､ |
　　　　 |　|| i／ .⌒　　⌒ | |
　　　　（Ｓ|| |　（●）（●） |　　紅白落選？辞退だお！
　　　　 |　|| |　　　　 .ﾉ　　）| ⌒ヽ／⌒＼
　　　　（''ヽヽ､＿～'_／| | 　〉　〉　 ,､　　）＿＿＿＿＿
　　　　　/　/　　　　　　　　　 (__ﾉ　└‐ｰ< 壱／.万／ |
　　／〈＿／＼＿＿＿＿＿＿＿＿＿ﾉ...／.万／.|彡|
　／壱／／万／壱／／万／壱／／万／.|彡|彡|
／壱／／万／壱／／万／壱／／万.／.|彡|彡|／i
|≡≡|__|≡≡.|≡≡|__|≡≡.|≡≡|__|≡≡.|彡|彡|／／√;
|≡≡|__|≡≡.|≡≡|__|≡≡.|≡≡|__|≡≡.|彡|／／√∥
|≡≡|__|≡≡.|≡≡|__|≡≡.|≡≡|__|≡≡.|／／√∥;<<
二二二二二二二二二二二二二二二二二;√;∥;<<／i
＜○;√.　＜○;√　＜○;√. 　＜○;√..;∥ ;くく／／√
　.; ∥　　　. ; ∥　　　. ; ∥　　　　.; ∥ 　くく　..／／√∥
　くく　　　　くく　　　　くく　　　　くく　　　／／√∥;<<
二二二二二二二二二二二二二二二二二;√;∥;<<
＜●;√.　＜●;√　＜●;√. 　＜●;√..;∥ ;くく
　.; ∥　　　. ; ∥　　　. ; ∥　　　　.; ∥ 　くく
　くく　　　　くく　　　　くく　　　　くく

**ニュースソース検討中＠自治議論スレ** · 2018/11/23(金) 22:50:56.98

ちょっと違うけどフレーム問題に近いのかな？

**ニュースソース検討中＠自治議論スレ** · 2018/11/24(土) 09:11:59.06

自動車なら自由に車線変更可能なのに
電車がレールを脱線させると立ち往生するみたいな？

**ニュースソース検討中＠自治議論スレ** · 2018/11/24(土) 11:09:25.11

1970年代の第一次AIブームの時に躓いたところで同じように躓いてるね。東ロボくんの躓きと遠因は一緒。

>>12
フレーム問題（事象の複雑さを枝切する基準をどう決めていいかわからない）も、
ビッグベビー問題（DLは事象の複雑さに汎用に対応させることが出来ない）も、
事象の複雑さに対応できないという問題なので、まあそれなりに近いのではなかろうか。

枝切の方法を決めた上で、対処しなければならないフレームを選別して過度な学習をさせない程度に学習させて、
未対応な事象が来たら改めて学習、みたいな構造にAIはなっていくと思うよ。

**ニュースソース検討中＠自治議論スレ** · 2018/11/24(土) 13:38:43.57

萌えAIは自動学習とか横着しないで、少し手間かけた方が良さそうだな

**ニュースソース検討中＠自治議論スレ** · 2018/11/24(土) 14:14:19.53

ようは過学習じゃないの？

**ニュースソース検討中＠自治議論スレ** · 2018/11/24(土) 15:48:16.25

>>16
中学算数を完璧に学習したAIが自然科学の問題にチャレンジするようなもの
解ける問題もあるが解けない問題の方が多い

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 08:06:47.58

>どんな流し台でも水を注げるようにしたいはずだ。
これが間違ってるんだと思うが。

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 10:08:40.67

ガラパゴス化した日本をディスってんの？

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 10:40:03.28

>>18
一つの流し台で良いなら個別実装でええやん

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 11:25:53.19

ビデオゲームの場合は最初に「ゲームの得点が高ければよい」と人間がルールを決めてやるところが問題
AIが何をもって良いゲームプレイか自分で決めることが一番大事
人間なら、
・ゲームセンターなら小遣い（クレジット）を無駄にせず長い時間遊べること
・ゲームを人より早く攻略すること
・年に1本しか買ってもらえないカートリッジなら、くそげーでもゲームを楽しみつくすこと
・自分でルールを作って遊ぶこと

とてもAIにはまだまだ課題が多いね

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 11:36:11.08

>>21
長文で何書いてるのかと思ったら記事と関係ないことだった

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 11:43:52.27

>>14
まるっきり見当違いなんだけど、よく頭悪いって言われない？

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 13:24:29.11

>>9さんが書いている「過学習（過剰適応）」問題とどう違うんだろう。
過学習とはたしか、ある特定の環境にのみ最適化されてしまうと、
状況が異なる環境に遭遇したときにその対応につまずいてしまうこと。

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 13:40:41.61

だから「学習（適応）もほどほどに」というわけだ。

フレーム問題とは何だろうか？
情報処理（計算）が天文学的なことになってしまうやつか？

それも関係があるかもしれないね。今のコンピュータでは明らかに制約条件だ。

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 13:41:23.42

つまり、何？
もっとさ、バカでもわかるように説明してくれないかな？
みたらし団子の味を覚えても、きりたんぽの味は食ってみなきゃわからないって事なの？

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 13:42:30.63

そもそも、いまのDNNって人間っぽい知覚に適しているのは分かったけれど、意思決定みたいなものも同じ仕組みでなんとかなるの？
動物や虫みたいなものは模倣できても、人と同じレベルになるには、まだまだブレークスルーが必要そうに思えるんだが。

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 13:45:16.05

リムパックベンチマークに全精力を傾けて、それだけを計算機の指標として
計算機システムを開発したりシステムを整備してきた日本はこれを笑えない。

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 13:56:20.21

北極に最も適応した動物がいたとして、その動物は北極では子孫繁栄競争で最も有利。
ところが、地球温暖化という環境変化が急激に起こると、それが致命的になってしまう。
北極に最適化されていたことが強みだったのに、それが逆に最大の弱みになってしまう。

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 14:04:45.37

>>26
動物ってすごいなー、人間ってすごいなー　ってこと

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 14:05:33.19

虫のレベルにさえ追いつかない。生命の驚異
病気で苦しまないでよいのは機械の勝ち！

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 15:26:48.80

「専門バカ問題」と呼んだほうが分かりやすいんじゃないの？

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 17:16:14.92

ベンチマーク対象とするビデオゲームの選び方が恣意的
8bit-16bit世代ばかり
ピクセルベースの学習で結果が出やすいのはわかるけどさ

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 17:20:48.70

【ウーマン村本】　やったぜ日産？　いや政治家からしたら、やったぜ無関心な国民、やったぜ水道民営化
http://rosie.5ch.net/test/read.cgi/liveplus/1543111218/l50

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 17:47:26.51

単純作業以外は、ネズミにも達していないだけ

**ニュースソース検討中＠自治議論スレ** · 2018/11/25(日) 18:48:48.67

今の人工知能の研究ってなんだかわざわざ２足歩行のロボを作っていた時代みたいだな

**ニュースソース検討中＠自治議論スレ** · 2018/11/26(月) 08:24:00.93

自動で水が出る蛇口に最初に出会ったときは焦った
あちこち触ってるうちに水が出て止まらずさらに焦った
を繰り返してるうちに自動だと悟った
って事が今の擬似AIでは無理だってことかな?

**ニュースソース検討中＠自治議論スレ** · 2018/11/26(月) 12:20:41.52

んなもんコストの問題だろ。
趣味なら無限の流し台生成するコードでも入れるなり好きにすりゃいいだけ

**ニュースソース検討中＠自治議論スレ** · 2018/11/26(月) 17:55:23.76

>>38
「流し台を使う」ことは日常生活における様々なルールの応用が必要だということ
例えば水が出ないときは→水が氷っているのでヒーターに電源を入れる必要がある→電気を使うブレーカーを上げる必要がある→電気代を支払う…と現実では複雑性が増していくわけ

**ニュースソース検討中＠自治議論スレ** · 2018/11/27(火) 08:40:45.18

>>9
ミッションに関わる部分で環境の再現性が低いと学習効率が低下するのが本質的な問題かと

ゲームですら100万とか1000万回の試行してるわけなので、現実世界では1億回、10億回とか試行が必要になってしまう

シミュレーションならまだしも現実世界ではそれだけの試行は膨大な時間とコストを要してしまう

**ニュースソース検討中＠自治議論スレ** · 2018/11/27(火) 08:46:06.19

>>17
すごく良い例えですね

**ニュースソース検討中＠自治議論スレ** · 2018/12/21(金) 21:45:17.57

☆ 改憲しましょう。『憲法改正國民投票法』、でググってみて
ください。国会の改憲発議はすでに可能です。平和は勝ち取るものです。
拡散も含め、ぜひよろしくお願い致します。☆

**ニュースソース検討中＠自治議論スレ** · 2019/01/23(水) 01:40:50.18

>>17
実に興味深い