【AI】「ディープラーニングは、原理的には単純な最小二乗法にすぎない」で物議 東大・松尾豊氏「深い関数の方が重要」
■ このスレッドは過去ログ倉庫に格納されています
「ディープラーニングは、原理的には単純な最小二乗法にすぎない」――2月18日付けで日本経済新聞電子版が公開した記事について、Twitterでは「ディープラーニング=最小二乗法」という解釈は異なるのではという指摘が相次いだ。19日には「ディープラーニング」「最小二乗法」といったワードがTwitterでトレンド入りし、波紋が広がっていた。
日経の記事では、慶應義塾大学経済学部の小林慶一郎教授がAI技術について解説。「近年、驚異的な発展を見せているAIのディープラーニング(深層学習)は、原理的には単純な最小二乗法(誤差を最小にする近似計算の一手法)にすぎない」と言及し、「ディープラーニングは『最小二乗法』」と題する図版が掲載された。
https://image.itmedia.co.jp/news/articles/1902/20/ai_ml_01.jpg
最小二乗法は、測定で得られたデータの組を、1次関数など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、モデル関数の値と測定値の差の2乗和を最小とするような係数を決定する方法。ディープラーニングに詳しい東京大学の松尾豊特任准教授は、2018年8月に登壇したイベントで、「ディープラーニングは最小二乗法のお化けのようなもの」「従来のマシンラーニングは(階層的に)『浅い』関数を使っていたが、ディープラーニングは『深い』関数を使っている」と説明していた。
https://image.itmedia.co.jp/news/articles/1902/20/ai_ml2.jpg
松尾氏は2月20日、Twitterの公式アカウントで「小林慶一郎先生はよく議論させていただくので、少し責任を感じています」とツイート。ディープラーニングを簡潔に解説するため「深い関数を使った最小二乗法」という言葉を使ってきたが、「深い関数を使った」という説明がいつも抜け落ちてしまうと嘆く。
松尾 豊
@ymatsuo
しかし、いつも「深い関数を使った」というところが抜け落ちてしまいます。ディープラーニングはその名の通り「深い」ことを強調した学術用語であり、そのくらい深いことが重要ですが伝わらない。深い関数により表現力が革命的に上がり、アルゴリズム的な挙動も含め表現できるのは驚くべきことです。
https://twitter.com/ymatsuo/status/1098116029987713024
松尾 豊
@ymatsuo
「最小二乗法」は、損失関数を最小化することで、モデルのパラメータをデータから推定することを、一般の人がぎりぎり持っている(かもしれない)知識で言い換えたもので、大雑把ではありますが、それほど悪くない言い方だと思っています。深いことに比べるとそれほど重要ではありません。
https://twitter.com/ymatsuo/status/1098116143393386497
松尾 豊
@ymatsuo
いずれにしても、経営者や政治家の方を含め、多くの人に正しく理解してもらうのは大変難しいです。「最小二乗法」がこれだけ話題になるというのは、逆に言うと、多くの人がぎりぎり理解できる地点がそこらへんまでなのだということを示してもいて、なかなか絶望的ではあります。まだまだ道は長いです。
https://twitter.com/ymatsuo/status/1098116255737737216
松尾 豊
@ymatsuo
翻って、「深い関数」という意味や、それがもたらす可能性を、(専門家の人も含め)どれだけの人がちゃんと理解しているのかとは、常々疑問に思います。もちろん、AI全般、あるいは知能全般の議論と簡単に結びつけるのは良くないですが、非常に大きな広がりがある技術だと思っています。
https://twitter.com/ymatsuo/status/1098116360062722048
続けて、「深い関数により表現力が革命的に上がり、アルゴリズム的な挙動も含め表現できるのは驚くべきこと」「『最小二乗法』は、損失関数を最小化することで、モデルのパラメータをデータから推定すること(略)深いことに比べるとそれほど重要ではありません」と投稿。経営者や政治家など、AIに詳しくない非エンジニアに正しく理解してもらうための解説は「大変難しい」と痛感しているようだ。Twitterでも同様に、AI技術について上司や同僚にどう解説すればいいかを嘆くエンジニアの声も見られた。
松尾氏は「深い関数」の意味やそれがもたらす可能性について、今後も研究や啓もう活動を続けていくと発信した。
ITmedia NEWS
https://www.itmedia.co.jp/news/articles/1902/20/news141.html
https://twitter.com/5chan_nel (5ch newer account) ビッグデータなんてまやかし。
ディープラーニングのAIが上手く予想できなかった時に、
「もっと教師データが必要みたいですね」
「今のデータではまだ不足しているみたいです」
と逃げるためにビッグデータという言葉が生まれただけ。
過去のデータに基づく近似である以上、将来予測が当たる保証はどこにもない。
昔、多変量解析の競馬予想ソフトでさんざ言われていた事。
また、トレーニングも、大体1000回くらい繰り返して学習されるわけだが、
たくさんやると、過学習に陥って、未知データに対する予想のブレが大きく
なるという根本的な問題も抱えている。 単純な計算ルールを入れ子構造で何度も繰り返すように設計したら、人間の思いもつかない複雑な計算をできるようになりました >>232
分かり易い。
深い関数っていうのが意味不明だったw ディープラーニングって言葉がディープニューラルネットワークとマシーンラーニングを合わせた造語だからディープラーニングを一言で説明するのは軽率だね
あえて一言で説明するなら人間の脳と同じ仕組みとでも言えばいい >>231
過学習の意味が違うと思うけど
人間でいう過度な一般化と同じだから学習量が足りない状態 >>231
>たくさんやると、過学習に陥って、未知データに対する予想のブレが大きく
なるという根本的な問題も抱えている。
新しいデータに重み付けを大きくするなり過去のパターンと合致しているかの判定を組み込むとか対策はいくらでもあるじゃん
無能を前提としてもらっても困る 今すぐ生き物と同じ知能を実現しないと無意味とか言う人がいっぱいいら科二+民に言っても無駄 >>236
過学習の意味はあっているよ。
英語ではover fittingとなる。
AIの学習は、差の数%を遡り反映させて、少しづつ誤差関数の誤差を小さくしていく。
1回のトレーニングでは対して誤差が小さくならないので、概ね1000回程度、上記の
作業を繰り返す。途中までは誤差が漸減していくが、あるところで減らなくなる。
ここで問題が2つ生じる。
1.局所最適解と呼ばれる、偽の解にトラップされてしまう可能性がある
→optimizerという形で回避方法は開発されている。
2.誤差の漸減が止まるあたりで止めないと、今ある教師データには合致するが、
教師に無いデータでの誤差が極端に大きい状態に陥る。これを過学習と言う。
→漸減の停止が過学習なのか、局所解なのかは人間が判断するしかない
原理的に完全な自動判定は不可能。
>>237
それは強化学習的考え方だね。いつまでたっても学習が終わらないという事で、
まさにビッグデータ詐欺の発想だね。まだまだデータ足りないと言い続けて、
いつかは完璧になると言っているだけ。
あと、「新しいデータの重み付けを大きくする」って一言で言うけど、どうやるの?w
一般化できたら、恐らく論文一つ書けるよ。 >>240
そろそろAIを生き物に例えるのはやめようよ。 >>239
>あと、「新しいデータの重み付けを大きくする」って一言で言うけど、どうやるの?w
一般化できたら、恐らく論文一つ書けるよ。
小学生かよ、書けるわけねーだろ…
仮に1日1個のデータで過去1年のデータを集めて>>1にあるように最小二乗法で近似曲線を求める評価系なら
過去1ヶ月のデータを意図的に1個重複
過去1週間のデータを意図的に2個重複
それで最小二乗法で近似曲線求めりゃいいだろ
これは一例に過ぎないが他にもいくらでもやりようはある
小学生には難しいけどな 過学習の1例
ある入力xの2次関数で表現できる現象yがあるとき
実験で3点(x1,y1), (x2,y2), (x3,y3)を得れば、
y=ax^2+bx+c
の関数を正確に得られる。
4点目(x4, y4)を追加したとき、制限なしで学習させれば、
すべての点を通るように3次関数( y=ax^3+bx^2+cx+d)
で表現してしまい、結果がいびつになるようなもの。
実験には誤差があるという前提ではあるが。
無限数のパラーメータ、無限次関数ならどうなるかは、
考えたことないのでわかりません。 >>242
それ、直近のデータに対して過学習してしまうだけじゃん。 >>244
君の考える過学習の定義を聞きたいね
おそらく私の過学習の定義と異なるようだ
>>242を例にするなら
データサンプル期間中に過去1ヶ月の段階でパターンに変化があったとき
1年のデータでの予想より1ヶ月のデータの方がより正確になることが期待される
このとき1ヶ月以上前のデータの影響を過学習と呼ぶ おまえらってプログラム書けないのな
過学習ってのは均一化されていないクソデータを学習に使ってる事に原因があり、
データ件数の多いクラスに流れるように行列値が0に置かれることで、以降の学習が崩壊してしまう事を指す
未学習に対してうんたらは見当違いが甚だしい
検証コードも書かずに他人の記事や論文で知ったかぶってる奴がディープラーニング語ってゴミ撒き散らすな >>247
意味不明だね
やはり>>245は過学習じゃないと言わざるを得ないんだが? >>245
>1年のデータでの予想より1ヶ月のデータの方がより正確になることが期待される
直近のデータの方が正確になる特殊な事例の時にしか通用しないという前提を
書いているのかな?
>このとき1ヶ月以上前のデータの影響を過学習と呼ぶ
これは完全に間違い。 >>251
じゃ、それでいいや
ところで>>242は過学習ではないってことでいいかな いずれにせよ
なんかしらの計算であることには間違いない >>220
全く論点がズレてて反論になってない
人工知能的な物への需要はあったわけだし
研究の世界から遠そうな君に教えてあげると、日本の偉大な先生方は、素晴らしい方達だけど、
理由を説明できることに大きな価値を置いて、理由を十分に説明できない研究には低い評価しかしなかったんだよ >>246
プログラム書けてもライブラリ呼び出しの方法しか説明してないのも多いんだよね
歌ってみた、程度のが多い 趣味のゲームAI用に多層パーセプトロンまでは行列パッケージで組んだ。
正則化やオートエンコーダ、その他諸々。
多層でも収束させrための技術も色々組んだ。
CNNの登場で、2行目のネタが全く不要になり、現在は忘却の彼方へ。
CNNは途中までトライしたけど、行列での表現が難しく、
しかも努力の方向性が違って来ていると思ってやめた。
そもそも計算機資源が足りなかった。
学習だけじゃなく、予測する際にも、速度的に無理というレベルが予想できた。
世の中の人は、DCNNから入った人も多いんだろう。
そういう人はライブラリ使っていれば良い。
僕は自分で組みたかったのでDCNNで足を洗った。 >>246
行列値がゼロってのは、ウェイトがゼロになっちゃう事か?
それは過学習とは言わない。勾配消失と言う。 >>259
もう出来てるよ。
製品もオープンソースの実装も山ほどある。 >>255
それは日本に限らず世界的にもそうだろう
理由の説明ができるかできないかでインパクトファクター全然変わるやん >>262
学界の中ではそうなんだけど、産業界も含めた作り出すことを目的とした競争では、そこにとらわれ過ぎない方が上手くいくこともある >>263
うだうだ婉曲的に言ってるけど、要するにロジカルに進めてくか、セレンディピティも重視するかってことね
極論すると、主婦の特許はセレンディピティじゃないよ、あなたの例えは不適切だよってのがおれの言いたいことね
具体的に明示できんくせにいちいち言葉もムカつくから、もうレスいらんよ >>259
AIの定義による
知能=人間の脳 なら
人工知能はまだ出来てない
知能=将棋や囲碁や顔認識 なら
もうわかるよね 深い関数というのが重要ではあるが、最小二乗法に過ぎないというのも間違いではないでしょ。
人間は考える葦であるというのが重要かもしれないが、哺乳類に過ぎないという意見も正しい。 >>271
人類とは何か。
ただの哺乳類にすぎない。
と書いてどんな意味があるのだろうか?
何を説明したいのか分からん 最小二乗法は、重みを計算するためのものです。
深層学習関係ありません。 加重最小二乗法のループによってそれ自身の重みを推定する 意味不明。
深層学習が既存の近似法より優れている点は、
説明変数を人間がアドホックに与えなくて済みそうな点です。
ある法則の仮説検証は、アドホックに決めた近似式を用意して、
統計的に検証する事で行われますが、近似式をアドホックに
決める所が大変に難易度の高い作業です。
例えば、ニュートンは、f=maという単純な近似式を見出した事で
(古典的)重力理論の創始者となる事ができました。
深層学習では、学習した結果が、実測値の予測に優れている事が
証明されたうえで、何を学習したのかを中間層の重みを可視化する
などして調査する事で、より単純化した法則を導き出す事ができる
可能性があるという事です。
仮説→検証→仮説の法則化ではなく、深層学習→検証→法則と
なる可能性が出てきます。 >>272
「人間も動物にすぎない」といったら、性犯罪に理解を示す言葉。 >>7
最小二乗法を知ってる人なんてそんなにいないと思うんだが… >>270
知能が画像認識等の問題とするならば、
それに使われてる仕組みはもう揃ったと言って良いんだろうか?
人間の脳神経があんなに大量の情報をさばいてるとは思えない。
それに、人間の枝刈りの能力は尋常じゃない。 最小二乗法は高校数学ではたぶん習わない。
統計学の基礎的な教程でも出てこない。
それより、
コンピュータ・プログラミングのアルゴリズムや
数値計算の書籍にかなりの確率で出てくる。 >>280
オレは理学部物理学科だったけれど
学部2年か3年で勉強したような記憶がある。
その後も数値計算とかCAGDとかシミュレーションについて勉強し続けていたので、
上記記憶はもしかしたらオレに記憶違いかもしれないが、
学生レベルだと思うよ。 >>281
思い出した、物理実験のデータのfittingにfortranとか使ってやってたわ 最低でも義務教育で、基本的な統計学とか確率論の基礎って教えておかなくちゃいけない気がする
グラフの読み取り方とかって、例に出して悪いが三角関数よりは必須だと思う
騙されないようにするためにも 基本的にはそういうこと
>>232
再帰反復関数系にしたらチューリン完全に近づいたってことか? >>276
それはデータによるから相当規模のデータで検証しないと複雑なのは無理 最小二乗法だけでは深い関数は学習できなかったんだよ
深い関数自体は30年とか前から提案されている
だれもそれを学習できなかっただけ
深いこと自体は新しくもなんともない
深い関数を学習できるようにしたことが革命なんだよ
この自称大学教授はもっと勉強した方がいい >>4
だから分かりもせずに設計主義に走ると失敗する
構造改革と言って、何を改革するのか政治家も国民も理解してないのは、
粛軍演説の頃からの常 >>240
ワニは適応(進化)しすぎて元に戻れなかった
哺乳類は適応(進化)してなくて後の環境に適応できた >>285
データではない。対象がモデル可が可能かどうかによる。
データ規模がどんなに多かろうと、ランダムの寄与度が高い対象は良い
モデルが構築できない。
また、データ規模はあった方が良いが、多ければ多いほど、誤差が減ると
いうものでも無い。
一番の問題は、過学習の問題を抱えていて、ある回数から学習回数を増や
せば増やすほど、予測能力(モデル構築能力)を失っていく可能性がある事。
モデルがどのくらい正確かを知るには、半数のデータで学習して、残りの
データで誤差を算出するなど、非常に手間がかかりかつ非効率(半数の
データを学習に使用できない)なところもある。 「深い」とか言ったって何も伝わらないんじゃないかなあ。
フィッティング関数を何個も重ねてますって言った方が良いんじゃ・・ Wikipediaに「残差平方和」とは
「残差の平方(二乗)の和である」と書かれてあって笑った。
まんまじゃん。説明する意味があるのか? 「深い関数」というのはwell definedなのか?
およそ数学的というには程遠いようにしか思えんが
適当な説明をしたら誤解された 当然だ >>286
松尾先生はちゃんとそう言っているよ
ディープラーニングは古くからある発想だが、入手できるデータ量とマシンスペックが向上したことそれ自体によって実現したことが凄いのだと
これはたぶん情報理工学を専攻していれば博士どころか学生でも当たり前に知っていることだと思う >>295
いやいや、深い関数だとどれだけ回しても局所解から抜け出せないってのがあったじゃない。
それができるようになったのは、手法の改善も大きいと思うよ。 >>297
自分の論点が書かれてなかったからって他人の発言を否定するような書き方をするのはやめよう。
レス先を見てごらん。
それともレス内でAIの実装を語るには全方面に配慮して歴史と仕組みでも並べないといけないのかな。 これが日本の研究レベルだから仕方ない。いい研究者はみんなアメリカか中国だよ >>290
こういうこと?
たとえばAIに「人類の未来に必要なことは?」と聞いてみる。
AIは回答の一つに「現時点でユダヤ人を撲滅しておくのが人類にとって最良だし欠かせないことだ」と結論を出した。
驚き詳しく調べてみると「将来の人類」とは300年先の人類のことだし、ユダヤ人撲滅するためには300年もの間に人種間の争いで人類は塗炭の苦しみを負わなきゃならないと解った。
しかも300年以後に人類がどうなってるかは結論が出てない、と。
こういう過剰な予測のこと? >>298
あまりカドを立てたくなかったからソフトに書いたけど、ディープラーニングの大半の成果は手法の改善なんだよ。それもほんのちょっとした改善がとてつもない効果があった。
計算速度の向上とかはほとんど関係ないし、データだって90年代には膨大な量が揃ってた。書くなら一番重要なとこを書こうよ。 >>303
>>295だけど、>>298は俺じゃなく別の人ね
手法の変化というのは具体的にはシグモイド関数でなくRelu関数を使うようになったことを指してるんだと思うけど、これも松尾先生はもちろん学生でも知っている常識だからね
これは既存の手法では結果を微分した際に極端な値しか取れず最適解に収束しないことが問題だったが、Reluを使うことで上手くいくようになったという事実だが、工学博士が知らないわけはないからね
それを勉強しろなんて書いていたのがいい加減だなぁと少し腹が立っただけさ
あなたは>>286じゃないだろうからこんなレスする意味はあんまりないかも知れないがw >>301
ディープラーニングは基本的に分類問題を扱う
犬と猫を学習させれば犬と猫を見分けることが出来る
しかし、犬と缶とクラシック音楽みたいに共通点の乏しい(ランダム性が高い)ものを学習させると、意図しない分類をしてしまう
だからデータの違いに対してあえて学習を鈍感にさせることで、共通点の少ないデータによる意図しない分類をなくす必要がある リカチョン 何の事だかよく分からず
灯台と聞いてカット頭に血が上り、ハラハラと落涙す ワカゲノイタリ >>305
それをチューニングって言うけど、ここがセンスの問われるところなんだよな
まだ、正解というか機械的に行うことは難しいっぽいし ディープダンジョンは、原理的には単純なwizに過ぎない >>34
浮浪者のおっさんが解説しようが
誰がしようが、真理は変わらないが?
お前は説明してくれる人によって、
地球が丸くなったり、平らになったり
すると思うのか?w >人工知能の「やりきれなさ」といかに向き合うか | Forbes JAPAN(フォーブス ジャパン)
https://forbesjapan.com/articles/detail/25930
>「知能」とは、「答えの有る問い」に対して、いち早く、正解に辿り着く能力のこと。
>これに対して、「知性」とは、その全く逆の能力、「答えの無い問い」を問い続ける
>能力のことである。答えなど得られぬと分かっていて、なお、それを問い続ける能力のことである。
おまえらに無いのは知性な。IQだけを知能としてEQやらSQ,HQやらAQなど
知っている奴が、それすら しらないってどういうことよ?
おまえらがシッタカしているのは 知能であって知性ではない。 原理的には〜なんつったら何でも基礎原理まで還元されてしまうぞ
はやぶさ2号だってニュートン力学の応用にすぎないとか言うことはできるがそれで何か分かった気になるのはむなしい >>315
AIブームのような状況で、何かわかった気になってる(主にお金を出す立場の)人たちに、立ち止まってよく考えるように戒めてる方向の説明なんじゃないかな。
AIが人類を亡ぼそうとするみたいな壮大な妄想に取りつかれる人さえいるときに、関数を求めているにすぎませんよと説明しているみたいな。 深い階層を学習することは困難だったが、
上りと下りの両方向から入出力が同じになるように学習させると
深い階層でも学習が可能になった
このアイデアは、生物の視覚野の構造から着想している
このような発見と実験が研究の原点である
この東大教授のような態度ではなんの発見もできないであろう 日本のIT(派遣や非正規)奴隷には理解できない領域(笑) いのちの法則 快療法bot
@kairyohou
3月18日
その他
例えば血圧が200あって、高いからと薬を使って適正な血圧まで下げた人が、高いはずの200の時の方がからだの調子がよく、下がったら調子が悪くなったという例があります。これなども平均的な数字をすべての人に機械的にあてはめたことによる失敗です。
(万病を治せる妙療法 操体法/橋本敬三) >>317
同様の理由で全く戒めにならんと言えるけどな >>317
AIは統計を数学の伝統的な方法とは違う側面で行うものだよ。
入力に対する応答は毎回違い、評価の流れも入力によって変わっていく。
パーセプトロン単位の処理は関数と言えるかもしれないけど、全体は関数的な動きにはならないよ。
それともプログラムならエントリー処理自体が関数だろとか言いたいのかもしれないけどw
壮大な妄想の前に使ってみようよ。 俺もちょっと触った程度だけど最小2乗法じゃね?と思ったわ
もう少し詳しくやったら考え方も変わるのだろうか >>322
>入力に対する応答は毎回違い
え”?????????
トレーニングしない限り、常に同じ入力に同じ答えを返すんですけど。
バリバリな関数なんですけど… 誰もが頭が良くなる、プログラムが書けるようになる方法が発見される 31171
https://you-can-program.hatenablog.jp >>322
初期値など乱数を設定する時にシードを固定してないんじゃ。 ■ このスレッドは過去ログ倉庫に格納されています