【AI】「ディープラーニングは、原理的には単純な最小二乗法にすぎない」で物議 東大・松尾豊氏「深い関数の方が重要」
■ このスレッドは過去ログ倉庫に格納されています
「ディープラーニングは、原理的には単純な最小二乗法にすぎない」――2月18日付けで日本経済新聞電子版が公開した記事について、Twitterでは「ディープラーニング=最小二乗法」という解釈は異なるのではという指摘が相次いだ。19日には「ディープラーニング」「最小二乗法」といったワードがTwitterでトレンド入りし、波紋が広がっていた。
日経の記事では、慶應義塾大学経済学部の小林慶一郎教授がAI技術について解説。「近年、驚異的な発展を見せているAIのディープラーニング(深層学習)は、原理的には単純な最小二乗法(誤差を最小にする近似計算の一手法)にすぎない」と言及し、「ディープラーニングは『最小二乗法』」と題する図版が掲載された。
https://image.itmedia.co.jp/news/articles/1902/20/ai_ml_01.jpg
最小二乗法は、測定で得られたデータの組を、1次関数など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、モデル関数の値と測定値の差の2乗和を最小とするような係数を決定する方法。ディープラーニングに詳しい東京大学の松尾豊特任准教授は、2018年8月に登壇したイベントで、「ディープラーニングは最小二乗法のお化けのようなもの」「従来のマシンラーニングは(階層的に)『浅い』関数を使っていたが、ディープラーニングは『深い』関数を使っている」と説明していた。
https://image.itmedia.co.jp/news/articles/1902/20/ai_ml2.jpg
松尾氏は2月20日、Twitterの公式アカウントで「小林慶一郎先生はよく議論させていただくので、少し責任を感じています」とツイート。ディープラーニングを簡潔に解説するため「深い関数を使った最小二乗法」という言葉を使ってきたが、「深い関数を使った」という説明がいつも抜け落ちてしまうと嘆く。
松尾 豊
@ymatsuo
しかし、いつも「深い関数を使った」というところが抜け落ちてしまいます。ディープラーニングはその名の通り「深い」ことを強調した学術用語であり、そのくらい深いことが重要ですが伝わらない。深い関数により表現力が革命的に上がり、アルゴリズム的な挙動も含め表現できるのは驚くべきことです。
https://twitter.com/ymatsuo/status/1098116029987713024
松尾 豊
@ymatsuo
「最小二乗法」は、損失関数を最小化することで、モデルのパラメータをデータから推定することを、一般の人がぎりぎり持っている(かもしれない)知識で言い換えたもので、大雑把ではありますが、それほど悪くない言い方だと思っています。深いことに比べるとそれほど重要ではありません。
https://twitter.com/ymatsuo/status/1098116143393386497
松尾 豊
@ymatsuo
いずれにしても、経営者や政治家の方を含め、多くの人に正しく理解してもらうのは大変難しいです。「最小二乗法」がこれだけ話題になるというのは、逆に言うと、多くの人がぎりぎり理解できる地点がそこらへんまでなのだということを示してもいて、なかなか絶望的ではあります。まだまだ道は長いです。
https://twitter.com/ymatsuo/status/1098116255737737216
松尾 豊
@ymatsuo
翻って、「深い関数」という意味や、それがもたらす可能性を、(専門家の人も含め)どれだけの人がちゃんと理解しているのかとは、常々疑問に思います。もちろん、AI全般、あるいは知能全般の議論と簡単に結びつけるのは良くないですが、非常に大きな広がりがある技術だと思っています。
https://twitter.com/ymatsuo/status/1098116360062722048
続けて、「深い関数により表現力が革命的に上がり、アルゴリズム的な挙動も含め表現できるのは驚くべきこと」「『最小二乗法』は、損失関数を最小化することで、モデルのパラメータをデータから推定すること(略)深いことに比べるとそれほど重要ではありません」と投稿。経営者や政治家など、AIに詳しくない非エンジニアに正しく理解してもらうための解説は「大変難しい」と痛感しているようだ。Twitterでも同様に、AI技術について上司や同僚にどう解説すればいいかを嘆くエンジニアの声も見られた。
松尾氏は「深い関数」の意味やそれがもたらす可能性について、今後も研究や啓もう活動を続けていくと発信した。
ITmedia NEWS
https://www.itmedia.co.jp/news/articles/1902/20/news141.html
https://twitter.com/5chan_nel (5ch newer account) >>3
日経新聞は経済以外の記事はまともなはずだったんだけどな >その瞬間、竜哉は体中が引き締まるような快感を感じた
チンポがシコシコするのは、物理的な刺激に限ったことではない。
https://imgur.com/R4D8yyk
https://imgur.com/Fjw9t3F
「アクトレス」(山田謙二)より。
夏目くんのチンポは何にも触れていないのにシコシコしている! 二次元の最小二乗法(直線を引く)ではなく
千次元単位の最小二乗法だろ そもそも、最小二乗法知ってる人間がどれだけいるんだって話だよな n個の点を通る曲線はn-1次多項式で表せる
単純に各点の座標を入れてn個の連立方程式を作って係数について解けば良い
スプライン補間もこの一種
これは最適化ではなく曲線当てはめ問題と言われ一意にとくことが出来る
最適化問題はそういう問題ではない 原理はよくわからんけどディープラーニングはフラクタルな構造にも強い印象 ディープラーニングは原理的には最小二乗法だよ。
これを深い階層まで何百何千回やるわけだから。
何も間違っていないが。 >>159
>フィッティングが精緻
ただの過学習にしか聞こえない罠 仕組みを理解したい人が多いみたいだけど、必ずしも仕組みを理解できなくてもいいよ
インテリな人の傾向として、極端な例で言うと主婦が特許取るみたいなのを下に見てて、
それよりも仕組みを解明して、それを理論として発展させて、その応用で何かを作り出すアプローチの方を高尚に感じる人が多いと思うけど、
ディープラーニングはその仕組みがよく分からないまま、とにかく試してみるという方法で結果を出したことで生まれた
インテリにはつまらないかもしれないけど、そういうアプローチの方が上手くいくこともある >>194
ユークリッド幾何学を別とすれば、近似値とそれらしい理屈をでっちあげてるだけでは?
例えば『状態方程式 PV=nRT』なんて、『単原子分子理想気体』なんつー現実味が乏しい仮定上の高校物理w >>188
>「ディープラーニングは、原理的には単純な最小二乗法にすぎない」
近似計算を繰り返してるだけ、という言い方はどうだろうか?
モノの意味、言葉の意味について、機械がそれを完全に理解することは出来ないが、
いろいろな近似式を組み合わせて繰り返し近似計算をし直すということ。
ロボマインド・プロジェクトでも、同じ問題に直面しました。
我々、人間は、「ドアの外の廊下の上には天井がある」などと覚えているわけではありません。
それでは、どうやって、認識しているのでしょう?
頭の中で、部屋からドアを開けて廊下に出たところを想像するだけです。
廊下に出れば、上には天井がありますよね。
それでは、これを、コンピュータで実現するにはどうすればいいでしょうか?
それには、家の3DCGモデルを作れば実現できます。
データベースを使うのでなく、実際に見えるままの姿を3Dモデルで作成するのです。
https://robomind.co.jp/symbolgroundingproblem/
機械翻訳については翻訳辞書という近似式、シミュレーターという近似計算機を充実させたい。 人間の知能も似たように単純なもんだったりしないのかな
インプット情報の種類(五感)がコンピュータに比べると多いというだけで
インプット情報の量はAIの方が多いから限定的な最適解を出しやすいというような 生物の脳も最小二乗法を無意識に使って対象世界を分節しているのか? 画像認識精度が上がったのなら、画像と結びつけた近似式を作成しておきたい。
ソ連軍がベルリンを陥落させた!
ドイツ第三帝国は滅亡した!
ベルリンに赤旗が翻った!
5月2日の議事堂の陥落後に、赤軍兵士がその屋根にソ連国旗を掲げる写真「ライヒスタークの赤旗」は、
ベルリン陥落を象徴するものとして名高い。
https://jp.rbth.com/arts/2013/04/30/42757
『言い換え表現』として全て同一であることは自明だ。 >「ディープラーニングは最小二乗法のお化けのようなもの」
最小二乗法は近似計算の基礎だけど、そこからの発展が著しい。近似計算法の進歩という言い方はどうか。 >>175
だったら降下勾配法なんか辞めて
最初から堂々と
偏微分連立方程式を解析的に解けばいいだろ 「正確な説明ではない」ことは
小林教授も、もちろん松尾教授もわかっていて
あくまで一般むけの、ふんわりした説明なのだから
別にこれでいいよね
難しいことはどうあがいても一般人にはわからない
科学が人類の99.99999%を置き去りにして久しい
「科学の厳密な理解、最先端技術の理解は自分には無理」
これはもう数百年前から一般人の共通認識になっているのだから
いまさら気にしてもしょうがない 合ってないかも知れないが間違ってない
そもそも聞き手の知識が圧倒的に足りない場合、説明することは不可能 なんにしろプログラム解析にすぎない
シンギュラリティなんて限られた情報から限られた手を打つ場合で
人間の仕事にそんな分野は多くない
そんなに単純なもんならお前が先んじて実用化すれば、
地位も名誉もカネも思いのままだったのにい惜しかったなあw
それをしなかったおかげで山ほど居る講釈師のひとりに過ぎんが、
一生やってな、それがお前にとっちゃ幸せってもんだろwww
ビッグデータという餌、土壌を持っていなければ各種AIは成長しない
日本はアメリカや中国にビッグデータを与えるだけの存在
ラインでチョンにさえビッグデータを与えている始末
アメリカと中国は情報大国として凌ぎを削っている
ハァーウェイ問題もその一端。
20世紀は石油が富を産み出したが、21世紀は情報が富を産み出す
大国による資源の奪い合いから取り残されている日本 >>203
さすがに極端すぎる例え方だな
主婦が特許を取るのは商品の元となる品を開発したのは、必要にかられたから、という分かりやすい理由が存在する
とりあえず取得するには特許料が高すぎる 素振りしまくったら野球や剣道で達人の域に達したみたいな感じかな 空を飛ぶという目的の為には、鳥の羽ばたきを忠実に模倣しなくても、
固定翼の飛行機でも足りるように、
脳神経の機構(いまだに不明なことだらけ)を忠実に模倣しなくても、
なんだか同じように機能するものを工学的に作れたなら、それで満足できる
可能性が高いし、鳥そのものよりも飛行機の方が有用であるように、
かりに人工頭脳が実現したら、それは人間の頭脳の知性を遙かに凌駕する
AIにもなりうる。そうしてついに人間は要らなくなるかもしれない。
そうなったら、AIは歴史を振り却って、ホモサピエンス(人間)は、
我々AIという究極の知性に到達するための中継地点であったのだ
というのかもしれない。 なんでこんなアホが教授できるの?
慶応義塾大学ってFランだったの? コイツらどっちも分かってない
単純な最少二乗法でも深い最少二乗法でもなく、ただの巨大行列式だよ
lossの値が同じであっても行列計算結果は異なるし、lossは地震計のようにブレながら減少するが、低くければ低い程正解になるわけじゃない
そもそも学習にはlossを使うが、一般的にAIと呼ばれている予測実行時にはlossは使わないからな。この時点でAIは最少二乗法という点が間違いである事が証明できている。 ビッグデータなんてまやかし。
ディープラーニングのAIが上手く予想できなかった時に、
「もっと教師データが必要みたいですね」
「今のデータではまだ不足しているみたいです」
と逃げるためにビッグデータという言葉が生まれただけ。
過去のデータに基づく近似である以上、将来予測が当たる保証はどこにもない。
昔、多変量解析の競馬予想ソフトでさんざ言われていた事。
また、トレーニングも、大体1000回くらい繰り返して学習されるわけだが、
たくさんやると、過学習に陥って、未知データに対する予想のブレが大きく
なるという根本的な問題も抱えている。 単純な計算ルールを入れ子構造で何度も繰り返すように設計したら、人間の思いもつかない複雑な計算をできるようになりました >>232
分かり易い。
深い関数っていうのが意味不明だったw ディープラーニングって言葉がディープニューラルネットワークとマシーンラーニングを合わせた造語だからディープラーニングを一言で説明するのは軽率だね
あえて一言で説明するなら人間の脳と同じ仕組みとでも言えばいい >>231
過学習の意味が違うと思うけど
人間でいう過度な一般化と同じだから学習量が足りない状態 >>231
>たくさんやると、過学習に陥って、未知データに対する予想のブレが大きく
なるという根本的な問題も抱えている。
新しいデータに重み付けを大きくするなり過去のパターンと合致しているかの判定を組み込むとか対策はいくらでもあるじゃん
無能を前提としてもらっても困る 今すぐ生き物と同じ知能を実現しないと無意味とか言う人がいっぱいいら科二+民に言っても無駄 >>236
過学習の意味はあっているよ。
英語ではover fittingとなる。
AIの学習は、差の数%を遡り反映させて、少しづつ誤差関数の誤差を小さくしていく。
1回のトレーニングでは対して誤差が小さくならないので、概ね1000回程度、上記の
作業を繰り返す。途中までは誤差が漸減していくが、あるところで減らなくなる。
ここで問題が2つ生じる。
1.局所最適解と呼ばれる、偽の解にトラップされてしまう可能性がある
→optimizerという形で回避方法は開発されている。
2.誤差の漸減が止まるあたりで止めないと、今ある教師データには合致するが、
教師に無いデータでの誤差が極端に大きい状態に陥る。これを過学習と言う。
→漸減の停止が過学習なのか、局所解なのかは人間が判断するしかない
原理的に完全な自動判定は不可能。
>>237
それは強化学習的考え方だね。いつまでたっても学習が終わらないという事で、
まさにビッグデータ詐欺の発想だね。まだまだデータ足りないと言い続けて、
いつかは完璧になると言っているだけ。
あと、「新しいデータの重み付けを大きくする」って一言で言うけど、どうやるの?w
一般化できたら、恐らく論文一つ書けるよ。 >>240
そろそろAIを生き物に例えるのはやめようよ。 >>239
>あと、「新しいデータの重み付けを大きくする」って一言で言うけど、どうやるの?w
一般化できたら、恐らく論文一つ書けるよ。
小学生かよ、書けるわけねーだろ…
仮に1日1個のデータで過去1年のデータを集めて>>1にあるように最小二乗法で近似曲線を求める評価系なら
過去1ヶ月のデータを意図的に1個重複
過去1週間のデータを意図的に2個重複
それで最小二乗法で近似曲線求めりゃいいだろ
これは一例に過ぎないが他にもいくらでもやりようはある
小学生には難しいけどな 過学習の1例
ある入力xの2次関数で表現できる現象yがあるとき
実験で3点(x1,y1), (x2,y2), (x3,y3)を得れば、
y=ax^2+bx+c
の関数を正確に得られる。
4点目(x4, y4)を追加したとき、制限なしで学習させれば、
すべての点を通るように3次関数( y=ax^3+bx^2+cx+d)
で表現してしまい、結果がいびつになるようなもの。
実験には誤差があるという前提ではあるが。
無限数のパラーメータ、無限次関数ならどうなるかは、
考えたことないのでわかりません。 >>242
それ、直近のデータに対して過学習してしまうだけじゃん。 >>244
君の考える過学習の定義を聞きたいね
おそらく私の過学習の定義と異なるようだ
>>242を例にするなら
データサンプル期間中に過去1ヶ月の段階でパターンに変化があったとき
1年のデータでの予想より1ヶ月のデータの方がより正確になることが期待される
このとき1ヶ月以上前のデータの影響を過学習と呼ぶ おまえらってプログラム書けないのな
過学習ってのは均一化されていないクソデータを学習に使ってる事に原因があり、
データ件数の多いクラスに流れるように行列値が0に置かれることで、以降の学習が崩壊してしまう事を指す
未学習に対してうんたらは見当違いが甚だしい
検証コードも書かずに他人の記事や論文で知ったかぶってる奴がディープラーニング語ってゴミ撒き散らすな >>247
意味不明だね
やはり>>245は過学習じゃないと言わざるを得ないんだが? >>245
>1年のデータでの予想より1ヶ月のデータの方がより正確になることが期待される
直近のデータの方が正確になる特殊な事例の時にしか通用しないという前提を
書いているのかな?
>このとき1ヶ月以上前のデータの影響を過学習と呼ぶ
これは完全に間違い。 >>251
じゃ、それでいいや
ところで>>242は過学習ではないってことでいいかな いずれにせよ
なんかしらの計算であることには間違いない >>220
全く論点がズレてて反論になってない
人工知能的な物への需要はあったわけだし
研究の世界から遠そうな君に教えてあげると、日本の偉大な先生方は、素晴らしい方達だけど、
理由を説明できることに大きな価値を置いて、理由を十分に説明できない研究には低い評価しかしなかったんだよ >>246
プログラム書けてもライブラリ呼び出しの方法しか説明してないのも多いんだよね
歌ってみた、程度のが多い 趣味のゲームAI用に多層パーセプトロンまでは行列パッケージで組んだ。
正則化やオートエンコーダ、その他諸々。
多層でも収束させrための技術も色々組んだ。
CNNの登場で、2行目のネタが全く不要になり、現在は忘却の彼方へ。
CNNは途中までトライしたけど、行列での表現が難しく、
しかも努力の方向性が違って来ていると思ってやめた。
そもそも計算機資源が足りなかった。
学習だけじゃなく、予測する際にも、速度的に無理というレベルが予想できた。
世の中の人は、DCNNから入った人も多いんだろう。
そういう人はライブラリ使っていれば良い。
僕は自分で組みたかったのでDCNNで足を洗った。 >>246
行列値がゼロってのは、ウェイトがゼロになっちゃう事か?
それは過学習とは言わない。勾配消失と言う。 >>259
もう出来てるよ。
製品もオープンソースの実装も山ほどある。 >>255
それは日本に限らず世界的にもそうだろう
理由の説明ができるかできないかでインパクトファクター全然変わるやん >>262
学界の中ではそうなんだけど、産業界も含めた作り出すことを目的とした競争では、そこにとらわれ過ぎない方が上手くいくこともある >>263
うだうだ婉曲的に言ってるけど、要するにロジカルに進めてくか、セレンディピティも重視するかってことね
極論すると、主婦の特許はセレンディピティじゃないよ、あなたの例えは不適切だよってのがおれの言いたいことね
具体的に明示できんくせにいちいち言葉もムカつくから、もうレスいらんよ >>259
AIの定義による
知能=人間の脳 なら
人工知能はまだ出来てない
知能=将棋や囲碁や顔認識 なら
もうわかるよね 深い関数というのが重要ではあるが、最小二乗法に過ぎないというのも間違いではないでしょ。
人間は考える葦であるというのが重要かもしれないが、哺乳類に過ぎないという意見も正しい。 >>271
人類とは何か。
ただの哺乳類にすぎない。
と書いてどんな意味があるのだろうか?
何を説明したいのか分からん 最小二乗法は、重みを計算するためのものです。
深層学習関係ありません。 加重最小二乗法のループによってそれ自身の重みを推定する 意味不明。
深層学習が既存の近似法より優れている点は、
説明変数を人間がアドホックに与えなくて済みそうな点です。
ある法則の仮説検証は、アドホックに決めた近似式を用意して、
統計的に検証する事で行われますが、近似式をアドホックに
決める所が大変に難易度の高い作業です。
例えば、ニュートンは、f=maという単純な近似式を見出した事で
(古典的)重力理論の創始者となる事ができました。
深層学習では、学習した結果が、実測値の予測に優れている事が
証明されたうえで、何を学習したのかを中間層の重みを可視化する
などして調査する事で、より単純化した法則を導き出す事ができる
可能性があるという事です。
仮説→検証→仮説の法則化ではなく、深層学習→検証→法則と
なる可能性が出てきます。 >>272
「人間も動物にすぎない」といったら、性犯罪に理解を示す言葉。 >>7
最小二乗法を知ってる人なんてそんなにいないと思うんだが… >>270
知能が画像認識等の問題とするならば、
それに使われてる仕組みはもう揃ったと言って良いんだろうか?
人間の脳神経があんなに大量の情報をさばいてるとは思えない。
それに、人間の枝刈りの能力は尋常じゃない。 最小二乗法は高校数学ではたぶん習わない。
統計学の基礎的な教程でも出てこない。
それより、
コンピュータ・プログラミングのアルゴリズムや
数値計算の書籍にかなりの確率で出てくる。 >>280
オレは理学部物理学科だったけれど
学部2年か3年で勉強したような記憶がある。
その後も数値計算とかCAGDとかシミュレーションについて勉強し続けていたので、
上記記憶はもしかしたらオレに記憶違いかもしれないが、
学生レベルだと思うよ。 >>281
思い出した、物理実験のデータのfittingにfortranとか使ってやってたわ 最低でも義務教育で、基本的な統計学とか確率論の基礎って教えておかなくちゃいけない気がする
グラフの読み取り方とかって、例に出して悪いが三角関数よりは必須だと思う
騙されないようにするためにも 基本的にはそういうこと
>>232
再帰反復関数系にしたらチューリン完全に近づいたってことか? >>276
それはデータによるから相当規模のデータで検証しないと複雑なのは無理 最小二乗法だけでは深い関数は学習できなかったんだよ
深い関数自体は30年とか前から提案されている
だれもそれを学習できなかっただけ
深いこと自体は新しくもなんともない
深い関数を学習できるようにしたことが革命なんだよ
この自称大学教授はもっと勉強した方がいい >>4
だから分かりもせずに設計主義に走ると失敗する
構造改革と言って、何を改革するのか政治家も国民も理解してないのは、
粛軍演説の頃からの常 >>240
ワニは適応(進化)しすぎて元に戻れなかった
哺乳類は適応(進化)してなくて後の環境に適応できた >>285
データではない。対象がモデル可が可能かどうかによる。
データ規模がどんなに多かろうと、ランダムの寄与度が高い対象は良い
モデルが構築できない。
また、データ規模はあった方が良いが、多ければ多いほど、誤差が減ると
いうものでも無い。
一番の問題は、過学習の問題を抱えていて、ある回数から学習回数を増や
せば増やすほど、予測能力(モデル構築能力)を失っていく可能性がある事。
モデルがどのくらい正確かを知るには、半数のデータで学習して、残りの
データで誤差を算出するなど、非常に手間がかかりかつ非効率(半数の
データを学習に使用できない)なところもある。 ■ このスレッドは過去ログ倉庫に格納されています