OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る
インペリアル・カレッジ・ロンドンで純粋数学の教授を務める数学者のケビン・バザード氏が、OpenAIのo3モデルがFrontierMath問題データセットで25.2%のスコアを獲得したことについて解説するブログ記事を投稿しました。
Can AI do maths yet? Thoughts from a mathematician. | Xena
https://xenaproject.wordpress.com/2024/12/22/can-ai-do-maths-yet-thoughts-from-a-mathematician/
2024年12月20日に、OpenAIは新たな推論モデル「o3」シリーズを発表しました。
OpenAIはo3モデルについて「これまで開発した中で最も高度な推論能力を持つ」と述べ、2025年の公開に向けて準備を進めています。
(以下略、続きはソースでご確認ください)
Gigazine 2024年12月25日 09時45分
https://gigazine.net/news/20241225-ai-frontiermath/
探検
【AI】OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
2024/12/25(水) 20:57:23.23ID:maXU8t712名無しのひみつ
2024/12/26(木) 07:01:47.44ID:2O6JNeWN >>1
>>典型問題のレベルを超えて博士課程の初期レベル
>>典型問題のレベルを超えて博士課程の初期レベル
2024/12/26(木) 07:03:15.93ID:sHFWuaCe
完全に知能は人間を超えてる
5名無しのひみつ
2024/12/26(木) 07:03:56.26ID:2O6JNeWN6名無しのひみつ
2024/12/26(木) 07:18:08.87ID:HgCy/ybl7名無しのひみつ
2024/12/26(木) 07:20:08.76ID:HgCy/ybl >>6
>>難易度の高い数学コンペティション「American Invitational Mathematics Examination」(AIME 2024)でほぼ満点の96.7%の正答率を達成
>>難易度の高い数学コンペティション「American Invitational Mathematics Examination」(AIME 2024)でほぼ満点の96.7%の正答率を達成
8名無しのひみつ
2024/12/26(木) 07:21:31.24ID:HgCy/ybl >>7
>>AGIベンチマークで初の人間超え
>>AGIベンチマークで初の人間超え
9名無しのひみつ
2024/12/26(木) 07:22:15.87ID:HgCy/ybl >>8
>> 具体的には、複数色のマス目で構成されたパズルのような問題だ。各タスクには、入力と出力のペアが複数提供され、これらの例から共通するパターンやルールを見つけ出すことが求められる。人間は比較的容易に解答できるが、これまでのAIは苦手にしていた。
>> 具体的には、複数色のマス目で構成されたパズルのような問題だ。各タスクには、入力と出力のペアが複数提供され、これらの例から共通するパターンやルールを見つけ出すことが求められる。人間は比較的容易に解答できるが、これまでのAIは苦手にしていた。
10名無しのひみつ
2024/12/26(木) 07:36:39.20ID:sQYi+iMo 数学的な推論についても穴がなくなったか。
残っている苦手分野って何なんだろ。
会話を繰り返すと、徐々にバグることくらい?
残っている苦手分野って何なんだろ。
会話を繰り返すと、徐々にバグることくらい?
11名無しのひみつ
2024/12/26(木) 09:33:53.03ID:0iAFsz3N12名無しのひみつ
2024/12/26(木) 10:08:18.26ID:9Z3LwG56 >>11
仮想の町にAIを25人解き放ったところ、人間同様の生活を送る
仮想の町にAIを25人解き放ったところ、人間同様の生活を送る
13名無しのひみつ
2024/12/26(木) 10:11:01.86ID:9Z3LwG5614名無しのひみつ
2024/12/26(木) 10:18:38.74ID:mTV1slri ミレニアム問題とかバンバン解けるようになったね。
15名無しのひみつ
2024/12/26(木) 10:25:56.30ID:QcZ0REr1 つまり、数学の難題も記憶力の問題ってこと?
16名無しのひみつ
2024/12/26(木) 10:47:36.29ID:U5b+Pqtz > 25%が数学オリンピック形式と知って興奮は収まったとのこと
数学オリンピック形式の問題じゃ専門家としての能力は測れないんだよな
数学オリンピック形式の問題じゃ専門家としての能力は測れないんだよな
17名無しのひみつ
2024/12/26(木) 11:05:30.54ID:LOB2wPzr18名無しのひみつ
2024/12/26(木) 11:07:43.10ID:LOB2wPzr19名無しのひみつ
2024/12/26(木) 11:29:32.71ID:wx5k/w6C >>10
言語とか計算とかに関係するデスクワーク限定だとだいぶ減って来た
立ち仕事になるとまだまだ出来るものは少ない
しかしそれもぼちぼちと実装が進んでいる
ファミレスでネコの顔がモニター表示されているロボットを開発販売している
中国企業のプードゥ・ロボティクスは
www.watch.impress.co.jp/docs/news/1650687.html
二足歩行型ヒューマノイドロボット「PUDU D9」を発表した
中国ロボットは先行者時代にはバカにされまくったが
今や個別の現業系ロボットだと世界2位レベルだな
(工場で作業するものではなく、飲食店などで使われるもので)
日本はまず介護で使おうとするからややこしくなる
言語とか計算とかに関係するデスクワーク限定だとだいぶ減って来た
立ち仕事になるとまだまだ出来るものは少ない
しかしそれもぼちぼちと実装が進んでいる
ファミレスでネコの顔がモニター表示されているロボットを開発販売している
中国企業のプードゥ・ロボティクスは
www.watch.impress.co.jp/docs/news/1650687.html
二足歩行型ヒューマノイドロボット「PUDU D9」を発表した
中国ロボットは先行者時代にはバカにされまくったが
今や個別の現業系ロボットだと世界2位レベルだな
(工場で作業するものではなく、飲食店などで使われるもので)
日本はまず介護で使おうとするからややこしくなる
20名無しのひみつ
2024/12/26(木) 12:26:12.53ID:b87CUZWz 推論なんかしてないのに
「推論能力」
とかアピールするのやめてほしい
「推論能力」
とかアピールするのやめてほしい
21名無しのひみつ
2024/12/26(木) 19:33:29.56ID:0YNAQj0J ここで言われてる「推論」はコンピューターサイエンスの概念やぞ
法律用語と普通の言葉の意味が違うのと同じ
法律用語と普通の言葉の意味が違うのと同じ
22名無しのひみつ
2024/12/26(木) 19:57:39.00ID:RCMIVceR >>20
人間だって推論なんかしてないよ
人間だって推論なんかしてないよ
24名無しのひみつ
2024/12/28(土) 00:20:56.32ID:6VJbpLLa Wolfman作ったWolfmanが認めるならそうかとは思うけどね
25名無しのひみつ
2024/12/28(土) 00:23:36.73ID:6VJbpLLa >>19
NVIDAのジャンセン氏が日本の11月のイベントで言ってたろ
日本は世界のメカトロロボットの50%を占めるロボット国
日本のファナックや安川やみんなとやってます
AIは大きくふたつ
生成AIとフィジカルAI
どちらもNVIDIAが先を見てやってます
日本の皆様と共に
NVIDAのジャンセン氏が日本の11月のイベントで言ってたろ
日本は世界のメカトロロボットの50%を占めるロボット国
日本のファナックや安川やみんなとやってます
AIは大きくふたつ
生成AIとフィジカルAI
どちらもNVIDIAが先を見てやってます
日本の皆様と共に
26名無しのひみつ
2024/12/29(日) 09:32:31.87ID:j8a/0eHc27名無しのひみつ
2025/01/06(月) 15:11:13.92ID:T68kGvNJ I think AGI will probably get developed during this president’s term, and getting that right seems really important.
アルトマンが4年以内にAGIできるってよ
o1とo3みると本当にそう思う
And we have very promising research and better models to come.
しかもこんなこと言ってる
アルトマンが4年以内にAGIできるってよ
o1とo3みると本当にそう思う
And we have very promising research and better models to come.
しかもこんなこと言ってる
28名無しのひみつ
2025/01/19(日) 08:55:06.52ID:I4A+2aoF いまにAIの研究をAIがするようになって、人間はそれについて行けなくなりそう。
いまでも、10万行のCのソースコードをコンパイラは1分も掛からずに
機械語にまでコンパイルできるが、人間がそれをコンパイラの代わりに作業をするなら、
1年間掛けてもできるかはとても怪しい。たぶん10年掛かるかそれでもできない。
そうして人間はたいていコンパイルミスを沢山してしまう。コードの最適化など
を要求されたら人間はやってられなくなる。
いまでも、10万行のCのソースコードをコンパイラは1分も掛からずに
機械語にまでコンパイルできるが、人間がそれをコンパイラの代わりに作業をするなら、
1年間掛けてもできるかはとても怪しい。たぶん10年掛かるかそれでもできない。
そうして人間はたいていコンパイルミスを沢山してしまう。コードの最適化など
を要求されたら人間はやってられなくなる。
29名無しのひみつ
2025/02/09(日) 10:17:17.38ID:ZrnLv8Cp あるプログラミング言語を別のプログラミング言語に変換するのとかも簡単に出来ちゃうからなあ
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 石破首相、「就職氷河期世代」で今も不安定な仕事に就いている人に農業、建設業、物流業へ就労拡大指示 ★10 [お断り★]
- 次期戦闘機に「烈風」検討 防衛省、旧海軍の名称使用 | 共同通信 [少考さん★]
- 「水道水が飲める国」は、世界でたった9か国だった [お断り★]
- 【芸能】『不倫疑惑』 永野芽郁がアンバサダーを務める世界的ブランド・プラダがコメント 「事実確認中です」 [冬月記者★]
- 【競馬】日本の3冠牝馬・リバティアイランド、予後不良で安楽死… 遠征先の香港G1で悲劇 レース中に左前脚を故障★2 [冬月記者★]
- 【名古屋】男風呂の脱衣所で…7歳女の子の裸を撮影した現行犯で32歳会社員の男逮捕 父親が発見し従業員と取り押さえる [シャチ★]
- 【実況】博衣こよりのえちえちロックマンX11🧪
- GW絵スレ2025夜の部なのだ
- 訪日外国人「ジャップさぁ!お前らがガイジンに勧めるありきたりなウンメェもんは全部知ってんだこちとら。もっとマニアックな名物教えろ [377482965]
- ▶ホロライブ
- 【大悲報】大阪万博、マジで爺さん婆さんしか行ってない…お前らの想像する10倍は高齢 [245325974]
- 暇空茜にふさわしい番号を考えるスレ [382895459]