【AI】OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2％のスコアを獲得した衝撃を数学者が語る [すらいむ★]

**すらいむ ★** · 2024/12/25(水) 20:57:23.23

OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2％のスコアを獲得した衝撃を数学者が語る

　インペリアル・カレッジ・ロンドンで純粋数学の教授を務める数学者のケビン・バザード氏が、OpenAIのo3モデルがFrontierMath問題データセットで25.2％のスコアを獲得したことについて解説するブログ記事を投稿しました。

　Can AI do maths yet? Thoughts from a mathematician. | Xena
　https://xenaproject.wordpress.com/2024/12/22/can-ai-do-maths-yet-thoughts-from-a-mathematician/

　2024年12月20日に、OpenAIは新たな推論モデル「o3」シリーズを発表しました。
　OpenAIはo3モデルについて「これまで開発した中で最も高度な推論能力を持つ」と述べ、2025年の公開に向けて準備を進めています。

（以下略、続きはソースでご確認ください）

Gigazine 2024年12月25日 09時45分
https://gigazine.net/news/20241225-ai-frontiermath/

**名無しのひみつ** · 2024/12/26(木) 07:01:47.44

>>1
>>典型問題のレベルを超えて博士課程の初期レベル

**名無しのひみつ** · 2024/12/26(木) 07:02:40.68

>>2
>>1
>>問題に対し革新的なアイデアで対応

**名無しのひみつ** · 2024/12/26(木) 07:03:15.93

完全に知能は人間を超えてる

**名無しのひみつ** · 2024/12/26(木) 07:03:56.26

>>23

ここまで進歩している

**名無しのひみつ** · 2024/12/26(木) 07:18:08.87

>>1
OpenAI、新たなAIモデル「o3」発表--AGIへ前進、軽量版は1月末公開
https://japan.cnet.com/article/35227564/

**名無しのひみつ** · 2024/12/26(木) 07:20:08.76

>>6
>>難易度の高い数学コンペティション「American Invitational Mathematics Examination」（AIME 2024）でほぼ満点の96.7%の正答率を達成

**名無しのひみつ** · 2024/12/26(木) 07:21:31.24

>>7
>>AGIベンチマークで初の人間超え

**名無しのひみつ** · 2024/12/26(木) 07:22:15.87

>>8
>>　具体的には、複数色のマス目で構成されたパズルのような問題だ。各タスクには、入力と出力のペアが複数提供され、これらの例から共通するパターンやルールを見つけ出すことが求められる。人間は比較的容易に解答できるが、これまでのAIは苦手にしていた。

**名無しのひみつ** · 2024/12/26(木) 07:36:39.20

数学的な推論についても穴がなくなったか。
残っている苦手分野って何なんだろ。

会話を繰り返すと、徐々にバグることくらい？

**名無しのひみつ** · 2024/12/26(木) 09:33:53.03

>>10
時間かけて理論立てて推論することが可能になったので
次は、マネジメントって言われてる

与えられた特定のタスクを、数日とか数週間かけてこなす

**名無しのひみつ** · 2024/12/26(木) 10:08:18.26

>>11
仮想の町にAIを25人解き放ったところ、人間同様の生活を送る

**名無しのひみつ** · 2024/12/26(木) 10:11:01.86

>>12

現実と併用してい行なうAIと
同じ状況をシミレーション内のみで行うAI

見比べればよい？

**名無しのひみつ** · 2024/12/26(木) 10:18:38.74

ミレニアム問題とかバンバン解けるようになったね。

**名無しのひみつ** · 2024/12/26(木) 10:25:56.30

つまり、数学の難題も記憶力の問題ってこと？

**名無しのひみつ** · 2024/12/26(木) 10:47:36.29

> 25％が数学オリンピック形式と知って興奮は収まったとのこと
数学オリンピック形式の問題じゃ専門家としての能力は測れないんだよな

**名無しのひみつ** · 2024/12/26(木) 11:05:30.54

>>16

これって

人間も同じなの？

**名無しのひみつ** · 2024/12/26(木) 11:07:43.10

>>17
理数系

理と数に分かれるの？

**名無しのひみつ** · 2024/12/26(木) 11:29:32.71

>>10
言語とか計算とかに関係するデスクワーク限定だとだいぶ減って来た

立ち仕事になるとまだまだ出来るものは少ない
しかしそれもぼちぼちと実装が進んでいる

ファミレスでネコの顔がモニター表示されているロボットを開発販売している
中国企業のプードゥ・ロボティクスは
www.watch.impress.co.jp/docs/news/1650687.html
二足歩行型ヒューマノイドロボット「PUDU D9」を発表した

中国ロボットは先行者時代にはバカにされまくったが
今や個別の現業系ロボットだと世界2位レベルだな
(工場で作業するものではなく、飲食店などで使われるもので)

日本はまず介護で使おうとするからややこしくなる

**名無しのひみつ** · 2024/12/26(木) 12:26:12.53

推論なんかしてないのに

「推論能力」

とかアピールするのやめてほしい

**名無しのひみつ** · 2024/12/26(木) 19:33:29.56

ここで言われてる「推論」はコンピューターサイエンスの概念やぞ
法律用語と普通の言葉の意味が違うのと同じ

**名無しのひみつ** · 2024/12/26(木) 19:57:39.00

>>20
人間だって推論なんかしてないよ

**名無しのひみつ** · 2024/12/26(木) 20:43:41.55

>>19
ここで言わずに自国で使うよう言えば良い
10へのレスとしてもクドい

**名無しのひみつ** · 2024/12/28(土) 00:20:56.32

Wolfman作ったWolfmanが認めるならそうかとは思うけどね

**名無しのひみつ** · 2024/12/28(土) 00:23:36.73

>>19
NVIDAのジャンセン氏が日本の11月のイベントで言ってたろ

日本は世界のメカトロロボットの50%を占めるロボット国
日本のファナックや安川やみんなとやってます

AIは大きくふたつ
生成AIとフィジカルAI
どちらもNVIDIAが先を見てやってます
日本の皆様と共に

**名無しのひみつ** · 2024/12/29(日) 09:32:31.87

>>11
これが出来るようになったら、デスクワークの進め方が大きく変わるね。
人の仕事は、適切にAIにデータをいれて指示することくらいになるかもな。

**名無しのひみつ** · 2025/01/06(月) 15:11:13.92

I think AGI will probably get developed during this president’s term, and getting that right seems really important.

アルトマンが4年以内にAGIできるってよ
o1とo3みると本当にそう思う

And we have very promising research and better models to come.

しかもこんなこと言ってる

**名無しのひみつ** · 2025/01/19(日) 08:55:06.52

いまにAIの研究をAIがするようになって、人間はそれについて行けなくなりそう。

いまでも、10万行のCのソースコードをコンパイラは1分も掛からずに
機械語にまでコンパイルできるが、人間がそれをコンパイラの代わりに作業をするなら、
1年間掛けてもできるかはとても怪しい。たぶん10年掛かるかそれでもできない。
そうして人間はたいていコンパイルミスを沢山してしまう。コードの最適化など
を要求されたら人間はやってられなくなる。

**名無しのひみつ** · 2025/02/09(日) 10:17:17.38

あるプログラミング言語を別のプログラミング言語に変換するのとかも簡単に出来ちゃうからなあ