X

【AI】OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る [すらいむ★]

■ このスレッドは過去ログ倉庫に格納されています
1すらいむ ★
垢版 |
2024/12/25(水) 20:57:23.23ID:maXU8t71
OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る

 インペリアル・カレッジ・ロンドンで純粋数学の教授を務める数学者のケビン・バザード氏が、OpenAIのo3モデルがFrontierMath問題データセットで25.2%のスコアを獲得したことについて解説するブログ記事を投稿しました。

 Can AI do maths yet? Thoughts from a mathematician. | Xena
 https://xenaproject.wordpress.com/2024/12/22/can-ai-do-maths-yet-thoughts-from-a-mathematician/

 2024年12月20日に、OpenAIは新たな推論モデル「o3」シリーズを発表しました。
 OpenAIはo3モデルについて「これまで開発した中で最も高度な推論能力を持つ」と述べ、2025年の公開に向けて準備を進めています。

(以下略、続きはソースでご確認ください)

Gigazine 2024年12月25日 09時45分
https://gigazine.net/news/20241225-ai-frontiermath/
2名無しのひみつ
垢版 |
2024/12/26(木) 07:01:47.44ID:2O6JNeWN
>>1
>>典型問題のレベルを超えて博士課程の初期レベル
3名無しのひみつ
垢版 |
2024/12/26(木) 07:02:40.68ID:2O6JNeWN
>>2
>>1
>>問題に対し革新的なアイデアで対応
2024/12/26(木) 07:03:15.93ID:sHFWuaCe
完全に知能は人間を超えてる
5名無しのひみつ
垢版 |
2024/12/26(木) 07:03:56.26ID:2O6JNeWN
>>23

ここまで進歩している
6名無しのひみつ
垢版 |
2024/12/26(木) 07:18:08.87ID:HgCy/ybl
>>1
OpenAI、新たなAIモデル「o3」発表--AGIへ前進、軽量版は1月末公開
https://japan.cnet.com/article/35227564/
7名無しのひみつ
垢版 |
2024/12/26(木) 07:20:08.76ID:HgCy/ybl
>>6
>>難易度の高い数学コンペティション「American Invitational Mathematics Examination」(AIME 2024)でほぼ満点の96.7%の正答率を達成
8名無しのひみつ
垢版 |
2024/12/26(木) 07:21:31.24ID:HgCy/ybl
>>7
>>AGIベンチマークで初の人間超え
9名無しのひみつ
垢版 |
2024/12/26(木) 07:22:15.87ID:HgCy/ybl
>>8
>> 具体的には、複数色のマス目で構成されたパズルのような問題だ。各タスクには、入力と出力のペアが複数提供され、これらの例から共通するパターンやルールを見つけ出すことが求められる。人間は比較的容易に解答できるが、これまでのAIは苦手にしていた。
2024/12/26(木) 07:36:39.20ID:sQYi+iMo
数学的な推論についても穴がなくなったか。
残っている苦手分野って何なんだろ。

会話を繰り返すと、徐々にバグることくらい?
2024/12/26(木) 09:33:53.03ID:0iAFsz3N
>>10
時間かけて理論立てて推論することが可能になったので
次は、マネジメントって言われてる

与えられた特定のタスクを、数日とか数週間かけてこなす
12名無しのひみつ
垢版 |
2024/12/26(木) 10:08:18.26ID:9Z3LwG56
>>11
仮想の町にAIを25人解き放ったところ、人間同様の生活を送る
13名無しのひみつ
垢版 |
2024/12/26(木) 10:11:01.86ID:9Z3LwG56
>>12

現実と併用してい行なうAIと
同じ状況をシミレーション内のみで行うAI

見比べればよい?
2024/12/26(木) 10:18:38.74ID:mTV1slri
ミレニアム問題とかバンバン解けるようになったね。
15名無しのひみつ
垢版 |
2024/12/26(木) 10:25:56.30ID:QcZ0REr1
つまり、数学の難題も記憶力の問題ってこと?
16名無しのひみつ
垢版 |
2024/12/26(木) 10:47:36.29ID:U5b+Pqtz
> 25%が数学オリンピック形式と知って興奮は収まったとのこと
数学オリンピック形式の問題じゃ専門家としての能力は測れないんだよな
17名無しのひみつ
垢版 |
2024/12/26(木) 11:05:30.54ID:LOB2wPzr
>>16

これって

人間も同じなの?
18名無しのひみつ
垢版 |
2024/12/26(木) 11:07:43.10ID:LOB2wPzr
>>17
理数系

理と数に分かれるの?
2024/12/26(木) 11:29:32.71ID:wx5k/w6C
>>10
言語とか計算とかに関係するデスクワーク限定だとだいぶ減って来た

立ち仕事になるとまだまだ出来るものは少ない
しかしそれもぼちぼちと実装が進んでいる

ファミレスでネコの顔がモニター表示されているロボットを開発販売している
中国企業のプードゥ・ロボティクスは
www.watch.impress.co.jp/docs/news/1650687.html
二足歩行型ヒューマノイドロボット「PUDU D9」を発表した

中国ロボットは先行者時代にはバカにされまくったが
今や個別の現業系ロボットだと世界2位レベルだな
(工場で作業するものではなく、飲食店などで使われるもので)

日本はまず介護で使おうとするからややこしくなる
2024/12/26(木) 12:26:12.53ID:b87CUZWz
推論なんかしてないのに

「推論能力」

とかアピールするのやめてほしい
2024/12/26(木) 19:33:29.56ID:0YNAQj0J
ここで言われてる「推論」はコンピューターサイエンスの概念やぞ
法律用語と普通の言葉の意味が違うのと同じ
22名無しのひみつ
垢版 |
2024/12/26(木) 19:57:39.00ID:RCMIVceR
>>20
人間だって推論なんかしてないよ
2024/12/26(木) 20:43:41.55ID:5W52zzzy
>>19
ここで言わずに自国で使うよう言えば良い
10へのレスとしてもクドい
24名無しのひみつ
垢版 |
2024/12/28(土) 00:20:56.32ID:6VJbpLLa
Wolfman作ったWolfmanが認めるならそうかとは思うけどね
25名無しのひみつ
垢版 |
2024/12/28(土) 00:23:36.73ID:6VJbpLLa
>>19
NVIDAのジャンセン氏が日本の11月のイベントで言ってたろ

日本は世界のメカトロロボットの50%を占めるロボット国
日本のファナックや安川やみんなとやってます

AIは大きくふたつ
生成AIとフィジカルAI
どちらもNVIDIAが先を見てやってます
日本の皆様と共に
2024/12/29(日) 09:32:31.87ID:j8a/0eHc
>>11
これが出来るようになったら、デスクワークの進め方が大きく変わるね。
人の仕事は、適切にAIにデータをいれて指示することくらいになるかもな。
2025/01/06(月) 15:11:13.92ID:T68kGvNJ
I think AGI will probably get developed during this president’s term, and getting that right seems really important.



アルトマンが4年以内にAGIできるってよ
o1とo3みると本当にそう思う

And we have very promising research and better models to come.

しかもこんなこと言ってる
28名無しのひみつ
垢版 |
2025/01/19(日) 08:55:06.52ID:I4A+2aoF
いまにAIの研究をAIがするようになって、人間はそれについて行けなくなりそう。

いまでも、10万行のCのソースコードをコンパイラは1分も掛からずに
機械語にまでコンパイルできるが、人間がそれをコンパイラの代わりに作業をするなら、
1年間掛けてもできるかはとても怪しい。たぶん10年掛かるかそれでもできない。
そうして人間はたいていコンパイルミスを沢山してしまう。コードの最適化など
を要求されたら人間はやってられなくなる。
2025/02/09(日) 10:17:17.38ID:ZrnLv8Cp
あるプログラミング言語を別のプログラミング言語に変換するのとかも簡単に出来ちゃうからなあ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況