DeepSeekの推論モデル「DeepSeek-R1」をOpenAIのo1&o3と比較することで明らかになったこととは?

 ほとんどのAIベンチマークはAIの出力精度(スキル)を測定するものですが、スキルはAIの知能を表すものではありません。
 スキルではなくAIの知能を測定するため、AIがスキルを効率的に習得する能力を測定するベンチマークが「ARC-AGI」です。そんなARC-AGIの開発者であるフランソワ・ショレ氏が立ち上げた「ARC Prize」が、話題の中国AI企業DeepSeekの最新推論モデルである「DeepSeek-R1」ファミリーについて分析しています。

 R1-Zero and R1 Results and Analysis
 https://arcprize.org/blog/r1-zero-r1-results-analysis

(以下略、続きはソースでご確認ください)

Gigazine 2025年01月30日 20時00分
https://gigazine.net/news/20250130-deepseek-r1-zero-analysis/