注目★★★★★Hugging Face Papers
AIコーディングエージェントは論文SOTAを超えられるか?NatureBench、90タスクで17.8%止まり
30秒で把握
- 1NatureBenchが90タスクで最先端エージェントを評価、SOTA超えは最大17.8%
- 2成功は科学的発明でなく既知問題への変換で、失敗原因は手法選択ミスと計算不足
- 3ベンチマーク・NatureGymパイプライン・リーダーボードがOSSで公開済み、自己評価が可能
要約
NatureBenchは、Nature系査読論文90件から構築した学際ベンチマークで、AIコーディングエージェントが実科学問題で「再現」を超えて「発見」へ進めるかを評価する。10種類の最先端エージェント構成を厳格なWebサーチ禁止プロトコルで評価した結果、最強モデルでもSOTA超えはg>0.1基準でわずか17.8%のタスクにとどまった。エージェントの成功パターンを分析すると、真の科学的発明ではなく、科学タスクを既知の教師あり予測問題へ変換する「方法論的翻訳」が主因だった。失敗の主因はタスク誤解ではなく、手法選択の誤りと計算リソース不足だと判明した。ベンチマーク・NatureGymパイプライン・公開リーダーボードはオープンソースで公開済みだ。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約