Asayomu Tech
注目★★★★Hugging Face Papers

AIコーディングエージェントは論文SOTAを超えられるか?NatureBench、90タスクで17.8%止まり

30秒で把握

  • 1NatureBenchが90タスクで最先端エージェントを評価、SOTA超えは最大17.8%
  • 2成功は科学的発明でなく既知問題への変換で、失敗原因は手法選択ミスと計算不足
  • 3ベンチマーク・NatureGymパイプライン・リーダーボードがOSSで公開済み、自己評価が可能

要約

NatureBenchは、Nature系査読論文90件から構築した学際ベンチマークで、AIコーディングエージェントが実科学問題で「再現」を超えて「発見」へ進めるかを評価する。10種類の最先端エージェント構成を厳格なWebサーチ禁止プロトコルで評価した結果、最強モデルでもSOTA超えはg>0.1基準でわずか17.8%のタスクにとどまった。エージェントの成功パターンを分析すると、真の科学的発明ではなく、科学タスクを既知の教師あり予測問題へ変換する「方法論的翻訳」が主因だった。失敗の主因はタスク誤解ではなく、手法選択の誤りと計算リソース不足だと判明した。ベンチマーク・NatureGymパイプライン・公開リーダーボードはオープンソースで公開済みだ。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。