注目★★★★★Hugging Face Papers2026年6月25日

AIコーディングエージェントは論文SOTAを超えられるか？NatureBench、90タスクで17.8%止まり

30秒で把握

1NatureBenchが90タスクで最先端エージェントを評価、SOTA超えは最大17.8%
2成功は科学的発明でなく既知問題への変換で、失敗原因は手法選択ミスと計算不足
3ベンチマーク・NatureGymパイプライン・リーダーボードがOSSで公開済み、自己評価が可能

要約

NatureBenchは、Nature系査読論文90件から構築した学際ベンチマークで、AIコーディングエージェントが実科学問題で「再現」を超えて「発見」へ進めるかを評価する。10種類の最先端エージェント構成を厳格なWebサーチ禁止プロトコルで評価した結果、最強モデルでもSOTA超えはg>0.1基準でわずか17.8%のタスクにとどまった。エージェントの成功パターンを分析すると、真の科学的発明ではなく、科学タスクを既知の教師あり予測問題へ変換する「方法論的翻訳」が主因だった。失敗の主因はタスク誤解ではなく、手法選択の誤りと計算リソース不足だと判明した。ベンチマーク・NatureGymパイプライン・公開リーダーボードはオープンソースで公開済みだ。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

AIコーディングエージェントは論文SOTAを超えられるか？NatureBench、90タスクで17.8%止まり

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

オープンウェイトLLMに「秘密鍵」で能力を隠す——TLMが公開と非公開を両立

30秒で把握

要約

あなたへの影響

関連する記事

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

オープンウェイトLLMに「秘密鍵」で能力を隠す——TLMが公開と非公開を両立

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model