Asayomu Tech
注目huggingface_papers1

DeNovoSWE:仕様書からリポジトリ全体を生成するデータセット公開

30秒で把握

  • 1DeNovoSWE:4,818件のリポジトリ生成データセットを発表・人手不要で自動構築
  • 2Qwen3-30B-A3BのBeyondSWE-Doc2Repoスコアが5.8%→47.2%に向上
  • 3分割統治+難易度フィルタリングでデータ品質と多様性を両立

要約

研究チームは、ドキュメントから完全なソフトウェアリポジトリを生成するための大規模データセット「DeNovoSWE」を発表した。4,818件の高品質インスタンスで構成され、サンドボックス上のエージェント型ワークフローにより人手アノテーションなしで自動構築される。「分割統治」とクリティック修復の設計方針に加え、難易度対応の軌跡フィルタリング戦略でデータ品質と多様性を両立した。

あなたへの影響

コード生成エージェントの研究・開発を行うチームは、DeNovoSWEを使ったファインチューニングがリポジトリ規模のタスクに有効かを検証する価値がある。

推奨:特に長期ホライゾンのSWEタスクに取り組む場合、このデータセットが既存のバグ修正特化モデルを超える訓練基盤になり得る。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。