注目huggingface_papers1分
DeNovoSWE:仕様書からリポジトリ全体を生成するデータセット公開
30秒で把握
- 1DeNovoSWE:4,818件のリポジトリ生成データセットを発表・人手不要で自動構築
- 2Qwen3-30B-A3BのBeyondSWE-Doc2Repoスコアが5.8%→47.2%に向上
- 3分割統治+難易度フィルタリングでデータ品質と多様性を両立
要約
研究チームは、ドキュメントから完全なソフトウェアリポジトリを生成するための大規模データセット「DeNovoSWE」を発表した。4,818件の高品質インスタンスで構成され、サンドボックス上のエージェント型ワークフローにより人手アノテーションなしで自動構築される。「分割統治」とクリティック修復の設計方針に加え、難易度対応の軌跡フィルタリング戦略でデータ品質と多様性を両立した。
あなたへの影響
コード生成エージェントの研究・開発を行うチームは、DeNovoSWEを使ったファインチューニングがリポジトリ規模のタスクに有効かを検証する価値がある。
推奨:特に長期ホライゾンのSWEタスクに取り組む場合、このデータセットが既存のバグ修正特化モデルを超える訓練基盤になり得る。