注目huggingface_papers2分
LoopCoder-v2:ループ2回が最適、SWE-bench 43→64.4点に向上
30秒で把握
- 1LoopCoder-v2 の2ループ構成がSWE-bench 43.0→64.4点・Multi-SWE 14.0→31.0点に改善
- 27B PLTを18Tトークンでスクラッチ学習・ループ数ごとに性能を系統比較
- 33ループ以上で性能が非単調に低下・CLPコストが精緻化利得を上回ると特定
要約
HuggingFaceの研究チームはParallel Loop Transformer (PLT)の7Bパラメータコーダー「LoopCoder-v2」を18Tトークンでスクラッチ学習し、ループ回数の効果を系統的に検証した。2ループ構成がコード生成・推論・エージェント型ソフトウェアエンジニアリングで最良となり、SWE-bench Verifiedスコアを43.0から64.4点、Multi-SWEを14.0から31.0点に改善した。一方、3ループ以上では性能が非単調に低下し、ループを増やせば増やすほど良くなるわけではないことが判明した。診断分析により、ループ2が主要な表現精緻化を担う一方、それ以降のループは振動的な更新と表現多様性の低下をもたらし、CLPによる位置ミスマッチコストが精緻化の利得を上回ることが原因と特定された。
あなたへの影響
PLTのループ数最適化はTest-Time Computationスケーリングの設計に直結するため、コード生成モデルを自社スタックに組み込むチームはループ数を2に固定した構成を優先的に評価すべき。
推奨:ループを増やせばスコアが上がるという直感が崩れ、アーキテクチャ選定の前提が変わり得る。