注目huggingface_papers1分
RHO:過去の軌跡だけでLLMエージェントを自律改善する手法
30秒で把握
- 1RHOが正解ラベル不要でエージェントハーネスを自律最適化する手法を提案
- 2SWE-Bench Pro pass rate が1ラウンドで59%→78%に向上
- 3過去の失敗パターンを標的化し長時間セッションでも精度維持を達成
要約
Retrospective Harness Optimization(RHO)は、外部の正解ラベルなしにLLMエージェントを自己改善する手法として発表された。過去の実行軌跡から難易度の高いタスクを選び、並列で再解を試み、自己整合性と自己評価で候補更新を比較してハーネスを最適化する。SWE-Bench Proでは1回の最適化ラウンドでpass rateを59%から78%に向上させた。長時間セッションでも精度を維持し、過去の失敗パターンを的確に修正できることも確認されている。
あなたへの影響
ラベル付きデータなしでエージェントを継続改善できる点は、本番運用中のシステムへの適用コストを大幅に下げる可能性がある。
推奨:SWE-Benchのような標準ベンチマークを用いてRHOを自社パイプラインで評価し、既存のプロンプトやワークフロー最適化手法と比較するPoC計画を次スプリントで立案する価値がある。