Asayomu Tech
注目huggingface_papers1

RHO:過去の軌跡だけでLLMエージェントを自律改善する手法

30秒で把握

  • 1RHOが正解ラベル不要でエージェントハーネスを自律最適化する手法を提案
  • 2SWE-Bench Pro pass rate が1ラウンドで59%→78%に向上
  • 3過去の失敗パターンを標的化し長時間セッションでも精度維持を達成

要約

Retrospective Harness Optimization(RHO)は、外部の正解ラベルなしにLLMエージェントを自己改善する手法として発表された。過去の実行軌跡から難易度の高いタスクを選び、並列で再解を試み、自己整合性と自己評価で候補更新を比較してハーネスを最適化する。SWE-Bench Proでは1回の最適化ラウンドでpass rateを59%から78%に向上させた。長時間セッションでも精度を維持し、過去の失敗パターンを的確に修正できることも確認されている。

あなたへの影響

ラベル付きデータなしでエージェントを継続改善できる点は、本番運用中のシステムへの適用コストを大幅に下げる可能性がある。

推奨:SWE-Benchのような標準ベンチマークを用いてRHOを自社パイプラインで評価し、既存のプロンプトやワークフロー最適化手法と比較するPoC計画を次スプリントで立案する価値がある。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。