[huggingface.co]📊 データ・論文★★★★★
深層調査AIエージェントの誤り箇所を特定するTELBench・DRIFTフレームワーク発表
深層調査エージェントの信頼性を最終回答だけでなくプロセスレベルで評価する研究が発表された。2,790件の実際の推論軌跡を収集し、有害なエラー箇所をアノテーションした1,000インスタンスのベンチマーク「TELBench」を構築した。また、エージェントの主張を追跡しエビデンスとの整合性を検査する監査フレームワーク「DRIFT」を提案している。DRIFTはスパンレベルのエラー特定精度と初期エラー検出精度を最大30ポイント改善した。
編集部の影響度コメント
LLMエージェントの信頼性評価に取り組むチームにとって、プロセスレベルの誤り特定という新たな評価軸が得られる。TELBenchとDRIFTを自社エージェント評価パイプラインへ組み込む可能性を次スプリントで検討したい。