注目huggingface_papers1分
ThoughtFold: LRMの推論トークンを56%削減する新フレームワーク
要約
大規模推論モデル(LRM)はCoTの過剰な試行錯誤を学習してしまう「過剰思考」問題を抱えている。ThoughtFoldは、各正解軌跡内の冗長性を内省的に特定し、候補サブ軌跡のスペクトラムを生成する手法だ。マスク付き選好最適化により冗長な探索をペナルティとし、必要な推論ステップ同士を直結させる。実験ではDeepSeek-R1-Distill-Qwen-7Bのトークン使用量を約56%削減しつつ、精度は最先端水準を維持した。
あなたへの影響
推論コスト削減は本番運用コストに直結するため、LRMを活用するチームにとって注目度の高い研究成果だ。
推奨:次スプリントで自社タスクへの適用可能性を評価しておきたい。