注目huggingface_papers2分
On-Policy蒸留の更新幾何学:SFT・RLVRとの比較分析
30秒で把握
- 1OPDがSFT・RLVRと異なる独自のパラメータ更新幾何学を持つと判明
- 2累積更新が低次元サブスペースに早期収束する「サブスペース固定」を確認
- 3RLVRとの目的関数混合はランクダイナミクスを変化させ設計に影響
要約
大規模言語モデルの推論強化に使われるOn-Policy蒸留(OPD)の学習ダイナミクスをパラメータ空間で初めて体系的に解析した研究が公開された。OPDの更新はSFTより影響する重みが少なく主方向を回避し、RLVRより拘束が緩い「緩やかな非主成分領域」に位置すると判明した。さらにOPDは累積更新が早期に低次元の狭いサブスペースに収束する「サブスペース固定」現象を示し、そのサブスペースのみに学習を制限してもOPD性能は維持されるがSFTは大幅に劣化した。更新トークンのスパース化やオフポリシー化はランクダイナミクスを保存する一方、OPDにRLVR目的関数を混合すると変化することも確認された。これらの結果はOPDがSFTとRLVRの中間ではなく独自の更新幾何学を持つことを示している。
あなたへの影響
LLMの学習手法設計に携わるチームは、OPDが独立した更新構造を持つという知見を踏まえ、SFT・RLVR・OPDの混合戦略を再評価する価値がある。
推奨:特にRLVRとOPDの目的関数を単純に混合するとランクダイナミクスが変化することが示されており、ファインチューニングパイプラインの設計判断に影響し得る。