注目★★★★★huggingface_papers
DRL:識別器ガイドRLでフローマッチングの構造的ミスマッチを修正
30秒で把握
- 1DRLがSiTのFIDを9.38→2.62に改善・人間の嗜好ラベル不要
- 2識別器ロジットをKL正則化RLの報酬に使用・データ分布の最適報酬を推定
- 3SiT・JiT・REPA・RAE全モデルで一貫した性能向上を確認
要約
フローマッチングモデルが人間の嗜好ベースRLに依存する背景には、学習損失と推論時の視覚・意味品質との構造的ミスマッチがあると本研究は論じた。提案手法「Discriminator-Guided RL(DRL)」は、事前学習済み表現空間で訓練した識別器のロジットを報酬としてKL正則化RLに用いる。SiTモデルでガイダンスなしFIDを9.38から2.62に、DINOv3のセマンティックFDを88.2から19.3に改善した。
あなたへの影響
画像生成モデルの品質向上に人手アノテーションが不要になることで、ファインチューニングコストの大幅削減につながり得る。
推奨:SiT・REPA等を業務利用するチームは、DRLの実装を次フェーズの評価対象として検討する価値がある。