注目★★★★★huggingface_papers2026年6月20日

DRL：識別器ガイドRLでフローマッチングの構造的ミスマッチを修正

30秒で把握

1DRLがSiTのFIDを9.38→2.62に改善・人間の嗜好ラベル不要
2識別器ロジットをKL正則化RLの報酬に使用・データ分布の最適報酬を推定
3SiT・JiT・REPA・RAE全モデルで一貫した性能向上を確認

要約

フローマッチングモデルが人間の嗜好ベースRLに依存する背景には、学習損失と推論時の視覚・意味品質との構造的ミスマッチがあると本研究は論じた。提案手法「Discriminator-Guided RL（DRL）」は、事前学習済み表現空間で訓練した識別器のロジットを報酬としてKL正則化RLに用いる。SiTモデルでガイダンスなしFIDを9.38から2.62に、DINOv3のセマンティックFDを88.2から19.3に改善した。

あなたへの影響

画像生成モデルの品質向上に人手アノテーションが不要になることで、ファインチューニングコストの大幅削減につながり得る。

推奨：SiT・REPA等を業務利用するチームは、DRLの実装を次フェーズの評価対象として検討する価値がある。

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)