Asayomu Tech
注目★★★★huggingface_papers

DRL:識別器ガイドRLでフローマッチングの構造的ミスマッチを修正

30秒で把握

  • 1DRLがSiTのFIDを9.38→2.62に改善・人間の嗜好ラベル不要
  • 2識別器ロジットをKL正則化RLの報酬に使用・データ分布の最適報酬を推定
  • 3SiT・JiT・REPA・RAE全モデルで一貫した性能向上を確認

要約

フローマッチングモデルが人間の嗜好ベースRLに依存する背景には、学習損失と推論時の視覚・意味品質との構造的ミスマッチがあると本研究は論じた。提案手法「Discriminator-Guided RL(DRL)」は、事前学習済み表現空間で訓練した識別器のロジットを報酬としてKL正則化RLに用いる。SiTモデルでガイダンスなしFIDを9.38から2.62に、DINOv3のセマンティックFDを88.2から19.3に改善した。

あなたへの影響

画像生成モデルの品質向上に人手アノテーションが不要になることで、ファインチューニングコストの大幅削減につながり得る。

推奨:SiT・REPA等を業務利用するチームは、DRLの実装を次フェーズの評価対象として検討する価値がある。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。