Asayomu Tech
注目★★★★Hugging Face Papers

Qwen-Image-2.0-RL:強化学習で画像生成・編集の精度を大幅向上

30秒で把握

  • 1Alibaba が Qwen-Image-2.0 に RLHF と OPD を適用・テキスト-画像で Elo +78、編集で +93 達成
  • 2視覚言語モデルの複合報酬 + GRPO ベース訓練 + 分類器なしガイダンスで美的・指示準拠性を同時向上
  • 3複数の報酬モデルを単一学生モデルに統合する軌跡レベル速度マッチング手法が、多目的画像タスク最適化の実装参考になる

要約

Alibaba は Qwen-Image-2.0 拡散モデルに強化学習 (RLHF) とオンポリシー蒸留 (OPD) を組み合わせた学習パイプライン Qwen-Image-2.0-RL を開発した。ビジョン言語モデルを報酬信号として使い、テキスト-画像生成では美的品質・プロンプト準拠性・顔忠実度を、画像編集では指示準拠性・顔認識を評価する複合報酬モデルを構築した。GRPO ベースの RL 訓練フレームワークに分類器なしガイダンス戦略とプロンプト選別を組み合わせた結果、Qwen-Image-Bench で +2.61 点、テキスト-画像 Elo レーティングで +78 点 (1193)、画像編集で +93 点 (1349) を達成した。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。