注目★★★★★Hugging Face Papers
Qwen-Image-2.0-RL:強化学習で画像生成・編集の精度を大幅向上
30秒で把握
- 1Alibaba が Qwen-Image-2.0 に RLHF と OPD を適用・テキスト-画像で Elo +78、編集で +93 達成
- 2視覚言語モデルの複合報酬 + GRPO ベース訓練 + 分類器なしガイダンスで美的・指示準拠性を同時向上
- 3複数の報酬モデルを単一学生モデルに統合する軌跡レベル速度マッチング手法が、多目的画像タスク最適化の実装参考になる
要約
Alibaba は Qwen-Image-2.0 拡散モデルに強化学習 (RLHF) とオンポリシー蒸留 (OPD) を組み合わせた学習パイプライン Qwen-Image-2.0-RL を開発した。ビジョン言語モデルを報酬信号として使い、テキスト-画像生成では美的品質・プロンプト準拠性・顔忠実度を、画像編集では指示準拠性・顔認識を評価する複合報酬モデルを構築した。GRPO ベースの RL 訓練フレームワークに分類器なしガイダンス戦略とプロンプト選別を組み合わせた結果、Qwen-Image-Bench で +2.61 点、テキスト-画像 Elo レーティングで +78 点 (1193)、画像編集で +93 点 (1349) を達成した。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約