注目★★★★★Hugging Face Papers2026年6月30日

Qwen-Image-2.0-RL：強化学習で画像生成・編集の精度を大幅向上

30秒で把握

1Alibaba が Qwen-Image-2.0 に RLHF と OPD を適用・テキスト-画像で Elo +78、編集で +93 達成
2視覚言語モデルの複合報酬 + GRPO ベース訓練 + 分類器なしガイダンスで美的・指示準拠性を同時向上
3複数の報酬モデルを単一学生モデルに統合する軌跡レベル速度マッチング手法が、多目的画像タスク最適化の実装参考になる

要約

Alibaba は Qwen-Image-2.0 拡散モデルに強化学習 (RLHF) とオンポリシー蒸留 (OPD) を組み合わせた学習パイプライン Qwen-Image-2.0-RL を開発した。ビジョン言語モデルを報酬信号として使い、テキスト-画像生成では美的品質・プロンプト準拠性・顔忠実度を、画像編集では指示準拠性・顔認識を評価する複合報酬モデルを構築した。GRPO ベースの RL 訓練フレームワークに分類器なしガイダンス戦略とプロンプト選別を組み合わせた結果、Qwen-Image-Bench で +2.61 点、テキスト-画像 Elo レーティングで +78 点 (1193)、画像編集で +93 点 (1349) を達成した。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

Qwen-Image-2.0-RL：強化学習で画像生成・編集の精度を大幅向上

30秒で把握

要約

あなたへの影響

関連する記事

ベスビオス火山で 1,900 年間封印された古代巻物、AI で初めて全文解読

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

30秒で把握

要約

あなたへの影響

関連する記事

ベスビオス火山で 1,900 年間封印された古代巻物、AI で初めて全文解読

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model