[huggingface.co]📊 データ・論文★★★★

Qwen-RobotWorld: 言語条件付き映像生成で具身知能の世界モデルを統合

編集部まとめ

  • Qwen-RobotWorld が EWMBench・DreamGen Bench で総合 1 位を達成
  • 8.6M 映像テキスト・200M フレームで 20 以上の身体・500 以上行動カテゴリを学習
  • 合成データ生成・仮想評価・言語誘導プランニングの 3 応用方向を統合

Alibaba は言語条件付きビデオ世界モデル「Qwen-RobotWorld」を発表し、ロボット操作・自律走行・屋内ナビゲーション・ヒューマン→ロボット転移を単一モデルで統合した。60 層 Double-Stream MMDiT が凍結 Qwen2.5-VL の意味表現とビデオ VAE 潜在空間を結合し、8.6M 件・200M フレーム超の映像テキストコーパス (20 以上の身体・500 以上の行動カテゴリ) で学習した。EWMBench・DreamGen Bench で総合 1 位、WorldModelBench・PBench でもオープンソース全モデルを上回った。ゼロショット評価の RoboTwin-IF でも頑健な汎化と多視点一貫性が確認された。

詳細を読む → 元記事へ
X で共有
※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

編集部の影響度コメント

ロボティクス・自律走行向け合成データ生成や仮想評価環境の構築に活用できる可能性があり、方針訓練コストを削減できるかチームで評価する価値がある。EWMBench ランキングやコード・モデル公開状況を確認し、自社ドメインへの転用可否を次スプリントで検証したい。