[huggingface.co]📊 データ・論文★★★★

DreamX-World 1.0:汎用インタラクティブ世界モデル、16FPS達成

編集部まとめ

  • DreamX-World 1.0が汎用世界モデルとして公開・8GPU上で最大16FPS達成
  • E-PRoPEとCausal Forcingでカメラ制御・オートリグレッシブ生成を実現
  • 3ドメイン対応・Memory-Conditioned Scene Persistenceで長時間ドリフト抑制

DreamX-World 1.0は、テキスト/画像から長時間動画を生成できる汎用インタラクティブ世界モデルとして公開された。カメラナビゲーション・既観測領域への再訪・イベント制御を、フォトリアル・ゲーム・スタイライズの3ドメインで統一的に対応する。カメラ制御にはE-PRoPEという軽量な投影型位置エンコーディングを導入し、双方向動画生成器をCausal ForcingとDMDスタイル蒸留でオートリグレッシブ世界モデルへ変換した。Memory-Conditioned Scene Persistenceによりカメラジオメトリを利用して過去フレームを検索し、長時間生成でのスタイル・色ドリフトを抑制する。混合精度DiT実行・75%剪定VAEデコードなどの最適化により、8枚のGPU上で最大16FPSを達成した。

詳細を読む → 元記事へ
X で共有
※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

編集部の影響度コメント

ゲームエンジン・実写・ゲームプレイの3種データを統合した世界モデル技術は、シミュレーション環境構築やゲーム開発に転用できる可能性があるため、関連領域のエンジニアはアーキテクチャ詳細(E-PRoPE・Causal Forcing)を今四半期中に評価しておくとよい。