Asayomu Tech
最重要huggingface_papers2

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

要約

NVIDIAは、言語・画像・動画・音声・行動を単一アーキテクチャで統合処理する「Cosmos 3」ファミリーを発表した。Mixture-of-Transformers構造により、VLM・動画生成・ワールドシミュレータ・行動モデルを一つのフレームワークに統合している。評価では多様な理解・生成タスクでSOTAを達成し、オープンソースのText-to-ImageおよびImage-to-Videoモデルとして最高評価を獲得した。コード・モデルチェックポイント・合成データセット・評価ベンチマークをLinux FoundationのOpenMDW-1.1ライセンスで公開している。

あなたへの影響

Physical AIや具身エージェント研究に取り組む日本のチームにとって、単一モデルで複数モダリティを扱える強力なオープン基盤が手に入ることを意味する。

推奨:即座にチェックポイントを取得し、ロボティクス・シミュレーション等のユースケースで検証することを強く推奨する。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。