最重要huggingface_papers2026年6月5日2分

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

要約

NVIDIAは、言語・画像・動画・音声・行動を単一アーキテクチャで統合処理する「Cosmos 3」ファミリーを発表した。Mixture-of-Transformers構造により、VLM・動画生成・ワールドシミュレータ・行動モデルを一つのフレームワークに統合している。評価では多様な理解・生成タスクでSOTAを達成し、オープンソースのText-to-ImageおよびImage-to-Videoモデルとして最高評価を獲得した。コード・モデルチェックポイント・合成データセット・評価ベンチマークをLinux FoundationのOpenMDW-1.1ライセンスで公開している。

あなたへの影響

Physical AIや具身エージェント研究に取り組む日本のチームにとって、単一モデルで複数モダリティを扱える強力なオープン基盤が手に入ることを意味する。

推奨：即座にチェックポイントを取得し、ロボティクス・シミュレーション等のユースケースで検証することを強く推奨する。

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)