最重要huggingface_papers2分
NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model
要約
NVIDIAは、言語・画像・動画・音声・行動を単一アーキテクチャで統合処理する「Cosmos 3」ファミリーを発表した。Mixture-of-Transformers構造により、VLM・動画生成・ワールドシミュレータ・行動モデルを一つのフレームワークに統合している。評価では多様な理解・生成タスクでSOTAを達成し、オープンソースのText-to-ImageおよびImage-to-Videoモデルとして最高評価を獲得した。コード・モデルチェックポイント・合成データセット・評価ベンチマークをLinux FoundationのOpenMDW-1.1ライセンスで公開している。
あなたへの影響
Physical AIや具身エージェント研究に取り組む日本のチームにとって、単一モデルで複数モダリティを扱える強力なオープン基盤が手に入ることを意味する。
推奨:即座にチェックポイントを取得し、ロボティクス・シミュレーション等のユースケースで検証することを強く推奨する。