注目★★★★★Hugging Face Papers2026年6月30日

Orca：世界を内部表現で統一捉え、ビデオ・言語・行動を一つのモデルで予測

30秒で把握

1Orca が統一世界潜在空間を学習・125K 時間ビデオ + 160M イベント注釈で事前学習完了
2無意識 / 意識学習の二大パラダイムで次状態予測を統一・テキスト / 画像 / 行動生成で専門モデル超過
3凍結バックボーン + 軽量デコーダ学習で下流適応・ロボット制御・シミュレーション応用の扉開く

要約

Hugging Face の研究者は、マルチモーダル世界基盤モデル「Orca」を発表した。ビデオ・言語・VQA 教師信号から統一された世界潜在空間を学習し、次状態予測 (Next-State-Prediction) を中心に設計した。125K 時間のビデオと 160M イベント注釈から事前学習し、無意識学習 (連続動画から密な遷移をキャプチャ) と意識学習 (言語イベント・VQA から疎な遷移を学習) の 2 つの補完的パラダイムを採用した。バックボーン凍結下で、軽量な読み出しデコーダのみをファインチューニングすることで、テキスト生成・画像予測・具現化行動生成の 3 つの下流タスクすべてで、同規模の専門モデルを上回る性能を実現した。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

Orca：世界を内部表現で統一捉え、ビデオ・言語・行動を一つのモデルで予測

30秒で把握

要約

あなたへの影響

関連する記事

ベスビオス火山で 1,900 年間封印された古代巻物、AI で初めて全文解読

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

30秒で把握

要約

あなたへの影響

関連する記事

ベスビオス火山で 1,900 年間封印された古代巻物、AI で初めて全文解読

NVIDIA、Cosmos 3公開 言語・映像・音声・行動を統合するWorld Model

LLM透かし技術、3〜5モデル平均で検出率50%以下に崩壊

NVIDIA、Cosmos 3公開言語・映像・音声・行動を統合するWorld Model