Asayomu Tech
注目★★★★Hugging Face Papers

Orca:世界を内部表現で統一捉え、ビデオ・言語・行動を一つのモデルで予測

30秒で把握

  • 1Orca が統一世界潜在空間を学習・125K 時間ビデオ + 160M イベント注釈で事前学習完了
  • 2無意識 / 意識学習の二大パラダイムで次状態予測を統一・テキスト / 画像 / 行動生成で専門モデル超過
  • 3凍結バックボーン + 軽量デコーダ学習で下流適応・ロボット制御・シミュレーション応用の扉開く

要約

Hugging Face の研究者は、マルチモーダル世界基盤モデル「Orca」を発表した。ビデオ・言語・VQA 教師信号から統一された世界潜在空間を学習し、次状態予測 (Next-State-Prediction) を中心に設計した。125K 時間のビデオと 160M イベント注釈から事前学習し、無意識学習 (連続動画から密な遷移をキャプチャ) と意識学習 (言語イベント・VQA から疎な遷移を学習) の 2 つの補完的パラダイムを採用した。バックボーン凍結下で、軽量な読み出しデコーダのみをファインチューニングすることで、テキスト生成・画像予測・具現化行動生成の 3 つの下流タスクすべてで、同規模の専門モデルを上回る性能を実現した。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。