注目★★★★★Hugging Face Papers
Orca:世界を内部表現で統一捉え、ビデオ・言語・行動を一つのモデルで予測
30秒で把握
- 1Orca が統一世界潜在空間を学習・125K 時間ビデオ + 160M イベント注釈で事前学習完了
- 2無意識 / 意識学習の二大パラダイムで次状態予測を統一・テキスト / 画像 / 行動生成で専門モデル超過
- 3凍結バックボーン + 軽量デコーダ学習で下流適応・ロボット制御・シミュレーション応用の扉開く
要約
Hugging Face の研究者は、マルチモーダル世界基盤モデル「Orca」を発表した。ビデオ・言語・VQA 教師信号から統一された世界潜在空間を学習し、次状態予測 (Next-State-Prediction) を中心に設計した。125K 時間のビデオと 160M イベント注釈から事前学習し、無意識学習 (連続動画から密な遷移をキャプチャ) と意識学習 (言語イベント・VQA から疎な遷移を学習) の 2 つの補完的パラダイムを採用した。バックボーン凍結下で、軽量な読み出しデコーダのみをファインチューニングすることで、テキスト生成・画像予測・具現化行動生成の 3 つの下流タスクすべてで、同規模の専門モデルを上回る性能を実現した。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約