Asayomu Tech
注目huggingface_papers1

MolmoMotion: 言語指示で3D点軌跡を予測する動作予測フレームワーク

30秒で把握

  • 1MolmoMotionが言語指示から物体の3D点軌跡を予測するモデルを発表
  • 2116万動画由来の大規模データセットと111カテゴリ対応ベンチマークを公開
  • 3ロボット操作への転移で訓練効率・汎化性能が向上することを確認

要約

MolmoMotionは、言語記述・視覚履歴・3Dクエリ点を入力として物体の将来3D軌跡を予測するゴール条件付き動作予測モデルを提案した。116万本の無制約動画から注釈した大規模コーパス「MolmoMotion-1M」と、111カテゴリ・61動作タイプを網羅する人手検証ベンチマーク「PointMotionBench」を公開した。自己回帰座標予測とフローマッチングベースの軌跡生成の両方をサポートし、既存の動作予測ベースラインをPointMotionBenchで大幅に上回った。

あなたへの影響

ロボット操作や動画生成に関わる研究・開発チームは、MolmoMotion-1Mデータセットとベンチマークを基盤として自社タスクへの転移学習を評価する価値がある。

推奨:3D軌跡表現がクラス非依存・視点安定という特性を持つため、汎用的な物体操作パイプラインへの組み込みが検討しやすくなり得る。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。