注目huggingface_papers2026年6月19日1分

MolmoMotion: 言語指示で3D点軌跡を予測する動作予測フレームワーク

30秒で把握

1MolmoMotionが言語指示から物体の3D点軌跡を予測するモデルを発表
2116万動画由来の大規模データセットと111カテゴリ対応ベンチマークを公開
3ロボット操作への転移で訓練効率・汎化性能が向上することを確認

要約

MolmoMotionは、言語記述・視覚履歴・3Dクエリ点を入力として物体の将来3D軌跡を予測するゴール条件付き動作予測モデルを提案した。116万本の無制約動画から注釈した大規模コーパス「MolmoMotion-1M」と、111カテゴリ・61動作タイプを網羅する人手検証ベンチマーク「PointMotionBench」を公開した。自己回帰座標予測とフローマッチングベースの軌跡生成の両方をサポートし、既存の動作予測ベースラインをPointMotionBenchで大幅に上回った。

あなたへの影響

ロボット操作や動画生成に関わる研究・開発チームは、MolmoMotion-1Mデータセットとベンチマークを基盤として自社タスクへの転移学習を評価する価値がある。

推奨：3D軌跡表現がクラス非依存・視点安定という特性を持つため、汎用的な物体操作パイプラインへの組み込みが検討しやすくなり得る。

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)