【具身智能】Spatial Forcing 论文笔记 如何隐式地为 VLA 注入 3D 空间感知能力
Spatial ForcingImplicit Spatial Representation Alignment For Vision-Language-Action Model
🧠 摘要(Abstract)
✅ 研究背景视觉-语言-动作模型(VLA)能让机器人根据语言指令执行动作,展现出巨大潜力。
⚠️ 核心
