这项由清华大学人工智能学院联合上海人工智能实验室和东京大学团队完成的研究发表于2026年3月24日,论文编号为arXiv:2603.23404v1。研究者们发现了一个让人工智能系统更好理解空间关系的巧妙方法,有兴趣了解详细技术细节的读者可以通过该论文编号查询完整研究内容。
当你看着一段室内环境的视频,被问到"垃圾桶在电话的哪个方向"时,你的大脑会自动构建出整个房间的空间布局图,然后轻松给出答案。但对于目前的多模态大语言模型来说,这样看似简单的空间推理却是个巨大的挑战。它们往往像只能看到眼前画面的人一样,无法形成对整体空间的理解。
研究团队发现,现有的人工智能模型在处理视频中的3D空间问题时,经常会像迷路的人一样,过度依赖眼前看到的2D视觉信息,而无法建立起对整个3D环境的完整认知。这就像让一个人蒙着眼睛摸象,只能感知到局部信息,却无法理解大象的整体形状。
为了解决这个问题,研究团队从人类认知科学中获得启发,开发了一种叫做TRACE(Textual Representation of Allocentric Context from Egocentric Video)的创新方法。这种方法的核心思想是让AI系统像人类一样,先在脑海中构建出一个完整的空间地图,然后基于这个地图进行推理。
一、从人类空间认知中获得的启发
人类在进行空间推理时有一个非常有趣的特点。当我们面对复杂的空间问题时,大脑并不是简单地在视觉画面中寻找答案,而是会自动构建出一个"上帝视角"的空间表征。比如当你在酒店房间里寻找某个物品时,你的大脑会像建筑师绘制平面图一样,在脑海中构建出整个房间的布局,包括床、桌子、椅子等各种家具的相对位置。
更神奇的是,这种空间表征完全可以用文字来描述。你可以轻松地向别人解释"床在靠窗的那面墙边,床头柜在床的右侧,垃圾桶在房门附近的角落里"。这种用语言描述空间布局的能力,恰恰是人类空间智能的一个重要特征。
研究团队意识到,如果能让AI模型也学会这种"先构建空间地图,再进行推理"的方式,就有可能大幅提升它们的空间理解能力。传统的方法让AI直接从视频片段中寻找答案,就像让人在黑暗中摸索一样效率低下。而新方法则是先让AI"开灯",看清整个房间的布局,然后再回答问题。
认知科学研究表明,人类处理空间信息时会使用两套不同的坐标系统:以自己为中心的"自我中心坐标系"和以环境为中心的"环境中心坐标系"。当你刚进入一个房间时,你会说"床在我的右边",这是自我中心的描述。但当你熟悉了房间布局后,你会说"床在靠窗的墙边",这就转换为了环境中心的描述。后一种描述方式更稳定,不会因为观察者位置的改变而改变,因此更适合进行复杂的空间推理。
二、TRACE方法的巧妙设计
TRACE方法就像给AI配备了一个专业的"空间记录员"。这个记录员会一边观看视频,一边详细记录下三个关键信息:房间的基本情况、摄像机的移动轨迹,以及看到的所有物品的详细信息。
首先是"房间档案"的建立。就像房产中介制作房源介绍一样,AI需要先确定房间的基本形状和方向。比如这是一个长方形的办公室,还是L型的客厅,以及如何确定"东南西北"的方向。这个步骤非常重要,因为它为后续的所有空间描述提供了统一的参考框架。研究团队设计的方法会让AI自动找到房间中最明显的结构特征,比如最长的墙面或主要的通道方向,然后以此为基准建立坐标系。
接下来是"行进路线图"的绘制。AI会像导游一样,详细记录摄像机在房间中的移动轨迹。每当摄像机有明显的位置或朝向变化时,AI就会记录下当前的时间、估算的位置坐标、面朝的方向,以及正在进行的动作描述。比如"第3秒时,位置在房间中央偏左,面朝北偏西45度,正在向床边移动并观察床头柜"。这种记录方式让AI能够理解视频中不同画面之间的空间关系。
最后是"物品清单"的整理。这是TRACE方法最精细的部分。AI需要为每个观察到的物品建立详细的档案,包括物品的类别、首次看到的时间、估算的位置坐标、大小尺寸、外观特征,以及与其他物品的空间关系。比如对于一把椅子,AI会记录:"椅子01,办公椅类型,第5秒首次看到,位置坐标[1.1, 1.0],尺寸约60×60×110厘米,黑色皮质座椅,位于桌子前方,靠近房间的东南角"。
这种详细记录的好处是显而易见的。当AI需要回答"哪个物品离门最近"这样的问题时,它可以通过比较物品清单中所有物品的坐标位置,精确计算出各自到门的距离,而不需要在视频画面中进行模糊的视觉估算。
三、让AI学会"画地图"的训练过程
要让AI学会使用TRACE方法,关键在于设计合适的提示词来引导它的思维过程。这就像教一个新手驾驶员学会看地图一样,需要step by step的详细指导。
研究团队精心设计了一套"空间记录手册",告诉AI应该如何观察视频、如何建立坐标系、如何记录物品信息等。这个手册不是简单的规则列表,而是像老师傅传授技艺一样,包含了大量的经验和技巧。
比如在建立坐标系时,手册会告诉AI:"寻找房间中最明显的长边或主要通道方向,将其定义为Y轴正方向,相当于地图上的'北方'。然后将垂直于该方向的右侧定义为X轴正方向,相当于'东方'。摄像机的起始位置就是原点[0,0]。"
在记录移动轨迹时,手册要求AI:"每当摄像机有明显移动时都要记录一个新的步骤,包括时间戳、估算位置、面朝方向和动作描述。位置估算要基于房间中的固定物品作为参照,比如'距离桌子约1.5米,距离墙面约2米'这样的描述。"
在整理物品清单时,手册强调:"每个物品都要单独记录,不能合并。即使有6把相同的椅子,也要分别记录为椅子01到椅子06。每个物品的位置坐标要尽可能精确,并且要描述它与其他明显标志物的相对位置关系。"
这种训练方式的效果是渐进式的。AI最初可能只能粗略地描述"房间里有桌子和椅子",但经过TRACE方法的训练后,它能生成详细的空间描述:"长方形办公室,主轴沿东西方向,办公桌位于房间中央偏北[0.5, 2.0]位置,黑色皮质办公椅位于桌子南侧[0.5, 1.5],椅子背靠南墙,垃圾桶位于房间西南角[-1.5, 1.5],紧邻墙角位置。"
四、在实际测试中的惊人表现
为了验证TRACE方法的有效性,研究团队在两个专业的空间智能测试平台上进行了大规模实验:VSI-Bench和OST-Bench。这两个测试平台就像空间智能的"高考",包含了各种复杂的3D空间推理题目。
VSI-Bench包含了5130道题目和288个真实室内环境视频,涵盖物体计数、距离测量、空间关系判断等八大类任务。OST-Bench则有1386个场景和10165道题目,专门测试AI在动态环境中的空间理解能力。这些测试就像让AI参加一场空间感知的奥林匹克竞赛。
测试结果令人印象深刻。在最强大的Gemini 3 Pro模型上,TRACE方法将平均性能从52.61%提升到60.15%,提升幅度达到7.54个百分点。这相当于一个原本只能答对一半题目的学生,在使用新方法后能答对60%的题目。更重要的是,这种提升在各种不同规模和类型的AI模型上都能稳定实现。
在开源模型Qwen2.5-VL-72B上,TRACE方法将性能从36.28%提升到39.38%,提升了3.1个百分点。在更小的MiMo-VL-7B模型上,也实现了从39.79%到41.42%的稳步提升。这说明TRACE方法不是只对某种特定模型有效,而是具有广泛的适用性。
更细致的分析显示,TRACE方法在不同类型的空间任务上都有改进。在物体计数任务上,Gemini 3 Pro的准确率从33.77%提升到47.55%。在距离估算任务上,从32.57%提升到38.82%。在相对方向判断任务上,从50.52%提升到61.70%。这种全面的性能提升表明,TRACE方法确实帮助AI建立了更好的空间理解能力。
研究团队还进行了一项有趣的对比实验:让AI先生成TRACE描述,然后仅基于这个文字描述来回答空间问题,完全不看原始视频。结果发现,仅基于TRACE描述的答题准确率与直接观看视频的准确率相当,这证明TRACE确实捕捉了视频中的关键空间信息。
五、与其他方法的深度比较
为了更好地理解TRACE方法的优势,研究团队将其与多种现有的AI推理方法进行了详细比较。这些对比方法包括思维链(Chain-of-Thought)、思维树(Tree-of-Thought)、从简到难(Least-to-Most)以及认知地图(Cognitive Map)等经典方法。
思维链方法鼓励AI一步步思考问题,就像学生解题时写出详细的解题过程。在一般的逻辑推理任务上,这种方法通常很有效。但在空间推理任务上,仅仅是步骤化思考还不够,因为空间关系本身就是复杂的多维信息。
思维树方法让AI同时考虑多种可能的推理路径,然后选择最可靠的那一条。这就像在迷宫中同时尝试多条路线,然后选择最短的那条。虽然这种方法在某些复杂推理任务上表现出色,但在空间推理中,关键不是有多少种思考路径,而是是否建立了正确的空间表征。
认知地图方法与TRACE最为相似,它也试图让AI构建空间表征。但认知地图使用的是简化的10×10网格系统,就像用马赛克拼图来表示复杂的画面。这种粗糙的表示方法在处理精确空间关系时就显得力不从心。
相比之下,TRACE方法使用连续的坐标系统和详细的物品描述,就像用高分辨率照片替代了马赛克拼图。比如在回答"哪把椅子离洗碗机最近"这样的问题时,认知地图方法只能粗略地判断椅子和洗碗机在不同的网格中,而TRACE方法可以记录每把椅子的精确坐标,比如"椅子01位于[1.1, 1.0],椅子02位于[1.1, 1.5]",然后精确计算距离。
实验结果清晰地展示了这种差异的影响。在使用相同的测试条件下,TRACE方法比认知地图方法的性能高出9.7个百分点,比空间描述方法高出3.53个百分点。这种显著的性能差异验证了精细化空间表征的重要性。
六、深入分析AI空间理解的瓶颈
为了更好地理解TRACE方法为什么有效,研究团队还进行了一项深入的分解分析。他们将3D空间理解任务分解为两个子任务:3D视觉感知和语言空间推理,然后分别测试不同AI模型在这两个子任务上的能力。
这就像测试一个人的数学能力时,分别考察他的计算能力和逻辑推理能力一样。3D视觉感知相当于"看懂空间布局"的能力,而语言空间推理相当于"基于空间信息进行逻辑推理"的能力。
分析结果揭示了一个有趣的现象:不同AI模型的瓶颈不同。Gemini 3 Pro在两个子任务上都表现出色,这解释了为什么它的整体空间推理能力最强。而Qwen系列模型在3D视觉感知上相对较弱,但在语言推理上的能力相对较好。这就像一个人的眼睛度数较高,但逻辑思维很清晰一样。
更有趣的是,研究团队发现,即使使用同样的空间描述,专门的语言模型(Qwen2.5-72B)在空间推理上的表现竟然超过了多模态模型(Qwen2.5-VL-72B)。这个发现表明,当前的多模态训练可能在某种程度上削弱了模型的空间推理能力,这是一个值得业界关注的重要发现。
研究团队还测试了TRACE方法在不同复杂程度环境中的表现。他们使用了来自ARKitScenes、ScanNet和ScanNetPP三个不同数据集的室内环境,这些数据集代表了不同的扫描质量、环境复杂度和空间特征。结果显示,TRACE方法在所有三种环境类型中都能稳定提升性能,证明了其良好的泛化能力。
在计算效率方面,TRACE方法的令牌使用量确实比简单方法更高。在Gemini 3 Pro上,TRACE方法平均使用843.91个令牌,而直接方法只使用334.35个令牌。但考虑到性能的显著提升,这种额外的计算成本是值得的。而且在较小的模型上,TRACE方法的令牌效率实际上比一些复杂的推理方法(如思维树)更好。
七、方法的局限性和未来展望
研究团队非常诚实地承认了TRACE方法目前的一些局限性。最主要的限制是,TRACE生成的是静态的空间表征,就像拍摄了房间的一张快照,而不是实时的动态地图。这在处理需要实时更新空间状态的任务时可能会遇到困难。
比如在多轮对话的场景中,如果环境中的物品位置发生了变化,或者观察者需要实时更新对自己位置的理解,静态的TRACE表征就可能跟不上变化的步伐。这就像使用一张过时的地图在不断变化的城市中导航一样。
另一个限制是,目前的TRACE方法依赖于AI模型自身来生成空间描述,而不是使用专门的视觉专家模型。这意味着生成的空间描述的质量完全依赖于底层模型的视觉理解能力。如果底层模型在3D视觉感知上有弱点,那么生成的TRACE描述质量也会受到影响。
研究团队提出了几个有希望的改进方向。首先是开发动态流式TRACE框架,能够实时更新物品位置和摄像机轨迹,同时递归地调整观察者在空间中的位置估计。这就像给TRACE配备一个实时更新的GPS系统。
其次是探索将TRACE与专门的视觉专家模型结合,比如使用专业的3D物体检测和位姿估计模型来提供更准确的空间信息。这种结合可能会进一步提升TRACE描述的质量和可靠性。
研究团队还计划研究TRACE是否能作为一个通用的数据引擎,用于构建高质量的3D空间推理训练数据。如果这个想法成功,TRACE不仅是一个推理方法,还可能成为训练更好空间智能AI的数据生成工具。
八、对AI发展的深远意义
TRACE方法的成功不仅仅是一个技术创新,它更代表了AI空间智能发展的一个重要方向转变。传统的方法试图让AI直接从原始感知数据中学会空间推理,就像让人蒙着眼睛学习驾驶一样困难。而TRACE方法则证明了,让AI先学会构建明确的空间表征,再进行推理,是一条更有效的路径。
这种思路的转变具有更广泛的启发意义。它表明,在训练AI处理复杂任务时,我们不应该期望AI能够直接掌握端到端的能力,而应该借鉴人类认知的成功经验,为AI构建结构化的中间表征。这就像教孩子数学时,我们不会期望他们直接掌握微积分,而是先教会他们基本的数字概念和运算规则。
TRACE方法的成功也为其他领域的AI研究提供了借鉴。比如在时间推理、因果关系理解、社交互动理解等领域,都可能存在类似的机会,通过构建明确的中间表征来提升AI的推理能力。
从实用角度来看,TRACE方法因为主要依赖文本描述而具有很好的可解释性。当AI给出一个空间推理的答案时,我们可以查看它生成的TRACE描述,了解它是如何理解空间布局的,这种透明性对于AI的实际应用非常重要。
更重要的是,TRACE方法为现有的AI模型提供了一个即插即用的能力提升方案。它不需要重新训练模型或修改模型架构,只需要改变提示词就能获得性能提升。这种低成本、高效果的改进方式对于AI技术的快速普及和应用具有重要意义。
说到底,这项研究告诉我们一个重要道理:有时候最好的创新不是发明全新的技术,而是找到更聪明的方法来使用现有技术。TRACE方法就是这样一个例子,它没有改变AI模型的内部结构,而是改变了AI思考问题的方式,就取得了显著的效果提升。这种"软件创新"的思路可能是未来AI发展的一个重要方向,值得研究者们更多关注和探索。
随着越来越多的AI应用需要处理复杂的空间信息,从自动驾驶汽车到家庭服务机器人,从AR/VR应用到智能建筑管理,TRACE方法及其衍生技术有望在这些领域发挥重要作用。这项研究不仅推进了我们对AI空间智能的理解,也为构建更智能、更可靠的AI系统开辟了新的道路。
Q&A
Q1:TRACE方法是如何帮助AI理解空间关系的?
A:TRACE方法让AI像人类一样,先在"脑海"中构建完整的房间布局图,包括详细记录房间形状、摄像机移动路径和所有物品的精确位置坐标,然后基于这个完整的空间地图来回答问题,而不是直接从视频画面中寻找答案。
Q2:TRACE方法相比其他AI推理方法有什么优势?
A:TRACE方法比传统的思维链、思维树等方法效果更好,在最强的Gemini 3 Pro模型上将空间推理准确率从52.61%提升到60.15%。关键优势是使用精确的坐标系统而不是粗糙的网格,能处理更复杂精确的空间关系。
Q3:普通用户能否使用TRACE方法提升AI的空间理解能力?
A:TRACE方法主要通过特殊的提示词来引导AI思考,理论上可以应用于支持视频输入的大型AI模型。但目前还需要专业的技术知识来设计合适的提示词,暂时不是普通用户可以直接使用的功能。