我们试图把人类在空间中,移动到特定目的地宏观执行进行抽象,建立了如下具身智能体对空间理解、存储,并以此跨空间导航的机制。
我们把从空间a移动到空间b,理解为从a开始,在记忆和经验中,找到一系列由门连接的空间连通到b,比如我们可以把这个序列记为x1、x2、xnb,比如从办公室去大楼大堂,就会有空间序列。办公室-楼层-公用地-电梯或楼道-大楼大堂。每次从一个空间往下一个空间走,就需要走到上一个空间,连通下一个空间的门的位置,穿过门到达下一个空间,在记忆中搜索这个空间的2D地图,再导航到通向路径规划的下一个空间的门,这就把跨空间导航划归为一个标准的情形。
我们来考察一下其中的过门反应,穿过门是一个基础行为节点,可以靠VLA框架训练,起点状态为看着门,由“策略矩阵”的策略激活过门反应的执行节点,穿过门后要有一个能力返回信号"我穿过门",系统会根据这个信号,通过存储、搜索这个空间的这个门面对的是哪一个空间,从记忆存储中搜索已有的地图,如果没有,则新建一个空间ID,并新建一个对应的地图存储,抵达新的空间之后是导航。
导航又分为两种情形,简单的是有图导航,难的是无图导航。为了确保通用性,我们假设大部分的情形都是无图导航,或是需要到达的地方并未在已有的地图中标定,无图导航包含了地点附近的探索行为,主动视觉发现标识的行为,根据视觉发现的标识在地图中拟定虚拟路径,或是根据对话者指路的表达,再虚拟地图中拟定虚拟路径的能力,然后是根据虚拟路径导航前行的行为,无论是无图导航的过程还是探索过程,具身智能体都能根据视觉看到的信息,在该空间单元的2D地图中,完成景物(地点)的标定。这个过程,具身智能体和人一样能形成对曾经到过的空间的认知和记忆。因为无图导航消耗时间具有不确定性,所以对于常去的空间建立地图存储,把无图导航变为有图导航是有意义的。