《具身智能无建图导航:导航模块和移动神经网络的interface》
无论我们看着高德,还是凭借记忆中地图的印象移动到特定位置,移动行为本身是植物性的,无论遇到阶梯,还是从水泥地走到泥泞的土地,或是遇到移动或静止的障碍,或是道路本身不完全是直的等等,我们都能无意识的进行移动姿态的调整,这是一种植物性的运动调整反应,是由神经网络完成的,其中遇到障碍绕开通行,或是路径不是完全笔直时的方向调整,或是穿过门时的动作调整,或是前往视觉看到的某个位置,都依赖视觉和动作调整的高频的配合。

所以,需要类似VLA的端到端的算法完成,只有在遇到路口,或建筑内部的门的时候,个体需要决定往什么方向转弯,是否要进门。此时的决策是由我们大脑中的导航模块的指令驱动的。以上就描述了导航模块和移动神经网络的INTERFACE,用一个简单的模型描述导航决定了是否继续向前行进,以及什么时候转弯、是否进门,从而进入另外一个空间,而前行过程根据地形障碍,非直线路径的调整,都是神经网络训练的植物性快速反应完成的。

至此我们可以看到,移动过程认知和经验决策的大脑,导航模块移动神经网络之间的配合,认知和经验的大脑决定移动的宏观执行。这个指令是发给导航模块的,导航模块决定了是否持续前行,以及在特定的条件下转弯或是进入某门,或是前往视觉已经看到的某个位置,这些微观的移动指令又称为移动的基础执行。是由导航系统根据上层移动宏观执行分解输出给移动神经网络的,剩下的就交给强化学习以及VLA训练的神经网络,完成基础移动执行。

这样,我们就把人类是如何完成变化环境的导航移动的复杂问题,拆解为三个系统的配合,只要每个局部能实现被定义的分工,我们就能实现具身智能通用的移动导航功能。
 
 
Back to Top