天天微头条丨深度解读A-SLAM和AC-SLAM的实现和方法应用

首页 > 数码 > 内容页

天天微头条丨深度解读A-SLAM和AC-SLAM的实现和方法应用

2023-03-17 11:23:39 来源：自动驾驶之心

本文对过去十年中进行的主动SLAM（A-SLAM）研究进行了新的回顾。论文讨论了基于信息理论的方法在A-SLAM中用于轨迹生成和控制动作选择的公式、应用和方法。本文广泛的定性和定量分析强调了A-SLAM研究的方法、场景、配置、机器人类型、传感器类型、数据集使用和路径规划方法。最后，论文提出了局限性并提出了未来研究的可能性。论文认为这项调查将有助于研究人员了解应用于A-SLAM的各种方法和技术。

2介绍

SLAM是一组方法，其中机器人自主定位并在导航时同时建图环境。它可以细分为解决定位和建图。定位是一个估计机器人在地图上的姿态的问题，而地图则是借助于车辆上的视觉、视觉惯性和激光传感器来重建环境。前端处理感知任务，这涉及实现信号处理和计算机视觉领域的方法，以计算机器人环境和观察到的特征之间的估计相对局部姿态。SLAM后端使用优化理论、图论和概率论来估计全局地图和轨迹。关于SLAM方法的详细综述，可以参考[1]、[2]、[3]、[5]。

(资料图片)

大多数SLAM算法是被动的，其中机器人被手动控制或朝向预定义的路线点行进，并且导航或路径规划算法不主动参与机器人的运动或轨迹。然而，A-SLAM试图通过提出一种导航策略来解决未知环境的最优探索问题，该导航策略生成未来目标/对象位置动作，这些动作减少了在地图和姿态中的不确定性，从而实现完全自主的导航和测绘SLAM系统。论文将在其指定的第2节中进一步了解A-SLAM。在主动协作SLAM（AC-SLAM）中，多个机器人在执行SLAM时主动协作。A-SLAM和AC-SLAM的应用领域包括搜索和救援[17]、行星观测[12]、精准农业[23]、拥挤环境中的自主导航[34]、水下探索[30][40][44]、人工智能[42]、辅助机器人[74]和自主探索[126]。

A-SLAM上算法的第一个实现可以追溯到[9]，但最初的名称是在[10]中起草的。然而，A-SLAM及其根源可以从人工智能和机器人探索技术创造的想法进一步追溯到20世纪80年代[11]。在过去十年中，还没有对A-SLAM进行过综述调查。2016年只有一篇文章在其评论文章[4]中讨论了A-SLAM。在本文中，A-SLAM并不是研究的重点，相反，作者从整体上看了SLAM的整个主题。之所以在这里提到它，是因为我们文章中进行的研究集中在主动和A-SLAM上。

本文的优势不仅包括讨论A-SLAM的内部组成部分，还包括其应用领域、局限性和未来前景，以及对过去十年A-SLAM进行全面的统计调查。

3主动SLAM简介

如前所述，SLAM是一个机器人建图其环境并将其自身定位到该环境的过程。A-SLAM负责设计机器人轨迹，以最小化其地图表示和定位的不确定性。其目的是在没有外部控制器或人力的情况下执行自主导航和环境探索。参考图1，可以观察到，在典型的SLAM系统中，来自传感器（通常为激光雷达、相机和IMU）的数据由前端模块处理，前端模块计算特征提取、数据关联、特征分类、迭代最近点（ICP）和回环闭合。ICP是一种迭代方法，它计算优化/对齐数据点/特征的转换，并用于扫描匹配方法中以建图环境。后端模块负责涉及束调整（B.A）、位姿图优化和地图估计的高计算任务。后端模块输出机器人的全局地图和姿态估计。A-SLAM可以被称为SLAM系统的附加模块或超集合，其结合了路线点和轨迹规划，以及使用信息理论、控制理论和强化学习（RL）方法的控制模块，以自主引导机器人实现其目标。

在SLAM中，环境探索（以更好地了解环境）和开发（以重新访问已穿过的区域以进行回环闭合）被最大化，以获得更好的地图估计和定位。因此必须在勘探和开发之间进行权衡，因为前者要求最大限度地覆盖环境，而后者要求机器人重新访问先前勘探的区域。这两个任务可能不总是同时应用于机器人以执行自主导航。机器人可能必须通过在这两个任务之间切换来解决探索开发困境。

A-SLAM公式

A-SLAM是在机器人必须在部分可观察/未知环境中导航的场景中制定的，该场景通过在存在噪声传感器测量的情况下选择一系列未来动作来减少其状态和地图相对于环境的不确定性。这样的场景可以被建模为[6]中讨论的部分可观测马尔可夫决策过程（POMDP）的实例。POMDP定义为7元组。X表示机器人状态空间，A表示动作空间，O表示观测，T是状态转移函数，说明感知不确定性，是与在状态x中采取的行动相关的奖励，考虑了折扣系数，即使计划任务具有无限的范围，也能确保有限的回报。T和都可以使用条件概率表示为等式1和2。

机器人的目标是选择使每个状态-动作对的相关预期回报最大化的最优策略，并且可以将其建模为等式3：

尽管A-SLAM的POMDP公式是最广泛使用的方法，但由于它考虑了不确定性下的规划和决策，因此它被认为是计算昂贵的。为了计算方便，A-SLAM公式分为三个主要子模块，它们识别潜在的目标位置/路点，计算到达它们的成本，然后根据效用标准选择行动，从而减少地图的不确定性并增加机器人的定位。

主动SLAM的组成

为了处理A-SLAM的计算复杂性，它被分为三个主要子模块，如图2所示。机器人最初在地图的当前估计中确定要探索或利用的潜在目标位置。地图表示机器人使用其机载传感器感知的环境，可分为

1）拓扑地图：使用环境的图形表示并提供简化的拓扑表示

2）度量地图：以稀疏的信息点（地标）集合或环境的完整3D表示的形式提供环境信息（点云）

3）语义地图：仅向机器人提供有关环境目标（如静态障碍物）的分段信息。感兴趣的读者可参考[1,4]，详细讨论建图方法。

一旦机器人使用上述任何方法获得了其环境的地图，它就会搜索潜在的目标/对象位置进行探索。最广泛使用的方法之一是[7]最初使用的基于边界的勘探，其中边界是已知和未知地图位置之间的边界。使用基于边界的探索具有覆盖所有环境的优点，但缺点是不执行影响机器人地图估计的开发任务（重新访问已访问的区域以回环）。

一旦目标位置被识别，下一步是基于从根据等式3的所有可能动作的集合中选择的最佳动作的一些奖励值来计算该位置的成本或效用函数。理想情况下，该效用函数应考虑地图和机器人姿态的全关节概率分布，但该方法计算成本较高。由于我们对机器人和地图都有概率估计，因此可以将它们视为随机变量，并在其估计中具有相关的不确定性。量化和表示这种不确定性最常用的两种方法是信息理论（IT）和最佳实验设计理论（TOED）[64]，信息理论最初由Shannon于1949年提出。在IT中，熵度量与随机变量或随机量相关的不确定性。更高的熵导致更少的信息增益，反之亦然。将随机变量X定义为，如等式4所示。目标是减少机器人姿态和地图估计之间的熵，如作者在[8]中所阐述的。

相对熵也可以用作一个效用函数，它测量概率分布的形式及其与平均值的偏差。该相对熵被测量为KL散度。概率空间X上两个离散分布A和B的KLD可以定义为方程5：

在A-SLAM中，如果考虑信息驱动的效用函数，那么熵或KLD可以用作网格图（占用网格图）中目标二进制概率的度量。或者，如果我们考虑任务驱动效用函数并假设高斯分布，那么可以尝试使用TOED来量化任务空间中的不确定性。在TOED中，A-SLAM的一组动作的优先级基于关节后部的协方差量。协方差越小，动作集的权重越高。为了比较候选行动集的矩阵，已经为协方差矩阵定义了称为“最优性准则”的不同函数，其本征值为

1）A最优性，其处理平均方差的最小化，如等式6所示；

2）D最优性，处理捕获全协方差矩阵，并在等式7中定义；

3）E最优性，意图最小化最大本征值，并在等式8中表示。

TOED方法要求将机器人姿态和地图不确定性都表示为协方差矩阵，并且可能计算昂贵，特别是在基于地标的SLAM中，当发现新地标时，其大小会增加。因此，基于IT的方法优于TOED。

一旦确定了目标位置和到达这些位置的效用/成本，下一步就是执行最终将机器人移动/引导到目标位置的最佳动作。通常采用三种方法：

概率路线图（PRM）方法表示表示机器人选择到达目标位置的可能路径的网络图。这些方法以启发式的方式工作，可能不会给出最佳路径，此外，机器人模型未纳入规划阶段，这可能会导致意外移动。RRT[51]、D*[50]和A*[57]是广泛使用的PRM方法。论文将这些方法确定为基于几何的方法；

线性二次调节器（LQR）和模型预测控制（MPC）等最优控制方法用于在线或离线规划控制路径，同时考虑与控制努力和机器人状态随时间演变相关的成本；

深度强化学习（DRL）方法通过最大化机器人轨迹演化过程中每个状态动作对获得的奖励来工作。

如前几节所述，使用IT和TOED对选择合适的路点候选进行加权。在这些方法中，地图和机器人路径之间的信息增益或熵最小化指导了选择这些未来候选路线的决策。为了生成这些未来候选路线的轨迹或一组动作，采用了两种主要方法，分别是几何和动态方法。这些方法包括使用传统的路径规划器以及马尔可夫决策过程和非线性最优控制技术。

基于几何的方法

这些方法将A-SLAM描述为机器人选择最佳路径和轨迹的任务，同时减少其姿态和建图的不确定性，以便高效SLAM在未知环境中自主导航。利用有限随机航路点对勘探空间进行离散化，并利用基于IT和TOED的方法（包括熵、信息增益、不确定性度量减少）部署基于Frontier的勘探以及传统路径规划器（如RRT* 、D* 、A*）。

基于信息理论的方法

[20]的作者解决了联合熵最小化探索问题，并提出了RRT*[51]的两个修改版本，分别称为dRRT和eRRT。dRRT使用距离，而eRRT使用每行驶距离的熵变化作为成本函数。人们进一步讨论了地图熵与覆盖率有很强的关系，路径熵与地图质量有关系（因为更好的定位会产生更好的地图）。因此，行动是根据每行驶距离的联合熵变化来计算的。仿真结果证明，这两种方法的组合提供了最佳的路径规划策略。[18]中给出了信息理论方法之间的有趣比较，其中粒子滤波用作A-SLAM的后端，并部署了基于边界的探索（边界是访问和未探索区域之间的边界）[49]以选择未来的候选目标位置。下面讨论了用于解决勘探问题和评估信息的这三种方法的比较：

关节熵：在目标处获得的信息使用机器人轨迹的熵和每个粒子携带的地图的熵进行评估，每个粒子通过每个轨迹的重要性权重进行加权。选择最佳勘探目标，这使联合熵减少最大化，因此对应于更高的信息增益；

期望地图平均值：期望平均值可以定义为粒子集的地图假设的数学期望值。预期的地图平均值可以应用于检测地图上已经遍历的循环。由于增益的计算正在发展，这种方法的复杂性增加了；

来自策略的预期信息：KL散度[28]用于驱动真实后验和近似姿态信念之间的偏差上限。除了粒子滤波的信息一致性之外，该方法还考虑了由于不一致建图导致的信息丢失。

使用对各种数据集的模拟结果（参考表2）得出的结论是，这些方法中的大多数都不能正确解决问题的概率方面，并且最有可能失败，因为计算成本高，地图网格分辨率依赖于性能。

作者在[32]中提出了TFG SLAM，它使用空间i的几何表示，即勘探空间由原始几何形状表示，并计算地图特征的熵减少。它使用基于拉普拉斯近似的熵度量，并计算勘探和开发收益的统一量化。基于概率道路图方法使用基于有效采样的路径规划器，该方法具有降低控制成本（距离）和目标之间的碰撞惩罚的成本函数。与传统的栅格地图边界勘探相比，模拟结果显示位置、方向和勘探误差显著减少。未来的改进包括扩展到主动的Visual SLAM框架。

当考虑拓扑矩阵图和计算成本较低的解决方案时，可以参考[45]所采用的方法，该方法考虑了一种场景，即有许多先前的拓扑矩阵子图，而机器人不知道其初始位置。提出了一种使用主动定位和主动建图的开源框架。定义了一种在主动定位和建图之间切换的子图连接方法。主动定位使用最大似然估计来计算运动策略，这降低了该方法的计算复杂性。

基于Frontier的探索

边界是探索和未探索空间之间的边界。形式上可以将边界描述为一组未知点，每个点至少有一个已知的空间邻居。[21]提出的工作制定了一种以粒子滤波器SLAM为后端的混合控制切换探索方法。它使用基于边界的探索方法，A*[57]作为全局规划器，动态窗口方法（DWA）反应算法作为局部规划器。在占用网格图内，分割每个边界，为每个段规划轨迹，并从全局成本图中选择具有最高地图段协方差的轨迹。[34]中介绍的工作涉及多个地面机器人的动态环境，并使用基于图形的SLAM（iSAM）[61]优化作为SLAM后端，使用前沿探索进行自主探索。使用基于Dijkstra算法的局部规划器。最后，基于Shannon和Renyi熵的效用函数用于计算路径的效用。未来的工作建议集成摄像头并使用图像特征扫描匹配来避免障碍物。

路径规划优化

[30]提出的方法利用了图形SLAM的图形模型和稀疏矩阵分解之间的关系。它提出了变量排序和子树捕获方案，以便于快速计算由变量之间的信念变化加权的优化候选路径。地平线选择标准基于作者先前的工作，利用扩展信息滤波器（EIF）和高斯牛顿（GN）预测。提出的解决方案在具有姿态图SLAM的悬停自主水下机器人（HAUV）中实现。[44]中介绍的工作涉及使用多波束声纳在水下环境中进行类似的体积探测。对于有效的路径规划，根据姿态不确定性和传感器信息增益来选择重新访问动作。

[39]中的作者使用了一种有趣的方法，该方法将路径规划任务处理为D*[50]，具有负边缘权重，以在定位改变的情况下计算最短路径。这种探索方法在具有不断变化的障碍和定位的动态环境中非常有效。当处理有噪声的传感器测量时，[27]采用了一种有趣的方法，该方法提出了模糊感知鲁棒ASLAM（ARAS），该方法利用基于有噪声或传感器信息不足的多假设状态和地图估计。该方法使用局部轮廓进行有效的多假设路径规划，并结合回环闭合。

机器人轨迹优化

[13]中提出的方法将A-SLAM与Ekman的探索算法[53]集成在一起，通过仅利用出现回环闭合的全局航路点来优化机器人轨迹，然后将探索取消标准发送到SLAM后端（基于ES-DSF信息滤波[52]）。探测取消标准取决于来自滤波器的信息增益的大小、回环闭合检测以及没有更新的状态的数量。如果满足这些标准，则A-SLAM发送探测算法停止并引导机器人闭合回路。必须注意，在这种方法中，A-SLAM与由信息滤波管理的路线规划和勘探过程分离。

最优策略选择

[35]中给出的定义和比较将A-SLAM表述为选择单个或多个策略类型的机器人轨迹的任务，该任务最小化目标函数，该目标函数包括减少机器人不确定性、能耗、导航时间等因素的预期成本。根据定义，最优性标准量化了机器人为提高定位精度和导航时间而采取的行动的改进。对D最优性（与协方差矩阵的行列式成比例）、A最优性（和协方差矩阵的轨迹成比例）和关节熵进行了比较，并得出结论，D最优性准则更适合于提供与A最优性相反的关于机器人不确定性的有用信息。[36]中的作者通过数值证明，通过使用微分表示来传播空间不确定性，所有最优性标准A-opt、D-opt和E-opt（协方差矩阵的最大特征值）都保持了单调性。在仅使用单位四元数的绝对表示中，单调性仅在D最优性和香农熵中保持。在类似的比较中，[37]中提出的工作得出结论，A-Opt和E-Opt标准在航位推算场景中不具有单调性。通过对差动驱动机器人的仿真证明，在线性里程法下，D-opt准则保持单调性。

基于动态的方法

与使用传统的路径规划器（如A* 、D* 和RRT）不同，这些方法将A-SLAM表述为一个问题，即选择一系列控制输入以生成无碰撞轨迹并覆盖尽可能多的区域，同时最小化状态估计的不确定性，从而改善环境的定位和建图。规划和行动空间现在是连续的（与基于几何的方法中的离散相反），并计算局部最优轨迹。对于最佳目标位置的选择，使用基于几何的方法中使用的类似方法，但现在使用机器人模型、潜在信息场和控制理论计算未来候选轨迹。线性二次调节器（LQR）、模型预测控制（MPC）[59]、马尔可夫决策过程[60]或强化学习（RL）[58]用于通过矩阵来选择最优的未来轨迹/轨迹集，该矩阵平衡探索新区域和利用已访问区域进行回环闭合的需求。

[26]使用的方法使用路径规划器中的强化学习，通过结合3D控制器来获取车辆模型。3D控制器可以简化为用于向前和向后运动的一个2D控制器和用于路径规划的一个1D控制器，其具有最大化地图可靠性和勘探区的目标函数。因此，计划者有一个目标函数，使用“从经验中学习方法”最大化每个状态-动作对的累积奖励。通过仿真表明，非完整车辆学习了虚拟墙壁跟随行为。[42]中提出的类似方法使用全卷积残差网络来识别获取深度图像的障碍。路径规划算法基于深度强化学习算法（DRL）。

[19]提出了一种主动定位解决方案，其中在位置跟踪问题中仅控制机器人的旋转运动。自适应蒙特卡罗定位（AMCL）粒子云被用作输入，机器人控制命令被发送到其传感器作为输出。所提出的解决方案涉及点云的光谱聚类，从每个粒子簇构建复合图，并选择信息量最大的单元。当机器人在其不确定性估计中具有多个集群时，触发主动定位。未来的改进包括更多用于有效假设估计的单元，并将此方法集成到SLAM前端。在一个有趣的方法中，通过[48]控制仿生眼睛的扫视运动（注视中心在视野内的快速移动）。为了利用环境中的更多特征，引入了受人类视觉系统启发的自主控制策略。A-SLAM系统包括两个线程（并行进程）、一个控制线程和一个跟踪线程。控制线程控制仿生眼睛运动到特征丰富的位置，而跟踪线程通过选择特征丰富（ORB特征）关键帧来跟踪眼睛运动。

基于几何和动态的方法

这些方法使用前文提到的基于几何和动态的方法，结合了基于前沿的探索、信息理论和模型预测控制（MPC）来解决A-SLAM问题。

作者在[15]中使用的方法提出了一种开源的多层A-SLAM方法，其中第一层选择信息性（基于Shanon熵[62]的效用标准）目标位置（边界点）并生成到这些位置的路径，而第二层和第三层基于更新的占用网格图主动重新规划路径。非线性MPC[63]应用于局部路径执行，目标函数基于最小化到目标的距离、控制到附近障碍物的努力和成本。这种方法的一个问题是，有时机器人会停止并开始局部路径的重新规划阶段。未来的工作包括增加动态障碍物和使用空中机器人。

而[23]和[29]中提到的一种有趣的方法提出了一种基于模型预测控制（MPC）的解决方案，以解决A-SLAM中的区域覆盖和不确定性降低。建立了MPC控制切换机制，并将SLAM不确定性降低作为图拓扑问题处理，并将其规划为约束非线性最小二乘问题。利用凸松弛，通过凸优化方法降低SLAM的不确定性。区域覆盖任务通过顺序二次规划方法解决，线性SLAM用于子地图连接。

A-SLAM的统计分析

表1总结了A-SLAM中使用的传感器类型和描述。还描述了SLAM方法、路径规划方法和出版年份。在该表中可以得出结论，在大多数A-SLAM方法中：

i）RGB和激光雷达传感器被用作提取点云和图像特征/对应关系的主要输入数据源；

ii）涉及姿态图或基于图的SLAM方法；

iii）使用基于图搜索的路径规划算法。

表2详细说明了A-SLAM中使用的机器人及其各自的描述。还介绍了A-SLAM的数据集、ROS兼容性和回环闭合。这些信息可以概括为

-i）地面机器人被广泛使用；

ii）50%的方法中采用了回环闭合；

iii）大多数方法中仅使用了30%的ROS。

在图3中，描述了每年A-SLAM文章的选择和ROS的使用[128]。可以观察到，近57%的A-SLAM文章来自过去四年。虽然ROS是机器人的流行环境，但它仅部署在30%的A-SLAM解决方案中。

从图4中可以推断，自2017年以来，在A-SLAM实验中，真实机器人的使用量有所增加。在图5和图6中，可以得出结论，模拟和分析结果的使用逐年增加。

主动写作SLAM（AC-SLAM）

在AC-SLAM中，多个机器人在主动执行SLAM的同时进行协作。前文中提到的A-SLAM中使用的基于数据驱动、信息理论和控制理论的方法也适用于AC-SLAM，同时还存在管理机器人之间的通信和鲁棒参数交换的额外限制。这种协作可以包括交换参数、定位信息以及同质或异质机器人组之间的传感器数据。除了这些参数之外，AC-SLAM参数还可以包括

a）如作者在[66]和[85]中提出的，合并通过添加未来机器人路径而引起的多机器人约束，同时最小化最优控制函数（其考虑了未来的步骤和观察）；

b）与[71]中描述的机器人的探索和重新定位（在预定义的会合位置收集）阶段相关的参数；

c）作者在[80]中使用的3D建图信息（OctoMap）；

d）路径和地图熵信息。如[81]中所用，以及如[82]中所述的相对熵。

AC-SLAM的网络拓扑

网络拓扑描述了不同机器人之间以及与中央计算机/服务器之间如何通信和交换数据。这种通信策略可以是集中的、分散的或混合的。在作者在[65–67，82，83，85，86]中提出的集中式通信网络中，中央服务器/代理负责管理通信和高级计算任务，而在[70，71，74，75，78，81，84]中描述的分布式网络中，每个机器人管理通信并单独计算其AC-SLAM参数。[72]中讨论的混合网络使用集中式和分散式方法。由于网络拓扑不是本文的主要主题，我们将对其进行进一步讨论，并将重点放在AC-SLAM应用的场景和应用领域。典型的应用场景包括协作任务分配、探索和开发（重新访问已探索的区域以实现闭环）、协作轨迹规划/轨迹优化以及协作定位。

协作定位

在这些方法中，机器人在自定位和其他机器人定位之间切换其状态（任务）。作者在[67]中提出的方法提出了一种新的集中式AC-SLAM方法，其中使用基于深度强化学习的任务分配算法来辅助代理完成相关观察任务。每个代理可以选择执行其独立的ORB-SLAM[127]或定位其他代理。独特的观测函数基于ORB-SLAM导出，由地图点、关键帧和回环闭合检测组件组成。机器人状态之间的转换误差用于测量损失函数。为了学习Q值和状态-动作对之间的对应关系，部署了一种新的多Agent系统深度Q网络（MAS-DQN）。该方法的大量相关计算成本缺乏实时应用，因此未来提出了一种分布式学习方法。

[85]中描述的方法将多机器人信念空间跨越问题定义为机器人协作问题，以减少状态估计中的不确定性。机器人信念被测量为其状态在整个组和映射环境中的概率分布。所提出的主动定位方法可以使用未来路径点的最大后验概率（MAP）估计来指导每个机器人，以通过在多机器人AC-SLAM框架中重新观察仅由其他机器人观察到的区域来减少其不确定性。在一个有趣的方法中，[83]中提出的方法使用了多个人形机器人多机器人系统（MRS）SLAM，其中每个机器人有两种独立和协作的工作模式。每个机器人有两个线程同时运行：a）运动线程和b）听线程。在运动线程期间，它将通过组织者（中央服务器）使用D* 路径规划器和基于强化学习（RL）和贪婪算法的控制策略计算的轨迹来导航环境。它还定期向组织者上传位姿。在听线程期间，它将从组织者（通过ORB-SLAM）接收其更新的姿态，并可能接收命令以帮助附近的其他机器人改进其定位（链式定位）。

勘探和开发任务

如A-SLAM前面所述，我们需要平衡勘探（最大化勘探区域）和开采（重新访问已勘探区域以闭合环路）的需求。在AC-SLAM中，还可以通过将机器人移动到另一个具有较少定位不确定性的机器人来实现开发。作者在[79]中将集中式AS-SLAM探测问题（使用基于边界的探测）描述为效率优化问题，其中信息增益和定位效率最大化，而导航成本受到惩罚。对于重新定位（开发）阶段，导出了一个函数，其中每个机器人被引导到一个已知的地标或另一个具有较少定位不确定性的机器人。定义了一个自适应的阈值标准，如果机器人陷入困境，该标准可由机器人调整以逃避探索和开发循环。为了管理有限的通信带宽（由于集中式架构），提出了一种会合方法，该方法在机器人超出通信范围时将机器人重新定位到预定位置。提出的未来工作涉及使用分布式控制方案。

[126]中描述的方法在拓扑几何空间（由原始几何形状表示的环境）中表述问题。最初，机器人被分配目标位置，探索基于frontier方法，并利用切换成本函数，该函数考虑到群的另一成员对机器人目标区域的发现。当目标位于机器人不相交的探索子空间内时，成本函数从边界转换为基于测地线（距离）的导航函数。

轨迹规划

在这些方法中，路径熵被优化以选择AC-SLAM的信息量最大的路径，并集体规划轨迹，以减少定位和地图的不确定性。在[81]中制定的方法中，该研究提出了一种分散的AC-SLAM方法，用于勘探行动的长期规划，并将估计不确定性保持在一定阈值。主动路径规划器使用RRT* 的修改版本，其中a）由于使用了非完整机器人，所以过滤掉了不可信的节点，b）选择了最佳地最小化每行进距离的熵变化的动作。熵估计作为两个阶段进行。首先，使用平方根信息滤波器（SRIF）更新计算短视野中的熵，并考虑机器人路径中环路闭合的减少来计算短视野的熵。这种方法的主要优点是它保持了良好的姿态估计，并鼓励环路闭合轨迹。通过与[82]提出的方法类似的方法，使用相对熵（RE）优化方法给出了一个有趣的解决方案，该方法将运动规划与机器人定位相结合，并选择最小化定位误差和相关不确定性界限的轨迹。计算了一个规划成本函数，其中除了状态和控制成本之外，还包括状态中的不确定性（EKF状态估计器的协方差矩阵的轨迹）。在一种有趣且计算成本较低的方法中，[73]中的作者使用基于支持向量机（SVM）的走廊生成和基于Bezier曲线的连续细化，以及D最优准则，共同规划轨迹，以减少基于偏序图的SLAM中的姿态不确定性。为了降低目标机器人的姿态不确定性，定义了一种出价策略，该策略基于最小计算成本、可行轨迹和资源友好准则来选择获胜机器人。

AC-SLAM 的统计分析

表3总结了主动协作SLAM中使用的传感器类型和描述。SLAM方法和路径规划方法也与出版年份一起介绍。可以得出结论，大多数主动和协作的SLAM文章使用

i）RGB、激光雷达和IMU传感器数据作为输入；

ii）姿态图和EKF SLAM是主要使用的方法；

iii）基于概率路线图的方法用于路径规划。

表4详细说明了分析、模拟和真实机器人实验以及环境类型、协作架构、协作参数、回环闭合和ROS框架。信息可以概括为

i）大多数文章提供了基于分析和模拟的结果，以及最多四个机器人的多机器人协作；

ii）使用了集中式和分散式协作架构；

iii）鼓励闭环，但ROS的使用受到限制。

4讨论和展望

论文重点介绍了A-SLAM和AC-SLAM方法及其在选定研究文章中的实现和方法应用。除了前面章节中介绍的定性和定量分析外，我们希望在以下章节中介绍A-SLAM问题的局限性和未来的研究领域。

当前方法的局限性

通用限制

这些限制可以被视为A-SLAM研究中持续存在的开放问题，可以进一步解释为：

停止标准：由于A-SLAM在计算上很昂贵，可以讨论[4]所讨论的停止标准，即何时停止勘探任务并切换到其他任务（如重新访问已勘探区域）的决定。TOED不确定性的量化可以作为一个有趣的停止标准，但这仍然是一个开放的研究问题；

稳健的数据关联：与SLAM不同，SLAM由内部控制器负责机器人动作，数据关联（测量值和相应地标之间的关联）对机器人动作的影响较小，在A-SLAM中，稳健的数据相关性指导控制器选择特征丰富的位置。这些良好特征/地标位置的鉴定可能很困难，尤其是在视距外测量中；

动态环境：与SLAM相反，在A-SLAM中，环境的性质（静态/动态）和障碍的性质（动态、静态）与计算未来行动的效用函数有着密切的关系。A-SLAM的大部分文献都涉及可能不适用于真实世界场景的静态环境和障碍；

模拟环境：当考虑基于DRL的方法时，模型训练受限于模拟环境，与深度学习方法相反，不能使用离线数据集。在具有高不确定性的真实世界场景中，训练的模型可能无法最佳地执行。

选定文献的局限性

调查文章中发现的一些见解包括：

a）对动态障碍的考虑有限，因为只有[39]和[34]考虑到了这些障碍；

b）计算复杂性和实时部署，因为只有[18]和[72]解决了这一问题；

c）参考前文和表2可以得出结论，回环任务和ROS的使用是有限的；

d）缺乏开源实现，因为只有[45]和[31]提供了开源解决方案，这一要求可能有助于研究人员重现结果；

e）在AC-SLAM中，没有一篇文章明确解决在使用最小带宽的同时管理鲁棒的机器人间和机器人服务器通信的问题；

f）涉及MPC和基于深度强化学习的导航的动态方法的使用有限。

未来展望

动态障碍物的检测和避免：对于在未知/部分已知环境中自主导航的机器人，必须能够检测、定位和避免动态障碍物。对于A-SLAM，静态和动态障碍回避机制非常重要，因为它代表了不确定性的传播，因此影响了系统的熵；

降低实时应用程序的计算复杂性：如前所述，TOED中的效用准则和相对熵计算都是计算量大的任务，因此限制了A-SLAM的实时性能。制定有利于实时性能的有效不确定性标准是一项具有挑战性的任务；

最优控制和DRL应用：应用最优和鲁棒控制策略有助于在连续域中制定机器人的动作空间，并可能提供最优解决方案。高度鼓励使用这些控制策略。DRL提供了一种替代的无模型解决方案，其中决策嵌入到网络中。Depp Q网络（DQN）和double-dueling（D3QN）是[26]和[42]使用的此类DRL方法的应用。

5结论

本文重点介绍了两种应用于同时定位和建图技术的新兴技术，即A-SLAM和AC-SLAM。论文首先回顾了A-SLAM问题及其正式表述，讨论了用于部署现代主动和协作SLAM的子模块和方法。论文对调查研究文章进行了广泛的定性和定量分析，并提出了研究领域和方法。最后强调了当前研究的局限性，并提出了一些需要注意的研究方向。

6参考

[1] Active SLAM: A Review On Last Decade

编辑：黄飞

标签：