这篇 AI 论文介绍了一种名为 PALMER 的通用规划算法,它结合了经典的基于采样的规划算法和基于学习的感知表示。
动物和人类都使用高维输入(例如视力)来实现各种与生存相关的目标。 这是学习的关键部分。 即使在最小的情况下,通过为每个可能的目标执行每个操作来进行试错的蛮力方法也是行不通的。 搜索的难度是基于记忆的组合方法的动机。 这些过程可以包括回忆以前经验的相关部分的能力,(ii),将这些重新组合成新的反事实计划,(iii),并在有针对性的搜索中执行这些计划。 与随机抽样每个动作相比,这些技术可以加快试错过程。 这样做的原因是现实世界目标的内在组成结构和支配现实世界设置的物理定律的相似性允许相同的行为对多种目的和情况有效。 什么原则指导记忆过程保留和重组经验片段。 这场辩论与动态规划 (DP) 的概念密切相关,其中优化原则降低了计算试错的成本。 非正式地,这个想法可以表示为将以前解决的子问题重组为新的复杂问题。
最近,这种观点被用于创建实现目标的分层强化学习 (RL) 算法。 这些技术使用距离回归模型在规划图上开发状态之间的边,然后使用基于 DP 的搜索计算图中的最短路径,然后使用基于学习的策略来遵循这些最短路径。 他们撰写的论文推进了这一研究领域。 他们的贡献总结如下:他们提出了一种长期规划策略,该策略直接基于智能体自身可以看到的高维传感器数据(例如来自机载摄像头的图像)。 他们的解决方案将传统的基于采样的算法与基于学习的感知描述相结合,以恢复和重新组合先前记录在回放缓冲区中的状态转换。
这是通过两步法实现的。 他们首先学习潜在空间,其中状态之间的距离用于确定最佳策略从一个状态移动到另一个状态所需的时间步数。 Q 值是通过重新标记离线获取的。 他们用它们来了解对比表示。 该潜在距离度量用于建立状态之间的邻域标准。 然后,他们设计了基于采样的算法来扫描重放缓冲区,寻找轨迹段——之前记录的一系列转换——其末端处于相邻状态。
来源和详细信息:
https://www.marktechpost.com/2022/12/14/this-ai-paper-introduces-a-general-purpose-planning-algorithm-called-palmer-that-combines-classical-sampling-based-planning-algorithms-with-learning-based-perceptual-representations/