DeepMind 研究人员创建“BYOL Explore”:一种由好奇心驱动的探索算法,利用自监督学习来解决稀疏奖励、部分可观察的任务
DeepMind 研究人员创建了“BYOL Explore”,这是一种由好奇心驱动的探索算法,利用自监督学习来解决稀疏奖励部分可观察的任务
强化学习 (RL) 需要探索环境。 当外在奖励很少或难以获得时,探索变得更加重要。 由于环境广阔,不可能在丰富的环境中探索每个区域。 那么问题就变成了:代理如何确定环境中的哪些区域值得调查? 好奇心驱动的探索是解决这个问题的一种可行方法。 这涉及学习世界模型,该模型预测有关宇宙的特定知识,以及 (ii) 利用预测和经验之间的差异来创造内在奖励。
最大化这些内在动机的 RL 智能体会将自己引向世界模型不可靠且不令人满意的情况。 这为世界模型创建了新路径。 探索策略的质量会受到世界模型特征的影响,然后通过收集新信息来帮助世界建模。 将学习世界模型和探索性策略视为必须解决的单一问题而不是两个单独的任务可能很重要。 Deepmind 的研究人员考虑到了这一点,并开发了一种名为 BYOL Explore 的好奇心驱动算法。 它的吸引力源于概念的简单性、通用性和出色的性能。
该策略基于 Bootstrap Your Own (BYOL),这是一种自我监督的潜在预测方法,可预测潜在表示的旧版本。 BYOL Explore 使用自我监督的损失预测来学习世界模型,然后使用相同的损失来训练好奇心驱动的策略。 这种引导方法已成功用于计算机视觉、图形表示学习和 RL 表示学习。 另一方面,BYOL Explore 更进一步,不仅学习灵活的世界模型,而且利用其损失来激发探索。
来源和详细信息: