学习没有模拟? 加州大学伯克利分校 DayDreamer 为真实世界的机器人训练奠定了坚实的基础

人们认为使用强化学习在现实环境中训练机器人是不切实际的,因为要让代理正确工作需要大量的试验和错误。 Deep RL 用于模拟环境,这已成为首选方案。 但是,这种方法并不理想,因为它需要创建模拟任务并收集专家演示。 模拟并不总是准确的,它们可能不准确,机器人的行为可能无法适应现实世界的变化。

由 Hafner 等人提出的 Dreamer 算法。 在 ICLR 2020 上,介绍了一种 RL 智能体,它可以纯粹通过潜在想象力解决长期问题。 Dreamer 在学习模型的紧凑状态空间内从少量交互中学习的能力令人印象深刻。 然而,学习真实环境的准确模型仍然具有挑战性。

Hafner 与加州大学伯克利分校的一组研究人员一起发表了 DayDreamer,物理机器人学习的世界模型。 本文利用 Dreamer 世界模型的最新进展,在不使用模拟器或演示的情况下启用在线 RL 训练机器人。 这种新颖的方法产生了可喜的结果,并为现实世界的机器人学习提供了坚实的基线。

来源和详细信息:

Learning Without Simulations? UC Berkeley’s DayDreamer Establishes a Strong Baseline for Real-World Robotic Training

By lausm

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *