机器学习课程:强化学习——完整教程
这不是用于击败 GO、DOTA 或国际象棋的 AI 技术。 这意味着您不仅要根据数十亿个句子生成单词,而且还要计划击败真实游戏对手的行动。 它也是免费的。
机器学习包括强化学习领域,它涉及采取正确的行动以最大化奖励。 这个完整的教程将为您提供核心强化学习主题的坚实基础。
课程涵盖SARSA、Q学习和SARSA双学习。 它还包括深度 Q 学习。 这些算法可用于许多不同的环境,例如太空入侵者和突围。 Tensorflow、PyTorch 和 PyTorch 用于深度学习部分。
该课程从策略梯度和深度 q 学习等现代算法开始,然后展示强化学习的力量和有效性。
然后,本课程教授所有强化学习算法的基本概念。 该课程通过编写一些在深度学习之前开发但仍然是尖端技术基础的算法来说明这些概念。 然后在更传统的 OpenAI 环境中研究它们,例如车杆问题。
代码:https://github.com/philtabor/Youtube-Code-Repository/tree/ma…ntLearning。
课程内容
(00:00:00) 介绍。
(00:01:30) 深度 Q 学习简介。
如何在 Tensorflow 中编写深度 Q 学习代码。
使用 Pytorch 进行深度 Q 学习:第 1 部分:Q 网络。
深度 Q 学习第 2 部分:编码代理。
深度 Q 学习部分与 Pytorch (01:28.54)。
01:46:39 策略梯度介绍 3:编写主循环
如何使用策略梯度击败月球着陆器 (01:55)
如何使用策略梯度击败太空入侵者。
如何创建自己的强化学习环境第 1 部分。
如何创建自己的强化学习环境第 2 部分。
强化学习基础 (03:08-20)
(03:17:09) 马尔可夫决策过程。
探索利用困境 (03:23.02)。
萨萨
双 Q 学习:Open AI Gym 中的强化学习。
(03:54:07) 结论。
Phil 的机器学习课程。 查看他的 YouTube 频道:https://www.youtube.com/channel/UC58v9cLitc8VaCjrcKyAbrw。
来源和详细信息: