论坛元老
- 威望
- 0
- 贡献
- 61
- 热心值
- 1
- 金币
- 3418
- 注册时间
- 2020-8-31
|
课程介绍:
强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.
课程目录:
一、简介
1.1 什么是 强化学习 (Reinforcement Learning)
1.2 强化学习方法汇总 (Reinforcement Learning)
1.3 为什么用强化学习 Why?
1.4 课程要求
二、Q-learning
2.1 小例子
2.2 什么是 Q Leaning
2.3 Q-learning 算法更新
2.4 Q-learning 思维决策
三、Sarsa
3.1 什么是 Sarsa
3.2 Sarsa 算法更新
3.3 Sarsa 思维决策
3.4 什么是 Sarsa(lambda)
3.5 Sarsa-lambda
四、Deep Q Network
4.1 什么是 DQN
4.2 DQN 算法更新 (Tensorflow)
4.3 DQN 神经网络 (Tensorflow)
4.4 DQN 思维决策 (Tensorflow)
4.5 OpenAI gym 环境库
4.6 Double DQN (Tensorflow)
4.7 Prioritized Experience Replay (DQN) (Tensorflow)
4.8 Dueling DQN (Tensorflow)
五、Policy Gradient
5.1 什么是 Policy Gradients
5.2 Policy Gradients 算法更新 (Tensorflow)
5.3 Policy Gradients 思维决策 (Tensorflow)
六、Actor Critic
6.1 什么是 Actor Critic
6.2 Actor Critic (Tensorflow)
6.3 什么是 Deep Deterministic Policy Gradient (DDPG)
6.4 Deep Deterministic Policy Gradient (DDPG) (Tensorflow)
6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)
6.6 Asynchronous Advantage Actor-Critic (A3C) (Tensorflow)
6.7 Distributed Proximal Policy Optimization (DPPO) (Tensorflow)
|
|