Deep Reinforcement Learning

Module 2

Policy Gradient Algorithms

VPG, TRPO, and PPO — the on-policy family of algorithms that directly optimize the policy objective.

3 readings 1 quiz 1 lab

Readings

Vanilla Policy Gradient (VPG)

Trust Region Policy Optimization (TRPO)

Proximal Policy Optimization (PPO)

Quizzes

On-Policy Algorithms Quiz

6 questions · 70% to pass

Labs

VPG & PPO in PyTorch