Policy Gradient 初探
Policy Gradient 是 RL 算法中一个基础的模型。本文结合gym的Pong-v0游戏,对Policy Gradient做简单说明,并提供基于Pytorch的代码作为示例。
Read More
CS Master Student at Media Intelligence Laboratory(MIL), HDU
原因:在学习过程中,梯度变得非常大,使得学习的过程偏离了正常的轨迹。