ddpg算法优缺点
- 心理
- 关注:1.92W次
ddpg算法优点:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由于deterministic policy也确实是无偏的,是可以continuous control。DPG的actor是通过SGD去解max-Q的(而不是遍历),所以也能做continuous control。
缺点:第一点是deterministic policy,意味着不能很好的explore state Action space。
- 文章版权属于文章作者所有,转载请注明 https://rmnxw.com/lvse/xinli/1ln602.html