当前位置:柔美女性网 >

绿色生活 >心理 >

ddpg算法优缺点

ddpg算法优缺点

ddpg算法优缺点

ddpg算法优点:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由于deterministic policy也确实是无偏的,是可以continuous control。DPG的actor是通过SGD去解max-Q的(而不是遍历),所以也能做continuous control。

缺点:第一点是deterministic policy,意味着不能很好的explore state Action space。

标签: 优缺点 算法 ddpg
  • 文章版权属于文章作者所有,转载请注明 https://rmnxw.com/lvse/xinli/1ln602.html