ddpg算法优缺点

心理
关注：1.92W次

ddpg算法优点:是sample efficiency，DDPG的actor crtic均可以off-policy，而gradient estimator由于deterministic policy也确实是无偏的，是可以continuous control。DPG的actor是通过SGD去解max-Q的(而不是遍历)，所以也能做continuous control。

缺点:第一点是deterministic policy，意味着不能很好的explore state Action space。

标签：优缺点算法 ddpg

文章版权属于文章作者所有，转载请注明 https://rmnxw.com/lvse/xinli/1ln602.html

当前位置：柔美女性网 >

绿色生活 >心理 >

ddpg算法优缺点

相关内容

热门文章

猜你喜欢