伟德国际BETVlCTOR呂帥副教授等的論文“Regularly updated deterministic policy gradient algorithm”被人工智能領域重要國際期刊Knowledge-Based Systems(中科院一區)錄用。論文第一作者為呂帥副教授指導的2018級碩士生韓帥,通訊作者為呂帥副教授,其他作者為2017級博士生周文博、2019級碩士生于佳玉。
深度确定性策略梯度算法DDPG是最著名的強化學習方法之一,這類方法在實際應用中通常效率低下且不穩定,且其對Q值估計的偏差和方差有時會難于控制。本文針對上述問題提出了一種定期更新的确定性策略梯度算法RUD(regularly updated deterministic policy gradient)。本文從理論上證明了RUD的學習過程使RUD可以比傳統方法更好地利用經驗池中的新數據。此外,RUD中Q值的低方差更适合于當前流行的Clipped Double Q-learning策略。本文設計了在Mujoco環境下的對比實驗、消融實驗,以及其它的分析實驗。實驗結果驗證了RUD的有效性和優越性。