呂帥副教授指導的伟德国际BETVlCTOR2018級碩士生韓帥同學的論文“Recruitment-imitation mechanism for evolutionary reinforcement learning”被數據挖掘領域重要國際期刊Information Sciences(CCF-B)錄用。論文第一作者為呂帥副教授,第二作者為2018級碩士生韓帥,其他作者為2017級博士生周文博、2020級碩士生張峻偉。
強化學習、進化算法和模仿學習是處理連續控制任務的三種主要方法。強化學習具有較高的樣本效率,但對超參數設置敏感,需要有效地探索;進化算法穩定,但樣本效率較低;模仿學習具有較好的樣本效率和穩定性,但需要專家數據的指導。本文提出了進化強化學習的招募-模仿機制RIM(recruitment-imitation mechanism),是一種結合了上述三種方法優勢的可擴展框架。該框架的核心是一個雙行動者、單評論家的強化學習Agent。該Agent從種群中招募高适應度的個體,指導自身從經驗池中學習。同時,種群中低适應度的個體模仿強化學習Agent的行為模式,提高其适應度。RIM框架中的強化學習和模仿學習可以分别使用任意離策略的行動者-評論家型強化學習和數據驅動的模仿學習替代。本文利用Mujoco的若幹連續控制任務評估RIM框架。實驗結果表明:RIM優于以往的進化學習和強化學習方法。RIM的組件性能明顯優于以往進化強化學習算法的組件,采用軟更新的招募方式使強化學習Agent的學習比硬更新的方式更快。