您當前位置: 首頁  >  新聞中心  >  伟德新聞  >  正文

伟德新聞

碩士生路笳藝和韓帥在人工智能領域取得研究進展

發布日期:2022-07-01 發布人: 點擊量:

  伟德国际BETVlCTOR呂帥副教授等人的論文“Sampling Diversity Driven Exploration with State Difference Guidance”(狀态差異指導、采樣多樣性驅動的探索)被人工智能領域重要國際期刊Expert Systems with Applications(中科院1區)錄用。論文第一作者為呂帥副教授指導的2019級碩士生路笳藝,其他作者為2018級碩士生韓帥、2020級碩士生康勐、2020級碩士生張峻偉,通訊作者為呂帥副教授。

  探索是深度強化學習的關鍵,尤其是在帶有稀疏獎勵或欺騙性獎勵的環境中。基于内在獎勵的探索可以應對這些環境,但是現有方法很少同時考慮全局交互動态和局部環境變化。本文提出了一種用于離策略學習的内在獎勵,不僅從全局視角鼓勵智能體執行尚未被完全學習的動作,還從局部視角指導智能體觸發顯著的環境變化。本文還提出了将内在獎勵與外在獎勵相結合的雙行動者-雙評論家(double-actors-double-critics)框架,該框架可應用于基于行動者-評論家方法的離策略學習算法。在MuJoCo基準環境中對本文方法進行了全面評估,同時對内在獎勵進行了充分的消融實驗和量化分析。實驗結果表明:本文方法可以在帶有密集獎勵、稀疏獎勵和欺騙性獎勵的環境中進行有效的探索,同時也驗證了雙行動者-雙評論家框架的優越性和合理性。


  伟德国际BETVlCTOR呂帥副教授等人的論文“NROWAN-DQN: A Stable Noisy Network with Noise Reduction and Online Weight Adjustment for Exploration”NROWAN-DQN:利用降噪和在線權重調整得到穩定的用于探索的噪聲網絡)被人工智能領域重要國際期刊Expert Systems with Applications(中科院1區)錄用。論文第一作者為呂帥副教授指導的2018級碩士生韓帥,其他作者為2017級博士生周文博、2019級碩士生路笳藝、2018級碩士生劉京,通訊作者為呂帥副教授。

  深度強化學習的應用越來越廣泛,尤其是在各種複雜的控制任務中。噪聲對強化學習的探索至關重要,合适的噪聲不僅可以避免由于缺乏探索而導緻的局部最優解,還可以防止過度擾動導緻的學習不穩定。噪聲網絡可以為強化學習帶來更有效的探索,使智能體可以在訓練開始時更随機地選取動作,在随後的學習過程中産生穩定的輸出。然而,這種趨勢也不意味着總能為智能體找到穩定的策略,反而降低了效率和穩定性。為了解決上述問題,本文提出了NROWAN-DQN,即兼具降噪和在線權重調整的NoisyNet-DQN。本文為NoisyNet-DQN設計了新的噪聲正則化方法,以降低輸出層的噪聲,設計了一種在線權重調整策略。在四個标準測試域中對算法進行了評估,并分析了超參數的性質。實驗結果表明:NROWAN-DQN在所有測試域表現優異,同時具有更好的穩定性。NROWAN-DQN的獎勵方差顯著降低,尤其是在動作敏感的環境中,這意味着在某些需要高穩定性的環境中,NROWAN-DQNNoisyNet-DQN更合适。


Baidu
sogou