ACM Knowledge Discovery and Data Mining (KDD 2021) 将于2021年8月14号線上舉行。伟德国际BETVlCTOR左萬利教授等的論文“Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition” 被Applied Data Science Track錄用。論文第一作者為左萬利教授的2019級博士生梁世甯,⏭➰者包括左萬利教授、2017級博士生左祥麟、微軟亞洲互聯網工程院NLP Group Applied Scientists: Ming Gong,Linjun Shou,Daxin Jiang,以及加拿大西蒙菲莎大學Jian Pei教授。
論文針對現有跨語言命名實體識别方法主要使用源語言數據和翻譯數據的局限性,提出充分利用目标語言的大規模無标簽數據提升遷移性能。作者基于半監督學習和強化學習方法,提出RIKD模型,首先通過在目标語言無标簽數據上疊代知識蒸餾,不斷獲得更高效的學生模型。其次,為了降低蒸餾過程中教師模型的推理錯誤和低質量數據帶來的噪聲,設計了一個基于強化學習的樣本選擇器,動态選擇信息量更大的樣本進行蒸餾。實驗結果表明,RIKD在基準數據集和内部數據集上顯著優于現有最優模型。
KDD是數據庫/數據挖掘/内容檢索領域頂級國際會議(CCF A類會議)。