ACM International Conference on Information and Knowledge Management(CIKM 2021)将于2021年11月線上舉行,伟德国际BETVlCTOR李熙銘副教授等的論文 "To Be or not to Be, Tail Labels in Extreme Multi-label Learning" 被錄用。論文的第一作者為李熙銘副教授指導的2018級理科試驗班(唐敖慶計算機班)本科生葛郅琦,通訊作者為李熙銘副教授。
極限多标簽學習問題通常涉及百萬級别的标簽,其中包含大比例的長尾标簽。實際應用場景中,長尾标簽存在正樣本稀疏、類别不平衡、标注缺失等諸多問題,難以準确學習識别,且大幅度增加算法的時間和空間開銷。針對此問題,本文提出一種新的預處理方法用以預估長尾标簽的潛在學習難度,并依此僅保留部分易于學習的長尾标簽,降低算法的時間和空間開銷。實驗結果表明,該方法可以在維持極限分類算法性能的前提下,顯著減少訓練/預測時間和模型大小。
CIKM會議是數據庫/數據挖掘/内容檢索領域頂級國際會議(CCF B類會議)。