計算機科學與技術學院管仁初教授等的論文“Deep feature-based text clustering and its explanation”将于2021年在IEEE Transactions on Knowledge and Data Engineering正式發表。論文的第一作者為管仁初教授,第二作者為管仁初教授指導的2017級碩士研究生張浩,通訊作者為豐小月副教授,⏭➰作者還有梁豔春教授、Fausto Giunchiglia教授和黃岚教授。
論文針對傳統文本聚類模型中缺失的結構和語序信息,提出了基于深度預訓練模型的聚類算法框架DFTC。在該框架中,作者将預訓練的文本編碼器整合到文本聚類任務中。實驗結果表明,該模型優于經典的文本聚類算法和流行的預訓練語言模型BERT。同時,針對深度學習方法的可解釋性問題,該研究工作還構建了一個解釋模型,該模型能夠幫助用戶理解聚類結果的含義和質量。
IEEE Transactions on Knowledge and Data Engineering是數據挖掘和知識工程領域頂級國際期刊(CCF A類期刊)。