徐昊教授團隊的論文“Toward Zero-shot Character Recognition: A Gold Standard Dataset with Radical-level Annotations”被ACM MM 2023錄用。論文的第一作者為意大利特倫托大學與伟德国际BETVlCTOR聯合培養的2020級博士生刁曉蕾,由Fausto Giunchiglia教授和徐昊教授共同指導。通訊作者為徐昊教授和考古學院 古文字團隊李春桃教授,其他作者還包括計算機學院,人工智能學院和考古學院的博士生和碩士生。
甲骨文作為現代漢字的源頭,是中華文化的瑰寶。甲骨文識别和破譯作為古文字研究中重要的部分,對中華文化的理解和傳承具有重要價值。但由于字符使用頻率的不同,甲骨文的數據分布具有顯著不平衡的特點,這對甲骨文相關研究帶來了挑戰。零樣本字符識别任務考慮了數據分布不平衡的問題,為真實的甲骨文研究場景提供了一個可行的解決方案。針對甲骨文的特殊性,結合古文字專業知識,本文構建了一個同時包含部首級和字符級注釋的甲骨文圖像數據集,稱為ACCID,通過提供真實世界中的具有顯著類别分布不平衡和小樣本問題的甲骨文字符圖像,為上述方法的評估提供了一個新的基準。該數據同時含有甲骨文的字符級和部首級注釋,其中部首級注釋包括部首類别、部首位置、結構關系。 為了提高 ACCID 的适應性,提出了一種基于拼接的合成字符算法來擴充訓練樣本,并應用圖像去噪方法來提高圖像質量。在充分吸收專家考釋古文字方法的基礎上,本文提出了一種基于字符分解和重組的零樣本字符識别的基線方法,用以對所提出的數據集進行評估。實驗結果定量和定性地證明了所提出的基準ACCID的高質量和基線模型的有效性。
ACM MM 全稱為國際多媒體大會(ACM International Conference on Multimedia),是多媒體領域頂級國際會議,也是計算機學會收錄的計算機圖形學與多媒體領域A類會議。ACM MM 2023将于2023年10月29日至11月3日在加拿大渥太華舉辦。