伟德国际BETVlCTOR王生生教授團隊的論文“Task-Oriented Multi-Modal Mutual Learning for Vision-Language Models”被ICCV 2023錄用。論文的第一作者為王生生教授的博士研究生龍思凡,王生生教授為通訊作者。
提示學習已經成為大型預訓練視覺語言模型适應下遊任務的最有效範式之一。當前最先進的方法傾向于采用軟提示來學習針對每個特定任務的适當提示。最近的SOTA方法通過圖像條件提示進一步提高了已知到未知類上的泛化性能。然而如我們的實驗所示,它直接将相同的圖像語義融合到不同标簽的提示中顯着削弱了不同類别之間的區分度。受這一觀察的啟發,我們首先提出了一種類感知文本提示,以利用與标簽相關的圖像信息來豐富生成的提示。與其他方法不同,類感知文本提示可以有效地關注圖像語義,并避免在不同的提示中引入額外的歧義。另一方面,我們不保留完整的圖像表示,而是提出文本引導特征調整以使圖像分支關注與類相關的表示。采用對比損失來在下遊任務上對齊此類增強的文本和圖像表示。 這樣,圖像到文本的類感知文本提示和文本到圖像的文本引導圖像提示可以相互促進,增強視覺語言模型對下遊任務的适應性。大量的實驗表明,我們的方法明顯優于現有方法。特别是,與目前SOTA方法相比,在 11 個分類基準上,我們在未知類别上平均提高了4.03%,在調和平均值上平均提高了3.19%。
ICCV全稱為國際計算機視覺大會(International Conference on Computer Vision),是人工智能領域頂級國際會議,也是計算機學會收錄的人工智能領域A類會議。ICCV 2023将于2023年10月4日至6日在法國巴黎舉辦。