科技日報記者 崔爽
來自Google的Gemini 3模型掀起新一輪的多模態技術浪潮,“讀圖”與“長文本理解”成為衡量AI智商的重要標準。然而,作為連接圖像與文本的“橋梁”,傳統的CLIP(對比語言-圖像預訓練)模型在面對復雜、多細節的長文本描述時卻常出現一個問題:描述越豐富,圖文匹配反而越差。
近日,中國聯通數據科學與人工智能研究院在這一領域取得重要進展,提出全新視覺語言對齊框架HiMo-CLIP,通過創新性建模語義層級與單調性,在不修改編碼器架構的前提下,實現了長文本、短文本場景的全維度性能突破。相關論文已入選國際權威人工智能會議AAAI 2026 Oral。
據介紹,傳統CLIP模型在處理文本時,往往把句子當作“一鍋粥”,不能在復雜的上下文中捕捉到最具區分度的特征。這將導致兩個典型問題:語義層級和語義單調性的缺失。
為了讓AI“越來越懂”,HiMo-CLIP提出兩個核心組件,即層次化解構(HiDe)、單調性感知對比損失(MoLo),讓模型具備了“分層理解”和“越詳細越匹配”的能力。
HiMo-CLIP的提出標志著多模態學習從“扁平化”向“結構化”的重要轉變。正如論文中所說:“對齊跨模態表示的多個語義抽象層次,對符合認知的視覺-語言理解至關重要?!边@一突破不僅提升了長文本檢索性能,更為AI系統理解人類語言的豐富層次結構鋪平了道路,讓機器真正“看懂”我們描述的世界。
據了解,中國聯通數據科學與人工智能研究院將持續深化多模態對齊技術的創新與應用,攻克多模態理解中復雜語義結構建模的關鍵環節,讓具備認知一致性的AI模型在智能客服、醫療影像分析等更多場景中發揮核心價值,推動多模態智能技術向更智能、更可靠、更貼近人類認知的方向發展。