中國日?qǐng)?bào)10月31日電(記者 李夢(mèng)涵)在人工智能深度賦能科學(xué)研究的浪潮中,如何高效、準(zhǔn)確地將海量非結(jié)構(gòu)化科學(xué)文獻(xiàn)轉(zhuǎn)化為可計(jì)算、可推理的結(jié)構(gòu)化知識(shí),已成為“人工智能+科學(xué)”亟待突破的核心問題之一。傳統(tǒng)光學(xué)字符識(shí)別(OCR)技術(shù)雖在通用文本場景中表現(xiàn)成熟,但在面對(duì)科學(xué)文獻(xiàn)——尤其是包含復(fù)雜公式符號(hào)、專業(yè)圖表、多模態(tài)排版與跨學(xué)科術(shù)語的學(xué)術(shù)論文時(shí),存在識(shí)別錯(cuò)誤、結(jié)構(gòu)邏輯丟失、輸出格式單一等問題,難以支持科研自動(dòng)化、知識(shí)圖譜構(gòu)建、智能問答等下游任務(wù)的發(fā)展。
針對(duì)這一關(guān)鍵挑戰(zhàn),中國科學(xué)院自動(dòng)化研究所“AI+科學(xué)”研究團(tuán)隊(duì)近日正式推出新一代科學(xué)文獻(xiàn)解析工具——磐石·科學(xué)文獻(xiàn)解析器(S1-Parser)。該工具從底層算法出發(fā),通過構(gòu)建面向科學(xué)語義理解的多模態(tài)訓(xùn)練體系與強(qiáng)化學(xué)習(xí)機(jī)制,在公式、文本、圖表等多元素協(xié)同解析上實(shí)現(xiàn)質(zhì)的飛躍,為全球科研工作者提供真正“懂科學(xué)”的智能解析引擎。
科學(xué)文獻(xiàn)的識(shí)別不僅是字符的還原,更是語義結(jié)構(gòu)的重建。為此,團(tuán)隊(duì)摒棄了僅依賴通用視覺語言大模型的思路,轉(zhuǎn)而構(gòu)建一套專為科學(xué)文獻(xiàn)場景量身定制的算法訓(xùn)練范式。其核心在于三大技術(shù)支柱:全場景覆蓋的科學(xué)數(shù)據(jù)構(gòu)建、多模態(tài)監(jiān)督微調(diào)策略,以及面向科學(xué)文獻(xiàn)語義的強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)制。
在數(shù)據(jù)層面,團(tuán)隊(duì)系統(tǒng)性地采集并構(gòu)建了覆蓋三大典型科學(xué)書寫形態(tài)的訓(xùn)練語料:手寫體、數(shù)字排版體與紙質(zhì)掃描體。手寫體數(shù)據(jù)涵蓋不同學(xué)者的筆跡風(fēng)格、連筆習(xí)慣與輕微涂改等真實(shí)場景;數(shù)字排版體數(shù)據(jù)橫跨數(shù)學(xué)、物理、天文、工程、生物、計(jì)算機(jī)等多個(gè)學(xué)科,包含大量嵌套公式、特殊符號(hào)與復(fù)雜排版;紙質(zhì)掃描體數(shù)據(jù)則兼顧高清與低質(zhì)量樣本,模擬實(shí)際掃描或拍照中可能出現(xiàn)的模糊、傾斜、低分辨率等情況。所有數(shù)據(jù)均經(jīng)過嚴(yán)格去噪、標(biāo)準(zhǔn)化標(biāo)注與格式對(duì)齊,并通過均衡采樣策略確保模型在多樣場景下的泛化能力。這一“全形態(tài)、多學(xué)科、高質(zhì)量”的數(shù)據(jù)基礎(chǔ),為模型理解科學(xué)表達(dá)的復(fù)雜性提供了堅(jiān)實(shí)支撐。
在模型訓(xùn)練階段,團(tuán)隊(duì)采用兩階段優(yōu)化策略。首先,通過多模態(tài)有監(jiān)督微調(diào),使模型初步掌握文本、公式、表格、插圖等異構(gòu)元素的聯(lián)合表征能力。在此基礎(chǔ)上,引入一種面向科學(xué)文獻(xiàn)語義的梯度強(qiáng)化學(xué)習(xí)策略優(yōu)化框架。不同于傳統(tǒng)以字符準(zhǔn)確率為導(dǎo)向的訓(xùn)練目標(biāo),該強(qiáng)化學(xué)習(xí)策略優(yōu)化框架專門設(shè)計(jì)了三重科學(xué)導(dǎo)向的獎(jiǎng)勵(lì)信號(hào):公式語法正確性、符號(hào)完整性與結(jié)構(gòu)合理性。通過強(qiáng)化學(xué)習(xí)優(yōu)化算法持續(xù)優(yōu)化這些獎(jiǎng)勵(lì)信號(hào),模型不僅“看得清”,更能“理解對(duì)”,生成的公式在語義層面高度可靠,可直接用于符號(hào)計(jì)算、定理驗(yàn)證等高階任務(wù)。
研發(fā)團(tuán)隊(duì)在多個(gè)科學(xué)文獻(xiàn)數(shù)據(jù)集上開展了系統(tǒng)評(píng)測,磐石·科學(xué)文獻(xiàn)解析器在篇章級(jí)解析、公式專項(xiàng)識(shí)別等任務(wù)中均展現(xiàn)出了國際領(lǐng)先水平。
為了更好滿足科研需求,磐石·科學(xué)文獻(xiàn)解析器的輸出不僅包含高精度的文本與公式識(shí)別結(jié)果,還支持 JSON、Markdown 等結(jié)構(gòu)化格式輸出,可無縫對(duì)接知識(shí)抽取、文獻(xiàn)重排版、智能問答等下游應(yīng)用。目前,磐石·科學(xué)文獻(xiàn)解析器(V1.0)已正式開源,并作為核心組件集成于“磐石·科學(xué)基礎(chǔ)大模型”(ScienceOne),服務(wù)全球科研社區(qū)。下一步,研究團(tuán)隊(duì)將持續(xù)拓展其對(duì)多模態(tài)科學(xué)內(nèi)容的解析能力,并推動(dòng)構(gòu)建開放、協(xié)作的科學(xué)智能生態(tài)。