新華社北京11月21日電(記者魏夢佳)近年來,AI的發(fā)展遵循著一個(gè)簡單直接的規(guī)則——模型越大、能力越強(qiáng)。這個(gè)被稱為“規(guī)模法則”的路徑,催生了今天我們看到的各種強(qiáng)大的AI大模型。但同時(shí),隨著模型參數(shù)量的增大,模型訓(xùn)練的成本、使用的成本也隨之飆升,一定程度上制約了大模型的產(chǎn)業(yè)應(yīng)用進(jìn)程。
清華大學(xué)的一項(xiàng)最新研究成果——大模型“密度法則”20日在國際期刊《自然·機(jī)器智能》上作為封面文章發(fā)表,為AI發(fā)展指出了一個(gè)新方向:AI大模型變強(qiáng),不應(yīng)只靠“體型”,更要靠“密度”。
圖為刊載清華成果的《自然·機(jī)器智能》封面圖。新華社發(fā)
“過去,我們往往關(guān)心一個(gè)AI模型的‘塊頭’有多大,即參數(shù)量有多大,其實(shí)我們更應(yīng)該關(guān)心模型的‘能力密度’,即每個(gè)單位的參數(shù)能展現(xiàn)出的智能水平?!闭撐牡谝蛔髡?、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系助理研究員肖朝軍說,“這就好比評(píng)價(jià)一個(gè)武林高手,不是看他塊頭有多大,而是看他一招一式里蘊(yùn)含了多少功力?!?/p>
研究人員表示,實(shí)現(xiàn)這樣的“能力密度”,不能靠“模型壓縮”。研究發(fā)現(xiàn),強(qiáng)行壓縮一個(gè)大模型,就像是把一本厚厚的字典強(qiáng)行塞進(jìn)小本子里,很多內(nèi)容會(huì)丟失,導(dǎo)致“智力”下降,因此需要采用更先進(jìn)的“數(shù)據(jù)+算力+算法”體系,才能培養(yǎng)出“高密度”的精干小模型。
通過研究過去幾年發(fā)布的51個(gè)開源大模型,研究人員發(fā)現(xiàn):AI大模型的“能力密度”正以指數(shù)級(jí)速度增長,大約每3.5個(gè)月就翻一倍。
這意味著什么?打個(gè)比方,如果今天我們需要一個(gè)體育館大小的“大腦”才能完成某項(xiàng)復(fù)雜任務(wù),那么約3個(gè)半月后,我們只需要一個(gè)客廳大小的“大腦”就夠了;再過3個(gè)半月,這個(gè)“大腦”可能只需要一個(gè)背包大小。
圖為清華大學(xué)與面壁智能開發(fā)的“高密度”端側(cè)模型應(yīng)用于機(jī)器人。新華社發(fā)
據(jù)了解,目前,清華大學(xué)已與AI企業(yè)面壁智能的團(tuán)隊(duì)合作推出了系列“高密度”模型,已應(yīng)用于手機(jī)、汽車、智能家居等生活領(lǐng)域。
“AI模型不是越大越好,‘精煉’‘高效’是其未來發(fā)展的方向?!毙こ娬f,強(qiáng)大的AI大模型在未來將會(huì)更廣泛地在手機(jī)、電腦、汽車等終端上運(yùn)行。當(dāng)芯片的計(jì)算能力和AI的智能密度這兩條快車道交匯時(shí),“端側(cè)智能”的時(shí)代或?qū)砼R。屆時(shí),個(gè)人設(shè)備有望擁有前所未有的智能,不僅反應(yīng)更快,還能更好地保護(hù)個(gè)人隱私。