當房子越建越高時,就需要回過頭來看看地基是不是堅實。地基不穩(wěn),房子就很容易破裂,甚至有傾覆的危險。
中國科學(xué)院院士、北京大學(xué)教授張平文團隊最近在做的一件事,就可看成是給人工智能“大廈”夯實地基:為人工智能機器學(xué)習(xí)中常用的數(shù)學(xué)符號提供一個通用的標準。
人工智能作為一個高度交叉而又發(fā)展迅猛的學(xué)科,吸引了來自數(shù)學(xué)、物理、化學(xué)、生物甚至人文社科等不同領(lǐng)域的眾多研究人員,對于不同學(xué)科的研究人員來說,一個現(xiàn)實的問題就是如何消除交流障礙。統(tǒng)一數(shù)學(xué)符號等基礎(chǔ)性工作,看似簡單也算不上高深,卻是人工智能長遠發(fā)展的“地基”。
“算法、模型等人工智能的數(shù)理基礎(chǔ),目前還不是一個成熟的領(lǐng)域,但這也為廣大青年學(xué)者提供了更多創(chuàng)新機會?!痹谌涨芭e辦的2020北京智源大會上,張平文等專家圍繞人工智能下一個十年發(fā)展面臨的重大問題進行交流探討,呼吁加強人工智能數(shù)理基礎(chǔ)相關(guān)工作研究。
尚處起步階段,機遇挑戰(zhàn)并存
中國科學(xué)院院士、清華大學(xué)教授張鈸認為,第一代人工智能靠“知識驅(qū)動”,第二代人工智能靠“數(shù)據(jù)驅(qū)動”,目前進入第三代人工智能發(fā)展期,主要靠“認知驅(qū)動”?!罢J知驅(qū)動里面很重要的是‘深度學(xué)習(xí)’,前景廣闊,但仍需要做理論和方法等基礎(chǔ)性工作。”
在張平文看來,機器學(xué)習(xí)等深度學(xué)習(xí)理論也正是當前人工智能數(shù)理基礎(chǔ)研究的最熱門方向。雖然在第三次人工智能浪潮中,深度學(xué)習(xí)理論效果表現(xiàn)良好,但人們還不能理解它的可解釋性。
事實上,可計算性、可解釋性、泛化性、穩(wěn)定性,正是人工智能未來發(fā)展面臨的重大理論挑戰(zhàn)。例如“可解釋性”,“分兩個層面,一是從數(shù)學(xué)算法的角度如何解釋機器學(xué)習(xí)的問題,二是從數(shù)學(xué)模型的角度如何解釋。這些基礎(chǔ)性工作都有待深入研究?!睆埰轿恼f。
“機器學(xué)習(xí)是從數(shù)據(jù)中挖掘出有價值的信息。數(shù)據(jù)本身是無意識的,它不能自動呈現(xiàn)出有用的信息?!北本┐髮W(xué)長聘教授張志華說,“怎樣才能找出有價值的東西?首先要給數(shù)據(jù)一個抽象的表示,接著進行建模,然后進行計算。”
“機器學(xué)習(xí)想要實現(xiàn)的是直接從數(shù)據(jù)到?jīng)Q策、預(yù)測,這意味著它會出現(xiàn)很多新問題,而這些新問題都有賴于通過加強算法、模型等數(shù)理基礎(chǔ)研究來解決?!睆埰轿谋硎?這些研究無法在短時間內(nèi)解決,需要開展大量工作。
反過來,“人工智能數(shù)理基礎(chǔ)研究對數(shù)學(xué)發(fā)展也非常重要,我們期待未來可以產(chǎn)生類似于概率論一樣的新的數(shù)學(xué)方向,雖然短時間內(nèi)不太可能,但它仍然有這種可能性?!睆埰轿恼f。
為此,張平文鼓勵廣大青年學(xué)者投身人工智能數(shù)理基礎(chǔ)研究,“雖然它還不成熟,但別具活力,希望通過大家的努力使它變得更成熟,產(chǎn)多更多原創(chuàng)性成果”。
強化基礎(chǔ)研究,著眼落地應(yīng)用
機器學(xué)習(xí)相關(guān)知識涉及數(shù)學(xué)、概率統(tǒng)計、計算機理論等眾多學(xué)科,不同學(xué)科、不同流派所使用的數(shù)學(xué)記號和表述不盡相同,經(jīng)常發(fā)現(xiàn)看起來相去甚遠的兩個記號,可能表達的是同一個概念。在一個學(xué)科已經(jīng)得到公認的優(yōu)美簡單的記號,在另一個學(xué)科被重現(xiàn)發(fā)現(xiàn)、重新定義,而新定義的記號很可能遠不如已有的記號來得方便。
這給新進入此領(lǐng)域的科研人員和工程應(yīng)用人員造成了不少的潛在麻煩。北京大學(xué)教授李鐵軍說:“機器學(xué)習(xí)的普及,迫切呼喚一套統(tǒng)一的數(shù)學(xué)記號。它將大大減輕研究者閱讀論文時由不同符號體系造成的困擾。”
為人工智能研究提供一套統(tǒng)一的符號標準,這樣一項再基礎(chǔ)不過的工作,“就可以為不同領(lǐng)域的學(xué)者增進互相理解提供幫助。學(xué)者們在看其他領(lǐng)域文章的時候,也會很容易看懂?!睆埰轿暮粲鯇W(xué)者們要盡量采用同一套符號標準來寫論文,并為完善符號標準而努力。
也就是說,基礎(chǔ)研究要與應(yīng)用結(jié)合起來。“人工智能、大數(shù)據(jù)具有價值驅(qū)動,計算是人工智能的基礎(chǔ)理論,開展人工智能研究不能憑空想象,必須了解實際問題,考慮實際應(yīng)用。”張平文說。
北卡羅來納大學(xué)教堂山分校終身教授朱宏圖對此表示認同。他說:“人工智能領(lǐng)域的研究應(yīng)該從應(yīng)用角度出發(fā)?!?/p>
“人工智能的核心是如何收集數(shù)據(jù)來為用戶創(chuàng)造價值,提高用戶滿意度?!敝旌陥D認為,隨著收集數(shù)據(jù)的方法越來越多,頻率越來越高,為用戶提供相應(yīng)的方案也會越來越多?!斑@帶來了研究的新機遇?!?/p>
在將數(shù)據(jù)轉(zhuǎn)化為服務(wù)用戶的新方案時,“配準將會成為非常重要的數(shù)學(xué)問題?!敝旌陥D表示,為用戶提供更好的方案和服務(wù)環(huán)境,也需要加強算法、模型等數(shù)理基礎(chǔ)研究。
“人工智能數(shù)理基礎(chǔ)研究,一方面要強調(diào)它與應(yīng)用的連接,另一方面也應(yīng)該基于數(shù)學(xué)本身的基本問題開展研究?!崩铊F軍認為,雖然可能數(shù)理基礎(chǔ)的一些研究在當下跟應(yīng)用聯(lián)系不緊密,但有可能為我們提供一些最基本的數(shù)學(xué)語言,深化我們對人工智能數(shù)學(xué)結(jié)構(gòu)的認識。
產(chǎn)研“聯(lián)姻”協(xié)同,助推人工智能浪潮
張平文認為,加強不同領(lǐng)域間合作至關(guān)重要,學(xué)術(shù)界與產(chǎn)業(yè)界應(yīng)保持密切聯(lián)系?!皬哪撤N角度而言,企業(yè)擁有學(xué)術(shù)機構(gòu)缺乏的大數(shù)據(jù),只有學(xué)術(shù)界投入到產(chǎn)業(yè)界中,才能獲得靈感”。
“目前人工智能數(shù)理基礎(chǔ)研究主要有兩條路,一是從高維走向低維,二是從低維走向高維,但無論哪條路都存在困難?!睆埰轿恼f,“加強不同專業(yè)間交流特別重要。”
朱宏圖同時還擔(dān)任滴滴出行公司的首席統(tǒng)計學(xué)家。他表示,人工智能領(lǐng)域相關(guān)研究,數(shù)據(jù)在其中起著越來越重要的作用。滴滴出行等企業(yè)積累了豐富的數(shù)據(jù),是人工智能研究的重要基礎(chǔ)。“企業(yè)也希望加強與學(xué)校等機構(gòu)的合作?!?/p>
“比如我們在做材料設(shè)計時,也很需要用機器學(xué)習(xí)的方法,但在用機器學(xué)習(xí)方法的時候,并不能把現(xiàn)成的方法直接拿來用。材料設(shè)計需要有很強的物理學(xué)背景,這個時候,就需要把機器學(xué)習(xí)的模型和材料物理的模型結(jié)合起來?!痹谙愀劢髮W(xué)兼職教授季春霖看來,人工智能數(shù)理基礎(chǔ)研究需要產(chǎn)業(yè)和高校合作,而這樣的合作將會迎來更大空間。
據(jù)了解,在張平文領(lǐng)導(dǎo)下,目前北京智源人工智能研究院設(shè)立了“人工智能數(shù)理基礎(chǔ)”重大研究方向,聯(lián)合高校院所和產(chǎn)業(yè)界人士,致力于打破基于計算機實驗和神經(jīng)科學(xué)的人工智能的慣用建模范式,以可解釋性的新型人工智能模型、新型的機器學(xué)習(xí)算法、深度學(xué)習(xí)的基礎(chǔ)研究為研究內(nèi)容,建立以數(shù)學(xué)與統(tǒng)計理論為第一原理的新一代人工智能方法論。