最近,谷歌旗下的DeepMind公司在Nature上發(fā)表論文宣布使用其開發(fā)的人工智能程序AlphaFold 2將人類98.5%的蛋白質(zhì)預(yù)測了一遍,并決定公開AlphaFold 2的源代碼,免費(fèi)開源有關(guān)數(shù)據(jù)集,供全世界科研人員使用。這一突破性進(jìn)展立刻受到全世界的廣泛關(guān)注和積極反響,中國科學(xué)院院士施一公認(rèn)為“AlphaFold 2是人工智能對科學(xué)領(lǐng)域最大的一次貢獻(xiàn),也是人類在 21 世紀(jì)取得的最重要的科學(xué)突破之一”。
那么,AlphaFold算基礎(chǔ)研究嗎?
對此,中國工程院院士李國杰將AlphaFold歸為工程科學(xué)技術(shù)——“工程科學(xué)技術(shù)不只是工具,也不僅僅是基礎(chǔ)研究成果的應(yīng)用,而是在基礎(chǔ)研究中可以發(fā)揮巨大作用的重要組成部分”。
筆者對于李國杰的這個論述特別有共鳴,同時個人對基礎(chǔ)研究有以下幾個觀點(diǎn),謹(jǐn)為拋磚引玉。
選擇合適的“基礎(chǔ)研究”的定義
科研有其自身的規(guī)律與法則,如果不按規(guī)律辦事,就會事倍功半。那么,基礎(chǔ)研究有什么規(guī)律?事實(shí)上,對于基礎(chǔ)研究不同的定義反應(yīng)了不同角度的認(rèn)知,對應(yīng)的具體實(shí)施方式也不同??偟膩碚f,過去幾十年主要有兩種對基礎(chǔ)研究的定義:
其一,Vannevar Bush在線性模型下定義基礎(chǔ)研究和應(yīng)用研究,這種模式就把基礎(chǔ)研究看作是一個知識儲備池,是技術(shù)進(jìn)步的源泉。在這種定義下,基礎(chǔ)研究的作用是產(chǎn)生知識,不需要考慮和具體技術(shù)的關(guān)系,因此在實(shí)施層面,“廣撒網(wǎng)”可能是最有效的產(chǎn)生多樣化知識的方式。
其二,Donald E. Stokes通過四個象限來定義不同的研究類型,Stokes把基礎(chǔ)研究分為純粹基礎(chǔ)研究(玻爾象限)與“由應(yīng)用驅(qū)動的”基礎(chǔ)研究(巴斯德象限)。在實(shí)施層面,波爾象限和線性模型下的基礎(chǔ)研究基本一致。而巴斯德象限中,要用尖端的基礎(chǔ)科學(xué)研究來解決迫切、強(qiáng)烈且巨大的現(xiàn)實(shí)需求;在實(shí)踐時,通過解決實(shí)際問題“倒逼”科研人員把一些應(yīng)用問題的底層原理搞清楚。
筆者更青睞Stokes的四象限模型。在筆者看來,“把問題的底層原理搞清楚”就是基礎(chǔ)研究。其實(shí)波爾象限與巴斯德象限在具體科研實(shí)踐時其實(shí)是一樣的,就是“把問題的底層原理搞清楚”,只是問題的來源有所不同而已。
波爾象限的問題來源主要來自學(xué)科自身,如為什么會有量子糾纏現(xiàn)象;而巴斯德象限的問題來源主要來自現(xiàn)實(shí)應(yīng)用,如牛奶如何保鮮。從“把問題的底層原理搞清楚”這個角度來看,只要能提出一些未解的問題,那就有潛力做出好的基礎(chǔ)研究工作。
要高度重視自研科研基礎(chǔ)設(shè)施
我們可能都有一個體會,科技攻關(guān)時“第一次”往往特別困難,比如第一架飛機(jī)、第一顆原子彈、第一顆人造衛(wèi)星、第一款CPU、第一次火星登陸等等。哪怕曾經(jīng)有其他國家實(shí)現(xiàn)過,另一個國家要實(shí)現(xiàn)“第一次”依然很艱難。
為什么?這主要因為這些“第一次”輸出的不僅僅是一款原型系統(tǒng),還包含背后一套研制該原型系統(tǒng)的技術(shù)流程以及相應(yīng)的平臺、材料、試劑、設(shè)備、儀器等,也就是科研基礎(chǔ)設(shè)施。這些科研基礎(chǔ)設(shè)施的作用正是“把問題的底層原理搞清楚”,比如為研制飛機(jī)建設(shè)的風(fēng)洞,研制CPU需要有高精度的仿真器和模擬器。即使在物理、化學(xué)、天文等領(lǐng)域的基礎(chǔ)研究,現(xiàn)在也都離不開各種尖端設(shè)備和儀器,像研究核聚變的EAST托卡馬克裝置、研究天文的FAST望遠(yuǎn)鏡等。
在筆者從事的CPU芯片設(shè)計領(lǐng)域,很多人都看作是純粹的工程技術(shù),認(rèn)為這里面沒有基礎(chǔ)研究。但在筆者看來,能把CPU設(shè)計空間中一些問題的底層原理搞清楚,就是基礎(chǔ)研究。
舉個例子,蘋果最近推出的M1處理器性能甚至超越Intel的桌面處理器,這得益于Ml采用了約600項ROB,這完全顛覆了傳統(tǒng)CPU架構(gòu)設(shè)計人員的觀念,因為以往CPU的ROB一般都不超過200項。也許用反向工程思維,可以很快做出一個也具有600項的CPU架構(gòu)設(shè)計來。但是,誰知道蘋果為什么敢這么設(shè)計?為什么是600項ROB,而不是400項,或者800項?反向工程只是工程技術(shù),但是如果能把這些問題的底層原理徹底搞清楚,那就是CPU架構(gòu)設(shè)計領(lǐng)域的基礎(chǔ)研究。
要搞清楚底層原理并不容易,這需要一整套CPU架構(gòu)設(shè)計基礎(chǔ)設(shè)施的支撐——從程序特征分析技術(shù)、設(shè)計空間探索技術(shù)、高精度模擬器、系統(tǒng)仿真技術(shù)、驗證技術(shù)等;還需要對大量程序特征進(jìn)行分析,需要收集大量的原始數(shù)據(jù),需要大量細(xì)致的量化分析,需要大量的模擬仿真……這些都是為了把底層原理搞清楚。
某種程度上,相比較于原型系統(tǒng),平臺/材料/試劑/設(shè)備/儀器等科研基礎(chǔ)設(shè)施是更重要的輸出。只有具備這些,才能不斷地去深入探索各種現(xiàn)象的底層原理,才能支持后續(xù)的迭代優(yōu)化,同時也能成為培養(yǎng)人才的基地。
基礎(chǔ)研究與工程開發(fā)相互交融
基礎(chǔ)研究和工程技術(shù)并不是簡單的二元對立。相反,在很多領(lǐng)域基礎(chǔ)研究和工程開發(fā)是交融在一起的。出現(xiàn)這種交融是因為很多研究所需要的科研基礎(chǔ)設(shè)施,如新平臺、新設(shè)備、新流程都需要工程投入。即使是探測引力波、希格斯粒子這樣的基礎(chǔ)研究,也需要工程投入研制LIGO、LHC這樣的儀器設(shè)備。一旦有了這類科研基礎(chǔ)設(shè)施,其他人在上面開展科研就會容易很多。
美國基礎(chǔ)研究很強(qiáng),其中一個原因在于有不少學(xué)者在大學(xué)里和企業(yè)研究院里建這些科研基礎(chǔ)設(shè)施。比如在CPU芯片設(shè)計領(lǐng)域,有GEM5模擬器、CACTI模型、FireSim仿真平臺等一系列基礎(chǔ)設(shè)施,這可以讓其他大學(xué)的學(xué)者更容易開展研究。因此,有一些學(xué)者認(rèn)為基礎(chǔ)研究不需要工程,主要還是因為有人幫他們把底層的科研基礎(chǔ)設(shè)施已經(jīng)搭建完善,讓他們可以更容易地去做優(yōu)化,更容易發(fā)表論文。
美國的很多科技企業(yè)內(nèi)部也會構(gòu)建一套和學(xué)術(shù)界總體上打通的科研基礎(chǔ)設(shè)施(有開源共享的、有內(nèi)部自研的)。通過將業(yè)務(wù)需求和內(nèi)部數(shù)據(jù)導(dǎo)入到企業(yè)的科研基礎(chǔ)設(shè)施中,就能很容易消化學(xué)術(shù)界產(chǎn)生的新想法,集成到企業(yè)的產(chǎn)品中。因此,打通的基礎(chǔ)設(shè)施加上人才流通,這是美國學(xué)術(shù)界—產(chǎn)業(yè)界形成“創(chuàng)新想法—得到應(yīng)用—收集反饋—新的創(chuàng)新想法—得到新的應(yīng)用”這個閉環(huán)的重要原因。
但是,中國的學(xué)術(shù)界—產(chǎn)業(yè)界之間尚未形成這種高效的閉環(huán),大多數(shù)企業(yè)還沒有和學(xué)術(shù)界打通的科研基礎(chǔ)設(shè)施。所以對于中國的學(xué)術(shù)界來說,更需要參與科研基礎(chǔ)設(shè)施的建設(shè),尤其是和企業(yè)一起來補(bǔ)科研基礎(chǔ)設(shè)施的課。
基礎(chǔ)研究也需要管理與組織
雖然很多基礎(chǔ)研究是純理論探索,幾個人的小團(tuán)隊甚至一個人便可開展。但也有很多基礎(chǔ)研究需要大團(tuán)隊,需要管理與組織,例如探測希格斯粒子、研制LIGO觀測引力波等。
美國國防部高級研究計劃局(DARPA)資助了很多顛覆性創(chuàng)新項目。我們觀察DARPA的項目立項與執(zhí)行過程,可以看到有一些共性特征:首先會暢想未來,設(shè)立激進(jìn)的目標(biāo);科學(xué)地把激進(jìn)目標(biāo)分解為一系列子任務(wù);制定具體子任務(wù)的實(shí)施計劃,包括目標(biāo)、時間節(jié)點(diǎn)等;子任務(wù)最后要集成到一個原型系統(tǒng)中。
“項目主管”會負(fù)責(zé)上述4個任務(wù),具有絕對的項目決策權(quán),同時也對項目負(fù)責(zé),相當(dāng)于抓總。大量實(shí)踐證明,這種科研組織管理模式具有很高的效率。
這種模式對基礎(chǔ)研究也有效。以清華大學(xué)類腦計算研究中心為例,該中心于2014年成立,成員來自清華大學(xué)不同的院系。他們的研究模式就類似DARPA項目,整個團(tuán)隊圍繞“天機(jī)”類腦芯片開展全棧研究,并集成到自動駕駛自行車系統(tǒng)中,形成具有很好顯示度的科研成果,發(fā)表多篇Nature、Science論文,入選中國十大科技進(jìn)展等,同時也把清華的類腦計算學(xué)科建立了起來。
回到本文開頭的問題:AlphaFold算基礎(chǔ)研究嗎?
根據(jù)本文的討論,我們可以得出如下結(jié)論:第一,AlphaFold研發(fā)的過程中面臨很多未知的問題,把這些問題的底層原理搞清楚,就需要基礎(chǔ)研究;第二,Alpha Fold是蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的科研基礎(chǔ)設(shè)施,它本身就屬于蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域基礎(chǔ)研究的一部分。
(作者系中國科學(xué)院計算技術(shù)研究所副所長、研究員)
① 凡本站注明“稿件來源:教育在線”的所有文字、圖片和音視頻稿件,版權(quán)均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本站協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時必須注明“稿件來源:教育在線”,違者本站將依法追究責(zé)任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉(zhuǎn)載稿,本站轉(zhuǎn)載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如轉(zhuǎn)載稿涉及版權(quán)等問題,請作者在兩周內(nèi)速來電或來函聯(lián)系。
中國教育在線





