李國(guó)杰
2016年DeepMind公司的人工智能程序AlphaGo戰(zhàn)勝了人類圍棋冠軍,曾引起全世界的轟動(dòng)。
2020年11月30日,DeepMind公司的另一個(gè)人工智能程序AlphaFold 2在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽CASP 14中,對(duì)大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)與真實(shí)結(jié)構(gòu)只差一個(gè)原子的寬度,達(dá)到了人類利用冷凍電子顯微鏡等復(fù)雜儀器觀察預(yù)測(cè)的水平,這是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)史無(wú)前例的巨大進(jìn)步。這一重大成果雖然沒有引起媒體和廣大民眾的關(guān)注,但生物領(lǐng)域的科學(xué)家反應(yīng)強(qiáng)烈。
中國(guó)科學(xué)院院士施一公對(duì)媒體說:“依我之見,這是人工智能(AI)對(duì)科學(xué)領(lǐng)域最大的一次貢獻(xiàn),也是人類在21世紀(jì)取得的最重要的科學(xué)突破之一,是人類在認(rèn)識(shí)自然界的科學(xué)探索征程中一個(gè)非常了不起的歷史性成就。”
蛋白質(zhì)是生命的基礎(chǔ),了解蛋白質(zhì)的折疊結(jié)構(gòu)和分子動(dòng)力學(xué)是生物學(xué)界最棘手的問題之一,已經(jīng)困擾科學(xué)家50年之久。
目前已知氨基酸順序的蛋白質(zhì)分子有1.8億個(gè),但三維結(jié)構(gòu)信息被徹底看清的還不到0.1%。最近DeepMind公司在《自然》上宣布已將人類的98.5%的蛋白質(zhì)預(yù)測(cè)了一遍,計(jì)劃今年年底將預(yù)測(cè)數(shù)量增加到1.3億個(gè),達(dá)到人類已知蛋白質(zhì)總數(shù)的一半,并且公開了AlphaFold 2的源代碼,免費(fèi)開源有關(guān)數(shù)據(jù)集,供全世界科研人員使用。
被釋放的海量蛋白質(zhì)結(jié)構(gòu)信息蘊(yùn)含著生命信息的密碼,將有力推動(dòng)生命科學(xué)的發(fā)展,大大加速針對(duì)癌癥、病毒的抗生素、靶向藥和新效率的蛋白酶的研發(fā)。
在AlphaFold 2 問世以前,許多科學(xué)家做過用計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)三維折疊結(jié)構(gòu)的研究。中科院計(jì)算技術(shù)研究所的卜東波團(tuán)隊(duì)去年在《自然》發(fā)表論文,他們?cè)诘鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)方面做出了出色的成果。
DeepMind團(tuán)隊(duì)采用的注意力機(jī)制也是計(jì)算機(jī)視覺和自然語(yǔ)言處理領(lǐng)域較成熟的技術(shù)。最近華盛頓大學(xué)推出預(yù)測(cè)準(zhǔn)確度與AlphaFold 2差不多的新算法,只需要一個(gè)GPU,10分鐘左右就能算出蛋白質(zhì)結(jié)構(gòu)。
蛋白質(zhì)折疊問題的解決是生物學(xué)界和人工智能界長(zhǎng)期合作努力的結(jié)果,但AlphaFold 2的“臨門一腳”是取得勝利的標(biāo)志性突破,它用精確的預(yù)測(cè)結(jié)果顯示出人工智能技術(shù)在基礎(chǔ)科學(xué)研究上的巨大威力。AlphaFold 2的巨大成功給我們?cè)S多耐人尋味的啟示。
2017年國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》后,我國(guó)立即啟動(dòng)了“新一代人工智能重大科技項(xiàng)目”,開展數(shù)據(jù)智能、跨媒體感知、群體智能、類腦智能、量子智能計(jì)算等基礎(chǔ)理論研究,統(tǒng)籌布局了人工智能創(chuàng)新平臺(tái)和許多關(guān)鍵共性技術(shù)研究。
近三年,我國(guó)學(xué)者發(fā)表了大量人工智能論文,申請(qǐng)幾萬(wàn)件專利,在北京冬奧會(huì)、城市大腦等應(yīng)用場(chǎng)景和抗擊新冠疫情中取得顯著成效,出現(xiàn)了一些人工智能獨(dú)角獸企業(yè),取得的成績(jī)可圈可點(diǎn)。但總的來(lái)講,我們的研究多數(shù)是技術(shù)驅(qū)動(dòng)、論文導(dǎo)向的,目標(biāo)導(dǎo)向和問題導(dǎo)向的研究較少。
AlphaFold 2的成功首先是因?yàn)?0年前DeepMind團(tuán)隊(duì)就開始關(guān)注“蛋白質(zhì)折疊”這個(gè)有重大價(jià)值的科學(xué)問題。幾年前用計(jì)算機(jī)預(yù)測(cè)復(fù)雜的蛋白質(zhì)折疊結(jié)構(gòu),正確率還不到40%,DeepMind團(tuán)隊(duì)當(dāng)時(shí)就有信心攻克這個(gè)世界難題。
我們與一流科學(xué)家的差距之一是選擇可突破的重大科學(xué)問題的眼光不夠敏銳,布局的科研項(xiàng)目要么是增量式的技術(shù)改進(jìn),要么是幾十年都難以突破的理想型目標(biāo),像蛋白質(zhì)折疊這樣的重要研究方向沒有列入新一代人工智能重大科技項(xiàng)目。
人工智能研究可能取得重大突破的目標(biāo)不只是蛋白質(zhì)折疊,我認(rèn)為,用機(jī)器學(xué)習(xí)的方法全自動(dòng)地做集成電路的前端和后端設(shè)計(jì)也有可能在十年左右取得突破,如果做到了,讓人焦心的集成電路設(shè)計(jì)人員缺口巨大的難題就會(huì)迎刃而解。這一類涉及經(jīng)濟(jì)發(fā)展的重大問題應(yīng)該是人工智能界關(guān)注的焦點(diǎn)。
為什么重大科學(xué)問題和國(guó)計(jì)民生問題沒有進(jìn)入人工智能界許多學(xué)者的視野,這涉及對(duì)人工智能這門學(xué)科的認(rèn)識(shí)。
最先提出“人工智能”這個(gè)術(shù)語(yǔ)的麥卡錫對(duì)這門學(xué)科的定義是:“人工智能就是要讓機(jī)器的行為看起來(lái)就像是人所表現(xiàn)出的智能行為一樣。”后來(lái)的人工智能學(xué)者大多盯住了“像人”這個(gè)“原則”,以“像不像人”作為目標(biāo)。所謂衡量智能水平的“圖靈測(cè)試”也是遵循這個(gè)原則。授予沙特阿拉伯公民身份的“索菲婭”和清華大學(xué)的“華智冰”機(jī)器人,都是朝著“像人”這個(gè)目標(biāo)努力。
但硅基的計(jì)算機(jī)和碳基的人腦終究有本質(zhì)性的區(qū)別,非要把電子線路構(gòu)成的機(jī)器做成與人一樣,既沒有必要也沒有可能。
現(xiàn)在用于機(jī)器學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)與人的大腦有相似的地方,但也體現(xiàn)出與人的思維不同的機(jī)器“思維”方式。理性的人工智能發(fā)展模式應(yīng)該承認(rèn)人有人智、機(jī)有機(jī)“智”,要充分發(fā)揮機(jī)器“思維”的特長(zhǎng),做人不擅長(zhǎng)做的事情。
AlphaFold 在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上體現(xiàn)出的才能不是“像人”,而是比人高明。人工智能是對(duì)人類的補(bǔ)充和增強(qiáng),而非替代人類,我們并不需要復(fù)制人的智能,而是要建立一個(gè)新的智能系統(tǒng)。人工智能研究擺脫“模仿人”“替代人”的思想束縛后,會(huì)有更廣闊的發(fā)展空間。
AlphaFold的成功表明,疑難問題的解決不一定完全依賴于人類的先驗(yàn)知識(shí),這意味著在人工智能時(shí)代,人類獲取知識(shí)的邏輯將發(fā)生根本性變革,對(duì)人類認(rèn)知將產(chǎn)生巨大沖擊。
機(jī)器學(xué)習(xí)是一種全新的、人類也無(wú)法真正理解、但能被實(shí)踐檢驗(yàn)的認(rèn)知方法論。我們是相信“實(shí)踐是檢驗(yàn)真理的標(biāo)準(zhǔn)”,人機(jī)互補(bǔ)構(gòu)建命運(yùn)共同體,還是堅(jiān)持機(jī)器必須給人講明白演繹和歸納過程才是真理,人類將面臨新的選擇。
機(jī)器學(xué)習(xí)可以正確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),說明機(jī)器已掌握了一些人類還不明白的“暗知識(shí)”。過去我們把可以表達(dá)的知識(shí)叫作“明知識(shí)”或“顯知識(shí)”,不可表達(dá)但可以感受的知識(shí)叫作“潛知識(shí)”或“默知識(shí)”,F(xiàn)在又多出了一類既不可表達(dá)又不可感受但機(jī)器能明白的知識(shí),可稱為“暗知識(shí)”。知識(shí)維度的增加大大擴(kuò)充了人類的視野。如果說“明知識(shí)”是冰山顯露出來(lái)的一角,“潛知識(shí)”是冰山海面下的部分,“暗知識(shí)”就如同大海。對(duì)人類而言,如何利用“暗知識(shí)”可能比弄明白“暗物質(zhì)”“暗能量”更重要、更緊迫。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)取得重大突破的另一個(gè)啟示是,科研范式已經(jīng)開始轉(zhuǎn)向。
AlphaFold團(tuán)隊(duì)是一個(gè)典型的跨學(xué)科合作團(tuán)隊(duì),在《自然》發(fā)表此重大成果的論文作者有34位,其中19位并列第一作者,包括機(jī)器學(xué)習(xí)、語(yǔ)音和計(jì)算機(jī)視覺、自然語(yǔ)言處理、分子動(dòng)力學(xué)、生命科學(xué)、高能物理、量子化學(xué)等領(lǐng)域的知名學(xué)者。蛋白質(zhì)形成穩(wěn)定折疊結(jié)構(gòu)的原因是分子內(nèi)部的勢(shì)能會(huì)降到最低點(diǎn),預(yù)測(cè)計(jì)算實(shí)際上是能量最小化的優(yōu)化。
深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺、自然語(yǔ)言處理和生物信息學(xué)等領(lǐng)域表現(xiàn)優(yōu)異,不僅僅源于算法和數(shù)學(xué),背后還有深層次的物理原理。因此,理論物理學(xué)家的介入十分重要。基于最基礎(chǔ)科學(xué)原理的機(jī)器學(xué)習(xí)需要人類多領(lǐng)域科學(xué)家的智慧和機(jī)器“智能”有機(jī)融合,不同于以發(fā)現(xiàn)相關(guān)性為主要目標(biāo)的科研第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),我認(rèn)為這是科研第五范式的雛形。
AlphaFold并沒有提出新的科學(xué)原理,而是研究已知原理的相互組合涌現(xiàn)出的大量新奇結(jié)構(gòu)、特性和行為,把對(duì)結(jié)構(gòu)的認(rèn)知抽象成各種模式的自動(dòng)化識(shí)別和匹配,本質(zhì)上是一種集成式的工程科學(xué)技術(shù)。
過去生物學(xué)家只是把人工智能當(dāng)成眾多的輔助工具之一,AlphaFold的成功改變了生物學(xué)家的看法。工程科學(xué)技術(shù)不只是工具,也不僅僅是基礎(chǔ)研究成果的應(yīng)用,而是在基礎(chǔ)研究中可以發(fā)揮巨大作用的重要組成部分。沒有像DeepMind團(tuán)隊(duì)一樣強(qiáng)大的工程技術(shù)實(shí)現(xiàn)能力,基礎(chǔ)研究也難以做出重大成果。
目前我國(guó)大學(xué)和企業(yè)的人工智能實(shí)驗(yàn)室大多遇到頂天頂不了、立地又落不下去的困境 ,希望人工智能界的學(xué)者認(rèn)真總結(jié)經(jīng)驗(yàn)教訓(xùn),在研究方向選擇上多費(fèi)點(diǎn)心思,爭(zhēng)取獲得讓人眼睛一亮的重大成果。
(作者系中國(guó)工程院院士)
中國(guó)-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來(lái)源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,文章內(nèi)容僅供參考。