(本文閱讀時(shí)間:8分鐘)
Chris Bishop,微軟技術(shù)院士、微軟研究院科學(xué)智能中心負(fù)責(zé)人
未來十年,深度學(xué)習(xí)注定將會(huì)給自然科學(xué)帶來變革性的影響。其結(jié)果具有潛在的深遠(yuǎn)意義,可能會(huì)極大地提高我們在差異巨大的空間和時(shí)間尺度上對自然現(xiàn)象進(jìn)行建模和預(yù)測的能力。這種能力是否代表著科學(xué)發(fā)現(xiàn)新范式的曙光?
圖靈獎(jiǎng)獲得者、前微軟技術(shù)院士 Jim Gary 用“四種范式”[1]描述了科學(xué)發(fā)現(xiàn)的歷史演變。第一范式的起源可以追溯到幾千年前,它純粹是經(jīng)驗(yàn)性的,基于對自然現(xiàn)象的直接觀察。雖然在這些觀察中,有許多規(guī)律是顯而易見的,但沒有系統(tǒng)性的方法來捕獲或表達(dá)這些規(guī)律。第二范式以自然理論模型為特征,例如17世紀(jì)的牛頓運(yùn)動(dòng)定律,或19世紀(jì)的麥克斯韋電動(dòng)力學(xué)方程。這些方程由經(jīng)驗(yàn)觀察,歸納推導(dǎo)得出,可以推廣到比直接觀察更為廣泛的情形。雖然這些方程可以在簡單場景下解析求解,但直到20世紀(jì)有了電子計(jì)算機(jī)的發(fā)展,它們才得以在更廣泛的情形下求解,從而產(chǎn)生了基于數(shù)值計(jì)算的第三范式。21世紀(jì)初,計(jì)算再次改變了科學(xué),這一次則是通過收集、存儲(chǔ)和處理大量數(shù)據(jù)的能力,催生了數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的第四范式。機(jī)器學(xué)習(xí)是第四范式中日益重要的組成部分,它能夠?qū)Υ笠?guī)模實(shí)驗(yàn)科學(xué)數(shù)據(jù)進(jìn)行建模和分析。這四種范式是相輔相成,并存不悖的。
量子物理學(xué)的先驅(qū) Paul Dirac(保羅·狄拉克)在1929年說過:“大部分物理學(xué)以及整個(gè)化學(xué)所需的數(shù)學(xué)理論的基本定律已完全為人們所知,而困難在于這些定律的精確應(yīng)用會(huì)導(dǎo)致方程太過復(fù)雜而無法求解?!崩纾Χㄖ@方程在亞原子水平上以極高的精度描述了分子和物質(zhì)的行為,但高精度的數(shù)值解只有在由少量原子組成的非常小的系統(tǒng)中才能得到。如果擴(kuò)展到更大的系統(tǒng),則意味著越來越模糊的近似性,這導(dǎo)致人們必須在規(guī)模和準(zhǔn)確性之間作出權(quán)衡。即便如此,量子化學(xué)計(jì)算已經(jīng)具有很高的實(shí)用價(jià)值,成了超級計(jì)算機(jī)的最主要工作負(fù)荷之一。
然而,在過去的一兩年里,我們看到了深度學(xué)習(xí)的一個(gè)新用途——兼顧科學(xué)發(fā)現(xiàn)的速度與準(zhǔn)確性的強(qiáng)大工具。這種使用機(jī)器學(xué)習(xí)的新方式與第四范式數(shù)據(jù)建模截然不同,因?yàn)橛糜谟?xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)來自科學(xué)基本方程的數(shù)值解,而非經(jīng)驗(yàn)觀察。我們可以將科學(xué)方程的數(shù)值解看作自然界的模擬器,以較高的計(jì)算成本,對眾多我們感興趣的應(yīng)用進(jìn)行計(jì)算——例如預(yù)測天氣、模擬星系碰撞、優(yōu)化聚變反應(yīng)堆設(shè)計(jì),或計(jì)算候選藥物分子與目標(biāo)蛋白的結(jié)合自由能。然而,從機(jī)器學(xué)習(xí)的角度來看,模擬過程的中間細(xì)節(jié)可以被視為訓(xùn)練數(shù)據(jù),能夠用于深度學(xué)習(xí)仿真器的訓(xùn)練。此類數(shù)據(jù)是完全標(biāo)注的,數(shù)據(jù)的數(shù)量僅取決于計(jì)算開銷。一旦完成訓(xùn)練,仿真器就可以高效執(zhí)行新的計(jì)算,并大大提升計(jì)算速度,有時(shí)甚至能夠達(dá)到幾個(gè)數(shù)量級。
科學(xué)發(fā)現(xiàn)的“第五范式”代表了機(jī)器學(xué)習(xí)和自然科學(xué)領(lǐng)域最激動(dòng)人心的前沿方向之一。雖然這些模擬器要變得足夠快、魯棒、通用并成為業(yè)界主流,還有很長的路要走,但它們對現(xiàn)實(shí)世界的潛在影響是顯而易見的。例如,僅小分子候選藥物的數(shù)量估計(jì)就多達(dá)10^60種,而穩(wěn)定材料的總數(shù)則約為10^180種(大約是已知宇宙中原子數(shù)量的平方)。找到更有效的方法來探索這些廣闊的空間,將增強(qiáng)我們發(fā)現(xiàn)新物質(zhì)的能力——例如更好的治療疾病的藥物、更好的捕獲大氣二氧化碳的基質(zhì)、更好的電池材料、能夠?yàn)闅浣?jīng)濟(jì)提供動(dòng)力的新型燃料電池電極,以及無數(shù)的其他應(yīng)用。
AI4Science 是一次深植于微軟使命的嘗試,這將充分利用我們的人工智能能力來開發(fā)新的科學(xué)發(fā)現(xiàn)工具,從而讓我們和科學(xué)界的其他同仁能夠應(yīng)對人類面臨的最重要的一些挑戰(zhàn)。微軟研究院成立30多年來,始終保持著好奇和探索的傳統(tǒng)。我相信,跨越地理和科學(xué)領(lǐng)域的 AI4Science 團(tuán)隊(duì),將為這一傳統(tǒng)做出非凡的貢獻(xiàn)。
——Kevin Scott,微軟執(zhí)行副總裁兼首席技術(shù)官
今天,我很高興地宣布,我將領(lǐng)導(dǎo)微軟研究院的一個(gè)新的全球團(tuán)隊(duì),其成員來自英國、中國、荷蘭等多個(gè)國家,專注于將第五范式變?yōu)楝F(xiàn)實(shí)。我們的科學(xué)智能(AI4Science)[2]團(tuán)隊(duì)由機(jī)器學(xué)習(xí)、計(jì)算物理、計(jì)算化學(xué)、分子生物學(xué)、軟件工程和其他學(xué)科領(lǐng)域的世界級專家組成,他們共同致力于解決該領(lǐng)域中一些最緊迫的挑戰(zhàn)。
以 Graphormer [3]模型為例,它是由我的同事,我們中國團(tuán)隊(duì)的負(fù)責(zé)人、微軟杰出首席科學(xué)家劉鐵巖[4]博士領(lǐng)導(dǎo)建立的。這是一個(gè)通用的分子建模模型,對分子有強(qiáng)大的表征能力,對新材料設(shè)計(jì)與藥物發(fā)現(xiàn)將有很大幫助。最近,Graphormer 在 Open Catalyst Challenge(公開催化劑挑戰(zhàn)賽)中奪冠,這是一項(xiàng)旨在通過 AI 模擬催化劑-吸附物反應(yīng)體系的分子動(dòng)力學(xué)競賽,通過密度泛函理論(DFT)軟件模擬了超過66萬個(gè)催化劑-吸附物反應(yīng)系統(tǒng)(1.44億個(gè)結(jié)構(gòu)-能量框架)。
另一個(gè)項(xiàng)目,是劍橋的團(tuán)隊(duì)與諾華[5]合作的生成化學(xué)(Generative Chemistry)[6],我們攜手利用 AI 為科學(xué)家賦能,加快突破性藥物的發(fā)現(xiàn)和研發(fā)。正如諾華人工智能創(chuàng)新實(shí)驗(yàn)室全球負(fù)責(zé)人 Iya Khalil [7]最近所指出的,這項(xiàng)工作不再是科學(xué)幻想,而是科學(xué)現(xiàn)實(shí):
人工智能不僅可以從我們過去的實(shí)驗(yàn)中學(xué)習(xí),而且隨著實(shí)驗(yàn)室中設(shè)計(jì)和測試的每一次新迭代,機(jī)器學(xué)習(xí)算法可以識別新的模式,并為早期藥物發(fā)現(xiàn)和開發(fā)過程提供指導(dǎo)。希望通過這樣的方式,我們可以增強(qiáng)人類科學(xué)家的專業(yè)知識,從而更快地設(shè)計(jì)出更好的分子。
該團(tuán)隊(duì)利用這一平臺已經(jīng)生成了多個(gè)非常有前景的早期分子,這些分子已被合成,用于進(jìn)一步的探索。
除了中國和英國的團(tuán)隊(duì)外,我們位于荷蘭的團(tuán)隊(duì)也在不斷發(fā)展壯大,全球知名機(jī)器學(xué)習(xí)專家 Max Welling [8]也加盟其中。今天,我同樣高興地宣布,我們在阿姆斯特丹的全新實(shí)驗(yàn)室將落戶正在建設(shè)中的阿姆斯特丹科學(xué)園 Matrix One[9]。這個(gè)專門建造的辦公空間緊鄰阿姆斯特丹大學(xué)和阿姆斯特丹自由大學(xué),我們將通過聯(lián)合培養(yǎng)博士生等計(jì)劃,與這兩所大學(xué)保持緊密合作。
阿姆斯特丹科學(xué)園 Matrix One
本文作者:Chris Bishop,微軟技術(shù)院士、微軟研究院科學(xué)智能中心負(fù)責(zé)人
聯(lián)系客服