發(fā)現(xiàn)創(chuàng)造力2小時前
一個殘酷的事實是,我們已研發(fā)出的藥物,與現(xiàn)存的疾病數(shù)目相比,可謂是九牛一毛,有許多疾病至今無藥可治,而新的疾病、病毒又層出不窮,比如我們眼下正在經(jīng)歷的新型冠狀病毒肺炎。
我們?nèi)绾尾拍芴嵘滤幯邪l(fā)的效率?也許人工智能可以?
賴力鵬
晶泰科技聯(lián)合創(chuàng)始人
麻省理工學(xué)院生物物理博士后
傳統(tǒng)的新藥研發(fā)過程是怎樣的?它有兩個特點(diǎn):第一,周期特別長;第二,體系非常復(fù)雜。
一個藥物的發(fā)現(xiàn),首先需要在生物學(xué)上確定可能產(chǎn)生疾病的原因,然后到各種可能的分子當(dāng)中去尋找,找到合適的藥物,最后在醫(yī)學(xué)上臨床測試。
傳統(tǒng)藥物的研發(fā)過程
前后平均下來,可能要花超過10年時間,總體的投入會超過10億美元,但成功率可能還不到10%。
1901年,我們?nèi)祟惖谝淮未_診阿爾茲海默癥,到2019年已經(jīng)經(jīng)過了100多年的時間,我們依然沒有能夠找到有效的治療方法。(阿爾茨海默癥,一種神經(jīng)退行性疾病,多發(fā)于老年,出現(xiàn)記憶障礙、失語、失去認(rèn)知能力等是該疾病主要表現(xiàn))我們等待了100年,還是沒有找到更好的藥。
《Nature》在2017年有篇文章叫The drug-maker’s guide to the galaxy,它給了我們一個新的希望:經(jīng)過化學(xué)家的分析,在整個化學(xué)空間里面,我們可以找到的藥物分子的個數(shù),可能性是10的60次方。
整個化學(xué)空間中可以找到的藥物分子的個數(shù),可能性是10的60次方
什么概念呢,我們太陽系里面所有的原子加到一起,數(shù)量大概是10的54次方,所以這不單單是54和60的區(qū)別,這是一個指數(shù)級的差別。
而我們在傳統(tǒng)實驗室里,通過傳統(tǒng)的藥物篩選辦法能夠接觸到的分子數(shù)量,大概在10的11次方,11和60,這兩個數(shù)字中間,存在著一個巨大的差異。
就像我們要探索的可能是整個太陽系里所有的原子,我們要把每個原子都拿起來,看一看這個原子到底能不能成為藥物,但我們現(xiàn)在實驗室里能夠接觸到的原子,大概可能就是不到這個屋子這么大的一個范圍里的原子數(shù)量。
賴力鵬在造就演講
這篇文章中還提到,在人類的實驗室里,我們沒有辦法真的把這些分子全部合成出來,那么虛擬的手段,或者人工智能手段,可能是我們下一個階段尋找新藥的努力方向。
《復(fù)仇者聯(lián)盟》里面有個角色叫蟻人,蟻人可以把自己縮小到叫量子力學(xué)的尺度,在電影里他可以在這個尺度看到一個非常奇幻的世界。
現(xiàn)在其實不需要到量子力學(xué)尺度,阿伏加德羅定律告訴我們,我們周圍大概20升的氣體里面大約有10的23次方個分子,假設(shè)這些分子都各不相同,我們想做的就是在這么大量的分子數(shù)目里面,去找到那個和我們所遇到的疾病、我們所遇到的挑戰(zhàn),能夠相匹配的藥物分子。
類似于我們?nèi)栐谟钪嬷?0的25次方個恒星當(dāng)中,存不存在另外一個人類可以居住的星系?在這么大規(guī)模的潛在藥物分子里面,我們能不能找到一個真的能夠治愈我們疾病的分子?
如果有,我們怎么找到它?
我們把這個問題拆成兩個部分:
第一,如何構(gòu)造一個虛擬的化學(xué)空間?現(xiàn)在很多的化合物,包括層出不窮的新藥,它本來在自然界中是不存在的,那么我們需要想出怎樣把它構(gòu)造出來的辦法。
第二,在這10的60次方的空間里面,我們怎么找到真的能夠成為藥物的分子?
當(dāng)我們真的走近第一個問題去看的時候,我們就發(fā)現(xiàn),首先在工程上這是一件很難的事情,我們假設(shè)每一個藥物分子,可以用一個比特來存儲,這已經(jīng)是一個很理想的假設(shè),因為一個分子,它可能并不是只有0和1兩個狀態(tài),這里只是一個簡化的假設(shè)。
目前像Facebook這么龐大的社交網(wǎng)絡(luò),它所有的數(shù)據(jù)加起來,大概在10的18次方的比特左右。假設(shè)我們地球上每一個人,都擁有Facebook這么大的存儲能力,我們大概有100億人,也就是10的10次方,每個人有10的18次方的存儲能力,所以我們擁有接近10的28次方的存儲能力。
我們需要的空間是多大呢,10的60次方。所以這就意味著——我們要在宇宙當(dāng)中對應(yīng)每一個恒星有100億人,然后每一個人,都擁有像Facebook這樣的存儲能力,我們才能把這些數(shù)據(jù)存下來。
10的60次方意味著什么
再假設(shè),我們突然有了一個特別好的高科技,我們能把這些數(shù)據(jù)全部儲存下來,我們的處理能力也不夠。
現(xiàn)在我們經(jīng)常處理的一個龐大的虛擬化合物庫的數(shù)據(jù)量,大概可能到1000億的范圍。而在1000億的可能性當(dāng)中尋找到藥物分子的處理時間,大概需要幾天時間。
所以當(dāng)數(shù)據(jù)從1000億,也就是10的11到12次方,增加到10的60次方的時候,它已經(jīng)是一個比一般概念的天文數(shù)字更大的一個數(shù)字。現(xiàn)有的計算能力,我們還沒有辦法處理這么龐大的數(shù)據(jù)。
我們會關(guān)注新的計算方法,比如說量子計算的出現(xiàn),會不會在這種暴力美學(xué)的情況下,給我們帶來一些更多的可能性。但在新的計算方法還沒有出現(xiàn)之前,我們還需要想辦法。
我們提出一個設(shè)想,10的60次方的化學(xué)分子,是不是都是有用的分子?
比如,現(xiàn)在針對阿爾茲海默癥的藥物,很顯然在10的60次方里面,它們并不是都是對阿爾茨海默癥有用的分子,我們只需要找到那些可能孤立的、但是每個分子都可能對阿爾茨海默癥有用的小島。
賴力鵬在造就演講
面對著10的60次方的化合物空間,我們怎么樣用一個更好的數(shù)學(xué)方法,把這些可能有用的化合物小島找出來、表示出來?
一個藥物能夠成為藥,它在多方面都必須是優(yōu)秀的:有很好的藥效,被很好地吸收,不具有毒性……我們就是要在這個空間當(dāng)中,用這些條件去找到那些孤立的小島,讓我們發(fā)現(xiàn)藥物的機(jī)會變得越來越大。
和傳統(tǒng)的方法相比,我們具有模擬的優(yōu)勢:在對一個分子去做一些改變的時候,我們可以相對容易的用計算機(jī)產(chǎn)生幾十萬或者幾百萬和這個分子相似的一些分子,讓它們能夠具有相似的成藥的可能性;
大家看這個分子,是我隨便挑出來的,你們覺得這個分子長得漂亮嗎?它像不像個藥?
來那度胺
其實這個是一個已經(jīng)成藥的、非常重磅的抗腫瘤藥物,叫來那度胺。它是美國Celgene公司在2005年上市的一個重磅藥物,最近幾年的年銷售額應(yīng)該是過幾十億美元。
化學(xué)、生物本身,它也有自己的語言規(guī)律,比如說碳可能最多連四個鍵,然后在藥物里,可能我們更習(xí)慣看到苯環(huán)的出現(xiàn)等等。
熟悉這種語言,并針對這種大量的分子結(jié)構(gòu),做深度學(xué)習(xí),人工智能就有可能學(xué)會這種化學(xué)分子結(jié)構(gòu)的語言。
人工智能畫的分子
這是我們做的一個比較早期版本的一個人工智能,就像大家可能聽過說人工智能可以作曲、畫畫,其實人工智能也可以畫分子。
我們通過讓機(jī)器學(xué)習(xí)了大量的分子結(jié)構(gòu)數(shù)據(jù)之后,它學(xué)到了一些化學(xué)的知識,然后它開始去產(chǎn)生分子結(jié)構(gòu)。
但我知道這些圖畫出來,如果有化學(xué)家看見,可能會把我拍在地上,其中有些分子的化學(xué)結(jié)構(gòu)可能是非常不合理的。目前我們在這個最早期版本上已經(jīng)做了很多的改進(jìn),讓AI產(chǎn)生的分子盡可能符合藥物設(shè)計的要求。
化合物空間分布示意圖
這張圖我非常喜歡,它特別像天空中的一些星圖,它也特別像大腦。它是我們自己做出來的一張化合物空間分布示意圖。
這個圖上的每一個點(diǎn)代表一個分子結(jié)構(gòu):藍(lán)色的點(diǎn)是我們用來訓(xùn)練人工智能所用到的我們的分子數(shù)據(jù)集。紅色是人工智能學(xué)習(xí)完之后,去隨機(jī)地產(chǎn)生不同的、新的分子結(jié)構(gòu)的分布。
我們最想找到的是,去找到那些更可能成藥的真正高質(zhì)量的小島。
就像Alpha Go或者Alpha Master,它們可以和自己對弈,不斷強(qiáng)化,不斷去糾正自己的習(xí)慣,從而下得越來越好一樣。產(chǎn)生分子的人工智能也是,我們通過一定的規(guī)則去告訴它,我到底需要什么樣的分子結(jié)構(gòu),那么它就可以去學(xué)習(xí)。
這張圖上黃色的點(diǎn),是我們對分子溶解度表現(xiàn)進(jìn)行重點(diǎn)優(yōu)化后篩選出來的分子??梢钥吹竭@些經(jīng)過強(qiáng)化學(xué)習(xí)的黃色分子的分布,和紅色的隨機(jī)分布,產(chǎn)生了顯著的不同。
我們其實是利用我們的化學(xué)手段,在嘗試和人自身進(jìn)行一場對話。
上個世紀(jì)的人類基因組計劃是一個偉大的計劃,是我們嘗試在分子層面上去理解:
我們的生命是如何自我表達(dá),我們的代際之間是怎么去溝通,我們?nèi)绾?/strong>通過遺傳物質(zhì),讓一代人和下一代人進(jìn)行對話。
現(xiàn)代生物學(xué)已經(jīng)知道,堿基可以形成DNA的序列,然后DNA通過生物學(xué)的過程,可以去指導(dǎo)蛋白質(zhì)的合成,而蛋白質(zhì)是由20種氨基酸按照一定的規(guī)律排列起來的,不同的排列可能會有不同的功能。
而我們已經(jīng)可以用人工智能和計算的方法在一定程度上做到:你給我一個蛋白質(zhì)序列,我可以告訴大家,它在三維空間當(dāng)中會具有什么樣的結(jié)構(gòu),而這個結(jié)構(gòu)會怎樣影響到生物的功能,不同的蛋白質(zhì)之間通過三維的結(jié)構(gòu)如何產(chǎn)生對話,從而去影響彼此。
在虛擬空間計算得到的蛋白質(zhì)的三維結(jié)構(gòu)
下面這張圖左邊藍(lán)色的部分是蛋白質(zhì),是生物學(xué)的理解,然后黃色的部分,是我們做的化學(xué)分子,是我們的化學(xué)語言。
藥物研究是一場我們嘗試與自身的“對話”
我們要做的事情就是,嘗試?yán)斫馍飳W(xué)語言,嘗試?yán)斫饣瘜W(xué)語言,然后把這兩個語言合到一起,從而能夠找到和疾病相關(guān)的蛋白質(zhì)最匹配的那個化學(xué)分子,最終治愈我們的疾病。
剛才所講的這些東西聽起來很科幻,但它其實并不是神話。這里演示的是我們的實際案例,但圖里面的結(jié)構(gòu)不是真實案例中的。這里只是演示了我們利用人工智能進(jìn)行早期藥物發(fā)現(xiàn)的過程:
人工智能藥物發(fā)現(xiàn)的流程
我們拿到了一個蛋白,然后我們可以用人工智能的方法去產(chǎn)生那些我們所感興趣的、可能有用的化合物的空間,這個案例里我們產(chǎn)生了600萬的化合物空間;然后我們基于對蛋白結(jié)構(gòu)的理解,以及對小分子化合物的溶解度、毒性,在體內(nèi)的吸收、代謝、排泄等屬性進(jìn)行同時的優(yōu)化,最后我們留下了六個分子;然后這六個分子,在為期一個月的篩選過程中,最后的結(jié)果表現(xiàn)非常良好,可以進(jìn)行到藥物研發(fā)的下一個階段。
這個項目我們在繼續(xù)推進(jìn),在未來,新的藥物很有可能會誕生在這六個分子當(dāng)中。
這也是人工智能比傳統(tǒng)的方法更有優(yōu)勢的地方,利用機(jī)器學(xué)習(xí)、人工智能的方法,能夠在在非常早期,對未來將會成為藥物的這些分子同時進(jìn)行相對全面的判斷,我們能提前篩掉后續(xù)實驗會失敗的分子。
賴力鵬在造就演講
所以這就是為什么,人工智能用在新藥發(fā)現(xiàn)上,有希望能極大地提高現(xiàn)在的發(fā)現(xiàn)效率和現(xiàn)在的成功率,我們可能有希望說,把現(xiàn)在需要三到四年才能完成的新藥發(fā)現(xiàn)的前期過程,縮短到一年的時間就可以做完。
但回到現(xiàn)在現(xiàn)狀本身,我們不得不充滿敬畏地說,生物是一個非常復(fù)雜的體系。我們不認(rèn)為說現(xiàn)在人工智能,可以單槍匹馬完成整個新藥發(fā)現(xiàn)的歷程,我們更多認(rèn)為人工智能,是在幫助我們更好地理解自己。
在整個新藥發(fā)現(xiàn)的過程中,人工智能技術(shù)已和藥物化學(xué)家一起合作,來讓人類可以去發(fā)現(xiàn)更好的藥物。
當(dāng)然,在所有的藥物發(fā)現(xiàn)創(chuàng)新過程中,計算只是一方面。我們可以看到還有其它大量的創(chuàng)新:機(jī)器人自動化的實驗方法、基因檢測技術(shù)和化合物篩選的結(jié)合、大規(guī)模的分子庫的篩選方法,其實都在蓬勃的發(fā)展中。
藥物發(fā)現(xiàn)創(chuàng)新過程中的創(chuàng)新
2019年美國FDA一共批準(zhǔn)了48款新藥,其中有20個是全新意義上的新藥。
在藥物創(chuàng)新這一塊,大家都在努力,但是遠(yuǎn)遠(yuǎn)不夠。在人工智能幫助我們發(fā)現(xiàn)新藥的路徑上,我們可能還是會面臨很多挑戰(zhàn),比如如何把各個藥企的數(shù)據(jù)結(jié)合到一起,利用更多高質(zhì)量數(shù)據(jù)去做出更好的模型。
更重大的挑戰(zhàn)是,當(dāng)面臨這樣一個跨學(xué)科的復(fù)雜問題,在人工智能新藥發(fā)現(xiàn)這個話題下面,我們會匯聚化學(xué)、生物、計算機(jī)、數(shù)學(xué)、統(tǒng)計等多個學(xué)科的人才,這些人怎么樣才能夠站到一起,彼此對話,彼此理解,而不是堅持己見,保有原來固有的思維方式。這個可能是我們需要解決的最大的困難。
阿西莫夫曾經(jīng)在《永恒的終結(jié)》中說:
阿西莫夫《永恒的終結(jié)》中的一句話
用技術(shù)發(fā)現(xiàn)藥物,也是這樣。
聯(lián)系客服