"這將改變醫(yī)學。它將改變研究。它將改變生物工程。它將改變一切。"
艾拉-阿爾德森- 6分鐘閱讀
今年早些時候,一種算法被發(fā)布到網(wǎng)上--完整且完全免費--供學術(shù)界使用。這個算法代表了我們一生中最重要的科學發(fā)現(xiàn)之一,展示了人工智能改變我們文明進程的日益增長的潛力。利用深度學習和神經(jīng)網(wǎng)絡(luò),被稱為Alpha Fold的算法有望徹底改變生物化學領(lǐng)域。它可以幫助我們更好地了解疾病,制定藥物,并產(chǎn)生從塑料污染到大氣中過量碳的解決方案。通過嘗試解決蛋白質(zhì)折疊問題,我們已經(jīng)取得了令人興奮的、前所未有的突破,這將影響我們所有人的生活。
氨基酸鏈的3D效果圖,也就是我們所說的蛋白質(zhì)。
在過去的50年里,蛋白質(zhì)折疊的問題一直是一個持續(xù)的障礙。它首次出現(xiàn)在1972年:一個新的理論提出,知道一個蛋白質(zhì)的氨基酸序列應(yīng)該可以完全預(yù)測其結(jié)構(gòu)。
蛋白質(zhì)不僅是生命的根本,它們負責細胞內(nèi)發(fā)生的幾乎所有過程。所有生物體都依賴這些復(fù)雜的分子。反過來說,蛋白質(zhì)是由20個不同的氨基酸鏈組成的。這些氨基酸之間的相互作用決定了蛋白質(zhì)將如何折疊成三維形狀。蛋白質(zhì)的形狀在決定其功能方面起著很大的作用,因此在生物學中,有這樣一句話:"結(jié)構(gòu)就是功能"。結(jié)構(gòu)將決定一個蛋白質(zhì)將做什么,以及它將如何工作。因此,我們可能會得出這樣的結(jié)論:只要知道一個蛋白質(zhì)的氨基酸序列,就可以確定其最終的三維形狀。但問題就在這里。
肽是2-50個氨基酸的短鏈。
一個單一的蛋白質(zhì)可以由多達2000個氨基酸組成。確定它們所有可能的結(jié)構(gòu)可能需要比整個宇宙的年齡還要長。這相當于大約103?可能性,這意味著一個能夠預(yù)測蛋白質(zhì)如何折疊的系統(tǒng)將必須使用比簡單的蠻力更優(yōu)雅和精確的東西。
自從1994年被稱為 "蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估"(CASP)的比賽開始以來,沒有一個競爭團隊能夠接近做出準確的預(yù)測。比賽本身由數(shù)百個團隊組成,他們的算法旨在從給定的氨基酸序列中預(yù)測大約100種不同的蛋白質(zhì)結(jié)構(gòu)。這些蛋白質(zhì)的結(jié)構(gòu)已經(jīng)通過實驗確定,但尚未公開披露。各參賽隊的算法所做的預(yù)測將與實驗結(jié)果進行比較,并由一個評委小組進行評估。用于確定蛋白質(zhì)結(jié)構(gòu)的實驗方法包括X射線晶體學和冷凍電子顯微鏡(cryo-EM):這是眾所周知但昂貴的研究方法。
去年,DeepMind的Alpha Fold算法成為第一個做出越來越準確預(yù)測的算法。該算法取得的進展如此驚人,以至于在許多研究人員看來,蛋白質(zhì)折疊的問題基本上已經(jīng)解決了。
Alpha Fold的預(yù)測在2020年平均準確率超過90%。這與過去幾十年來表現(xiàn)最好的CASP團隊所取得的平均40%的準確率相比,是一個巨大的進步。當其他團隊在中等難度的蛋白質(zhì)上獲得75%的準確率時,Alpha Fold會獲得90%的分數(shù)。即使算法確實與實驗結(jié)果有分歧,也不清楚哪一個更正確,因為兩者都允許有一定的誤差幅度。對于許多Alpha Fold的預(yù)測,這個誤差幅度是一個原子的大小,算法預(yù)測的是結(jié)構(gòu)中成千上萬個其他原子的確切位置。總的來說,大約有三分之二的預(yù)測結(jié)果與實驗結(jié)果具有相同的質(zhì)量。
自2006年以來,CASP中表現(xiàn)最好的團隊的準確率(GDT)。圖片由DeepMind提供。
使用核磁共振、X射線晶體學和冷凍電鏡等實驗方法,弄清一個蛋白質(zhì)結(jié)構(gòu)可能需要幾天甚至幾年時間。這些方法也是勞動密集型的,而且成本很高,需要依靠試驗和錯誤以及昂貴的機器。然而,Alpha Fold并不意味著要取代它們。相反,它是為了補充研究人員的工作。Alpha Fold已經(jīng)幫助科學家找到了他們已經(jīng)研究了幾十年的蛋白質(zhì)結(jié)構(gòu),使科學能夠在之前停滯不前的地方向前發(fā)展。酶創(chuàng)新中心正在使用該算法來尋找一種酶,以幫助我們分解一次性塑料。這也啟發(fā)了其他團隊--例如來自華盛頓大學的團隊--在Alpha Fold的基礎(chǔ)上進行改進,以使其更快、更節(jié)能。
然而,像80年代和90年代的計算機程序一樣,Alpha Fold的第一次迭代并不是很成功。它在2018年對CASP的準確率評價不到60%。直到Alpha Fold的第二次迭代,才在深度學習的幫助下取得真正的進展。深度學習是一種機器學習,它模仿人腦可能的行為方式,使機器能夠以遠低于傳統(tǒng)機器學習可能需要的人類輸入來學習。
由節(jié)點組成的神經(jīng)網(wǎng)絡(luò)構(gòu)成了深度學習的主干。神經(jīng)網(wǎng)絡(luò)中至少有3層節(jié)點:輸入層、輸出層和中間的隱藏層。數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)中的各個節(jié)點之間共享,然后機器做出預(yù)測,它可以對照數(shù)據(jù)集進行檢查。訓練數(shù)據(jù)有助于機器提高預(yù)測能力。在Alpha Fold的深度學習網(wǎng)絡(luò)的案例中,訓練數(shù)據(jù)包括來自蛋白質(zhì)數(shù)據(jù)庫的折疊蛋白質(zhì)。此外,Alpha Fold不是只有1個神經(jīng)網(wǎng)絡(luò),而是有2個網(wǎng)絡(luò),它們相互合作,折疊蛋白質(zhì),呈現(xiàn)3D模型,并在最后調(diào)整它們的氨基酸排列。
深度學習是人工智能的一個子集,其中神經(jīng)網(wǎng)絡(luò)幫助算法處理信息。在這里,我們看到神經(jīng)網(wǎng)絡(luò)的輸入層,輸出層
將Alpha Fold的代碼提供給學術(shù)界使用后,其影響可能是巨大的。
Alpha Fold與 "被忽視的疾病藥物 "倡議(DNDi)合作,迄今已實現(xiàn)了對疾病的新治療,幫助用更安全的藥物取代以前可能導(dǎo)致20個病人中1個死亡的有毒藥物。Alpha Fold還幫助檢測和預(yù)防威脅視力的眼部疾病,并幫助研究抗生素的抗性。新的設(shè)計可能導(dǎo)致分解有毒廢物的蛋白質(zhì),或解決碳捕獲的問題。它可能徹底改變的行業(yè)包括醫(yī)學、農(nóng)業(yè)、生物工程、生物技術(shù)和食品科學,盡管目前還不清楚究竟有多少突破會源于Alpha Fold算法的發(fā)布。它很可能需要幾十年的時間來釋放其全部潛力,以許多意想不到的方式改變世界。
最終,Alpha Fold對蛋白質(zhì)折疊問題的解決方案是一個用機器來理解機器的案例--畢竟,蛋白質(zhì)只不過是被編程用來運輸氧氣、消化食物以及兩者之間的一切的微型機器。這是人工智能力量的一個驚人的展示。人工智能是這一代人的望遠鏡:是了解我們周圍神秘現(xiàn)象的儀器,為世界打開了新的視野。
聯(lián)系客服