預測藥物-靶標相互作用是藥物發(fā)現的關鍵。近期,雖然基于深度學習的方法顯示出強有力的性能,但是仍然存在兩個挑戰(zhàn):如何明確地建模和學習藥物和目標之間的局部相互作用以更好地預測和解釋,以及如何優(yōu)化新藥物-目標對預測的泛化性能。
英國謝菲爾德大學(The University of Sheffield)和阿斯利康的研究人員合作開發(fā)了 DrugBAN,這是一個深度雙線性注意網絡(BAN)框架,具有域適應性,可以顯式學習藥物和目標之間的成對局部相互作用,并適應分布外的數據。
DrugBAN 對藥物分子圖和目標蛋白序列進行預測,使用條件域對抗性學習來對齊不同分布中學習到的交互表示,以便更好地泛化新的藥物-目標對。在域內和跨域設置下對三個基準數據集的實驗表明,DrugBAN 相對于五個當前最先進的基線模型實現了最佳的整體性能。此外,可視化學習到的雙線性注意力圖可以從預測結果中提供可解釋的見解。
該研究以「Interpretable bilinear attention network with domain adaptation improves drug–target prediction」為題,于 2023 年 2 月 2 日發(fā)布在《Nature Machine Intelligence》。
藥物-靶點相互作用(DTI)預測是藥物發(fā)現過程中的重要一步。傳統(tǒng)的體外實驗生物醫(yī)學測量是可靠的,但成本高且開發(fā)周期耗時,阻礙了其應用于大規(guī)模數據。相比之下,通過計算機方法識別高置信度的 DTI 對可以大大縮小候選化合物的搜索范圍,并提供對藥物組合中潛在副作用原因的深入了解。因此,計算機模擬方法在過去幾年中受到越來越多的關注并取得了很大進展。
對于計算機模擬方法,傳統(tǒng)的基于結構和基于配體的虛擬篩選方法因其相對有效的性能而得到廣泛研究。然而,基于結構的虛擬篩選需要分子對接模擬,如果目標蛋白質的三維(3D)結構未知,則不適用。此外,基于配體的虛擬篩選基于同一蛋白質的已知活性來預測新的活性分子,但當已知活性的數量不足時性能較差。
最近,基于深度學習的方法在計算 DTI 預測方面取得了快速進展,能夠在相對較短的時間內進行大規(guī)模驗證。其中許多是從化學基因組學的角度構建的,它將化學空間、基因組空間和相互作用信息整合到一個統(tǒng)一的端到端框架中。由于具有可用 3D 結構的生物靶標數量有限,許多基于深度學習的模型將藥物和蛋白質的線性或二維(2D)結構信息作為輸入。它們將 DTI 預測視為二元分類任務,并通過將輸入饋送到不同的深度編碼和解碼模塊,例如深度神經網絡 (DNN)、圖神經網絡 (GNN) 或 transformer 架構,來進行預測。隨著深度學習技術的進步,此類模型可以從大規(guī)模 DTI 數據中自動學習藥物和蛋白質的數據驅動表示,而不是僅使用預定義的描述符。
盡管取得了這些有希望的發(fā)展,但現有的基于深度學習的方法仍然存在兩個挑戰(zhàn)。
第一個挑戰(zhàn)是明確學習藥物和蛋白質局部結構之間的相互作用。DTI 本質上是由藥物化合物中重要的分子亞結構與蛋白質序列中的結合位點之間的相互作用決定的。然而,許多以前的模型使用它們單獨的編碼器來學習全局表示,而沒有明確地學習局部交互。所以,首先為整個結構學習藥物和蛋白質表示,并且僅在黑盒解碼模塊中隱式學習互信息。藥物和靶標之間的相互作用與其關鍵的子結構特別相關;因此,單獨的全局表示學習往往會限制建模能力和預測性能。此外,如果沒有對局部交互的顯式學習,即使預測準確,預測結果也很難解釋。
第二個挑戰(zhàn)是跨域推廣預測性能,超越學習分布。由于化學和基因組空間的廣闊區(qū)域,需要在現實世界應用中預測的藥物-目標對通常是看不見的,并且與訓練數據中的任何對都不相似。它們具有不同的分布,因此需要跨域建模。一個健壯的模型應該能夠將學到的知識轉移到只有未標記數據的新領域。在這種情況下,研究人員需要通過學習可遷移表示來對齊分布并提高跨域泛化性能;例如,從「來源」到「目標」。這是藥物發(fā)現中一個尚未充分探索的方向。
為了應對這些挑戰(zhàn),英國謝菲爾德大學和阿斯利康的研究人員合作,提出了一種可解釋的基于雙線性注意網絡的模型(DrugBAN)用于 DTI 預測。DrugBAN 是一個深度學習框架,可以顯式學習藥物和目標之間的局部相互作用,以及用于學習跨域可遷移表征的條件域適應。
具體來說,首先使用圖卷積網絡(GCN)和卷積神經網絡(CNN)將局部結構編碼為二維分子圖和一維 (1D) 蛋白質序列。然后將編碼的局部表示輸入到由雙線性注意網絡組成的成對交互模塊,以學習局部交互表示。局部聯(lián)合交互表示由全連接層解碼以進行 DTI 預測。通過這種方式,研究人員可以利用成對雙線性注意力圖來可視化每個子結構對最終預測結果的貢獻,提高可解釋性。對于跨域預測,應用條件域對抗網絡 (CDAN) 將學習到的知識從源域轉移到目標域,以增強跨域泛化。
圖示:DrugBAN 框架概述。(來源:論文)
研究人員對藥物發(fā)現的域內和跨域設置的五種最先進的 DTI 預測方法進行了全面的性能比較。與其他最先進的 DTI 模型和傳統(tǒng)機器學習模型相比,實驗結果表明 DrugBAN 在域內和跨域設置中始終如一地實現改進的 DTI 預測性能。此外,通過將注意力權重映射到蛋白質子序列和藥物化合物原子,該模型可以為解釋相互作用的性質提供生物學見解。論文中所提出的想法本質上是通用的,可以擴展到其他相互作用預測問題,例如藥物-藥物相互作用和蛋白質-蛋白質相互作用的預測。
圖示:使用隨機拆分和冷對拆分的人類數據集的域內性能比較(五次隨機運行的統(tǒng)計數據)。(來源:論文)
這項工作側重于使用一維蛋白質序列和二維分子圖作為輸入的基于化學基因組學的 DTI。鑒于高度準確的 3D 結構化蛋白質的數量僅占已知蛋白質序列的一小部分,因此這項工作沒有考慮使用此類結構信息進行建模。盡管如此,DeepMind 的 AlphaFold 在蛋白質 3D 結構預測方面取得了長足進步,最近從 100 萬個物種中生成了 20 億個蛋白質 3D 結構預測。這種進展為在基于化學基因組學的 DTI 預測中利用 3D 結構信息打開了大門。
遵循成對本地交互學習和域適應的想法,研究人員相信將該想法進一步擴展到復雜的 3D 結構,可以在未來的工作中帶來更好的性能和可解釋性。另外,這項工作分別研究了不同的數據集;將數據集集成與 DrugBAN 相結合將是另一個有趣的未來探索方向。
謝菲爾德大學機器學習教授 Haiping Lu 說,「我們設計 AI 有兩個主要目標。首先,我們希望 AI 能夠更精細地捕捉藥物如何與其靶標相互作用,因為這可以提供有用的生物學見解,幫助研究人員在分子水平上理解這些相互作用。其次,我們希望該工具能夠預測這些與新藥或靶點的相互作用,以幫助加速整體預測過程。我們今天發(fā)表的研究表明,我們的 AI 模型可以做到這兩點?!?/span>
阿斯利康數據科學、臨床藥理學和安全科學 (CPSS) 主任 Bino John 博士說,「DrugBAN 的一個關鍵新穎之處在于它依賴于雙線性注意力網絡,該網絡允許它同時從藥物及其靶標的子結構中學習相互作用。我們還向公眾免費提供源代碼,希望這將支持更多人工智能方法,從而繼續(xù)加速藥物發(fā)現?!?/span>
使用傳統(tǒng)方法發(fā)現和開發(fā)藥物可能非常困難,開發(fā)時間長且支出巨額。然而,藥物發(fā)現過程有可能顯著加快;隨著人工智能和數字技術的進步,研究人員正在尋找新的方法來確定藥物可能與我們體內的哪些蛋白質相互作用。
阿斯利康 CPSS 成像和數據分析主管 Nick Brown 說:「看到這篇論文我真的很興奮,特別是因為與其他方法不同,DrugBAN 使用雙線性注意力網絡同時從候選藥物及其目標中學習,并且明確設計用于泛化問題。」
謝菲爾德大學計算機科學系主任 Guy Brown 教授補充說:「這是一項令人興奮的研究,有望在治療學設計方面取得重大進展。該方法還因其對可解釋性的關注而與眾不同,使人類專家能夠從人工智能系統(tǒng)產生的見解中受益。」
論文鏈接:https://www.nature.com/articles/s42256-022-00605-1
相關報道:https://medicalxpress.com/news/2023-02-ai-discovery-medicines.html
聯(lián)系客服