——背景——
在藥物開發(fā)中的一大難點(diǎn)是實(shí)驗(yàn)測量或模擬計(jì)算得到大量現(xiàn)有藥物分子與靶點(diǎn)的相互作用,以及藥物分子與脫靶蛋白的意外相互作用。藥靶結(jié)合的強(qiáng)度常用結(jié)合親和性常數(shù)來描述,包括解離常數(shù)(Kd)、抑制常數(shù)(Ki)和最大半抑制濃度(IC50)等指標(biāo)。實(shí)驗(yàn)測量結(jié)合親和性常數(shù)費(fèi)時(shí)費(fèi)力,因此計(jì)算方法得到藥物開發(fā)者的青睞。
2021年4月27日,來自中山大學(xué)智能工程學(xué)院智能醫(yī)療中心主任陳語謙等人在J. Phys. Chem. Lett.上發(fā)表題為ML-DTI: Mutual Learning Mechanism for Interpretable Drug–Target Interaction Prediction的論文,提出了一種基于相互學(xué)習(xí)機(jī)制、無三維結(jié)構(gòu)信息、具有可解釋性的藥靶相互作用預(yù)測方法。
計(jì)算方法分為傳統(tǒng)的對接模擬(Docking simulations)和基于機(jī)器學(xué)習(xí)的方法。對于沒有藥物與靶點(diǎn)蛋白結(jié)合的三維結(jié)構(gòu)信息的情況,對接模擬往往難以勝任或者耗時(shí)巨大。對此,Bock等人在2005年提出一種不借助三維結(jié)構(gòu)信息的預(yù)測藥靶結(jié)合(Drug-target interaction,DTI)的機(jī)器學(xué)習(xí)方法,僅從蛋白序列信息與藥物分子的二維、一維表示出發(fā),預(yù)測結(jié)合親和力。之后深度學(xué)習(xí)算法也被應(yīng)用到無三維結(jié)構(gòu)信息的DTI預(yù)測任務(wù)中。其中主要用一維卷積神經(jīng)網(wǎng)絡(luò)(CNN)來捕捉蛋白序列局部的殘基組合模式,再借助圖神經(jīng)網(wǎng)絡(luò)(GNN)來編碼藥物分子。此外還可以結(jié)合集成學(xué)習(xí)方法提高算法效果、加入自注意力機(jī)制增加模型可解釋性以及用多標(biāo)簽學(xué)習(xí)來解決單標(biāo)簽學(xué)習(xí)的局限性。
作者注意到之前的工作中,蛋白編碼與藥物編碼過程是獨(dú)立的,因而對此開發(fā)了一種交叉依賴的網(wǎng)絡(luò)架構(gòu),在利用CNN編碼的同時(shí),使得蛋白與藥物編碼器協(xié)同工作,從而在編碼階段捕捉藥物分子與蛋白的相互作用,模型架構(gòu)如圖1所示。
圖1 ML-DTI模型架構(gòu)示意圖。
——數(shù)據(jù)集——
無三維結(jié)構(gòu)信息的DTI預(yù)測benchmark數(shù)據(jù)集有Metz、KIBA與Davis,分別用Ki,KIBA分?jǐn)?shù)與Kd來衡量結(jié)合親和力,清洗數(shù)據(jù)后的情況如Table 1所示。其中靶點(diǎn)蛋白的信息為殘基序列,藥物分子的信息為SMILES。
表1 Metz、KIBA與Davis三個(gè)數(shù)據(jù)集的概況
——模型——
DTI結(jié)合親和力的預(yù)測是一個(gè)回歸問題,模型整體構(gòu)架如圖1所示。藥物分子與蛋白序列中的字符先用整數(shù)編碼,再經(jīng)過Embedding layer,經(jīng)過三層卷積層來提取局部模式,并用最大池化操作整合不同位置的特征,最后經(jīng)過三層線性變換層預(yù)測結(jié)合親和力。
在藥物分子與蛋白序列編碼過程中,作者加入相互學(xué)習(xí)機(jī)制,如圖2所示。
圖2 相互學(xué)習(xí)機(jī)制示意圖。
通過多頭注意力(Multihead Attention)得到靶蛋白的多個(gè)全局描述子,每個(gè)全局描述子是靶蛋白特征向量的加權(quán)和。通過對多個(gè)全局描述符進(jìn)行均值運(yùn)算,可以得到蛋白質(zhì)的魯棒性的全局描述符。通過計(jì)算蛋白質(zhì)與藥物分子每個(gè)原子之間的相互作用概率,可以利用位置感知注意力(Position-Aware Attention)得到藥物分子特征向量的概率圖,如圖3所示。
圖3 多頭注意力與位置感知注意力的架構(gòu)細(xì)節(jié)。
作者在實(shí)驗(yàn)中用了5-fold cross-validation,同時(shí)將數(shù)據(jù)集按照三種方式分割:(1)隨機(jī)分割;(2)孤立靶蛋白分割(驗(yàn)證集與測試集中不含訓(xùn)練集中出現(xiàn)過的靶蛋白);(3)孤立藥物分子分割(驗(yàn)證集與測試集中不含訓(xùn)練集中出現(xiàn)過的藥物分子)
——結(jié)果與討論——
作者將開發(fā)的ML-DTI模型分別與傳統(tǒng)機(jī)器學(xué)習(xí)方法(RF、SVM、XGB)與深度學(xué)習(xí)方法(GraphDTI、LSTM-DTI、DeepDTI)進(jìn)行比較,在不同數(shù)據(jù)集與不同分割方法中,大部分情況下ML-DTI有著更好的表現(xiàn),尤其是在隨機(jī)分割中的表現(xiàn)明顯優(yōu)于其他方法,其R2=0.727(KIBA數(shù)據(jù)集,隨機(jī)分割)。在孤立靶蛋白分割與孤立藥物分子分割的情形下,所有機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型表現(xiàn)下降,尤其是孤立藥物分子,這說明藥物分子的信息相比靶蛋白,對于DTI預(yù)測發(fā)揮了更大的作用。
同時(shí)作者嘗試分別去除ML-DTI模型中的多頭注意力與位置感知注意力,表現(xiàn)(MSE)都有所下降,從而驗(yàn)證這兩個(gè)模塊的有效性。
為了給深度學(xué)習(xí)“黑箱模型”提供解釋性,作者將相互學(xué)習(xí)機(jī)制得到的概率圖進(jìn)行了可視化。作者選擇人表皮生長因子受體(EGFR)作為靶蛋白(與乳腺癌有關(guān)的熱門靶點(diǎn)),隨機(jī)選擇兩個(gè)已知的DTIs(Afatinib與Gefitinib)進(jìn)行預(yù)測,并從第二層互學(xué)習(xí)層提取概率圖,并映射到分子結(jié)構(gòu)與蛋白序列中,得到的結(jié)果如圖4所示。
圖4 ML-DTI藥靶結(jié)合親和力預(yù)測得到的概率圖可視化(a)Afatinib分子結(jié)構(gòu)中原子權(quán)重示意圖;(b)Gefitinib分子結(jié)構(gòu)中原子權(quán)重示意圖;(c)EFGR與Afatinib結(jié)合結(jié)構(gòu)示意,橙色為蛋白序列的權(quán)重較高的殘基;(d)EFGR與Gefitinib結(jié)合結(jié)構(gòu)示意,橙色為蛋白序列的權(quán)重較高的殘基。
由可視化圖可見,藥物分子中形成氫鍵的關(guān)鍵雜原子都有著較高的權(quán)重,而蛋白序列中與藥物分子有相互作用的殘基也有著較高權(quán)重。
最后作者針對EFGR靶蛋白,找了9241個(gè)化合物(都未出現(xiàn)在訓(xùn)練集中;其中8個(gè)與EFGR有已知的DTI),得到預(yù)測的KIBA分?jǐn)?shù)前20名中,出現(xiàn)了4個(gè)已知DTI的化合物(4/8),且前2名都是已知DTI的化合物。相比之下,其他深度學(xué)習(xí)算法的得分前20名中包含已知DTI化合物的情況如下:Graph-DTI 3/8;LSTM-DTI 1/8;DeepDTI 3/8。
——總結(jié)——
ML-DTI的工作亮點(diǎn)在于利用Attention機(jī)制提高模型表現(xiàn)的同時(shí),還可以進(jìn)行可視化分析,為模型提供可解釋性,可以在藥物設(shè)計(jì)時(shí),預(yù)測靶蛋白與分子結(jié)合的殘基位置與關(guān)鍵原子,同時(shí)由于只基于蛋白序列信息,無需三維結(jié)構(gòu)信息,因此可以輔助藥物設(shè)計(jì)時(shí)的快速高通量虛篩。
筆者認(rèn)為作者最后的EFGR藥靶結(jié)合虛篩的應(yīng)用實(shí)例結(jié)果還不夠嚴(yán)謹(jǐn),在預(yù)測結(jié)果中,已知DTI化合物排名靠前不能完全說明預(yù)測的優(yōu)越性,排名高的未知分子可能本身就是結(jié)合親和力更優(yōu)越的。在沒有實(shí)驗(yàn)數(shù)據(jù)的驗(yàn)證下,該結(jié)果無法橫向比較來說明模型的優(yōu)勢。
參考文獻(xiàn):
[1] Yang, Ziduo, et al. "ML-DTI: Mutual Learning Mechanism for Interpretable Drug–Target Interaction Prediction." J. Phys. Chem. Lett., 12(2021): 4247-4261. DOI:10.1021/acs.jpclett.1c00867
聯(lián)系客服