涩色在线,天天操天天添,日日噜噜噜噜人人爽亚洲精品

【深度學(xué)習(xí)】ML-DTI—基于相互學(xué)習(xí)機(jī)制預(yù)測藥靶結(jié)合親和力

2022.08.17 北京

——背景——

在藥物開發(fā)中的一大難點(diǎn)是實(shí)驗(yàn)測量或模擬計(jì)算得到大量現(xiàn)有藥物分子與靶點(diǎn)的相互作用，以及藥物分子與脫靶蛋白的意外相互作用。藥靶結(jié)合的強(qiáng)度常用結(jié)合親和性常數(shù)來描述，包括解離常數(shù)（K_d）、抑制常數(shù)（K_i）和最大半抑制濃度（IC₅₀）等指標(biāo)。實(shí)驗(yàn)測量結(jié)合親和性常數(shù)費(fèi)時(shí)費(fèi)力，因此計(jì)算方法得到藥物開發(fā)者的青睞。

2021年4月27日，來自中山大學(xué)智能工程學(xué)院智能醫(yī)療中心主任陳語謙等人在J. Phys. Chem. Lett.上發(fā)表題為ML-DTI: Mutual Learning Mechanism for Interpretable Drug–Target Interaction Prediction的論文，提出了一種基于相互學(xué)習(xí)機(jī)制、無三維結(jié)構(gòu)信息、具有可解釋性的藥靶相互作用預(yù)測方法。

計(jì)算方法分為傳統(tǒng)的對接模擬（Docking simulations）和基于機(jī)器學(xué)習(xí)的方法。對于沒有藥物與靶點(diǎn)蛋白結(jié)合的三維結(jié)構(gòu)信息的情況，對接模擬往往難以勝任或者耗時(shí)巨大。對此，Bock等人在2005年提出一種不借助三維結(jié)構(gòu)信息的預(yù)測藥靶結(jié)合（Drug-target interaction，DTI）的機(jī)器學(xué)習(xí)方法，僅從蛋白序列信息與藥物分子的二維、一維表示出發(fā)，預(yù)測結(jié)合親和力。之后深度學(xué)習(xí)算法也被應(yīng)用到無三維結(jié)構(gòu)信息的DTI預(yù)測任務(wù)中。其中主要用一維卷積神經(jīng)網(wǎng)絡(luò)（CNN）來捕捉蛋白序列局部的殘基組合模式，再借助圖神經(jīng)網(wǎng)絡(luò)（GNN）來編碼藥物分子。此外還可以結(jié)合集成學(xué)習(xí)方法提高算法效果、加入自注意力機(jī)制增加模型可解釋性以及用多標(biāo)簽學(xué)習(xí)來解決單標(biāo)簽學(xué)習(xí)的局限性。

作者注意到之前的工作中，蛋白編碼與藥物編碼過程是獨(dú)立的，因而對此開發(fā)了一種交叉依賴的網(wǎng)絡(luò)架構(gòu)，在利用CNN編碼的同時(shí)，使得蛋白與藥物編碼器協(xié)同工作，從而在編碼階段捕捉藥物分子與蛋白的相互作用，模型架構(gòu)如圖1所示。

圖1 ML-DTI模型架構(gòu)示意圖。

——數(shù)據(jù)集——

無三維結(jié)構(gòu)信息的DTI預(yù)測benchmark數(shù)據(jù)集有Metz、KIBA與Davis，分別用K_i，KIBA分?jǐn)?shù)與K_d來衡量結(jié)合親和力，清洗數(shù)據(jù)后的情況如Table 1所示。其中靶點(diǎn)蛋白的信息為殘基序列，藥物分子的信息為SMILES。

表1 Metz、KIBA與Davis三個(gè)數(shù)據(jù)集的概況

——模型——

DTI結(jié)合親和力的預(yù)測是一個(gè)回歸問題，模型整體構(gòu)架如圖1所示。藥物分子與蛋白序列中的字符先用整數(shù)編碼，再經(jīng)過Embedding layer，經(jīng)過三層卷積層來提取局部模式，并用最大池化操作整合不同位置的特征，最后經(jīng)過三層線性變換層預(yù)測結(jié)合親和力。

在藥物分子與蛋白序列編碼過程中，作者加入相互學(xué)習(xí)機(jī)制，如圖2所示。

圖2 相互學(xué)習(xí)機(jī)制示意圖。

通過多頭注意力（Multihead Attention）得到靶蛋白的多個(gè)全局描述子，每個(gè)全局描述子是靶蛋白特征向量的加權(quán)和。通過對多個(gè)全局描述符進(jìn)行均值運(yùn)算，可以得到蛋白質(zhì)的魯棒性的全局描述符。通過計(jì)算蛋白質(zhì)與藥物分子每個(gè)原子之間的相互作用概率，可以利用位置感知注意力（Position-Aware Attention）得到藥物分子特征向量的概率圖，如圖3所示。

圖3 多頭注意力與位置感知注意力的架構(gòu)細(xì)節(jié)。

作者在實(shí)驗(yàn)中用了5-fold cross-validation，同時(shí)將數(shù)據(jù)集按照三種方式分割：（1）隨機(jī)分割；（2）孤立靶蛋白分割（驗(yàn)證集與測試集中不含訓(xùn)練集中出現(xiàn)過的靶蛋白）；（3）孤立藥物分子分割（驗(yàn)證集與測試集中不含訓(xùn)練集中出現(xiàn)過的藥物分子）

——結(jié)果與討論——

作者將開發(fā)的ML-DTI模型分別與傳統(tǒng)機(jī)器學(xué)習(xí)方法（RF、SVM、XGB）與深度學(xué)習(xí)方法（GraphDTI、LSTM-DTI、DeepDTI）進(jìn)行比較，在不同數(shù)據(jù)集與不同分割方法中，大部分情況下ML-DTI有著更好的表現(xiàn)，尤其是在隨機(jī)分割中的表現(xiàn)明顯優(yōu)于其他方法，其R²=0.727（KIBA數(shù)據(jù)集，隨機(jī)分割）。在孤立靶蛋白分割與孤立藥物分子分割的情形下，所有機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型表現(xiàn)下降，尤其是孤立藥物分子，這說明藥物分子的信息相比靶蛋白，對于DTI預(yù)測發(fā)揮了更大的作用。

同時(shí)作者嘗試分別去除ML-DTI模型中的多頭注意力與位置感知注意力，表現(xiàn)（MSE）都有所下降，從而驗(yàn)證這兩個(gè)模塊的有效性。

為了給深度學(xué)習(xí)“黑箱模型”提供解釋性，作者將相互學(xué)習(xí)機(jī)制得到的概率圖進(jìn)行了可視化。作者選擇人表皮生長因子受體(EGFR)作為靶蛋白（與乳腺癌有關(guān)的熱門靶點(diǎn)），隨機(jī)選擇兩個(gè)已知的DTIs（Afatinib與Gefitinib）進(jìn)行預(yù)測，并從第二層互學(xué)習(xí)層提取概率圖，并映射到分子結(jié)構(gòu)與蛋白序列中，得到的結(jié)果如圖4所示。

圖4 ML-DTI藥靶結(jié)合親和力預(yù)測得到的概率圖可視化（a）Afatinib分子結(jié)構(gòu)中原子權(quán)重示意圖；（b）Gefitinib分子結(jié)構(gòu)中原子權(quán)重示意圖；（c）EFGR與Afatinib結(jié)合結(jié)構(gòu)示意，橙色為蛋白序列的權(quán)重較高的殘基；（d）EFGR與Gefitinib結(jié)合結(jié)構(gòu)示意，橙色為蛋白序列的權(quán)重較高的殘基。

由可視化圖可見，藥物分子中形成氫鍵的關(guān)鍵雜原子都有著較高的權(quán)重，而蛋白序列中與藥物分子有相互作用的殘基也有著較高權(quán)重。

最后作者針對EFGR靶蛋白，找了9241個(gè)化合物（都未出現(xiàn)在訓(xùn)練集中；其中8個(gè)與EFGR有已知的DTI），得到預(yù)測的KIBA分?jǐn)?shù)前20名中，出現(xiàn)了4個(gè)已知DTI的化合物（4/8），且前2名都是已知DTI的化合物。相比之下，其他深度學(xué)習(xí)算法的得分前20名中包含已知DTI化合物的情況如下：Graph-DTI 3/8；LSTM-DTI 1/8；DeepDTI 3/8。

——總結(jié)——

ML-DTI的工作亮點(diǎn)在于利用Attention機(jī)制提高模型表現(xiàn)的同時(shí)，還可以進(jìn)行可視化分析，為模型提供可解釋性，可以在藥物設(shè)計(jì)時(shí)，預(yù)測靶蛋白與分子結(jié)合的殘基位置與關(guān)鍵原子，同時(shí)由于只基于蛋白序列信息，無需三維結(jié)構(gòu)信息，因此可以輔助藥物設(shè)計(jì)時(shí)的快速高通量虛篩。

筆者認(rèn)為作者最后的EFGR藥靶結(jié)合虛篩的應(yīng)用實(shí)例結(jié)果還不夠嚴(yán)謹(jǐn)，在預(yù)測結(jié)果中，已知DTI化合物排名靠前不能完全說明預(yù)測的優(yōu)越性，排名高的未知分子可能本身就是結(jié)合親和力更優(yōu)越的。在沒有實(shí)驗(yàn)數(shù)據(jù)的驗(yàn)證下，該結(jié)果無法橫向比較來說明模型的優(yōu)勢。

參考文獻(xiàn)：

[1] Yang, Ziduo, et al. "ML-DTI: Mutual Learning Mechanism for Interpretable Drug–Target Interaction Prediction." J. Phys. Chem. Lett., 12(2021): 4247-4261. DOI:10.1021/acs.jpclett.1c00867

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

麻省理工團(tuán)隊(duì)開發(fā)類ChatGPT模型，基于蛋白質(zhì)大語言模型，加速AI藥物發(fā)現(xiàn)

BIB｜基于機(jī)器學(xué)習(xí)的藥物與靶點(diǎn)相互作用預(yù)測方法綜述

KG-MTL:知識(shí)與數(shù)據(jù)雙驅(qū)動(dòng)的藥物靶標(biāo)預(yù)測方法

JCIM｜結(jié)合AI與Docking的基于結(jié)構(gòu)的分子從頭生成模型

結(jié)構(gòu)分子生物學(xué)的技術(shù)之分子對接

輝瑞拜耳都看好的新領(lǐng)域，初創(chuàng)公司TRIANA僅靠一個(gè)平臺(tái)融資1.1億美元

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区