傳統(tǒng)藥物研發(fā)過程漫長,投入大,風險高。新藥研發(fā)的平均時間長達15年,平均耗費超過8億美元。作為藥物研發(fā)的源頭,藥物靶標的發(fā)現(xiàn)和識別對藥物的研發(fā)成功率具有決定性的作用。隨著人工智能和機器學習逐漸應用于醫(yī)藥健康和藥物研究,以及蛋白質組學數(shù)據(jù)、化學基因組學數(shù)據(jù)的日益增長,可為藥物新靶標發(fā)現(xiàn)提供信息技術支撐,并為靶標識別預測提供新的思路。
本文介紹由湖南大學曾湘祥教授課題組聯(lián)合湘潭大學林軒博士和美國伊利諾伊大學芝加哥分校Philip S Yu教授發(fā)表在IEEE Transactions on Knowledge and Data Engineering期刊上的研究成果。該研究團隊提出了一種用于分子相互作用預測的知識圖譜增強多任務學習模型,該模型通過設計一個有效的共享單元模塊以協(xié)同方式從知識圖譜和分子圖中分別提取豐富的語義關聯(lián)信息和拓撲結構特征。在多個真實數(shù)據(jù)集上的實驗結果表明,該模型在兩個具有代表性的分子相互作用預測任務上(即藥物-靶標相互作用預測和化合物-蛋白質相互作用預測)均優(yōu)于最先進的基準方法。
分子相互作用預測在包括藥物發(fā)現(xiàn)和材料科學在內的各種應用中至關重要。當相互作用由分子網(wǎng)絡中的未映射關系表示(即分子相互作用)時,該問題變得相當具有挑戰(zhàn)性,因為它容易受到以下問題的影響:(i)標記數(shù)據(jù)不足,具有許多假陽性樣本;(ii)忽略知識圖譜中具有豐富信息的大量生物實體?,F(xiàn)有的大多數(shù)方法不能同時高效地利用知識圖譜和分子圖的信息。
整體框架
這項工作提出了基于知識圖譜的多任務學習框架用于預測分子相互作用。它可以同時提高多個預測任務的性能,包括藥物-靶標間的相互作用和化合物-蛋白質間的相互作用。KG-MTL的框架圖如圖1所示,它主要由三個模塊組成,即DTI、CPI和Shared Unit。
在DTI模塊中,采用關系圖卷積神經(jīng)網(wǎng)絡(RGCN)從知識圖譜中學習藥物和靶標實體的語義關系和拓撲結構信息,這有助于預測未知的藥物-靶標間的相互作用。
在CPI模塊中,同時采用卷積神經(jīng)網(wǎng)絡(CNN)和圖卷積神經(jīng)網(wǎng)絡(GCN)分別從蛋白質序列和化合物分子圖中提取更多的化學背景和分子圖的拓撲結構信息。
Shared Unit模塊將化合物的分子結構信息與前兩個模塊中相應藥物實體的語義關系進行融合,獲得更好的特征向量表示以進一步提升模型性能。
圖1 KG-MTL框架圖
實驗
DTI實驗
如表1所示,可看出KG-MTL優(yōu)于所有其他基線方法。具體來說,KG-MTL在DrugCentral數(shù)據(jù)集上的ACC、AUC和AUPR指標至少分別提高8.2%、3.9%和5%,在DrugBank數(shù)據(jù)集上分別提高4.9%、0.8%和1.8%。這些現(xiàn)象可表明:(i)與僅學習藥物和蛋白質序列表示的方法(如DeepConvDTI)相比,該方法可通過CPI模塊保留各種類藥化合物更多的有價值信息;(ii)與直接學習節(jié)點嵌入的KG模型(即TriModel、TransE、DistMult和GCN-KG)相比,所提出的Shared Unit模塊能夠幫助該模型聯(lián)合學習知識圖譜(即DRKG)中藥物實體的語義關系和其自身的分子拓撲結構,從而提高DTI任務的預測性能。
表1 在DTI預測任務上的對比實驗結果
CPI實驗
表2列出了CPI任務的比較結果。結果表明KG-MTL在human和C.elegans數(shù)據(jù)集上的性能均優(yōu)于所有基線方法。更具體地說,KG-MTL在AUC指標上實現(xiàn)了至少2.6%、在AUPR指標上實現(xiàn)了至少1.1%的性能提升。同時,與human數(shù)據(jù)集中的GNN-CPI(第二好方法)相比,KG-MTL獲得了94.9%的最佳AUC分數(shù),絕對增益至少為3.3%。這種改進歸因于DTI模塊帶來的豐富信息,該模塊可從知識圖譜中提取藥物實體的豐富語義關系,而其他基于圖的方法(例如GNN-CPI和NeoDTI)僅從化合物的分子結構或藥物相關網(wǎng)絡的拓撲結構中學習嵌入表示。同時,與直接采用知識圖譜信息而忽略分子結構的KG模型(即TransE、DistMult和GCN-KG)相比,KG-MTL通過Shared Unit模塊進一步融合知識圖譜信息和分子圖結構,從而獲得更好的預測性能。
表2 在CPII預測任務上的對比實驗結果
消融實驗
為了研究Shared Unit模塊中不同操作和學習策略對提出模型性能的影響,該論文對KG-MTL的幾種變體進行了消融實驗:KG-MTL-S是KG-MTL的變體,它去除了Shared Unit和學習策略。因此,可以采用KG-MTL-Sdti/KG-MTL-Scpi表示單個DTI/CPI任務,KG-MTL-L去除了Shared Unit的交叉操作,僅保留了線性操作。KG-MTL-C刪除了Shared Unit的線性操作,只保留了交叉操作。兩種任務的消融實驗結果如表1和表2所示。結果表明,包括線性和交叉操作在內的Shared Unit及學習策略對這兩個任務的預測性能都有影響。在所有變體中,KG-MTL-S與KG-MTL相比,性能差距顯著,這表明Shared Unit模塊在幫助模型同時從分子圖和知識圖譜中提取的藥物特征方面貢獻最大,從而提高了預測性能。此外,所提出的KG-MTL方法在所有數(shù)據(jù)集中均優(yōu)于KG-MTL-L和KG-MTL-C,證明了完整設置的Shared Unit模塊有利于提高預測性能。
總結
靶標間的分子相互作用預測(如DTI和CPI預測)在藥理學和臨床應用等許多方面中發(fā)揮著關鍵作用。本工作重點關注分子間的相互作用預測,這需要模型捕捉藥物的特征及與靶標相關的相互作用信息。然而,已有的大多數(shù)工作對于藥物特征提取不足,忽略了知識圖譜中的語義信息。為了解決這個局限性,該工作提出了一個名為KG-MTL的新框架,可從多任務學習的角度開發(fā)了一個新的Shared Unit模塊,分別從化合物的分子圖和對應的知識圖譜中的藥物實體中捕獲信息。在真實數(shù)據(jù)集上的實驗結果表明,KG-MTL可以提高藥物-靶標相互作用預測和化合物-蛋白質相互作用預測任務的性能。
參考資料
Ma, T., Lin, X., Song, B., Philip, S.Y. and Zeng, X., 2022. KG-MTL: Knowledge Graph Enhanced Multi-Task Learning for Molecular Interaction. IEEE Transactions on Knowledge and Data Engineering.
代碼
https://github.com/xzenglab/KG-MTL
聯(lián)系客服