簡介
一、DTI預測中使用的機器學習方法
1.1 基于相似度/距離的方法
用于DTI預測的最流行的方法是通過用來進行預測的相似性或距離函數(shù)來合并藥物-藥物和靶點-靶點的相似性測量。
基于相似性的方法具有四個優(yōu)點:(i)不需要特征提取和特征選擇,(ii)關于藥物和基因的相似性測量函數(shù)之前已經(jīng)有過充分研究,(iii)可以很容易地使用基于函數(shù)的學習方法(例如支持向量機(SVM))將它們合并,(iv)它們可用于連接化學空間和基因組空間。
通常,這些方法包括基于已知的一對藥物-藥物和靶點-靶點相似性度量的藥物-藥物、靶點-靶點或藥物-靶點關聯(lián)的相似性評分方案。同樣,可以通過距離函數(shù)獲得相似性度量,該距離函數(shù)定義了新藥相對于已知藥物-靶點對的相似度。有幾種方法可以通過不同的距離函數(shù)定義“附近”,其中歐幾里得距離是較為著名的。例如,NN算法采用了以下定義:假設兩個向量空間V1和V2具有相同的維度,則兩個樣本的距離用D(V1,V2)表示:
其中(·)和|| ·|| 分別表示內積和歐幾里得范數(shù)。
除上述內容外,還可以基于藥物的藥理學相似性和蛋白質序列的基因組相似性以及現(xiàn)有藥物和蛋白質靶點的多部分網(wǎng)絡的拓撲特性來定義相似性/距離函數(shù)。表1提供了基于相似度/距離提出的方法的完整列表。
表1. 基于相似度/距離的方法1.2 深度學習方法
深度學習由于其在語音識別,圖像識別和自然語言處理等許多領域的出色表現(xiàn)而變得越來越受歡迎。 近年來,將深度學習方法應用于藥物發(fā)現(xiàn)的研究一直在不斷增加。
深度學習方法似乎通過減少預測DTI時特征信息的損失而克服了某些限制。使用深度學習方法的缺點之一在于,并不總是有足夠的可用信息來執(zhí)行深度學習方法。
大多數(shù)基于深度學習的DTI預測方法包括兩個主要步驟:生成特征向量,然后將深度學習應用于已知的DTI。通常,可以將藥物和靶點的三種類型的屬性(即生物學,拓撲學和物理化學信息)用于生成基于深度學習的DTI方法的特征向量/矩陣。與最新的特征提取方法和SVM分類器相比,采用深度學習的方法的一個優(yōu)勢在于能夠挖掘藥物與靶點之間的隱藏相互作用。
盡管深度學習方法有良好的性能,但仍有幾個方面需要改進。首先,為有監(jiān)督的深度學習方法創(chuàng)建可靠的負樣本數(shù)據(jù)集是一項艱巨的任務。之前發(fā)布的大多數(shù)基于深度學習的DTI預測程序都是有監(jiān)督的機器學習方法,因此如何建立無偏見的負樣本DTI數(shù)據(jù)集以進行模型擬合和測試是關鍵的一步。另外,DTI預測是為了發(fā)現(xiàn)新的DTI。如何選擇真正的無相互作用的藥物-靶點對是一項棘手的任務。其次,隨著越來越多的不同類型的藥物、靶點數(shù)據(jù)可用,如何將來自藥物和/或靶點的異類數(shù)據(jù)納入高維特征以用于深度學習方法也是一個挑戰(zhàn)。最后,在測試數(shù)據(jù)集上表現(xiàn)出出色性能的深度學習方法并不意味著它們也可以在真正的藥物發(fā)現(xiàn)中表現(xiàn)出色的性能。
表2. 深度學習方法
1.3 基于特征的方法
執(zhí)行DTI預測的絕大多數(shù)機器學習方法都屬于此類。它包含了大多數(shù)的方法,包括SVM,基于樹的方法和基于核函數(shù)的方法。任何藥物-靶點對都將以具有一定長度的特征向量表示,通常使用二進制標簽將這些成對向量分為具有正負相互作用的兩類。換句話說,假設特征空間為F:
其中d和t分別表示長度為n、m的目標、藥物特征向量。
一旦定義了特征空間,就可以配合各種機器學習方法來執(zhí)行DTI預測任務。
表3. 基于特征的方法(第一部分)
表4.基于特征的方法(第二部分)
1.4 矩陣分解法
在預測DTI方面,已證明矩陣分解方法優(yōu)于其他機器學習方法。給定一個相互作用矩陣Xn×m,
對于i = 1:n和j = 1:m,可以定義
DTI預測的主要目標是將矩陣Xn×m分解為兩個矩陣Yn×k和Zm×k,其中X 合同于YZT,k <n、m。
圖3. 矩陣分解法
此處ZT表示Z的轉置矩陣。這會將矩陣Xn×m分解為兩個具有較低階數(shù)的矩陣(即秩減?。?,這使得使用matrix completion技術以處理丟失的數(shù)據(jù)更加容易。
與大多數(shù)用于DTI預測的需要(2D)藥物結構相似性的機器學習方法相比,一些矩陣分解方法并不依賴于化學相似性或藥物相似性,而是利用協(xié)作過濾算法,其中一種可以稱為概率矩陣分解(PMF)。此外,低秩嵌入(low-rank embedding,LRE)通過優(yōu)化問題找到數(shù)據(jù)集X的低維表示矩陣R,然后固定R并最大程度地降低R中的重構誤差,以保留點狀線性重構(原始樣本的局部結構)的方式保留嵌入式空間。
在這組方法中,假設藥物和靶點位于相同的距離空間中,那么可以使用藥物和靶點之間的距離來衡量其相互作用的強度。因此,藥物和靶點都可以嵌入到具有某些約束條件的公共低維子空間中。
盡管已證明這組方法比其他方法更可靠,但與某種藥物和/或靶點有關的數(shù)據(jù)數(shù)量和種類的快速增長遠遠超出了基于矩陣的數(shù)據(jù)表示和當前許多分析算法的能力。
表5. 矩陣分解方法以及提出和使用它們的論文
1.5 基于網(wǎng)絡的方法
基于網(wǎng)絡的方法是指利用基于圖的技術來執(zhí)行DTI預測任務的方法。
圖4. 藥物-靶點相互作用異質網(wǎng)絡
這些方法中包括基于網(wǎng)絡的推理(network-based inference,NBI)來預測DTI,這是最簡單但最可靠的推理方法之一,它只使用藥物靶點雙向網(wǎng)絡拓撲相似性(DT bipartite network topology similarity)。
此外,在某些方法中,蛋白質-蛋白質相似性,藥物-藥物相似性和已知DTI這三個網(wǎng)絡被整合到一個異質網(wǎng)絡中,并假設相似的藥物通常作用于相似的蛋白質。除了執(zhí)行DTI預測任務,兩層無向圖形表示法的網(wǎng)絡也可以用來訓練預測直接DTI(通常由蛋白質-配體結合引起),間接DTI和藥物作用方式(結合相互作用,活化相互作用和抑制相互作用)。
表6. 基于網(wǎng)絡的方法的列表
1.6 混合方法
混合方法是指利用基于特征的方法、矩陣分解、深度學習和基于網(wǎng)絡的方法的任意組合的所有方法。通過集成不同的信息集可以擴展預測算法的功能?;旌戏椒ㄍǔS袃蓚€目的:他們解決了DTI中未知相互作用的問題,并同時利用了機器學習方法的最大優(yōu)勢?;旌戏椒ǖ男阅軆?yōu)于其他最新方法在于通過提取藥物和靶點的復雜的隱藏的特征來優(yōu)化特征提取過程。在DTI預測中,集成兩種機器學習方法通常會在結果方面發(fā)揮作用,因為它們同時充分利用了兩種方法的潛力。但是,這需要我們能夠處理由于集成兩組方法而導致的高復雜性(計算或操作)。
表7. 混合方法的簡短說明
二、DTI預測中使用的數(shù)據(jù)集
2.1 DTI數(shù)據(jù)集
建立DTI數(shù)據(jù)集以收集DTI和其他相關信息。在這里,我們列出了該類別中的11個數(shù)據(jù)集。在這些數(shù)據(jù)集中,有些數(shù)據(jù)集沒有直接提到“ DTI”數(shù)據(jù)集,但其中包含的數(shù)據(jù)可用于DTI研究。例如,KEGG是一個廣泛的數(shù)據(jù)集,涵蓋了從基因/蛋白質到生物學途徑和人類疾病的多種生物學數(shù)據(jù)。在KEGG中,兩個子數(shù)據(jù)集KEGGDRUG和KEGGBRITE包含可用于DTI預測的數(shù)據(jù)。ChEMBL也不是專門針對藥物、靶點的數(shù)據(jù)集,它是基于收集生物活性化合物而建立的。但是,結合靶點和其他相關生物學信息,該數(shù)據(jù)集也可以用于藥物、靶點的重新定位。與ChEMBL相似,IntAct是一個包含分子相互作用的數(shù)據(jù)集,可用于藥物研究。LINCS與上述兩個數(shù)據(jù)集不同。該數(shù)據(jù)門戶網(wǎng)站包含旨在了解由不同干擾劑引起的基因表達和細胞過程變化的生物化學數(shù)據(jù)。LINCS中使用的許多干擾劑都是藥物,因此這也是DTI研究的重要數(shù)據(jù)來源。此組中包括的其他數(shù)據(jù)集是SuperTarget,藥理指南(GtoPdb),DrugBank,治療目標數(shù)據(jù)集(TTD),STITCH,ChemProt 3.0和DGIdb 3.0。表8匯總了這些數(shù)據(jù)集的一般信息。
2.2 以藥物為中心的數(shù)據(jù)集或以靶點為中心的數(shù)據(jù)集
在此類別中,包括六個數(shù)據(jù)集。 它們是BRENDA,PubChem,SuperDRUG2,DrugCentral,PDID,Pharos和ECOdrug。在這些數(shù)據(jù)集中,SuperDRUG2和DrugCentral被認為是“以藥物為中心”的數(shù)據(jù)集。由于PubChem是建立在可收集數(shù)百萬種化合物的數(shù)據(jù)集之上,因此在本文中,我們還將其列為“以藥物為中心”的數(shù)據(jù)集。PDID和Pharos被歸類為“以靶點為中心”數(shù)據(jù)集。我們還將BRENDA列為“以靶點為中心” 數(shù)據(jù)集。BRENDA中存儲的大量酶和相關配體可用作DTI研究的目標。此外,我們還將ECOdrug列為“以靶點為中心”的數(shù)據(jù)集,與上述數(shù)據(jù)集不同的是,該數(shù)據(jù)集包含非人類模型物種的目標信息。
表9. 以藥物為中心或以靶點為中心的數(shù)據(jù)集
2.3 綁定親和力數(shù)據(jù)集
在此類別中,包括BindingDB,PDBBind和PDSP Ki。它們都包含化學-蛋白質結合親和力的數(shù)據(jù)。BindingDB主要集中在藥物(類藥物分子)和靶蛋白之間的結合親和力數(shù)據(jù)的收集上?;趤碜訮DB的生物分子復合物的結合親和力測量建立PDBbind。PDSP Ki與BindingDB類似,后者也包含DTI上的大量綁定親和力數(shù)據(jù)。
表10. 綁定親和力數(shù)據(jù)集
三、DTI數(shù)據(jù)集挑戰(zhàn)和未來工作
DTI預測的挑戰(zhàn)可分為兩大類:與數(shù)據(jù)集有關的挑戰(zhàn)和與計算有關的挑戰(zhàn)。通常,根據(jù)問題的性質,可以使用不同的預測方法來克服計算難題。在這里,我們提供了關于第一類挑戰(zhàn)的一些建議。
3.1 數(shù)據(jù)集挑戰(zhàn)和未來工作
幾乎所有用于DTI預測的方法,特別是基于相似性的方法,都嚴重依賴有關相似藥物和相似靶點的確定性,所以,用于預測的數(shù)據(jù)集類型起著重要作用。在數(shù)據(jù)集方面,缺乏統(tǒng)一的藥物和靶點定義以及調用和識別化合物和生物分子的一致性,與數(shù)據(jù)集中的至少一個其他來源重疊,采用不同的標識符代表藥物和目標是主要挑戰(zhàn)。另外,將異構數(shù)據(jù)合并到數(shù)據(jù)集中是要指出的另一挑戰(zhàn)。并非數(shù)據(jù)集中包含的所有藥物和靶點都具有3D結構和GO / PPI序列,這會產生相似性評分。因此,即使使用相同的文獻,所得數(shù)據(jù)也可能有所不同。
未來的預測應依靠更全面的內部數(shù)據(jù)集,這將需要付出巨大的努力來總結和整理跨來源的數(shù)據(jù),并使用不同的方式來定義、命名和識別藥物和靶點。從數(shù)據(jù)的角度來看,有一個關于數(shù)據(jù)集具有二進制性質的問題。即給定一個相互作用矩陣Xn×m,對于i = 1,... ,n和j = 1,…,m,可以定義
這導致了嚴重的問題。Xn×m中的一些0可能是尚未發(fā)現(xiàn)的相互作用,可能會打亂不同分類器的訓練過程。另一點是,實際上在整個頻譜上DT對具有不同的綁定親和力(交互作用不是二進制開/關)克服這一挑戰(zhàn)的一個建議是利用具有表示DT結合親和力的連續(xù)值的數(shù)據(jù)集。我們的建議是用連續(xù)值參數(shù)替換每個xij。根據(jù)相互作用的可能性,可以定義xij =μ,其中μ∈[0,1]。0應該表示沒有相互作用,1表全完全相互作用,(0,1)內的任何數(shù)字均表示藥物與靶點相互作用的可能性。
使用這種連續(xù)值數(shù)據(jù)集的趨勢最終會流行起來,因為它比其他在DTI預測中先前工作中使用過的二進制數(shù)據(jù)集更好地代表了實際情況。然而,主要的挑戰(zhàn)在于以下事實:迄今為止,尚未使用許多小分子化合物作為藥物,并且對于大多數(shù)小分子化合物而言,它們與蛋白質的相互作用過程仍是未知的。
DTI預測的未來工作可以分為兩種主要方法。通常,對數(shù)據(jù)集的修改和建議似乎是不可避免的。一方面,數(shù)據(jù)集應合并在一起以收集最完整的已知藥物-靶點相互作用數(shù)據(jù)集集。另一方面,應定期更新和分發(fā)資源,以改善和完整性,并集成大量的源數(shù)據(jù)集以派生內部數(shù)據(jù)集。
3.2 DTI預測方法的挑戰(zhàn)和未來工作
未來的研究應集中在結合多樣相似性的方法上。與使用一種相似性的方法相比,結合了多種相似性的基于集成的模型可能會提供更準確的結果。鑒于令人驚訝的成功案例(將米諾地爾從高血壓轉變?yōu)槊摪l(fā),將西地那非從心絞痛轉變?yōu)椴鸸δ苷系K,從沙利度胺轉變?yōu)槌客碌蕉喟l(fā)性骨髓瘤),現(xiàn)在的研究重點是如何最好地采用一種更全面,系統(tǒng)的方法。此外,投入了大量工作來確定疾病發(fā)展,進展和治療抗性的分子驅動因素,從而為人類疾病譜中的藥物提供了許多候選靶點。但是,這些分子驅動程序中的大多數(shù)都沒有針對它們的已知藥物。因此,用于預測DTI的全面,改進的方法將具有很大的益處。由于第3.1節(jié)中列出的挑戰(zhàn),目前尚不了解藥物靶向哪些細胞分子的知識,并且該知識來自各種有時甚至是互補的來源。
根據(jù)問題的表述,數(shù)據(jù)集的適當表示對于獲得DTI預測的見識和有效性似乎至關重要。在大數(shù)據(jù)應用程序中,數(shù)據(jù)稀疏(大多數(shù)為零)并且部分丟失是很常見的。因此,缺失數(shù)據(jù)填補,尤其是在稀疏,有噪音的數(shù)據(jù)的情況下,是一個關鍵問題。為了從已知信息中推斷出丟失的數(shù)據(jù),通常應基于觀察到的數(shù)據(jù)結構問題做出合理的假設。在預測DTI時考慮矩陣分解方法,常見的情況是有缺失值的矩陣(例如著名的Netflix問題)。假設最終矩陣是低秩的,低秩矩陣的完成問題是NP hard問題且Non-Convex的,但是有各種算法可以在數(shù)據(jù)的某些假設下工作。低秩矩陣完成的一種方法是將核范數(shù)用作矩陣秩的凸松弛convex relaxation,并使用半定規(guī)劃來找到使核范數(shù)最小的完成方法。盡管低秩矩陣完成問題不依賴于任何度量方法,但是大多數(shù)方法都使用某種度量方法(例如核范數(shù),歐幾里德度量或p范數(shù))。這樣的方法可以在完成某些矩陣類型時很好地執(zhí)行,但是不能覆蓋所有類型的矩陣。此外,數(shù)據(jù)的結構可能比維數(shù)為d=2的矩陣更復雜。為此,我們相信,耦合矩陣coupled matrices和張量是在保持結構信息的同時DT數(shù)據(jù)可視化的強大工具。對于d≥3,這樣的數(shù)據(jù)集是d階的張量(多維數(shù)組)。張量在大數(shù)據(jù)中無處不在。在大數(shù)據(jù)中使用張量的重要性體現(xiàn)在以下事實:它們可以保留數(shù)據(jù)的結構,并通過在整個過程中合并結構來進行更有效的數(shù)據(jù)分析。
圖5. 矩陣耦合矩陣與張量矩陣耦合的完成情況
參考文獻
聯(lián)系客服