狠狠的日,人人爱天天做夜夜爽毛片

今天給大家介紹密歇根大學Maryam Bagherian等人在Briefings in Bioinformatics2019上發(fā)表的文章“Machine learning approaches and databases forprediction of drug–target interaction: a survey paper”。預測藥物與靶點之間的相互作用（DTI）的在藥物發(fā)現(xiàn)過程中起著關鍵作用。有必要開發(fā)新穎而有效的預測方法，以避免僅通過昂貴且費力而又不確定的實驗來確定DTI。在本文中，我們描述了DTI預測任務所需的數(shù)據(jù)，然后介紹了由機器學習方法和數(shù)據(jù)集組成的相關信息，還簡要討論了每種方法的優(yōu)缺點。最后，強調了使用機器學習方法預測DTI時可能面臨的挑戰(zhàn)，并在總結了一些重要的未來研究方向。

簡介

近年來，藥物科學家一直高度關注依賴于現(xiàn)有藥物知識的新型藥物開發(fā)策略。事實上，藥物發(fā)現(xiàn)任務的困難在于已知的藥物與基因相互作用位點的了解不充分，而主要風險在于藥物與靶點的即副作用。盡管這些副作用大多數(shù)有害的，但有時它們會引起有趣的治療發(fā)現(xiàn)。例如，米諾地爾主要用于治療潰瘍，西地那非（偉哥）用于治療心絞痛。但是，它們目前分別用于治療脫發(fā)和勃起功能障礙。因此，新型藥物開發(fā)策略目前是許多藥理學家的主要研究重點。

藥物發(fā)現(xiàn)過程中的主要步驟是確定藥物與靶點（例如基因）之間的相互作用，為了降低時間和金錢成本，計算機方法越來越受到關注。通常，用于藥物-靶點相互作用的計算機預測有兩種主要方法：分子對接模擬和機器學習方法。在分子對接模擬中，考慮了藥物分子和靶點的3D結構并確定潛在的結合位點。雖然生物學上已經(jīng)很好地接受了，但是對接模擬過程卻很耗時。此外，如果蛋白質的3D結構未知，則無法應用此方法。為解決此問題，引入了化學基因組學作為一種方法，旨在挖掘整個化學空間以與生物空間（也稱為基因組空間）相互作用，而不是將每個蛋白質靶點獨立于其他蛋白質。

化學基因組學研究的目的是將這種化學空間盡可能地與基因組空間相關聯(lián)，以便識別潛在有用的化合物，例如成像探針和藥物前導物?；瘜W基因組學方法通常分為基于配體的，基于靶點的和同時基于靶點配體的。所有這些方法都是基于配體蛋白和靶點之間的相似性。實際上，基于顯著相似性的化學基因組學觀點使機器學習方法適用于DTI的預測。在機器學習方法中，有關藥物、靶點和已確認的DTI的數(shù)據(jù)被轉換為用于訓練預測模型的特征，而這些特征又被用于預測新藥物與／或新靶點之間的相互作用。

這些研究的主要假設是，如果Drug d與Protein p有相互作用，則（i）與d結構相似的藥物化合物也可能與p有相互作用，（ii）與p相似的蛋白質可能與Drug d相互作用，以及（iii）與d類似的藥物化合物可能與p相似的蛋白質相互作用。在實踐中，基于有關相互作用的藥物化合物和靶點這一理論基礎，DTI預測問題可分為四類：（i）已知藥物與已知靶點，（ii）已知藥物與新的候選靶點，（iii）新的候選藥物與已知靶點和（iv）新的候選藥物與新的候選靶點。

在本文中，回顧了使用機器學習方法預測DTI的最新方法。

圖一. 近期工作的概括

一、DTI預測中使用的機器學習方法

1.1 基于相似度/距離的方法

用于DTI預測的最流行的方法是通過用來進行預測的相似性或距離函數(shù)來合并藥物-藥物和靶點-靶點的相似性測量。

基于相似性的方法具有四個優(yōu)點：（i）不需要特征提取和特征選擇，（ii）關于藥物和基因的相似性測量函數(shù)之前已經(jīng)有過充分研究，（iii）可以很容易地使用基于函數(shù)的學習方法（例如支持向量機（SVM））將它們合并，（iv）它們可用于連接化學空間和基因組空間。

通常，這些方法包括基于已知的一對藥物-藥物和靶點-靶點相似性度量的藥物-藥物、靶點-靶點或藥物-靶點關聯(lián)的相似性評分方案。同樣，可以通過距離函數(shù)獲得相似性度量，該距離函數(shù)定義了新藥相對于已知藥物－靶點對的相似度。有幾種方法可以通過不同的距離函數(shù)定義“附近”，其中歐幾里得距離是較為著名的。例如，NN算法采用了以下定義：假設兩個向量空間V1和V2具有相同的維度，則兩個樣本的距離用D（V1，V2）表示：

其中（·）和|| ·|| 分別表示內積和歐幾里得范數(shù)。

　除上述內容外，還可以基于藥物的藥理學相似性和蛋白質序列的基因組相似性以及現(xiàn)有藥物和蛋白質靶點的多部分網(wǎng)絡的拓撲特性來定義相似性/距離函數(shù)。表1提供了基于相似度/距離提出的方法的完整列表。

表1. 基于相似度/距離的方法

1.2 深度學習方法

深度學習由于其在語音識別，圖像識別和自然語言處理等許多領域的出色表現(xiàn)而變得越來越受歡迎。近年來，將深度學習方法應用于藥物發(fā)現(xiàn)的研究一直在不斷增加。

深度學習方法似乎通過減少預測DTI時特征信息的損失而克服了某些限制。使用深度學習方法的缺點之一在于，并不總是有足夠的可用信息來執(zhí)行深度學習方法。

大多數(shù)基于深度學習的DTI預測方法包括兩個主要步驟：生成特征向量，然后將深度學習應用于已知的DTI。通常，可以將藥物和靶點的三種類型的屬性（即生物學，拓撲學和物理化學信息）用于生成基于深度學習的DTI方法的特征向量/矩陣。與最新的特征提取方法和SVM分類器相比，采用深度學習的方法的一個優(yōu)勢在于能夠挖掘藥物與靶點之間的隱藏相互作用。

盡管深度學習方法有良好的性能，但仍有幾個方面需要改進。首先，為有監(jiān)督的深度學習方法創(chuàng)建可靠的負樣本數(shù)據(jù)集是一項艱巨的任務。之前發(fā)布的大多數(shù)基于深度學習的DTI預測程序都是有監(jiān)督的機器學習方法，因此如何建立無偏見的負樣本DTI數(shù)據(jù)集以進行模型擬合和測試是關鍵的一步。另外，DTI預測是為了發(fā)現(xiàn)新的DTI。如何選擇真正的無相互作用的藥物-靶點對是一項棘手的任務。其次，隨著越來越多的不同類型的藥物、靶點數(shù)據(jù)可用，如何將來自藥物和/或靶點的異類數(shù)據(jù)納入高維特征以用于深度學習方法也是一個挑戰(zhàn)。最后，在測試數(shù)據(jù)集上表現(xiàn)出出色性能的深度學習方法并不意味著它們也可以在真正的藥物發(fā)現(xiàn)中表現(xiàn)出色的性能。

表2. 深度學習方法

1.3 基于特征的方法

執(zhí)行DTI預測的絕大多數(shù)機器學習方法都屬于此類。它包含了大多數(shù)的方法，包括SVM，基于樹的方法和基于核函數(shù)的方法。任何藥物-靶點對都將以具有一定長度的特征向量表示，通常使用二進制標簽將這些成對向量分為具有正負相互作用的兩類。換句話說，假設特征空間為F：

其中d和t分別表示長度為n、m的目標、藥物特征向量。

一旦定義了特征空間，就可以配合各種機器學習方法來執(zhí)行DTI預測任務。

表3. 基于特征的方法（第一部分）

表4.基于特征的方法（第二部分）

1.4 矩陣分解法

在預測DTI方面，已證明矩陣分解方法優(yōu)于其他機器學習方法。給定一個相互作用矩陣Xn×m，

對于i = 1：n和j = 1：m，可以定義

DTI預測的主要目標是將矩陣Xn×m分解為兩個矩陣Yn×k和Zm×k，其中X 合同于YZT，k <n、m。

圖3. 矩陣分解法

此處ZT表示Z的轉置矩陣。這會將矩陣Xn×m分解為兩個具有較低階數(shù)的矩陣（即秩減?。?，這使得使用matrix completion技術以處理丟失的數(shù)據(jù)更加容易。

與大多數(shù)用于DTI預測的需要（2D）藥物結構相似性的機器學習方法相比，一些矩陣分解方法并不依賴于化學相似性或藥物相似性，而是利用協(xié)作過濾算法，其中一種可以稱為概率矩陣分解（PMF）。此外，低秩嵌入（low-rank embedding，LRE）通過優(yōu)化問題找到數(shù)據(jù)集X的低維表示矩陣R，然后固定R并最大程度地降低R中的重構誤差，以保留點狀線性重構（原始樣本的局部結構）的方式保留嵌入式空間。

在這組方法中，假設藥物和靶點位于相同的距離空間中，那么可以使用藥物和靶點之間的距離來衡量其相互作用的強度。因此，藥物和靶點都可以嵌入到具有某些約束條件的公共低維子空間中。

盡管已證明這組方法比其他方法更可靠，但與某種藥物和/或靶點有關的數(shù)據(jù)數(shù)量和種類的快速增長遠遠超出了基于矩陣的數(shù)據(jù)表示和當前許多分析算法的能力。

表5. 矩陣分解方法以及提出和使用它們的論文

1.5 基于網(wǎng)絡的方法

基于網(wǎng)絡的方法是指利用基于圖的技術來執(zhí)行DTI預測任務的方法。

圖4. 藥物-靶點相互作用異質網(wǎng)絡

這些方法中包括基于網(wǎng)絡的推理（network-based inference，NBI）來預測DTI，這是最簡單但最可靠的推理方法之一，它只使用藥物靶點雙向網(wǎng)絡拓撲相似性（DT bipartite network topology similarity）。

此外，在某些方法中，蛋白質-蛋白質相似性，藥物-藥物相似性和已知DTI這三個網(wǎng)絡被整合到一個異質網(wǎng)絡中，并假設相似的藥物通常作用于相似的蛋白質。除了執(zhí)行DTI預測任務，兩層無向圖形表示法的網(wǎng)絡也可以用來訓練預測直接DTI（通常由蛋白質-配體結合引起），間接DTI和藥物作用方式（結合相互作用，活化相互作用和抑制相互作用）。

表6. 基于網(wǎng)絡的方法的列表

1.6 混合方法

混合方法是指利用基于特征的方法、矩陣分解、深度學習和基于網(wǎng)絡的方法的任意組合的所有方法。通過集成不同的信息集可以擴展預測算法的功能?；旌戏椒ㄍǔＳ袃蓚€目的：他們解決了DTI中未知相互作用的問題，并同時利用了機器學習方法的最大優(yōu)勢?；旌戏椒ǖ男阅軆?yōu)于其他最新方法在于通過提取藥物和靶點的復雜的隱藏的特征來優(yōu)化特征提取過程。在DTI預測中，集成兩種機器學習方法通常會在結果方面發(fā)揮作用，因為它們同時充分利用了兩種方法的潛力。但是，這需要我們能夠處理由于集成兩組方法而導致的高復雜性（計算或操作）。

表7. 混合方法的簡短說明

二、DTI預測中使用的數(shù)據(jù)集

為了支持上述方法，已經(jīng)建立了許多與藥物有關的數(shù)據(jù)集。這些數(shù)據(jù)集包含不同類型的藥物相關信息，并且是計算機DTI預測的關鍵資源。接下來，我們將回顧與此主題相關的所有流行使用過的數(shù)據(jù)集。根據(jù)這些數(shù)據(jù)集的內容，我們將它們分為四類：DTI數(shù)據(jù)集、以藥物為中心或以靶點為中心的數(shù)據(jù)集、藥物-靶點結合親和力數(shù)據(jù)集和支持數(shù)據(jù)集。

2.1 DTI數(shù)據(jù)集

建立DTI數(shù)據(jù)集以收集DTI和其他相關信息。在這里，我們列出了該類別中的11個數(shù)據(jù)集。在這些數(shù)據(jù)集中，有些數(shù)據(jù)集沒有直接提到“ DTI”數(shù)據(jù)集，但其中包含的數(shù)據(jù)可用于DTI研究。例如，KEGG是一個廣泛的數(shù)據(jù)集，涵蓋了從基因/蛋白質到生物學途徑和人類疾病的多種生物學數(shù)據(jù)。在KEGG中，兩個子數(shù)據(jù)集KEGGDRUG和KEGGBRITE包含可用于DTI預測的數(shù)據(jù)。ChEMBL也不是專門針對藥物、靶點的數(shù)據(jù)集，它是基于收集生物活性化合物而建立的。但是，結合靶點和其他相關生物學信息，該數(shù)據(jù)集也可以用于藥物、靶點的重新定位。與ChEMBL相似，IntAct是一個包含分子相互作用的數(shù)據(jù)集，可用于藥物研究。LINCS與上述兩個數(shù)據(jù)集不同。該數(shù)據(jù)門戶網(wǎng)站包含旨在了解由不同干擾劑引起的基因表達和細胞過程變化的生物化學數(shù)據(jù)。LINCS中使用的許多干擾劑都是藥物，因此這也是DTI研究的重要數(shù)據(jù)來源。此組中包括的其他數(shù)據(jù)集是SuperTarget，藥理指南(GtoPdb)，DrugBank，治療目標數(shù)據(jù)集(TTD)，STITCH,ChemProt 3.0和DGIdb 3.0。表8匯總了這些數(shù)據(jù)集的一般信息。

表8. DTI數(shù)據(jù)集

2.2 以藥物為中心的數(shù)據(jù)集或以靶點為中心的數(shù)據(jù)集

在此類別中，包括六個數(shù)據(jù)集。它們是BRENDA，PubChem，SuperDRUG2，DrugCentral，PDID，Pharos和ECOdrug。在這些數(shù)據(jù)集中，SuperDRUG2和DrugCentral被認為是“以藥物為中心”的數(shù)據(jù)集。由于PubChem是建立在可收集數(shù)百萬種化合物的數(shù)據(jù)集之上，因此在本文中，我們還將其列為“以藥物為中心”的數(shù)據(jù)集。PDID和Pharos被歸類為“以靶點為中心”數(shù)據(jù)集。我們還將BRENDA列為“以靶點為中心” 數(shù)據(jù)集。BRENDA中存儲的大量酶和相關配體可用作DTI研究的目標。此外，我們還將ECOdrug列為“以靶點為中心”的數(shù)據(jù)集，與上述數(shù)據(jù)集不同的是，該數(shù)據(jù)集包含非人類模型物種的目標信息。

表9. 以藥物為中心或以靶點為中心的數(shù)據(jù)集

2.3 綁定親和力數(shù)據(jù)集

在此類別中，包括BindingDB，PDBBind和PDSP Ki。它們都包含化學-蛋白質結合親和力的數(shù)據(jù)。BindingDB主要集中在藥物（類藥物分子）和靶蛋白之間的結合親和力數(shù)據(jù)的收集上?；趤碜訮DB的生物分子復合物的結合親和力測量建立PDBbind。PDSP Ki與BindingDB類似，后者也包含DTI上的大量綁定親和力數(shù)據(jù)。

表10. 綁定親和力數(shù)據(jù)集

三、DTI數(shù)據(jù)集挑戰(zhàn)和未來工作

DTI預測的挑戰(zhàn)可分為兩大類：與數(shù)據(jù)集有關的挑戰(zhàn)和與計算有關的挑戰(zhàn)。通常，根據(jù)問題的性質，可以使用不同的預測方法來克服計算難題。在這里，我們提供了關于第一類挑戰(zhàn)的一些建議。

3.1 數(shù)據(jù)集挑戰(zhàn)和未來工作

幾乎所有用于DTI預測的方法，特別是基于相似性的方法，都嚴重依賴有關相似藥物和相似靶點的確定性，所以，用于預測的數(shù)據(jù)集類型起著重要作用。在數(shù)據(jù)集方面，缺乏統(tǒng)一的藥物和靶點定義以及調用和識別化合物和生物分子的一致性，與數(shù)據(jù)集中的至少一個其他來源重疊，采用不同的標識符代表藥物和目標是主要挑戰(zhàn)。另外，將異構數(shù)據(jù)合并到數(shù)據(jù)集中是要指出的另一挑戰(zhàn)。并非數(shù)據(jù)集中包含的所有藥物和靶點都具有3D結構和GO / PPI序列，這會產生相似性評分。因此，即使使用相同的文獻，所得數(shù)據(jù)也可能有所不同。

未來的預測應依靠更全面的內部數(shù)據(jù)集，這將需要付出巨大的努力來總結和整理跨來源的數(shù)據(jù)，并使用不同的方式來定義、命名和識別藥物和靶點。從數(shù)據(jù)的角度來看，有一個關于數(shù)據(jù)集具有二進制性質的問題。即給定一個相互作用矩陣Xn×m，對于i = 1,... ,n和j = 1,…,m，可以定義

這導致了嚴重的問題。Xn×m中的一些0可能是尚未發(fā)現(xiàn)的相互作用，可能會打亂不同分類器的訓練過程。另一點是，實際上在整個頻譜上DT對具有不同的綁定親和力（交互作用不是二進制開/關）克服這一挑戰(zhàn)的一個建議是利用具有表示DT結合親和力的連續(xù)值的數(shù)據(jù)集。我們的建議是用連續(xù)值參數(shù)替換每個xij。根據(jù)相互作用的可能性，可以定義xij =μ，其中μ∈[0,1]。0應該表示沒有相互作用，1表全完全相互作用，(0,1)內的任何數(shù)字均表示藥物與靶點相互作用的可能性。

使用這種連續(xù)值數(shù)據(jù)集的趨勢最終會流行起來，因為它比其他在DTI預測中先前工作中使用過的二進制數(shù)據(jù)集更好地代表了實際情況。然而，主要的挑戰(zhàn)在于以下事實：迄今為止，尚未使用許多小分子化合物作為藥物，并且對于大多數(shù)小分子化合物而言，它們與蛋白質的相互作用過程仍是未知的。

DTI預測的未來工作可以分為兩種主要方法。通常，對數(shù)據(jù)集的修改和建議似乎是不可避免的。一方面，數(shù)據(jù)集應合并在一起以收集最完整的已知藥物-靶點相互作用數(shù)據(jù)集集。另一方面，應定期更新和分發(fā)資源，以改善和完整性，并集成大量的源數(shù)據(jù)集以派生內部數(shù)據(jù)集。

3.2 DTI預測方法的挑戰(zhàn)和未來工作

未來的研究應集中在結合多樣相似性的方法上。與使用一種相似性的方法相比，結合了多種相似性的基于集成的模型可能會提供更準確的結果。鑒于令人驚訝的成功案例（將米諾地爾從高血壓轉變?yōu)槊摪l(fā)，將西地那非從心絞痛轉變?yōu)椴鸸δ苷系K，從沙利度胺轉變?yōu)槌客碌蕉喟l(fā)性骨髓瘤），現(xiàn)在的研究重點是如何最好地采用一種更全面，系統(tǒng)的方法。此外，投入了大量工作來確定疾病發(fā)展，進展和治療抗性的分子驅動因素，從而為人類疾病譜中的藥物提供了許多候選靶點。但是，這些分子驅動程序中的大多數(shù)都沒有針對它們的已知藥物。因此，用于預測DTI的全面，改進的方法將具有很大的益處。由于第３.1節(jié)中列出的挑戰(zhàn)，目前尚不了解藥物靶向哪些細胞分子的知識，并且該知識來自各種有時甚至是互補的來源。

根據(jù)問題的表述，數(shù)據(jù)集的適當表示對于獲得DTI預測的見識和有效性似乎至關重要。在大數(shù)據(jù)應用程序中，數(shù)據(jù)稀疏（大多數(shù)為零）并且部分丟失是很常見的。因此，缺失數(shù)據(jù)填補，尤其是在稀疏，有噪音的數(shù)據(jù)的情況下，是一個關鍵問題。為了從已知信息中推斷出丟失的數(shù)據(jù)，通常應基于觀察到的數(shù)據(jù)結構問題做出合理的假設。在預測DTI時考慮矩陣分解方法，常見的情況是有缺失值的矩陣（例如著名的Netflix問題）。假設最終矩陣是低秩的，低秩矩陣的完成問題是NP hard問題且Non-Convex的，但是有各種算法可以在數(shù)據(jù)的某些假設下工作。低秩矩陣完成的一種方法是將核范數(shù)用作矩陣秩的凸松弛convex relaxation，并使用半定規(guī)劃來找到使核范數(shù)最小的完成方法。盡管低秩矩陣完成問題不依賴于任何度量方法，但是大多數(shù)方法都使用某種度量方法（例如核范數(shù)，歐幾里德度量或p范數(shù)）。這樣的方法可以在完成某些矩陣類型時很好地執(zhí)行，但是不能覆蓋所有類型的矩陣。此外，數(shù)據(jù)的結構可能比維數(shù)為d=2的矩陣更復雜。為此，我們相信，耦合矩陣coupled matrices和張量是在保持結構信息的同時DT數(shù)據(jù)可視化的強大工具。對于d≥3，這樣的數(shù)據(jù)集是d階的張量（多維數(shù)組）。張量在大數(shù)據(jù)中無處不在。在大數(shù)據(jù)中使用張量的重要性體現(xiàn)在以下事實：它們可以保留數(shù)據(jù)的結構，并通過在整個過程中合并結構來進行更有效的數(shù)據(jù)分析。

圖5. 矩陣耦合矩陣與張量矩陣耦合的完成情況

參考文獻

Maryam B , Elyas S , Kai W , et al. Machine learning approaches and databases for prediction of drug-target interaction: a survey paper[J]. Briefings in Bioinformatics, 2020.DOI: 10.1093/bib/bbz157

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区