九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
JCIM|用于抗生素類藥物發(fā)現(xiàn)的指紋增強(qiáng)圖注意力網(wǎng)絡(luò)模型
2023年5月11日,新加坡南洋理工大學(xué)夏克林老師團(tuán)隊(duì)在Journal of Chemical Information and Modeling上發(fā)表文章。在本文中,作者將基于序列的二維指紋和基于結(jié)構(gòu)的圖表征相結(jié)合,提出了一種指紋增強(qiáng)圖注意力網(wǎng)絡(luò)(Fingerprint-Enhanced Graph Attention Network,F(xiàn)inGAT)模型。藥物SMILES序列信息被轉(zhuǎn)換為指紋向量,結(jié)構(gòu)信息通過圖注意力(GAT)模塊被編碼為另一個(gè)向量。將這兩個(gè)矢量連接并輸入到用于抗生素活性分類的多層感知器(MLP)中。通過大量的實(shí)驗(yàn)和研究,作者證明了FinGAT在抗生素發(fā)現(xiàn)方面可以優(yōu)于各種最先進(jìn)的GNN模型。

背景

抗生素是現(xiàn)代醫(yī)學(xué)的基石之一。自從1942年青霉素被發(fā)現(xiàn)以來,抗生素被廣泛用于治療多種疾病。然而,耐藥菌的出現(xiàn)給現(xiàn)有的抗生素藥物帶來了巨大的挑戰(zhàn),發(fā)現(xiàn)新抗生素的需求日益增長(zhǎng)。傳統(tǒng)上,大多數(shù)抗生素發(fā)現(xiàn)項(xiàng)目都涉及篩選大型化學(xué)分子數(shù)據(jù)庫(kù),以尋找能夠引起感興趣表型的候選物質(zhì)。實(shí)驗(yàn)篩選過程不僅耗時(shí)而且昂貴,因?yàn)樾枰ㄟ^實(shí)驗(yàn)室設(shè)備測(cè)試大量化合物。隨著計(jì)算能力的提高和實(shí)驗(yàn)數(shù)據(jù)的積累,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在生物數(shù)據(jù)分析中開始展現(xiàn)出強(qiáng)大的能力。人工智能技術(shù)具有從根本上改變抗生素發(fā)現(xiàn)行業(yè)的巨大潛力。高效和有效的分子表征是抗生素發(fā)現(xiàn)的所有高精度學(xué)習(xí)模型的關(guān)鍵。

方法

FinGAT模型所使用的數(shù)據(jù)包含2335個(gè)分子,這些分子來自FDA批準(zhǔn)的藥物庫(kù),并補(bǔ)充了一個(gè)適度的天然產(chǎn)物庫(kù)。這些分子與一種抑制大腸埃希氏菌(E. coli)生長(zhǎng)的分子特性活性有關(guān)。標(biāo)簽1和0分別用來表示分子具有或不具有抑菌活性。

圖1顯示了本文的FinGAT模型的體系結(jié)構(gòu)。它利用兩種類型的分子表征,即二維指紋和基于圖形的表征。對(duì)于二維指紋,作者考慮2048位的摩根指紋(MorganFP),它可以由分子的SMILES序列生成。對(duì)于GAT部分,使用5頭GAT層來訓(xùn)練基于圖的表征。5頭圖注意機(jī)制的圖示如圖1B所示。作為GAT輸入的圖特征存儲(chǔ)在節(jié)點(diǎn)特征矩陣和鄰接矩陣中。對(duì)于每個(gè)分子,在RDKit中使用SMILES序列基于分子圖生成節(jié)點(diǎn)特征矩陣和鄰接矩陣。邊代表分子中的共價(jià)鍵。鄰接矩陣表征分子圖中是否有兩個(gè)原子共享共價(jià)鍵。

節(jié)點(diǎn)特征矩陣的每一行是一個(gè)大小為133的向量,包括原子序數(shù)(一個(gè)101維的獨(dú)熱編碼,可以表示元素周期表中的大多數(shù)元素)、每個(gè)原子成鍵數(shù)(一個(gè)7維的獨(dú)熱編碼,表示成鍵數(shù)從1到7)、形式電荷(一個(gè)6維的獨(dú)熱編碼,表示形式電荷數(shù)從-3到+2)、手性標(biāo)識(shí)符(一個(gè)5維的獨(dú)熱編碼,表示手性標(biāo)識(shí)符數(shù)從0到4)、成鍵氫原子數(shù)(一個(gè)6維的獨(dú)熱編碼,表示成鍵氫原子數(shù)從0到5)、雜化形式(一個(gè)6維的獨(dú)熱編碼,表示SP, SP2, SP3, SP3D, SP3D2這五種形式,或者其他)、芳香性(一維標(biāo)簽,0或1表示不具有或具有芳香性)、原子質(zhì)量(一維)等信息。邊緣特征矩陣的每一行是一個(gè)大小為4的向量,包括鍵型(單鍵/雙鍵/三鍵/芳香鍵)、共軛鍵、環(huán)隸屬關(guān)系和立體化學(xué)信息。

通過全局均值池化對(duì)5頭GAT層的特征進(jìn)行平均,輸出為潛在結(jié)構(gòu)特征向量。潛在特征向量與摩根指紋連接形成最終的分子特征向量,該特征向量通過多層感知器(MLP)傳遞最終的預(yù)測(cè)。MLP包含3個(gè)尺寸減小的前饋層。詳細(xì)的MLP架構(gòu)如圖1C所示。

圖1 FinGAT結(jié)構(gòu)圖
每個(gè)單頭GAT網(wǎng)絡(luò)的核心部分是它的圖注意層。圖注意層首先計(jì)算兩個(gè)相鄰嵌入之間的成對(duì)非歸一化注意分?jǐn)?shù)。這些嵌入隨后被連接起來,然后用一個(gè)可學(xué)習(xí)的權(quán)向量做點(diǎn)積。采用LeakyReLU激活函數(shù)生成注意力系數(shù)。然后通過共享關(guān)注機(jī)制評(píng)估節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i的重要性的注意力系數(shù),這種注意力機(jī)制可用于計(jì)算圖數(shù)據(jù)中任意兩個(gè)節(jié)點(diǎn)的注意力系數(shù)。與消息傳遞操作類似,只考慮鄰近節(jié)點(diǎn)的注意力系數(shù)。這種基于圖的注意力機(jī)制被稱為掩膜注意力機(jī)制。為了使注意力系數(shù)在不同節(jié)點(diǎn)之間具有可比性,應(yīng)該對(duì)所有鄰居節(jié)點(diǎn)進(jìn)行歸一化。這實(shí)際上可以通過應(yīng)用softmax函數(shù)計(jì)算。最后,將這些歸一化的系數(shù)作為權(quán)重,在GNN的消息傳遞操作中使用,得到新的節(jié)點(diǎn)特征。圖的特征向量是在分子圖的所有節(jié)點(diǎn)特征向量上取平均值。

在本文的工作中,數(shù)據(jù)集中的正樣本和負(fù)樣本是高度不平衡的。陽性樣本只是數(shù)據(jù)集的一小部分。負(fù)樣本的極大比例會(huì)使模型的預(yù)測(cè)偏向于它,導(dǎo)致模型的性能不佳。為了緩解這一問題,作者去掉了一部分屬于多數(shù)類的負(fù)樣本,使數(shù)據(jù)集相對(duì)平衡。這種技術(shù)也被稱為欠采樣。欠采樣后,陽性樣本與陰性樣本的比例約為1比5。在最后的預(yù)測(cè)中,作者將預(yù)測(cè)分?jǐn)?shù)的閾值設(shè)置為0.5。也就是說,將預(yù)測(cè)分?jǐn)?shù)大于等于0.5的樣本標(biāo)記為1,而預(yù)測(cè)分?jǐn)?shù)小于0.5的樣本標(biāo)記為0。

結(jié)果

作者將FinGAT與多種方法進(jìn)行對(duì)比。由于由2335個(gè)分子結(jié)構(gòu)組成的實(shí)驗(yàn)數(shù)據(jù)集存在較高的抗生素類不平衡,其中陰性類為2215個(gè),陽性類為120個(gè),作者進(jìn)行欠采樣,即陽性類采樣1個(gè),陰性類采樣5個(gè),以獲得表1中所有模型的真實(shí)預(yù)測(cè)能力。這項(xiàng)工作使用曲線下面積(AUC)、準(zhǔn)確性(accuracy)、精度(precision)、召回率(recall)和F1-Score等性能指標(biāo)來評(píng)估性能??紤]了5折交叉驗(yàn)證,表1列出了結(jié)果??梢钥闯?,F(xiàn)inGAT模型獲得了最好的性能。對(duì)于所有的性能指標(biāo),F(xiàn)inGAT大約高出2%到10%。這證明了FinGAT模型的優(yōu)勢(shì)。

表1 FinGAT與其他方法對(duì)比

在模型比較中,首先,作者系統(tǒng)地評(píng)估了基于分子指紋的機(jī)器學(xué)習(xí)模型。使用梯度增強(qiáng)樹(GBT)模型,研究了由RDKit軟件生成的8種不同類型的廣泛使用的2D指紋,包括Avalon, Daylight, Estate1, Estate2, MACCS, Pharm2D, ERG和Morgan。結(jié)果表明,與其他7種2D指紋相比,Morgan指紋的AUC得分最高。

進(jìn)一步,作者評(píng)估了GNN模型的性能。作者在圖分類中考慮了最先進(jìn)的GNN模型,包括Chemprop, GraphSAGE,圖同構(gòu)網(wǎng)絡(luò)(GIN),和邊緣條件卷積(ECC)??梢钥闯?,這五種模型對(duì)抗生素活性分類的結(jié)果都比較好,但FinGAT比這五種模型都要好。這意味著基于SMILES的Morgan指紋和基于結(jié)構(gòu)的GAT相結(jié)合可以有效地提高分類性能。此外,作者考慮將Morgan指紋與GraphSAGE、GIN和ECC結(jié)合,即FinGraphSAGE、FinGIN和FinECC。此前已經(jīng)在Chemprop中加入了Morgan指紋的潛在特征向量。表1中的FinGraphSAGE、FinGIN和FinECC的結(jié)果表明,F(xiàn)inGAT提供了最好的性能。

最后,作者評(píng)估了FinGAT模型的魯棒性。對(duì)于MLP,作者考慮不同的組合,即層數(shù)和神經(jīng)元數(shù)。層數(shù)為1 ~ 3,神經(jīng)元數(shù)為10 ~ 1000。表2顯示了9種不同MLP體系結(jié)構(gòu)的性能指標(biāo)(帶有標(biāo)準(zhǔn)偏差)??梢钥闯?,即使是MLP體系結(jié)構(gòu)也有很大的差異,F(xiàn)inGAT模型的性能是相對(duì)穩(wěn)定的。在所有指標(biāo)下,F(xiàn)inGAT模型的性能都優(yōu)于表2中大多數(shù)現(xiàn)有的SOAT模型。這證明了模型的穩(wěn)健性。

表2 消融實(shí)驗(yàn)

作者想研究數(shù)據(jù)集中正負(fù)樣本的比例是如何影響性能的。作者考慮選用正負(fù)樣本比為1:3、1:5和1:10至120:2215的數(shù)據(jù)集。120:2215是原始數(shù)據(jù)集在不應(yīng)用欠采樣的情況下的比率。在本分析中,AUC-ROC被用作性能指標(biāo)。結(jié)果如表3所示??梢钥闯觯疚牡哪P蛯?duì)不同的采樣比具有相對(duì)的魯棒性。這意味著即使訓(xùn)練集高度不平衡,模型的預(yù)測(cè)也不會(huì)偏向多數(shù)類型。這可能是由于組合分子特征向量很好地表征了分子的內(nèi)在結(jié)構(gòu),因此MLP可以提供準(zhǔn)確的分類。

表3 不同采樣比例的對(duì)比

總結(jié)

由于耐藥菌的迅速出現(xiàn),對(duì)抗生素發(fā)現(xiàn)這一藥物發(fā)現(xiàn)的重要分支的需求日益增長(zhǎng)。在本文中,作者將摩根指紋和基于圖的表示結(jié)合起來,形成了更強(qiáng)的抗生素活性分類的分子特征。FinGAT模型優(yōu)于最先進(jìn)的GNN模型。

在FinGAT模型中,作者提出了基于SMILES的Morgan指紋和基于結(jié)構(gòu)的GAT相結(jié)合的抗生素活性預(yù)測(cè)方法。在指紋研究中,作者首先使用梯度增強(qiáng)樹比較了8個(gè)二維指紋的性能。Morgan指紋在AUC得分上優(yōu)于所有其他指紋。此外,作者系統(tǒng)地研究了指紋和基于圖形的表示的結(jié)合。研究發(fā)現(xiàn),摩根指紋與GAT相結(jié)合的性能優(yōu)于所有其他組合模型。此外,為了驗(yàn)證模型的魯棒性,作者在共享層中對(duì)神經(jīng)網(wǎng)絡(luò)的幾種配置進(jìn)行了分類訓(xùn)練和測(cè)試。所有配置都同樣優(yōu)于其他最先進(jìn)的GNN模型。這再次證明了結(jié)合2D和基于圖形的表示的功能。

參考文獻(xiàn)

[1] Choo et al. Fingerprint-Enhanced Graph Attention Network (FinGAT) Model for Antibiotic Discovery. J Chem Inf Model. 2023

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
J. Chem. Inf. Model. | 增強(qiáng)指紋圖注意力網(wǎng)絡(luò)(FinGAT)模型用于抗生素發(fā)現(xiàn)
Seq2Seq指紋: 無監(jiān)督學(xué)習(xí)算法應(yīng)用于藥物發(fā)現(xiàn)
【蛋白設(shè)計(jì)】深度學(xué)習(xí)方法設(shè)計(jì)核靶向的非生物體系線性多肽
人類首次完全利用AI發(fā)現(xiàn)「迄今最強(qiáng)抗生素」,登上《細(xì)胞》雜志封面
系列教程GNN-algorithms之五:《注意力機(jī)制在圖上的應(yīng)用—GAT》
原創(chuàng)圖注意力神經(jīng)網(wǎng)絡(luò)(Graph Attention Networks)綜述
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服