背景
抗生素是現(xiàn)代醫(yī)學(xué)的基石之一。自從1942年青霉素被發(fā)現(xiàn)以來,抗生素被廣泛用于治療多種疾病。然而,耐藥菌的出現(xiàn)給現(xiàn)有的抗生素藥物帶來了巨大的挑戰(zhàn),發(fā)現(xiàn)新抗生素的需求日益增長(zhǎng)。傳統(tǒng)上,大多數(shù)抗生素發(fā)現(xiàn)項(xiàng)目都涉及篩選大型化學(xué)分子數(shù)據(jù)庫(kù),以尋找能夠引起感興趣表型的候選物質(zhì)。實(shí)驗(yàn)篩選過程不僅耗時(shí)而且昂貴,因?yàn)樾枰ㄟ^實(shí)驗(yàn)室設(shè)備測(cè)試大量化合物。隨著計(jì)算能力的提高和實(shí)驗(yàn)數(shù)據(jù)的積累,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在生物數(shù)據(jù)分析中開始展現(xiàn)出強(qiáng)大的能力。人工智能技術(shù)具有從根本上改變抗生素發(fā)現(xiàn)行業(yè)的巨大潛力。高效和有效的分子表征是抗生素發(fā)現(xiàn)的所有高精度學(xué)習(xí)模型的關(guān)鍵。
方法
FinGAT模型所使用的數(shù)據(jù)包含2335個(gè)分子,這些分子來自FDA批準(zhǔn)的藥物庫(kù),并補(bǔ)充了一個(gè)適度的天然產(chǎn)物庫(kù)。這些分子與一種抑制大腸埃希氏菌(E. coli)生長(zhǎng)的分子特性活性有關(guān)。標(biāo)簽1和0分別用來表示分子具有或不具有抑菌活性。
圖1顯示了本文的FinGAT模型的體系結(jié)構(gòu)。它利用兩種類型的分子表征,即二維指紋和基于圖形的表征。對(duì)于二維指紋,作者考慮2048位的摩根指紋(MorganFP),它可以由分子的SMILES序列生成。對(duì)于GAT部分,使用5頭GAT層來訓(xùn)練基于圖的表征。5頭圖注意機(jī)制的圖示如圖1B所示。作為GAT輸入的圖特征存儲(chǔ)在節(jié)點(diǎn)特征矩陣和鄰接矩陣中。對(duì)于每個(gè)分子,在RDKit中使用SMILES序列基于分子圖生成節(jié)點(diǎn)特征矩陣和鄰接矩陣。邊代表分子中的共價(jià)鍵。鄰接矩陣表征分子圖中是否有兩個(gè)原子共享共價(jià)鍵。
節(jié)點(diǎn)特征矩陣的每一行是一個(gè)大小為133的向量,包括原子序數(shù)(一個(gè)101維的獨(dú)熱編碼,可以表示元素周期表中的大多數(shù)元素)、每個(gè)原子成鍵數(shù)(一個(gè)7維的獨(dú)熱編碼,表示成鍵數(shù)從1到7)、形式電荷(一個(gè)6維的獨(dú)熱編碼,表示形式電荷數(shù)從-3到+2)、手性標(biāo)識(shí)符(一個(gè)5維的獨(dú)熱編碼,表示手性標(biāo)識(shí)符數(shù)從0到4)、成鍵氫原子數(shù)(一個(gè)6維的獨(dú)熱編碼,表示成鍵氫原子數(shù)從0到5)、雜化形式(一個(gè)6維的獨(dú)熱編碼,表示SP, SP2, SP3, SP3D, SP3D2這五種形式,或者其他)、芳香性(一維標(biāo)簽,0或1表示不具有或具有芳香性)、原子質(zhì)量(一維)等信息。邊緣特征矩陣的每一行是一個(gè)大小為4的向量,包括鍵型(單鍵/雙鍵/三鍵/芳香鍵)、共軛鍵、環(huán)隸屬關(guān)系和立體化學(xué)信息。
通過全局均值池化對(duì)5頭GAT層的特征進(jìn)行平均,輸出為潛在結(jié)構(gòu)特征向量。潛在特征向量與摩根指紋連接形成最終的分子特征向量,該特征向量通過多層感知器(MLP)傳遞最終的預(yù)測(cè)。MLP包含3個(gè)尺寸減小的前饋層。詳細(xì)的MLP架構(gòu)如圖1C所示。
在本文的工作中,數(shù)據(jù)集中的正樣本和負(fù)樣本是高度不平衡的。陽性樣本只是數(shù)據(jù)集的一小部分。負(fù)樣本的極大比例會(huì)使模型的預(yù)測(cè)偏向于它,導(dǎo)致模型的性能不佳。為了緩解這一問題,作者去掉了一部分屬于多數(shù)類的負(fù)樣本,使數(shù)據(jù)集相對(duì)平衡。這種技術(shù)也被稱為欠采樣。欠采樣后,陽性樣本與陰性樣本的比例約為1比5。在最后的預(yù)測(cè)中,作者將預(yù)測(cè)分?jǐn)?shù)的閾值設(shè)置為0.5。也就是說,將預(yù)測(cè)分?jǐn)?shù)大于等于0.5的樣本標(biāo)記為1,而預(yù)測(cè)分?jǐn)?shù)小于0.5的樣本標(biāo)記為0。
結(jié)果
作者將FinGAT與多種方法進(jìn)行對(duì)比。由于由2335個(gè)分子結(jié)構(gòu)組成的實(shí)驗(yàn)數(shù)據(jù)集存在較高的抗生素類不平衡,其中陰性類為2215個(gè),陽性類為120個(gè),作者進(jìn)行欠采樣,即陽性類采樣1個(gè),陰性類采樣5個(gè),以獲得表1中所有模型的真實(shí)預(yù)測(cè)能力。這項(xiàng)工作使用曲線下面積(AUC)、準(zhǔn)確性(accuracy)、精度(precision)、召回率(recall)和F1-Score等性能指標(biāo)來評(píng)估性能??紤]了5折交叉驗(yàn)證,表1列出了結(jié)果??梢钥闯?,F(xiàn)inGAT模型獲得了最好的性能。對(duì)于所有的性能指標(biāo),F(xiàn)inGAT大約高出2%到10%。這證明了FinGAT模型的優(yōu)勢(shì)。
表1 FinGAT與其他方法對(duì)比
在模型比較中,首先,作者系統(tǒng)地評(píng)估了基于分子指紋的機(jī)器學(xué)習(xí)模型。使用梯度增強(qiáng)樹(GBT)模型,研究了由RDKit軟件生成的8種不同類型的廣泛使用的2D指紋,包括Avalon, Daylight, Estate1, Estate2, MACCS, Pharm2D, ERG和Morgan。結(jié)果表明,與其他7種2D指紋相比,Morgan指紋的AUC得分最高。
進(jìn)一步,作者評(píng)估了GNN模型的性能。作者在圖分類中考慮了最先進(jìn)的GNN模型,包括Chemprop, GraphSAGE,圖同構(gòu)網(wǎng)絡(luò)(GIN),和邊緣條件卷積(ECC)??梢钥闯?,這五種模型對(duì)抗生素活性分類的結(jié)果都比較好,但FinGAT比這五種模型都要好。這意味著基于SMILES的Morgan指紋和基于結(jié)構(gòu)的GAT相結(jié)合可以有效地提高分類性能。此外,作者考慮將Morgan指紋與GraphSAGE、GIN和ECC結(jié)合,即FinGraphSAGE、FinGIN和FinECC。此前已經(jīng)在Chemprop中加入了Morgan指紋的潛在特征向量。表1中的FinGraphSAGE、FinGIN和FinECC的結(jié)果表明,F(xiàn)inGAT提供了最好的性能。
最后,作者評(píng)估了FinGAT模型的魯棒性。對(duì)于MLP,作者考慮不同的組合,即層數(shù)和神經(jīng)元數(shù)。層數(shù)為1 ~ 3,神經(jīng)元數(shù)為10 ~ 1000。表2顯示了9種不同MLP體系結(jié)構(gòu)的性能指標(biāo)(帶有標(biāo)準(zhǔn)偏差)??梢钥闯?,即使是MLP體系結(jié)構(gòu)也有很大的差異,F(xiàn)inGAT模型的性能是相對(duì)穩(wěn)定的。在所有指標(biāo)下,F(xiàn)inGAT模型的性能都優(yōu)于表2中大多數(shù)現(xiàn)有的SOAT模型。這證明了模型的穩(wěn)健性。
作者想研究數(shù)據(jù)集中正負(fù)樣本的比例是如何影響性能的。作者考慮選用正負(fù)樣本比為1:3、1:5和1:10至120:2215的數(shù)據(jù)集。120:2215是原始數(shù)據(jù)集在不應(yīng)用欠采樣的情況下的比率。在本分析中,AUC-ROC被用作性能指標(biāo)。結(jié)果如表3所示??梢钥闯觯疚牡哪P蛯?duì)不同的采樣比具有相對(duì)的魯棒性。這意味著即使訓(xùn)練集高度不平衡,模型的預(yù)測(cè)也不會(huì)偏向多數(shù)類型。這可能是由于組合分子特征向量很好地表征了分子的內(nèi)在結(jié)構(gòu),因此MLP可以提供準(zhǔn)確的分類。
表3 不同采樣比例的對(duì)比
總結(jié)
由于耐藥菌的迅速出現(xiàn),對(duì)抗生素發(fā)現(xiàn)這一藥物發(fā)現(xiàn)的重要分支的需求日益增長(zhǎng)。在本文中,作者將摩根指紋和基于圖的表示結(jié)合起來,形成了更強(qiáng)的抗生素活性分類的分子特征。FinGAT模型優(yōu)于最先進(jìn)的GNN模型。
參考文獻(xiàn)
[1] Choo et al. Fingerprint-Enhanced Graph Attention Network (FinGAT) Model for Antibiotic Discovery. J Chem Inf Model. 2023
聯(lián)系客服