藥物間相互作用(DDI)預(yù)測(cè)是藥理學(xué)和臨床應(yīng)用中一個(gè)具有挑戰(zhàn)性的問(wèn)題,在臨床試驗(yàn)期間,有效識(shí)別潛在的DDI對(duì)患者和社會(huì)至關(guān)重要?,F(xiàn)有的大多數(shù)方法采用基于AI的計(jì)算模型,通常傾向于集成多個(gè)數(shù)據(jù)源并結(jié)合先進(jìn)的圖嵌入方法來(lái)實(shí)現(xiàn)。然而研究人員很少關(guān)注藥物與其他實(shí)體(例如靶標(biāo)和基因)之間存在的潛在關(guān)聯(lián)。此外,最近的研究還采用知識(shí)圖譜(KG)進(jìn)行DDI預(yù)測(cè)。這一系列方法都是采取直接學(xué)習(xí)節(jié)點(diǎn)的潛在嵌入向量,但它們對(duì)于獲得KG中每個(gè)實(shí)體的豐富鄰域信息受到限制。
為解決上述局限性,林軒等人提出了一種端到端的框架,即基于知識(shí)圖譜的圖神經(jīng)網(wǎng)絡(luò)(KGNN),以解決DDI預(yù)測(cè)問(wèn)題。該框架可通過(guò)在KG中挖掘相關(guān)聯(lián)的關(guān)系,來(lái)有效地捕獲藥物及其潛在的鄰域?qū)嶓w信息。為了提取KG中的高階結(jié)構(gòu)和語(yǔ)義關(guān)系,對(duì)KG中每個(gè)實(shí)體的鄰域進(jìn)行學(xué)習(xí),作為它們的局部感知域,然后將鄰域信息與來(lái)自當(dāng)前實(shí)體表示的偏差進(jìn)行整合。這樣,感知域可以自然地?cái)U(kuò)展到多個(gè)躍點(diǎn),以對(duì)高階拓?fù)湫畔⑦M(jìn)行建模并獲得潛在的藥物長(zhǎng)距離相關(guān)性特征。本次報(bào)告,我們有幸邀請(qǐng)到來(lái)自湖南大學(xué)的林軒博士為大家分享他們的這項(xiàng)研究工作!
林軒:湖南大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)四年級(jí)博士生,導(dǎo)師為全哲副教授。于2019年10月前往伊利諾伊大學(xué)芝加哥分校計(jì)算機(jī)學(xué)院進(jìn)行博士聯(lián)合培養(yǎng),指導(dǎo)老師是Philip S.Yu教授。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)和藥物重定位。目前已在IJCAI、AAAI、ECAI、Briefings in Bioinformatics等國(guó)際會(huì)議和期刊發(fā)表論文7篇,并擔(dān)任IJCAI、AAAI、Briefings in Bioinformatics、Neurocomputing等會(huì)議和期刊審稿人。
一、背景和動(dòng)機(jī)
藥物間的相互作用(DDI)是指同時(shí)或先后服用兩種或兩種以上藥物時(shí),藥物之間所產(chǎn)生的相互作用,而該相互作用可能會(huì)導(dǎo)致意想不到的副作用。舉個(gè)例子,在日常生活中,某人因睡眠不佳,服用了助眠藥物,比如鎮(zhèn)定劑。與此同時(shí)他又出現(xiàn)了過(guò)敏反應(yīng),需要服用治療過(guò)敏的藥物,比如抗組胺藥。當(dāng)兩種藥物混合服用,就可能會(huì)減緩大腦的反應(yīng)。如果此人是從事車輛駕駛或者機(jī)械操作等需要注意力高度集中的工作,那么一旦出現(xiàn)緊急情況,就可能因無(wú)法及時(shí)做出反應(yīng),發(fā)生難以預(yù)料的危險(xiǎn)。因此,如果能夠提前預(yù)測(cè)DDI,就能有效避免類似情況的發(fā)生。
圖1 藥物間相互作用
總結(jié)歸納現(xiàn)有DDI預(yù)測(cè)方法,大致可分為兩大類。一類是分子表示,主要聚焦于藥物分子的特征學(xué)習(xí)。這類方法都基于同樣的假設(shè):即具有相似嵌入表示的藥物分子將會(huì)表現(xiàn)出相似的DDI。如圖2右邊所示,分子A和分子B有相似的分子結(jié)構(gòu),那它們所學(xué)到的特征向量也是相似的,如果分子A與分子C存在相互作用,那么可以推斷分子B和分子C也有類似DDI存在。藥物分子特征學(xué)習(xí)有很多方法,比如類似文本編碼的一維SMILES序列,比如傳統(tǒng)基于分子描述符或分子指紋ECFP的方法,或是基于3D坐標(biāo)軸位置信息的方法。如文獻(xiàn)2中提到了一種新穎的分子表示方法,即基于多視角藥物特征學(xué)習(xí)更好的藥物相似性,但這種方法僅限于對(duì)藥物分子本身的表示學(xué)習(xí),大多數(shù)情況下都依賴于領(lǐng)域知識(shí)。
另一類常用的DDI預(yù)測(cè)方法是基于網(wǎng)絡(luò)嵌入的方法,通過(guò)構(gòu)建各種與藥物有關(guān)的生物網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中,將藥物看作網(wǎng)絡(luò)中的節(jié)點(diǎn),通過(guò)學(xué)習(xí)節(jié)點(diǎn)的嵌入表示來(lái)預(yù)測(cè)潛在的邊,即DDI的關(guān)系。構(gòu)建映射關(guān)系網(wǎng)絡(luò)也有多種方法,比如矩陣分解,把目標(biāo)關(guān)系構(gòu)建成一個(gè)矩陣進(jìn)行求解;比如隨機(jī)游走,在圖中選擇固定的路徑進(jìn)行游走以獲取更多的節(jié)點(diǎn)特征。這類方法的目標(biāo)在于預(yù)測(cè)藥物之間的標(biāo)簽邊,但它們只關(guān)注單一的DDI關(guān)系,并沒(méi)有考慮與藥物有關(guān)的其他聯(lián)系。
圖2 現(xiàn)有DDI預(yù)測(cè)方法
通過(guò)以上分析可以發(fā)現(xiàn),這些方法的初衷是希望獲得更多生物關(guān)聯(lián)的信息。如果一個(gè)圖或數(shù)據(jù)能夠提供更多信息,那么就能有效輔助DDI預(yù)測(cè),此時(shí)知識(shí)圖譜就成為了一個(gè)上佳的選擇。因?yàn)橹R(shí)圖譜蘊(yùn)含了豐富的信息,包括多個(gè)實(shí)體之間的結(jié)構(gòu)關(guān)系、與每個(gè)節(jié)點(diǎn)關(guān)聯(lián)的語(yǔ)義關(guān)系等。在對(duì)過(guò)去DDI預(yù)測(cè)方法的梳理中,我們也找到了基于知識(shí)圖譜的方法,但這個(gè)方法是采用知識(shí)圖譜嵌入的方式,直接學(xué)習(xí)節(jié)點(diǎn)的嵌入表示,沒(méi)有考慮每個(gè)實(shí)體豐富的鄰域信息。為突破局限,林軒等人在知識(shí)圖譜中引入圖神經(jīng)網(wǎng)絡(luò),借用圖神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行鄰域采樣,通過(guò)聚合鄰域信息獲得實(shí)體的嵌入表示,這也就是基于知識(shí)圖譜的圖神經(jīng)網(wǎng)絡(luò)的動(dòng)機(jī)來(lái)源。
圖3 知識(shí)圖譜和圖神經(jīng)網(wǎng)絡(luò)
二、基于知識(shí)圖譜的圖神經(jīng)網(wǎng)絡(luò)
圖4是基于知識(shí)圖譜的圖神經(jīng)網(wǎng)絡(luò)的整體框架,共包括三個(gè)模塊:(1)DDI提取與KG構(gòu)建;(2)KGNN層;(3)藥物與藥物相互作用預(yù)測(cè)。
圖4 基于知識(shí)圖譜的圖神經(jīng)網(wǎng)絡(luò)框架
具體來(lái)說(shuō),第一步中DDI提取主要使用了DrugBank和KEGG-drug兩個(gè)數(shù)據(jù)集。對(duì)數(shù)據(jù)集進(jìn)行解析以提取藥物對(duì),這里的藥物對(duì)其實(shí)是經(jīng)過(guò)FDA認(rèn)證的DDI,如圖4中“DB00001-DB01181”所示。知識(shí)圖譜構(gòu)建,使用Bio2RDF工具構(gòu)建鏈接的數(shù)據(jù)網(wǎng)絡(luò),基于傳輸定義從不同格式的數(shù)據(jù)源中獲取數(shù)據(jù),從而創(chuàng)建與RDF數(shù)據(jù)格式兼容的鏈接數(shù)據(jù)。
圖5 DDI提取和KG構(gòu)建
獲得輸入以后,需要對(duì)實(shí)體的鄰域進(jìn)行采樣。每一個(gè)藥物實(shí)體的鄰域分布情況是不一樣的,圖6中紅色的節(jié)點(diǎn)表示藥物節(jié)點(diǎn),考慮每個(gè)藥物節(jié)點(diǎn)兩跳的鄰域范圍。H參數(shù)可以理解為CNN中的感知域,H=1相當(dāng)于只考慮與當(dāng)前節(jié)點(diǎn)直接相連的鄰居節(jié)點(diǎn),H=2表示考慮二階相連的節(jié)點(diǎn)情況,這樣能夠?qū)W習(xí)到更多的鄰域?qū)嶓w信息,當(dāng)然H可以取更大值。在這個(gè)框架中GNN是一種空間域的方法。在構(gòu)建的知識(shí)圖譜中,把和藥物節(jié)點(diǎn)直接相連的節(jié)點(diǎn)定義為Nneigh(e)。因?yàn)槊總€(gè)藥物節(jié)點(diǎn)鄰域的分布是不同的,為了計(jì)算方便,借鑒GraphSAGE方法,采用固定大小的鄰域范圍S(e)。采樣完成之后,通過(guò)三種聚合方法將實(shí)體自身的嵌入表示和鄰域信息的嵌入表示聚合起來(lái),最終得到當(dāng)前實(shí)體的嵌入表示。其中,sum聚合方法是一種疊加操作,concat是一種拼接操作,neighbor只考慮鄰域的信息,而忽略自身實(shí)體嵌入表示。
圖6 KGNN層
圖7總結(jié)了KGNN算法,回顧整個(gè)框架可分為三個(gè)步驟:(1)從數(shù)據(jù)集中提取藥物對(duì)并構(gòu)建相應(yīng)的知識(shí)圖譜;(2)將信息輸入KGNN中,獲得藥物及其相關(guān)實(shí)體鄰域的特征;(3)計(jì)算兩個(gè)藥物的相似度并反饋輸出交互值。
圖7 KGNN算法
三、實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)部分,通過(guò)DrugBank和KEGG-drug兩個(gè)數(shù)據(jù)集來(lái)評(píng)估KGNN的性能。對(duì)于兩個(gè)數(shù)據(jù)集,以8/1/1的比例將所有批準(zhǔn)的DDI作為正樣本隨機(jī)分為訓(xùn)練、驗(yàn)證和測(cè)試集,并隨機(jī)抽取正樣本的補(bǔ)集作為負(fù)樣本用于模型訓(xùn)練。使用多種指標(biāo)評(píng)估預(yù)測(cè)性能,包括ACC、AUPR、AUC-ROC和F1分?jǐn)?shù)。選取5類(MF、RW、NN、DL、KG)共9種方法作為實(shí)驗(yàn)基準(zhǔn),以更好對(duì)比實(shí)驗(yàn)結(jié)果。
圖8 實(shí)驗(yàn)設(shè)定
圖9是KGNN與基準(zhǔn)方法的性能比較,每種方法的第一/第二行分別對(duì)應(yīng)于DrugBank和KEGG-drug數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),KGNN在兩個(gè)數(shù)據(jù)集上都取得了最優(yōu)的效果。另外,在消融實(shí)驗(yàn)部分測(cè)試了三種聚合方法的性能,發(fā)現(xiàn)通過(guò)拼接聚合(concat)的方法效果是最好的。同時(shí),這些變體的結(jié)果均優(yōu)于基準(zhǔn)對(duì)比方法,反映出了KGNN方法的穩(wěn)定性。
圖9 對(duì)比、消融實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)還研究了k、H、d三個(gè)關(guān)鍵參數(shù)對(duì)KGNN性能的影響。首先,改變鄰域大小k發(fā)現(xiàn),當(dāng)k=16時(shí),KGNN可獲得最佳性能。這說(shuō)明如果采樣的鄰居節(jié)點(diǎn)個(gè)數(shù)太少,鄰域所能夠包含的信息會(huì)不夠。其次,通過(guò)設(shè)置為1到6(大于6時(shí)超出系統(tǒng)內(nèi)存)來(lái)研究感知域深度H的影響。實(shí)驗(yàn)結(jié)果顯示,當(dāng)H=2時(shí)可以學(xué)到較多的特征,但模型所有指標(biāo)的性能都會(huì)從H = 3開(kāi)始降低。最后,檢驗(yàn)嵌入維度大小d的影響如設(shè)置由8變化為512。結(jié)果表明,可通過(guò)設(shè)置適當(dāng)?shù)木S度大小來(lái)提高其學(xué)習(xí)能力,值過(guò)大反而會(huì)帶來(lái)過(guò)擬合的情況。
圖10 不同參數(shù)的實(shí)驗(yàn)結(jié)果
四、總結(jié)和未來(lái)展望
總結(jié)來(lái)說(shuō),林軒等人的工作提出了一種新穎的框架來(lái)預(yù)測(cè)DDI任務(wù)。該框架將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到了知識(shí)圖譜當(dāng)中,同時(shí)考慮了藥物實(shí)體在知識(shí)圖譜中的拓?fù)浣Y(jié)構(gòu)信息以及自身附帶的語(yǔ)義關(guān)聯(lián)信息。對(duì)于未來(lái)的工作,主要有以下幾點(diǎn)想法:(1)考慮更大規(guī)模的知識(shí)圖譜;(2)設(shè)計(jì)有效的鄰域采樣方法;(3)拓展到多類型的DDI預(yù)測(cè)或其他相關(guān)任務(wù),而不是僅限于二分類預(yù)測(cè)。
圖11 總結(jié)和未來(lái)工作
Paper: https://www.ijcai.org/Proceedings/2020/0380.pdf
Code: https://github.com/jacklin18/KGNN
整理:何文莉
審稿:林 軒
排版:岳白雪
聯(lián)系客服