編輯/文龍
2020年,圖機器學習(Graph ML)已經(jīng)成為機器學習(ML)領(lǐng)域中的一個備受關(guān)注的焦點研究方向。其中,圖神經(jīng)網(wǎng)絡(luò)(GNN)是一類用于處理圖域信息的神經(jīng)網(wǎng)絡(luò),由于有較好的性能和可解釋性,現(xiàn)已被廣泛應(yīng)用到各個領(lǐng)域。
圖是一種強大的工具,可以表示由各種人工和自然過程產(chǎn)生的豐富而復雜的數(shù)據(jù)。圖可以視為具有以下特征的結(jié)構(gòu)化數(shù)據(jù)類型:頂點(保存信息的實體)和邊(保存信息的頂點之間的連接),因此具有組成性質(zhì)和關(guān)系性質(zhì)。圖提供了處理關(guān)系和交互這些抽象概念的一種方法,還提供了用直觀的視覺去思考這些概念的方式。
GNN 的目的是使圖中的每個頂點學習包含有關(guān)其鄰域(通過邊直接連接到目標頂點的點)的信息的嵌入。此嵌入可用于頂點標簽、頂點預(yù)測、邊預(yù)測等不同問題。因此,在與每個頂點進行嵌入后,我們可以通過添加饋送神經(jīng)網(wǎng)絡(luò)層來轉(zhuǎn)換邊進而組合圖和神經(jīng)網(wǎng)絡(luò)。
「對于Graph ML研究來說,這是令人震驚的一年。在所有主要的ML會議上,有關(guān)該領(lǐng)域的所有論文中約有10%至20%,并且在如此規(guī)模下,每個人都可以找到自己感興趣的有趣的圖主題。」Criteo研究員、Graph Machine Learning newsletter編輯員Sergey Ivanov如是說。
GNN在生物分子結(jié)構(gòu)以及分子之間的功能關(guān)系和集成多組數(shù)據(jù)集模型方面的能力,使得它在醫(yī)療行業(yè)中受到越來越多的關(guān)注。本文就將聚焦于Graph ML在醫(yī)療領(lǐng)域中的應(yīng)用,分享2020年值得關(guān)注的幾篇論文,包含腦科學、醫(yī)療診斷、藥物研發(fā)以及COVID-19四部分。
腦科學
這一年,圖機器學習在醫(yī)療成像中取得了非凡的成就,尤其是大腦方面,包括腦區(qū)分割、腦結(jié)構(gòu)分析。另外,關(guān)于人腦的研究提供了模型的可解釋性,這對于臨床和技術(shù)專家來說有著關(guān)鍵意義,表面可以將圖機器學習可靠地合并到計算機輔助診斷(CADx)系統(tǒng)中。
論文題目:圖域自適應(yīng)恒對齊的腦表面分割
簡介:文章提出了一種針對腦表面圖的新型對抗域自適應(yīng)框架。提出的算法利用對抗訓練機制來獲得廣義的腦表面分割,使得直接跨多個大腦學習表面數(shù)據(jù)并對大腦不同皮質(zhì)區(qū)域進行分析成為可能。他們使用一組圖卷積層直接在源域的大腦表面上執(zhí)行切分的分割,并用鑒別器對根據(jù)該分割的預(yù)測域以及目標域之間進行概括,實驗結(jié)果表明性能平均提升了8%。
通過將圖拉普拉斯算子分解,將輸入腦圖映射到頻譜域。源域和目標域是通過將特征根分別與源引用和目標引用對齊來獲得的。segmentator GCN學習預(yù)測每個域的通用皮質(zhì)分割標簽。discriminator旨在對分割器預(yù)測進行分類,從而幫助分割器GCN適應(yīng)源域和目標域
論文地址:https://arxiv.org/pdf/2004.00074.pdf
論文題目:BrainGNN: 用于功能磁共振成像分析的可解釋性腦圖神經(jīng)網(wǎng)絡(luò)
簡介:文章提出了一種圖形神經(jīng)網(wǎng)絡(luò)(GNN)框架——BrainGNN,用于分析功能性磁共振圖像(fMRI)并發(fā)現(xiàn)神經(jīng)生物學標志物,以此來了解大腦。通過將感興趣的大腦區(qū)域(ROI)定義為頂點,將ROI之間的功能連接性定義為邊,將fMRI時間序列定義為成對相關(guān)性,文章把大腦建模為圖作為輸入,然后輸出預(yù)測結(jié)果和解釋結(jié)果。通過使用不同的內(nèi)核并使用新的損失項調(diào)節(jié)中間輸出來促進模型的可解釋性,提供了在個人級別和組級別的解釋。
框架流程圖。fMRI圖像由圖譜分解并轉(zhuǎn)移到圖中。然后,將圖發(fā)送到我們提出的BrainGNN,由BrainGNN給出特定任務(wù)的預(yù)測。BrainGNN共同選擇對預(yù)測任務(wù)有用的重要大腦區(qū)域,并將大腦區(qū)域聚集到與預(yù)測相關(guān)的功能區(qū)中。
論文地址:https://www.biorxiv.org/content/10.1101/2020.05.16.100057v1
醫(yī)學診斷
TUM 博士研究生、醫(yī)學成像中的Graph ML的多篇論文的作者Anees Kazi說:「在醫(yī)學領(lǐng)域,Graph ML改變了分析多模態(tài)數(shù)據(jù)的方式,這種方式與專家如何從臨床常規(guī)操作中的所有可用維度看待患者的狀況非常相似?!苟囗椦芯恳炎C明可以將圖機器學習應(yīng)用于CADx系統(tǒng)中,潛在的圖學習和數(shù)據(jù)補全解決了ML在醫(yī)學領(lǐng)域中應(yīng)用的關(guān)于數(shù)據(jù)集的常見問題。
論文題目:使用多模式數(shù)據(jù)和圖卷積網(wǎng)絡(luò)識別早期輕度認知障礙
簡介:輕度認知障礙(EMCI)是阿爾茨海默氏?。ˋD)的早期階段,與大腦的結(jié)構(gòu)和功能變化有關(guān)。但是,提取哪些特征以及如何組合多個特征以提高EMCI識別的性能一直是一個難題。文章提出了一種利用多模態(tài)數(shù)據(jù)和圖形卷積網(wǎng)絡(luò)進行的新EMCI識別框架。實驗表明該框架在臨床實踐中對EMCI的識別是有效的。此方法為 EMCI 的計算機輔助識別的區(qū)分成像標記鋪平了道路。
GCN-EMCI框架示意圖。首先基于每個受試者的T1wMRI和rs-fMRI數(shù)據(jù),基于自動解剖標記(AAL)地圖集作為特征表示,提取每個大腦區(qū)域的灰質(zhì)體積和最短路徑長度。然后,為了獲得對識別 EMCI 更有幫助的功能,采用了一種通用的多任務(wù)功能選擇方法。之后,使用成像表型度量和非成像表型測量來構(gòu)建未完全標記的主題圖。最后,應(yīng)用GCN模型來執(zhí)行 EMCI 標識任務(wù)。
論文地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-3437-6
論文題目:基于邊變化圖卷積網(wǎng)絡(luò)的不確定性疾病預(yù)測
簡介:文章提出了一種可擴展的圖卷積框架,該框架可以自動將人群中的影像數(shù)據(jù)與非影像數(shù)據(jù)集成在一起,以進行不確定性感知的疾病預(yù)測。為了估計與圖拓撲相關(guān)的預(yù)測不確定性,文章提出了蒙特卡洛邊缺失的新概念。實驗結(jié)果表明該方法可以持續(xù)顯著地提高自閉癥譜系障礙、阿爾茨海默氏病和眼部疾病的診斷準確性,這表明可廣泛利用多模態(tài)數(shù)據(jù)進行計算機輔助診斷。
提出的方法框架。PAE:成對關(guān)聯(lián)編碼器。ED:邊緣脫落。GC:圖卷積。Fusion:逐頂點級聯(lián)。圖表中綠色和橙色標記為診斷值(例如健康或患病),灰色為未標記;ui:對象i預(yù)測的不確定性。
論文地址:https://arxiv.org/pdf/2009.02759.pdf
論文題目:使用多圖幾何矩陣完成(MGMC)在不完整的醫(yī)學數(shù)據(jù)集中同時進行歸因和疾病分類
簡介:基于大規(guī)模人群的醫(yī)學研究是改善疾病的診斷、監(jiān)測和治療的重要資源。為了解決數(shù)據(jù)丟失的問題,文章提出了通過多圖幾何矩陣完成(MGMC)對不完整醫(yī)學數(shù)據(jù)集進行歸因和疾病預(yù)測的端到端學習。實驗展示了該方法在分類和歸因性能方面的優(yōu)越性,這些發(fā)現(xiàn)可作為將來使用不完整數(shù)據(jù)集的計算機輔助診斷方法的基準。
MGMC使用多個循環(huán)圖卷積網(wǎng)絡(luò),其中每個圖代表基于諸如年齡、性別或認知功能等關(guān)鍵臨床特征的單體模型。來自本地患者鄰域的圖信號聚合,再加上通過自注意的多圖形信號融合,對矩陣重建和分類性能均具有正則化作用。
論文地址:https://arxiv.org/pdf/2005.06935.pdf
藥物發(fā)現(xiàn)和研究
GNN不僅可以在精心設(shè)計的基準數(shù)據(jù)集上勝過先前的方法,而且可以為開發(fā)新藥從根本上幫助人們和理解自然開辟途徑,重點包括蛋白質(zhì)和結(jié)構(gòu)生物學以及藥物發(fā)現(xiàn)的進展。今年也有相關(guān)研究人員對該領(lǐng)域進行了綜述,供更多人的去研究。
論文題目:利用圖機器學習藥物發(fā)現(xiàn)和開發(fā)
簡介:本文在藥物發(fā)現(xiàn)和開發(fā)的背景下,對該主題進行了多學科的綜述。介紹了關(guān)鍵術(shù)語和建模方法之后,按時間順序瀏覽了藥物開發(fā)流程,總結(jié)了包括以下內(nèi)容:目標識別、小分子和生物制劑的設(shè)計以及藥物的再利用。文章還就數(shù)據(jù)集等問題提出了現(xiàn)有模型的一些挑戰(zhàn)。盡管該領(lǐng)域仍在興起,但圖機器學習將成為生物醫(yī)學機器學習中選擇的建??蚣堋?/p>
基于 GNN 的藥物發(fā)現(xiàn)時間表。
論文地址:https://arxiv.org/abs/2012.05716
報告標題:圖神經(jīng)網(wǎng)絡(luò)用于藥物開發(fā)
簡介:報告講述了制藥的整個流程,討論了GNN在制藥的第三環(huán)節(jié)(臨床研究)和第五環(huán)節(jié)(上市后的安全監(jiān)控)中的應(yīng)用。報告主要闡述了為什么要用GNN、如何使用GNN以及目前的一些成果,給到讀者一個直觀、清晰且較為全面的相關(guān)知識結(jié)構(gòu)。
ppt地址:https://grlearning.github.io/slides/zitnik.pdf
論文標題:基于深度學習方法的抗生素發(fā)現(xiàn)
簡介:在這項工作中,訓練了一個名為Chemprop的深層GNN模型,以預(yù)測分子是否具有抗生素特性:對細菌大腸桿菌的生長抑制作用。在僅使用FDA批準的藥物庫中的約2500個分子進行訓練后,Chemprop就被應(yīng)用于更大的數(shù)據(jù)集,包括包含分子Halicin的Drug Repurposed Hub。這項工作突出了深度學習方法通過發(fā)現(xiàn)結(jié)構(gòu)獨特的抗菌分子來擴展我們的抗生素庫的實用性。
論文地址:https://www.cell.com/cell/fulltext/S0092-8674(20)30102-1?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867420301021%3Fshowall%3Dtrue
論文標題:基于半二分圖模型和深度學習的藥物-靶標相互作用預(yù)測
簡介:識別藥物-靶標相互作用是藥物發(fā)現(xiàn)中的關(guān)鍵要素。在計算機上預(yù)測藥物與靶標的相互作用可以加快識別藥物與靶標蛋白之間未知相互作用的過程。文章提出了一種利用網(wǎng)絡(luò)拓撲結(jié)構(gòu)并識別相互作用和非相互作用的新藥物-靶標相互作用預(yù)測框架,該框架從相互作用網(wǎng)絡(luò)中學習潛在特征,證明了能夠?qū)W習復雜的藥物-靶標拓撲特征。
藥物-靶標相互作用預(yù)測框架流程圖。(a)通過藥物-靶標相互作用,藥物-藥物相似性和蛋白質(zhì)-蛋白質(zhì)相似性來構(gòu)建半二分圖。(b)藥物靶標正負對樣本表示為捕獲藥物靶標對周圍拓撲環(huán)境的子圖。(c)在每個子圖上應(yīng)用圖標記方法,以保留圖頂點的順序。(d)將最終的子圖轉(zhuǎn)換為鄰接矩陣,并且每個矩陣的上三角代表要嵌入的特征,以訓練分類器。(e)訓練了一個深度神經(jīng)網(wǎng)絡(luò),并將其用于預(yù)測新的藥物靶標對。
論文地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-3518-6
論文標題:幾何深度學習解密蛋白質(zhì)分子表面的相互作用指紋
簡介:蛋白質(zhì)結(jié)構(gòu)的分子表面顯示出化學模式和幾何特征,這些模式和特征可識別蛋白質(zhì)與其他生物分子相互作用。文章提出了MaSIF(分子表面相互作用指紋),這是一個基于幾何深度學習方法的概念框架,用于捕獲對于特定生物分子相互作用非常重要的指紋。文章假設(shè)參與相似相互作用的蛋白質(zhì)可能共享共同的指紋。該概念框架將導致對蛋白質(zhì)功能和設(shè)計的理解得到改善。
論文地址:https://www.nature.com/articles/s41592-019-0666-6
論文標題:圖卷積神經(jīng)網(wǎng)絡(luò)從化學結(jié)構(gòu)預(yù)測藥理活性
簡介:許多治療藥物可以用簡單的化學結(jié)構(gòu)表示,這些化學結(jié)構(gòu)在作用部位包含重要的親和力決定因素。在這項研究中,僅從化合物的二維結(jié)構(gòu)信息構(gòu)建的GCN模型顯示了針對ChEMBL數(shù)據(jù)庫中127個不同目標的高度活性可預(yù)測性。文章還使用信息熵作為度量標準表明結(jié)構(gòu)多樣性對預(yù)測性能的影響較小。
論文地址:https://www.nature.com/articles/s41598-020-80113-7?from=from_parent_mindnote
COVID-19
2020年醫(yī)學領(lǐng)域的另一個重要亮點當然是冠狀病毒大流行,研究人員成功使用Graph ML方法檢測Covid-19,并用藥物重新定位的方法預(yù)測針對Covid-19藥物的療效。Google Graph Mining團隊也在他們的年度報告中提及使用時空GNN建模COVID-19,想要了解更多可以訪問https://gm-neurips-2020.github.io/master-deck.pdf。
論文標題:ResGNet-C:用于檢測COVID-19的圖卷積神經(jīng)網(wǎng)絡(luò)
簡介:病毒核酸檢測和胸部計算機斷層掃描(CT)篩查是COVID-19臨床診斷應(yīng)用最廣泛的兩種技術(shù)。病毒核酸測試需要復雜的設(shè)備、長時間的測驗與高假陰性率,而胸部CT圖像報告靈敏度高但需要人為解釋,非常耗時且不穩(wěn)定。文章在ResGNet框架下開發(fā)了圖卷積神經(jīng)網(wǎng)絡(luò)ResGNet-C,以將肺部CT圖像自動分類為COVID-19引起的肺炎和正常的肺炎。
論文地址:https://www.sciencedirect.com/science/article/pii/S0925231220319184
論文標題:用于識別針對COVID-19的藥物再利用的醫(yī)學網(wǎng)絡(luò)框架
簡介:文章提出一種多模式方法,該方法融合了人工智能、網(wǎng)絡(luò)擴散和網(wǎng)絡(luò)鄰近性的預(yù)測算法,對6340種藥物的抗SARS-CoV-2預(yù)期療效進行排名,表明不同預(yù)測方法之間的共識始終超過最佳單個算法的性能。實驗發(fā)現(xiàn)多數(shù)藥物依賴基于網(wǎng)絡(luò)的行為,因此無法使用基于靶向?qū)拥牟呗詠碜R別。這一進展提供了一種方法論,可用于確定因新藥開發(fā)成本和時長而無法滿足的針對未來病原和其他疾病的再定位藥物。
論文地址:https://arxiv.org/pdf/2004.07229.pdf
聯(lián)系客服