本文闡述了計算機輔助醫(yī)學(xué)成像領(lǐng)域的圖像分析方法。機器學(xué)習(xí),特別是深度學(xué)習(xí)領(lǐng)域的最新進展,對醫(yī)學(xué)圖像的識別、分類和量化的發(fā)展起到了促進作用。這些進展的核心是能夠僅從數(shù)據(jù)中學(xué)習(xí)到分級特征,而不是根據(jù)領(lǐng)域特定的知識手動設(shè)計特征。深度學(xué)習(xí)正迅速成為一種最先進的學(xué)習(xí)方式,在各種醫(yī)學(xué)應(yīng)用場景中表現(xiàn)突出。本文介紹了深度學(xué)習(xí)的基本原理,并回顧了它們在圖像配準、解剖和細胞結(jié)構(gòu)檢測、組織分割、計算機輔助疾病診斷和預(yù)后等方面的成功經(jīng)驗。最后,我們討論了現(xiàn)有研究存在的問題,并對未來改進的方向提出了建議。本文發(fā)表在Annual Review of Biomedical Engineering雜志(原文:Deep Learning in Medical Image Analysis)https://doi.org/10.1146/annurev- bioeng- 071516-044442在過去的幾十年里,計算機斷層掃描(CT)、磁共振成像(MRI)、正電子發(fā)射斷層掃描術(shù)(PET)、乳房X光檢查、超聲波、X射線等醫(yī)學(xué)成像技術(shù),已被廣泛用于疾病的早期發(fā)現(xiàn)、診斷和治療(1)。在臨床上,醫(yī)學(xué)圖像的解釋大多是由放射科醫(yī)生和內(nèi)科醫(yī)生等人類專家進行的。然而,考慮到病理上的巨大差異和人類專家的潛在疲勞,研究人員和醫(yī)生已經(jīng)開始從計算機輔助干預(yù)中受益。雖然計算醫(yī)學(xué)圖像分析的發(fā)展速度沒有醫(yī)學(xué)成像技術(shù)那么快,但隨著機器學(xué)習(xí)技術(shù)的引入,這種情況正在改善。在機器學(xué)習(xí)應(yīng)用的過程中,發(fā)現(xiàn)或?qū)W習(xí)能夠很好地描述數(shù)據(jù)固有規(guī)律或模式的有效特征,在醫(yī)學(xué)圖像分析的各種任務(wù)中起著至關(guān)重要的作用。傳統(tǒng)上,有意義的或與任務(wù)相關(guān)的特征通常主要是由人類專家根據(jù)他們對目標領(lǐng)域的知識設(shè)計的,這使得非專家在自己的研究中利用機器學(xué)習(xí)技術(shù)具有挑戰(zhàn)性。與此同時,努力學(xué)習(xí)基于預(yù)定義字典的稀疏表示,而這是可能會從訓(xùn)練樣本中學(xué)習(xí)到的。在許多科學(xué)領(lǐng)域中,稀疏表示的動機是簡約原則,即對給定觀測的最簡單解釋應(yīng)該優(yōu)先于更復(fù)雜的解釋。稀疏誘導(dǎo)懲罰和字典學(xué)習(xí)已經(jīng)證明了該方法在醫(yī)學(xué)圖像分析中用于特征表示和特征選擇的有效性(2-6)。應(yīng)該注意的是,文獻中描述的稀疏表示或字典學(xué)習(xí)方法仍然可以在具有淺體系結(jié)構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)固有的信息模式或規(guī)律,從而限制了它們的表示能力。然而,深度學(xué)習(xí)(7)通過將特征工程步驟合并到學(xué)習(xí)步驟中,克服了這個障礙。也就是說,深度學(xué)習(xí)只需要經(jīng)過較小預(yù)處理(如果有必要的話)的一組數(shù)據(jù),然后以自學(xué)方式(8、9)發(fā)現(xiàn)信息表示,而不是手動提取特征。因此,特征工程的負擔已經(jīng)從人類轉(zhuǎn)移到了計算機上,使得機器學(xué)習(xí)中的非專家可以有效地將深度學(xué)習(xí)用于他們自己的研究和/或應(yīng)用,特別是在醫(yī)學(xué)圖像分析中。深度學(xué)習(xí)取得前所未有的成功主要歸功于以下因素:(a)高性能的中央處理器(CPU)和圖形處理器(GPU)的發(fā)展,(b)海量數(shù)據(jù)(即大數(shù)據(jù))的可獲得性,以及(c)學(xué)習(xí)算法(learning algorithms)的發(fā)展(10-14)。從技術(shù)上講,深度學(xué)習(xí)可以看作是對傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)(ANN)(15)的改進,因為它能夠構(gòu)建具有多個(多于兩個)層的網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)可以發(fā)現(xiàn)分級特征表示(hierarchical feature representations),使得可以從較低級別的特征(9)導(dǎo)出較高級別的特征。由于這些技術(shù)使分級特征表示能夠僅從數(shù)據(jù)中學(xué)習(xí),深度學(xué)習(xí)在各種人工智能應(yīng)用程序(16-23)和挑戰(zhàn)賽(24、25;https://grand-challenge.org) 中取得了破紀錄的性能。計算機視覺技術(shù)的進步促進了深度學(xué)習(xí)在醫(yī)學(xué)圖像分析中的應(yīng)用,例如圖像分割(26,27)、圖像配準(28)、圖像融合(29)、圖像注釋(30)、計算機輔助診斷(CADx)和預(yù)后(31-33)、病變/標記點檢測(34-36)和顯微圖像分析(37,38)。當訓(xùn)練階段可用樣本數(shù)量較大時,深度學(xué)習(xí)方法是非常有效的。例如,在ImageNet視覺識別挑戰(zhàn)賽(ILSVRC)中有100多萬張帶注釋的圖像可用(24)。然而,在大多數(shù)醫(yī)學(xué)應(yīng)用中,圖像要少得多(通常數(shù)量少于1000)。因此,將深度學(xué)習(xí)應(yīng)用于醫(yī)學(xué)圖像的主要挑戰(zhàn)是可用于構(gòu)建深度模型的訓(xùn)練樣本數(shù)量有限,難以避免過擬合。為了克服這一困難,研究人員設(shè)計出了各種策略,例如:(a)將二維(2D)或三維(3D)圖像塊(image patches)而不是全尺寸圖像作為輸入(29,39-45),以降低輸入維數(shù)并減少模型構(gòu)建所需參數(shù);(b)通過仿射變換人工生成樣本(即數(shù)據(jù)增強)來擴展數(shù)據(jù)集,然后用增強的數(shù)據(jù)集從頭開始訓(xùn)練它們的網(wǎng)絡(luò)(39-42);(c)使用在計算機視覺中通過對大量自然圖像訓(xùn)練生成的深度模型作為“現(xiàn)成”特征提取器,用目標任務(wù)樣本(43,45)訓(xùn)練最終分類器或輸出層;(d)使用來自非醫(yī)學(xué)或自然圖像的預(yù)訓(xùn)練模型的模型參數(shù)初始化模型參數(shù),然后用與任務(wù)有關(guān)的樣本微調(diào)網(wǎng)絡(luò)參數(shù)(46,47);(e)通過將全連接層中的權(quán)重轉(zhuǎn)換為卷積核,對任意大小的輸入使用用小尺寸圖像作為輸入訓(xùn)練出的模型。根據(jù)輸入類型,我們可以將深度模型分為以矢量格式(即非結(jié)構(gòu)化)值作為輸入的典型多層神經(jīng)網(wǎng)絡(luò)和以2D或3D(即結(jié)構(gòu)化)值作為輸入的卷積網(wǎng)絡(luò)。由于圖像的結(jié)構(gòu)特征(包含在相鄰像素或體素中的結(jié)構(gòu)信息是另一個重要的信息源),卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在醫(yī)學(xué)圖像分析領(lǐng)域引起了極大興趣(26,35-37,48-50)。然而,具有矢量化輸入的網(wǎng)絡(luò)也已成功地用于不同的醫(yī)學(xué)應(yīng)用(28、29、31、33、51-54)。與深度神經(jīng)網(wǎng)絡(luò)一起,深度生成模型(55)-例如深度信念網(wǎng)絡(luò)(DBN)和深度Boltzmann機(DBMS)是具有多層隱藏變量的概率圖形模型-已經(jīng)被成功應(yīng)用于腦部疾病診斷(29、33、47、56)、病變分割(36、49、57、58)、細胞分割(37、38、59、60)、圖像解析(61-63)和組織分類(26、35、48、50)等領(lǐng)域的研究。本文結(jié)構(gòu)如下。在第二節(jié)中,我們解釋了神經(jīng)網(wǎng)絡(luò)和深度模型的計算理論[例如,堆疊自動編碼器(SAE)、DBN、DBMS、CNN],并討論了它們?nèi)绾螐臄?shù)據(jù)中提取高級表示。在第三節(jié)中,我們介紹了使用深度模型在醫(yī)學(xué)圖像中的不同應(yīng)用的最新研究,包括圖像配準、解剖定位、病變分割、物體和細胞檢測、組織分割以及計算機輔助檢測(CADE)和CADx。最后,在第四節(jié)中,我們總結(jié)了研究趨勢并提出了進一步改進的方向。在這一部分,我們解釋了前饋神經(jīng)網(wǎng)絡(luò)的基本概念和文獻中的基本深度模型。我們重點關(guān)注從數(shù)據(jù)中學(xué)習(xí)分級特征表示,并討論了如何通過減少過擬合來有效地學(xué)習(xí)深度結(jié)構(gòu)的參數(shù)。2.1 前饋神經(jīng)網(wǎng)絡(luò)
在機器學(xué)習(xí)中,人工神經(jīng)網(wǎng)絡(luò)是一系列模型,它模仿神經(jīng)系統(tǒng)的結(jié)構(gòu),并學(xué)習(xí)觀察其中的固有模式。感知機(64)是最早的具有單層結(jié)構(gòu)的可訓(xùn)練神經(jīng)網(wǎng)絡(luò),由輸入層和輸出層組成。感知機或具有多個輸出單元的改進感知機(圖1a)被視為線性模型,但通常不會用于涉及復(fù)雜數(shù)據(jù)模式的任務(wù),盡管在輸出層使用了非線性激活函數(shù)。圖1. 兩種前饋神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)這一限制可以通過在輸入層和輸出層之間引入隱藏層來克服。請注意:在神經(jīng)網(wǎng)絡(luò)中,相鄰層的單元完全彼此連接,但同一層中的單元之間沒有連接。對于兩層神經(jīng)網(wǎng)絡(luò)(圖1b),也稱為多層感知機,給定輸入向量v = [vi ] ∈ RD ,我們可以將輸出單元yk的估計函數(shù) (estimation function ) 寫成如下合成函數(shù):其中上標表示層索引,f(1)(·) 和 f(2)(·) 表示指定層處的單元的非線性激活函數(shù),M是隱藏單元的數(shù)目, Θ = {W(1) , W(2) , b(1) , b(2) } 是參數(shù)集。隱藏單元的激活函數(shù) f(1)(·) 通常用諸如Logistic Sigmoid函數(shù)或雙曲正切函數(shù)的S型函數(shù)定義。因為估計是向前進行的,所以這種類型的網(wǎng)絡(luò)也被稱為前饋神經(jīng)網(wǎng)絡(luò)。當將公式1中的隱層視為來自輸入v的特征提取器 φ(v)=[φj(v)]∈RM 時,輸出層僅為一個簡單線性模型,其中,
同樣的解釋也適用于隱層數(shù)量較多的情況。因此,可以直觀地看出,隱層的作用是查找對目標任務(wù)有用的特征。 神經(jīng)網(wǎng)絡(luò)的實際應(yīng)用要求從數(shù)據(jù)中學(xué)習(xí)模型參數(shù)。參數(shù)學(xué)習(xí)問題可以表示為誤差函數(shù)的最小化。從優(yōu)化的角度來看,神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)E是高度非線性和非凸的。因此,參數(shù)集沒有解析解。取而代之的是,可以通過迭代更新參數(shù)來使用梯度下降算法。為了利用梯度下降算法,必須有一種方法來計算在參數(shù)集Θ處求值的梯度?E(Θ)。對于前饋神經(jīng)網(wǎng)絡(luò),可以通過誤差反向傳播(65)有效地評估梯度。一旦知道所有層的梯度矢量,參數(shù)集Θ∈{W(1),W(2),b(1),b(2)} 可以更新如下:其中η是學(xué)習(xí)率,τ表示迭代指數(shù)。重復(fù)更新過程,直到收斂或達到預(yù)定義的迭代次數(shù)。對于公式3中的參數(shù)更新,文獻(66)中通常使用具有小訓(xùn)練樣本子集(稱為小批量(minibatch) )的隨機梯度下降。2.2 深度模型
對激活函數(shù)作一個溫和預(yù)設(shè),具有有限個隱含單元的兩層神經(jīng)網(wǎng)絡(luò)就可以逼近任意連續(xù)函數(shù)(67),因此,它被認為是一個通用逼近器(approximator )。不過,通過使用單元數(shù)量少得多(8)的深層架構(gòu)(即具有兩層以上的架構(gòu)) ,也可以將復(fù)雜函數(shù)近似到相同的精度。因此,可以減少可訓(xùn)練參數(shù)的數(shù)量,使得能夠用相對較小的數(shù)據(jù)集(68)進行訓(xùn)練。2.3 無監(jiān)督特征表示學(xué)習(xí)
與大多數(shù)基于專業(yè)知識手工設(shè)計良好的特征提取器的淺層體系結(jié)構(gòu)相比,深度模型對于以分級(即從精細到抽象)的方式從數(shù)據(jù)中發(fā)現(xiàn)信息特征是有用的。在這里,我們介紹了三種廣泛應(yīng)用于不同場景的無監(jiān)督特征表示學(xué)習(xí)的深度模型。自動編碼機或自動關(guān)聯(lián)器(69)是一種特殊類型的兩層神經(jīng)網(wǎng)絡(luò),通過最小化網(wǎng)絡(luò)的輸入和輸出值之間的重構(gòu)誤差(reconstruction error)來學(xué)習(xí)輸入的潛在或壓縮表示,即通過學(xué)習(xí)表示(representations),重構(gòu)輸入。由于其結(jié)構(gòu)比較簡單且層數(shù)較淺,單層自動編碼機的表現(xiàn)力非常有限。但是,當在稱為SAE的結(jié)構(gòu)中堆疊多個自動編碼機(圖2A)時,通過使用一個自動編碼器的隱藏單元的激活值作為下一個較高自動編碼器(70)的輸入,可以顯著提高表示能力。SAE最重要的特點之一是能夠?qū)W習(xí)或發(fā)現(xiàn)高非線性且復(fù)雜的模式,如輸入值之間的關(guān)系。當將一個矢量輸入SAE時,網(wǎng)絡(luò)的不同層表示不同級別的信息。也就是說,網(wǎng)絡(luò)中的層越低,模式就越簡單,層越高,輸入矢量中固有的模式就越復(fù)雜或抽象。圖2.三種具有代表性的輸入數(shù)據(jù)矢量化的無監(jiān)督特征學(xué)習(xí)深度模型。紅色箭頭(包括所有有向的和無向的)表示兩個連續(xù)層間的單元全部相連,但同一層中的單元之間沒有連接。請注意有向/無向連接模型之間的差異,以及描述條件關(guān)系的連接方向。一種直接獲取SAE中權(quán)重矩陣和偏差的訓(xùn)練參數(shù)的方法是將反向傳播應(yīng)用到基于梯度的優(yōu)化技術(shù)中,即將SAE作為傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)隨機初始化。但是,以這種方式訓(xùn)練的深度網(wǎng)絡(luò)比具有淺層體系結(jié)構(gòu)的網(wǎng)絡(luò)性能更差,因為它們落入較差的局部最優(yōu)(71)。為了繞過這個問題,我們應(yīng)該考慮逐層貪婪訓(xùn)練(greedy layer-wise learning)(10,72)。逐層貪婪學(xué)習(xí)的關(guān)鍵思想是一次預(yù)先訓(xùn)練一層,即用戶以訓(xùn)練數(shù)據(jù)作為輸入來訓(xùn)練第一隱層的參數(shù),然后以來自第一隱層的輸出作為輸入來訓(xùn)練第二隱層的參數(shù),依此類推。換言之,將第l個隱層的表示用作第(l+1)個隱藏層的輸入。這種預(yù)訓(xùn)練技術(shù)的一個重要優(yōu)點是利用標準的反向傳播算法以無監(jiān)督的方式進行,使用戶能夠通過利用用于訓(xùn)練的未標記樣本來增加數(shù)據(jù)集的大小。2.3.2 深度信念網(wǎng)絡(luò)(Deep belief network) 受限玻爾茲曼機(RBM)(73)是一種單層無向圖模型,具有可見層和隱層。它假定可見層和隱層之間存在對稱連接,但同一層內(nèi)的單元之間沒有連接。由于連通性的對稱性,它可以從隱藏表示(hidden representations)生成輸入觀測(input observations)。因此,RBM自然成為自動編碼器(10,73),并且其參數(shù)通常通過使用對比發(fā)散算法(contrastive divergence algorithm)(74)來訓(xùn)練,以便最大化觀測的對數(shù)似然(log likelihood)。與SAE類似,可以堆疊RBM以構(gòu)建深層架構(gòu),從而形成稱為DBN的單一概率模型。DBN具有一個可見層v和一系列隱層h(1),…,h(L)(圖2b)。注意,當多個RBM分層堆疊時,盡管最上面兩層仍然形成無向生成模型(即RBM),但較低層形成有向生成模型。因此,DBN中觀測單元v和L個隱藏層h(l)(l=1,…,L)的聯(lián)合分布為:其中,P(h(l)|h(l+1)) 對應(yīng)于給定層l+1單元的層l的單元的條件分布,而P(h(L-1),h(L))表示層L?1和L中的單元的聯(lián)合分布。對于參數(shù)的學(xué)習(xí),逐層貪婪預(yù)訓(xùn)練方案(10)可以應(yīng)用于以下步驟中:
1. 將第一層訓(xùn)練為v=h(0)的RBM(受限玻爾茲曼機)。
2. 利用P(h(1)=1|h(0))的平均激活或P(h(1)|h(0))繪制的樣本作為輸入,使用第一隱層獲取輸入表示,并將其用作第二隱層的觀測。
3.將變換后的數(shù)據(jù)(平均激活或樣本)作為訓(xùn)練樣本(用于RBM的可見層),將第二隱層訓(xùn)練為RBM。
4.針對所需層數(shù)重復(fù)步驟2和3,每次向上傳播平均激活P(h(l)=1|h(l+1)) 或根據(jù)條件概率P(h(l)|h(l+1))抽取的樣本。
在逐層貪婪訓(xùn)練過程完成之后,可以應(yīng)用喚醒-睡眠算法(wake–sleep algorithm)(75)來進一步增加觀測的對數(shù)似然。不過通常在實踐中不會對整個DBN進行進一步的聯(lián)合訓(xùn)練。DBM(55)也是通過以分層方式堆疊多個RBMs來構(gòu)建的。與DBN相比,DBM的不同之處在于RBM中的所有層在堆疊之后形成了一個無向生成模型(圖2c)。因此,對于隱層l,除了l=1和l=L的情況外,層的概率分布由其兩個相鄰層l+1和l?1[即P(h(l)|h(l+1),h(l?1))]來限定。來自上層和下層的信息的結(jié)合提高了DBM的表示能力(representational power),從而使其對噪聲觀測更魯棒(robust)。如圖2C所示,當L=2時,一個三層DBM給定相鄰層中的單元值,將二進制可見單元或二進制隱藏單元設(shè)置為1時,概率計算如下:其中σ(·)表示Sigmoid函數(shù)符號。為了學(xué)習(xí)參數(shù) Θ={W(1),W(2)},我們最大化觀測的對數(shù)似然。對于模型參數(shù),觀測值的對數(shù)似然的導(dǎo)數(shù)采用以下簡單形式:其中,Edata[·]表示通過對以可見單元v(=h(0))為條件的模型進行采樣而獲得的數(shù)據(jù)依賴統(tǒng)計(data-dependent statistics ),而Emodel[·]表示通過模型采樣獲得的數(shù)據(jù)獨立統(tǒng)計(data-independent statistics )。當模型很好地逼近數(shù)據(jù)分布時,數(shù)據(jù)依賴統(tǒng)計和數(shù)據(jù)獨立統(tǒng)計達到均衡。2.4 微調(diào)目標任務(wù)的深度模型我們可以注意到,在上述三個深度模型的特征表示學(xué)習(xí)期間從不涉及目標值(觀察的離散標簽或連續(xù)實值)。因此,不能保證SAE、DBN或DBMS學(xué)習(xí)的表示對于分類任務(wù)是有區(qū)別的。為了解決這一問題,通常在無監(jiān)督特征表示學(xué)習(xí)之后進行微調(diào)步驟。對于涉及分類或回歸的特定任務(wù),通過使用適當?shù)妮敵龊瘮?shù)在SAE、DBN或DBM中的最高隱藏層之上堆疊另一輸出層,可以直接將特征表示學(xué)習(xí)模型轉(zhuǎn)換為深度神經(jīng)網(wǎng)絡(luò)。對于DBM,當將DBM轉(zhuǎn)換成深度神經(jīng)網(wǎng)絡(luò)(55)時,應(yīng)該順便用第二隱層的近似后部邊緣來增廣原始輸入向量。之后,使用頂部輸出層來預(yù)測輸入的目標值。為了微調(diào)深度神經(jīng)網(wǎng)絡(luò)的參數(shù),我們首先將預(yù)訓(xùn)練好的隱層連接權(quán)值作為初始值,隨機初始化隱層頂層和輸出層之間的連接權(quán)重,然后用反向傳播算法以梯度下降法以有監(jiān)督(即端到端)的方式聯(lián)合訓(xùn)練參數(shù)。通過預(yù)訓(xùn)練初始化參數(shù)有助于降低有監(jiān)督優(yōu)化陷入較差局部最優(yōu)(10,71)的風(fēng)險。2.5 卷積神經(jīng)網(wǎng)絡(luò)如上所述,在SAE、DBN和DBMS的深度模型中,輸入總是矢量形式的。然而,對于(醫(yī)學(xué))圖像,相鄰像素或體素之間的結(jié)構(gòu)信息也很重要,但矢量化不可避免地會破壞圖像中的這種結(jié)構(gòu)和結(jié)構(gòu)信息。通過將2D或3D圖像作為輸入,CNN(76)可以更好地利用空間和結(jié)構(gòu)信息。在結(jié)構(gòu)上,CNN的卷積層間散布著池化層,并且具有標準神經(jīng)網(wǎng)絡(luò)的全連接層。與深度神經(jīng)網(wǎng)絡(luò)不同,CNN利用了三種機制--局部感受野、參數(shù)共享及降采樣(圖3)--這三種機制大大降低了模型的自由度。圖3. 卷積神經(jīng)網(wǎng)絡(luò)中的三個關(guān)鍵機制(局部感受野,參數(shù)共享和降采樣)卷積層的作用是利用可學(xué)習(xí)的核kij(l)檢測輸入特征圖中不同位置處的局部特征,即層l?1處的特征圖i和層l處的特征圖j之間的連接權(quán)重。具體地說,卷積層l的單元,僅基于前一層l-1的特征圖Ai(l-1) 在空間上相鄰的單元子集,通過將核kij(l)卷積為公式(9)來計算它們的激活A(yù)j(l) :其中M(l?1)表示層l?1中的特征映射(feature maps)的數(shù)目,星號表示卷積算子,bj(l)是偏置參數(shù),f(·)是非線性激活函數(shù)。由于參數(shù)共享機制和局部感受野機制,當輸入特征圖稍有偏移時,特征圖中各單元的激活位移相同。池化層在卷積層之后,并對卷積層的特征圖進行下采樣。具體來說,池化層中的每個特征圖與卷積層中的特征圖相連接;池化層的特征圖中的每個單元是基于來自對應(yīng)的卷積特征圖的局部感受野內(nèi)的單元的子集來計算的。類似于卷積層,感受野在其區(qū)域中的單元找到表示值(例如:最大值或平均值)。通常,卷積過程中感受野的大小變化被設(shè)置為等于用于降采樣的感受野的大小,使得CNN平移不變。從理論上講,梯度下降法和反向傳播算法相結(jié)合也可以應(yīng)用于CNN的學(xué)習(xí)參數(shù)。然而,由于參數(shù)共享、局部感受野及池化的特殊機制,需要進行細微的改變;也就是說,需要使用核權(quán)重對所有連接中給定權(quán)重的梯度求和,從而確定每層的特征圖中的哪個塊對應(yīng)于下一層的特征圖中的單元,并對池化層的特征圖進行上采樣以恢復(fù)尺寸減小的圖。訓(xùn)練深度模型的一個關(guān)鍵挑戰(zhàn)是與可學(xué)習(xí)參數(shù)的數(shù)量相比,訓(xùn)練樣本的數(shù)量是有限的。因此,長期以來,如何減少過擬合一直是一個挑戰(zhàn)。最近的研究已經(jīng)設(shè)計出一些算法技巧來更好地訓(xùn)練深度模型。其中一些技巧如下所示:
1.初始化/動量(77,78):使用精心設(shè)計的隨機初始化參數(shù),及隨著迭代過程緩慢增加動量參數(shù)的特定調(diào)度(particular schedule)。
2.校正線性單元(ReLU)(12,79,80):使用ReLU作為非線性激活函數(shù):
3.去噪(11):堆疊多層去噪自動編碼器,這些去噪自動編碼器在本地訓(xùn)練,從它們的損壞版本(corrupted versions)重建原始的“干凈”輸入。
4.丟棄(13)和丟棄連接(81):對于每個訓(xùn)練迭代,隨機停用網(wǎng)絡(luò)中的部分(例如50%) 單元或連接。
5.批次歸一化(14):對每個小批次執(zhí)行歸一化并通過歸一化參數(shù)反向傳播梯度。
有關(guān)此部分的詳細信息,請參閱引用的參考文獻。如果您對神經(jīng)影像數(shù)據(jù)及機器學(xué)習(xí)處理感興趣,請點擊以下鏈接了解思影科技課程及數(shù)據(jù)處理服務(wù)(目前思影采取預(yù)報名制度,以下所有課程均(關(guān)注內(nèi)容)可報名,受疫情影響課程開始時間待定,報名后我們會第一時間聯(lián)系,并保留發(fā)回執(zhí)人員名額):思影科技腦結(jié)構(gòu)磁共振成像數(shù)據(jù)處理業(yè)務(wù)
3.在醫(yī)學(xué)圖像方面的應(yīng)用 與文獻中的其他機器學(xué)習(xí)技術(shù)相比,深度學(xué)習(xí)取得了重大進展。這些成功促使醫(yī)學(xué)圖像計算領(lǐng)域的研究人員研究了醫(yī)學(xué)圖像中深度學(xué)習(xí)的潛力,包括通過CT、MRI、PET和X光獲取的醫(yī)學(xué)圖像。在這一部分中,我們將討論深度學(xué)習(xí)在圖像配準和定位、解剖和細胞結(jié)構(gòu)檢測、組織分割以及計算機輔助疾病預(yù)測和診斷中的實際應(yīng)用。3.1 醫(yī)學(xué)圖像中的深度特征表征(Deep Feature Representation)學(xué)習(xí)
現(xiàn)有的許多醫(yī)學(xué)圖像處理方法依賴于形態(tài)學(xué)特征表示來識別局部解剖特征。然而,這樣的特征表示大多是由人類專家設(shè)計的,并且圖像特征通常是特定于問題的,并不能保證適用于其他類型的圖像。例如,為1.5T T1加權(quán)的腦MR圖像設(shè)計的圖像分割和配準方法不適用于7.0T T1加權(quán)的MR圖像(28,52),更不用說其他模態(tài)或不同的器官了。此外,7.0T磁共振圖像可以顯示大腦的解剖結(jié)構(gòu),分辨率相當于從體外薄層切片獲得的分辨率(82)。因此,研究人員可以在微米尺度上清楚地觀察到精細的大腦結(jié)構(gòu),而這在以前只有通過體外成像才能實現(xiàn)。然而,缺乏有效的計算工具在很大程度上阻礙了新的成像技術(shù)向醫(yī)學(xué)成像領(lǐng)域的轉(zhuǎn)化。雖然最新的方法使用監(jiān)督學(xué)習(xí)來尋找與目標任務(wù)最相關(guān)和最基本的特征,但是它們需要大量的人工標記的訓(xùn)練數(shù)據(jù),并且所學(xué)習(xí)的特征可能是表淺(superficial)的,并且可能在表達解剖結(jié)構(gòu)的復(fù)雜性時產(chǎn)生一定的錯誤。更重要的是,學(xué)習(xí)過程通常局限于特定的具有一定數(shù)量的預(yù)先設(shè)計的特征的模板域。因此,一旦模板或圖像特征改變,整個訓(xùn)練過程必須重新開始。為了打破這些局限,Wu等人(28,52)開發(fā)了一個通用的特征表示框架,該框架可以(a)捕捉精確分割和檢測大腦區(qū)域所需的解剖結(jié)構(gòu)的的內(nèi)在特征,并可以(b)靈活地應(yīng)用于不同類型的醫(yī)學(xué)圖像。具體地說,這些作者使用具有稀疏約束的SAE,因此他們稱之為稀疏自動編碼器,以逐層方式分級學(xué)習(xí)特征表示。他們的SAE模型由分層的編碼和解碼模塊組成(圖4)。在編碼模塊中,給定輸入圖像塊x(patch x),該模型通過非線性確定性映射將輸入映射到激活向量y(1)。然后,作者重復(fù)這個過程,使用y(1)作為輸入來訓(xùn)練第二層,依此類推,直到他們獲得高級特征表示(圖4)。解碼模塊通過最小化輸入圖像塊x和解碼后的重構(gòu)塊z之間的重建誤差來驗證學(xué)習(xí)特征表示的表達能力。圖4. 通過堆疊自動編碼器和可視化學(xué)習(xí)到的特征表示來構(gòu)建深度編碼-解碼器。藍色圓圈表示高級特征表示。黃色和紫色圓圈表示編碼器和解碼器中各層之間的對應(yīng)關(guān)系。
圖5展示了通過深度學(xué)習(xí)方法學(xué)習(xí)特征表示的強大功能。圖5a-c所示為老年患者的腦圖像的典型圖像配準結(jié)果。圖5d-f比較了為找到模板點對應(yīng)關(guān)系的不同特征表示。顯然,圖5c中變形的受試圖像遠未與圖5a中的模板圖像很好地配準,尤其對于腦室而言。從不完美的圖像配準給出的不精確的對應(yīng)關(guān)系中學(xué)習(xí)有意義的特征是非常困難的,這是許多有監(jiān)督學(xué)習(xí)方法所面臨的問題(83-85)。此外,當使用整個灰度圖像塊(intensity patch)作為特征向量(圖5d)時,特征[例如,局部圖像塊和尺度不變特征變換(SIFT)(86)]或者檢測到過多的非對應(yīng)點,或者具有太低的響應(yīng)導(dǎo)致在使用SIFT時錯過對應(yīng)(圖5e)。同時,SAE學(xué)習(xí)到的特征表示為受試圖像點提供了最不易混淆的對應(yīng)信息,使得在受試圖像域中定位相應(yīng)的模板點變得更容易。圖5.相似圖顯示了通過手工設(shè)計的特征(d,e)和通過無監(jiān)督深度學(xué)習(xí)(f)堆疊的自動編碼器(SAE)特征來識別模板(a)中的紅十字點與受試圖像(b)的點的對應(yīng)關(guān)系。配準的主體圖像如圖c所示。顯然,不準確的配準結(jié)果可能會破壞高度依賴于所有訓(xùn)練圖像之間的對應(yīng)關(guān)系的有監(jiān)督的特征表示學(xué)習(xí)。在圖d-f中,體素的不同顏色表示它們被選為對應(yīng)于它們各自位置的可能性。SIFT (scale-invariant feature transform ):比例不變特征變換。為了定性評價配準精度,Wu等人從各種公共數(shù)據(jù)集上獲得可變形圖像配準結(jié)果(圖6)。對于1.5T和3.0T的MR圖像,與Demons的基于強度的微分同態(tài)配準方法(87)和HAMMER的基于特征的配準方法(88)等最新配準方法相比,圖6e中顯示的SAE學(xué)習(xí)的特征表示具有更好的性能。圖6 通過(c)Demons(87)、(d)HAMMER(88)和(e)HAMMER結(jié)合堆疊自動編碼器(SAE)學(xué)習(xí)的特征表示,在7.0T腦部磁共振圖像上的典型配準結(jié)果。這三行表示模板、受試者和受試圖像配準后的三個不同斷層。模板圖像上人工標記的海馬和不同配準方法得到的受試者變形圖像海馬分別用紅色和藍色輪廓線標記。另一個成功的醫(yī)學(xué)應(yīng)用是在MR圖像中定位前列腺(89、90)。在MR圖像中精確定位前列腺是困難的,原因有兩個:(a)前列腺周圍邊界的外觀模式在不同患者之間差異很大,(b)不同患者圖像之間的灰度(intensity)分布不同,并且通常不遵循高斯分布。為了應(yīng)對這些挑戰(zhàn),Guo等人(90)使用SAE從MR前列腺圖像中學(xué)習(xí)分級特征表示。學(xué)到的特征被集成到一個稀疏的圖像塊匹配框架(a sparse patch-matching framework)中,從而在圖像圖集中找到相應(yīng)的圖像塊用于標簽傳播(label propagation)(91)。最后,通過將形狀先驗信息與稀疏圖像塊匹配得到的前列腺似然圖相結(jié)合,利用可變形模型對前列腺進行分割。圖7顯示了由三種不同的特征表示產(chǎn)生的來自不同患者的典型前列腺分割結(jié)果。圖7.由三種不同的特征表示產(chǎn)生的兩個不同患者的典型前列腺分割結(jié)果。紅色輪廓表示手動標注分割,黃色輪廓表示自動分割。第二和第四行表示對應(yīng)于上述圖像的分割結(jié)果的三維(3D)可視化。對于每個3D可視化,紅色表面表示使用不同特征(例如灰度(intensity)、手動設(shè)計特征和堆疊自動編碼器(SAE)學(xué)習(xí)特征)的自動分割結(jié)果。透明的灰色曲面表示手動標注分割。(a)通過深度學(xué)習(xí)推斷出的潛在特征表示可以成功地描述局部圖像特征;(b)研究人員可以通過使用深度學(xué)習(xí)框架來學(xué)習(xí)固有特征表示,從而快速開發(fā)新的醫(yī)學(xué)圖像模態(tài)的圖像分析方法;(c)整個基于學(xué)習(xí)的框架可以適用于學(xué)習(xí)成像特征表示,并擴展到各種醫(yī)學(xué)圖像應(yīng)用,如MR圖像中的海馬分割(92)和前列腺定位等(89,90)。3.2 深度學(xué)習(xí)在解剖結(jié)構(gòu)檢測中的應(yīng)用
醫(yī)學(xué)圖像中解剖結(jié)構(gòu)的定位和插值是放射學(xué)工作流程中的關(guān)鍵步驟。放射科醫(yī)生通常通過識別某些解剖特征來完成這些任務(wù),即可以將一個解剖結(jié)構(gòu)與其他解剖結(jié)構(gòu)區(qū)分開來的圖像特征。計算機有可能自動學(xué)習(xí)這樣的解剖特征嗎?計算機方法的成功本質(zhì)上取決于通過計算操作可以提取多少解剖特征。盡管早期的研究通常通過創(chuàng)建特定的圖像濾波器(image filters)來提取解剖特征,但最近的研究表明,基于深度學(xué)習(xí)的方法已經(jīng)變得流行起來,原因主要有兩個:(a)深度學(xué)習(xí)技術(shù)現(xiàn)在已經(jīng)足夠成熟,可以解決現(xiàn)實世界中的問題;(b)越來越多的醫(yī)學(xué)圖像數(shù)據(jù)集變得容易獲取,為探索醫(yī)學(xué)圖像大數(shù)據(jù)提供了便利。Shin等人(51)利用SAE分別學(xué)習(xí)視覺和時間特征,以便在來自兩項肝轉(zhuǎn)移研究和一項腎轉(zhuǎn)移研究的數(shù)據(jù)集上的3D動態(tài)增強MRI掃描的時間序列中檢測多個器官。與傳統(tǒng)的SAE不同,本研究中的SAE在每一層之后增加了池化操作,使得輸入?yún)^(qū)域逐漸增多的特征基本上都被壓縮。因為不同的器官類別有不同的屬性,所以作者訓(xùn)練了多個模型,以有監(jiān)督的方式將每個器官從所有其他器官中分離出來。Roth等人(93)提出了一種利用深度卷積網(wǎng)絡(luò)對醫(yī)學(xué)圖像進行器官或身體的一部分特定解剖分類的方法。具體地說,他們通過使用4298個軸向2D CT圖像來訓(xùn)練他們的深度網(wǎng)絡(luò),以學(xué)習(xí)身體的五個部位:頸部、肺部、肝臟、骨盆和腿部。他們的實驗結(jié)果中,解剖學(xué)特異性分類誤差僅為5.9%,平均AUC值(受試者-操作特征曲線下的面積)為0.998。然而,現(xiàn)實世界的應(yīng)用程序可能需要比僅用于身體五個部位的更細粒度的區(qū)分(例如,它們可能需要從心臟切片中識別主動脈弓)。為了解決這一限制,Yan等人(94,95)用CNN設(shè)計了一個多狀態(tài)深度學(xué)習(xí)框架來識別橫切面的身體部分。因為每個切片可以包含多個器官(包圍在邊界盒(bounding boxes)中),所以CNN以多實例方式(96)訓(xùn)練,其中目標函數(shù)被調(diào)整,使得只要一個器官被正確標記,相應(yīng)的切片就被認為是正確的。因此,預(yù)先訓(xùn)練好的CNN對判定性邊界盒(discriminative bounding boxes)很敏感。在預(yù)先訓(xùn)練的CNN應(yīng)答的基礎(chǔ)上,判定性和非信息性的邊界盒被選擇出來,以進一步提高預(yù)先訓(xùn)練的CNN的表征能力(representation power)。在運行時,采用滑動窗口的方法將增強(boosted)的CNN應(yīng)用于受試圖像。因為CNN只有在判定性的邊界盒上才有尖峰響應(yīng),所以它基本上是通過關(guān)注最有區(qū)分度的局部信息來識別身體部位。與基于全局圖像的方法(global image context-based approaches)相比,這種局部方法具有更高的準確性和魯棒性。這些作者在7489張CT層上對12個身體部位進行了測試,這些CT層來自于675名年齡從1歲到90歲不等的患者的掃描。整個數(shù)據(jù)集被分成三組:2413(225名患者)用于訓(xùn)練,656(56名患者)用于驗證,4043(394名患者)用于測試。組織病理學(xué)數(shù)字化最近已被用于顯微鏡檢查和疾病自動分級。顯微圖像分析的一個主要挑戰(zhàn)是需要分析所有單個細胞以進行準確診斷,因為大多數(shù)疾病級別的分化強烈依賴于細胞水平的信息。為了應(yīng)對這一挑戰(zhàn),研究人員利用深度CNN從組織病理圖像(37,38,53,54,97-99)中魯棒而準確地檢測和分割細胞,這將大大有助于癌癥診斷的細胞水平分析。
在一項開創(chuàng)性的研究中,Cires?等人(37)使用深度CNN檢測乳腺癌組織學(xué)圖像中的有絲分裂。他們的網(wǎng)絡(luò)通過一個以圖像塊(patches)為中心的像素,被訓(xùn)練為可以在圖像中對每個像素進行分類。他們的方法在2012年國際模式識別(ICPR)有絲分裂檢測大賽中獲勝,以顯著優(yōu)勢超過其他4名參賽者。從那之后,不同的小組使用了不同的深度學(xué)習(xí)方法來檢測組織學(xué)圖像。例如,Xu等人(54)使用SAE檢測乳腺癌組織圖像上的細胞。為了訓(xùn)練他們的深度模型,他們使用了一個去噪自動編碼器來提高對異常值和噪聲的魯棒性。Su等人(53)還使用SAE以及稀疏表示從顯微圖像中檢測和分割細胞。Sirinukunwattana等人(100)提出了一種空間受限的細胞神經(jīng)網(wǎng)絡(luò)(constrained CNN,SC-CNN)來檢測和分類組織病理學(xué)圖像中的細胞核。他們使用SC-CNN來估計像素成為細胞核中心的可能性,其中具有高概率值的像素在空間上被限定在核中心附近。他們還開發(fā)了一種與CNN相結(jié)合的鄰近集成預(yù)測器,以便更準確地預(yù)測被檢測到的細胞核的類別標簽。Chen等人(38)利用全CNN技術(shù)設(shè)計了一種深級聯(lián)CNN,用全卷積核代替了全連接層(101)。他們首先訓(xùn)練了一個粗略的檢索模型來識別和定位有絲分裂候選者,同時保持高靈敏度。然后,在檢索到的候選者的基礎(chǔ)上,他們通過調(diào)用在大型自然圖像數(shù)據(jù)集上學(xué)習(xí)到的深度的和豐富的分級特征來創(chuàng)建精細判別模型,以區(qū)分有絲分裂和硬模仿(hard mimics)。他們的級聯(lián)CNN在2014年ICPR MITOS-ATYPIA挑戰(zhàn)賽中達到了最高的檢測準確率。3.3 深度學(xué)習(xí)在分割中的應(yīng)用
腦圖像的自動分割是對各個年齡段的患者進行大腦定量評估的前提。腦圖像預(yù)處理的一個重要步驟是去除非大腦區(qū)域,如頭骨。雖然目前的方法在非增強的T1加權(quán)圖像上顯示了良好的效果,但當應(yīng)用于其他模態(tài)和病理改變的組織時,自動分割仍然很困難。為了繞過這些限制,Kleesiek等人(27)使用3D卷積深度學(xué)習(xí)結(jié)構(gòu)進行顱骨提取,該技術(shù)不局限于非增強的T1加權(quán)MR圖像。在訓(xùn)練3D CNN時,為了提高計算效率,他們構(gòu)建了多個立方體(cubes)的迷你批次(minibatches),這些立方體比3D CNN的實際輸入要大。他們的深度模型可以通過構(gòu)建全卷積網(wǎng)絡(luò)(101)來將任意大小的3D圖像體(patch)作為輸入;因此,輸出可以是每個輸入的預(yù)測塊,而不是像傳統(tǒng)的CNN中那樣的單個預(yù)測。在四個不同的數(shù)據(jù)集上,與六種常用工具(即BET、BEAST、BSE、ROBEX、HWA和3dSkullZone)相比,他們的方法實現(xiàn)了最高的平均特異性度量,而其靈敏度約為平均水平。Moeskops等人(102)設(shè)計了一種多尺度細胞神經(jīng)網(wǎng)絡(luò)來增強新生兒圖像分割的魯棒性和空間一致性。他們的網(wǎng)絡(luò)使用多尺寸的圖像塊及不同大小的卷積核來獲取關(guān)于每個體素的多尺度信息。使用這種方法,作者在8種類型的組織分割中獲得了令人滿意的結(jié)果,在5個不同的數(shù)據(jù)集上,Dice Ratio平均為0.82到0.91。人腦發(fā)育最活躍的階段是出生后第一年,其特點是大腦組織快速生長和發(fā)育,認知及運動功能廣泛發(fā)展。將嬰幼兒腦部MRI圖像準確分割為白質(zhì)(WM)、灰質(zhì)(GM)和腦脊液(CSF)是研究早期腦發(fā)育正常和異常的關(guān)鍵。由于組織對比度低(103)、噪聲多、且具有嚴重的部分容積效應(yīng)(104)和正在進行的WM髓鞘形成(103,105),嬰兒大腦MR圖像的分割比成人要困難得多。WM和GM表現(xiàn)出幾乎相同的灰度水平(特別是在大腦皮層區(qū)域),導(dǎo)致圖像對比度較低。雖然已經(jīng)提出了許多嬰兒腦圖像分割的方法,但大多數(shù)集中在使用單個T1加權(quán)或T2加權(quán)圖像來分割新生兒(~3個月)或嬰兒(>12個月)的圖像(106-110)。很少有研究解決等強度相位圖像(isointense-phase images) (大約6個月大)分割帶來的挑戰(zhàn)。為了克服這些困難,Zhang等人(26)設(shè)計了四種基于多模態(tài)MR圖像的CNN結(jié)構(gòu)來分割嬰兒腦組織。每個CNN包含對應(yīng)于測量13×13體素的T1加權(quán)、T2加權(quán)和分數(shù)各向異性(FA)圖像塊的三個輸入特征圖。作者對每個CNN應(yīng)用了三個卷積層和一個全連接層,最后是一個具有Softmax函數(shù)的輸出層,用于組織分類。在一組手動分割的等強度相位腦圖像上,這些CNN的表現(xiàn)明顯優(yōu)于競爭方法。最近,Nie等人(48)提出使用多個完全卷積網(wǎng)絡(luò)(MFCNs)(圖8)來分割具有T1加權(quán)、T2加權(quán)和FA模態(tài)信息的等強度相位腦圖像。他們不是簡單地組合來自原始(低級)特征圖的三個模態(tài)數(shù)據(jù),而是采用深層架構(gòu)來有效地融合來自所有三個模態(tài)的高層信息。他們假設(shè)來自不同模態(tài)的高級表示是相輔相成的。首先,作者為每個模態(tài)訓(xùn)練一個網(wǎng)絡(luò),以便有效地利用來自多個模態(tài)的信息;其次,他們?nèi)诤狭藖碜悦總€網(wǎng)絡(luò)高層(high layer)的多個模態(tài)特征(圖8)。在這些實驗中,mFCNs利用來自8個受試者的圖像,實現(xiàn)了以下平均Dice ratios:腦脊液0.852,GM 0.873,WM 0.887,優(yōu)于全卷積網(wǎng)絡(luò)和其他競爭方法。圖8. 參考文獻48中用于組織分割的全卷積網(wǎng)絡(luò)的體系結(jié)構(gòu)。
3.4 深度學(xué)習(xí)在計算機輔助檢測(Computer-Aided Detection,CADE)中的應(yīng)用
CADE的目的是發(fā)現(xiàn)或定位結(jié)構(gòu)圖像中的異?;蚩梢蓞^(qū)域,從而對臨床醫(yī)生起到提示作用。CADE旨在提高病變區(qū)域的檢出率,同時降低假陰性率,而這些可能是由觀察者的錯誤或疲勞造成的。雖然CADE在醫(yī)學(xué)圖像方面已經(jīng)有了很好的基礎(chǔ),但是深度學(xué)習(xí)方法在不同的臨床應(yīng)用中都提高了它的性能。通常,CADE應(yīng)用于如下場景:(a)通過圖像處理技術(shù)檢測候選區(qū)域;(b)候選區(qū)域由諸如形態(tài)學(xué)或統(tǒng)計信息之類的一組特征來表示;以及(c)將特征送入支持向量機(SVM)等分類器中,從而輸出罹患疾病的概率或做出是否存在疾病的判定。如第1節(jié)所述,人工設(shè)計的特征表示可以合并到深度學(xué)習(xí)中。許多小組已經(jīng)成功地將自己的深度模型應(yīng)用于肺結(jié)節(jié)的檢測、淋巴結(jié)的檢測、CT圖像中間質(zhì)性肺疾病的分類、腦微出血的檢測以及MR圖像中的多發(fā)性硬化癥病變的檢測。值得注意的是,文獻中描述的大多數(shù)方法利用深度卷積模型來最大限度地利用二維、兩維半或三維的結(jié)構(gòu)信息。Ciompi等人(43)使用預(yù)先訓(xùn)練好的OverFeat(111)作為特征提取器,經(jīng)驗表明,從完全不同的自然圖像域?qū)W習(xí)的CNN可以為肺周圍結(jié)節(jié)的分類提供有用的特征描述。Roth等人(40)專注于從頭開始訓(xùn)練深度模型。為了解決深度CNN訓(xùn)練中數(shù)據(jù)不足的問題,他們通過對隨機過度訓(xùn)練樣本(random overtraining samples)進行縮放、平移和旋轉(zhuǎn)來擴展數(shù)據(jù)集。他們以類似的方式增加測試樣本;獲得每個增加的測試樣本的CNN輸出;并取隨機轉(zhuǎn)換、縮放和旋轉(zhuǎn)的圖像塊的輸出的平均值,用于檢測淋巴結(jié)和結(jié)腸息肉。為了更好地利用圖像中的體積信息,Ciompi等人(43)和Roth等人(40)都考慮了具有三個正交視圖(軸向、矢狀面和冠狀面)的2D塊的2.5維(2.5D)信息。Setio等人(42)考慮了來自3D圖像塊的總共9個視圖的三組正交視圖,并使用集成方法融合來自不同視圖的信息以檢測肺結(jié)節(jié)。Gao等人(112)利用CNN對間質(zhì)性肺病的CT表現(xiàn)進行了整體分類。他們借用了參考文獻113的網(wǎng)絡(luò)結(jié)構(gòu),輸出層有6個單元,將圖像塊分類為正常、肺氣腫、磨砂玻璃、纖維化、微結(jié)節(jié)和實變。為了克服過度擬合的問題,他們使用了一種數(shù)據(jù)增強策略,通過隨機抖動(randomly jittering)和將每個原始CT切片裁剪為10個子圖像來生成圖像。在測試階段,他們生成了10張抖動的圖像,并將它們輸入到經(jīng)過訓(xùn)練的CNN。最后,他們通過聚合來預(yù)測輸入切片,類似于Roth等人的研究(40)。Shin等人(45)在胸腹淋巴結(jié)(thoraco-abdominal lymph node)檢測和間質(zhì)性肺病分類的數(shù)據(jù)集上進行了實驗,以探索CNN的性能如何根據(jù)體系結(jié)構(gòu)、數(shù)據(jù)集特點和遷移學(xué)習(xí)而變化。他們考慮了五個深度CNN,即CifarNet(114)、AlexNet(113)、OverFeat(111)、VGG-16(115)和GoogLeNet(116),它們在各種計算機視覺應(yīng)用中取得了最先進的性能。通過大量的實驗,這些作者得出了一些有趣的結(jié)論:(a) 從大規(guī)模注釋自然圖像數(shù)據(jù)集(ImageNet)中學(xué)習(xí)的特征的遷移對CADE問題始終是有利的;(b)通過探索人為設(shè)計的特征的性能互補特性,可以改進現(xiàn)有的深度CNN特征在CADE問題中的應(yīng)用。與上述使用確定性深度結(jié)構(gòu)的研究不同,van Tulder和de Bruijne(35)采用了以卷積RBM為基礎(chǔ)的深度生成模型來對間質(zhì)性肺病進行分類。具體地說,他們使用帶有附加標簽層的輸入層和隱藏層的判別性RBM來提高學(xué)習(xí)特征表示的判別力。這些實驗證明了生成性和判別性學(xué)習(xí)目標相結(jié)合的優(yōu)勢,比單純的生成性或判別性學(xué)習(xí)方法的表現(xiàn)更好。Pereira等人(34)做了利用CNNs分割MR圖像中的腦腫瘤的研究。為了在使用更少參數(shù)的情況下形成更深層次的架構(gòu),他們探索了小型核(kernels)的使用。他們針對低級別和高級別腫瘤訓(xùn)練了不同的CNN架構(gòu),并在2013年腦瘤分割(BRATS)挑戰(zhàn)賽中驗證了他們的方法,在挑戰(zhàn)賽數(shù)據(jù)集的完整、核心和增強區(qū)域中,他們的方法名列前茅。Brosch等人(49)將深度學(xué)習(xí)應(yīng)用于MR圖像上的多發(fā)性硬化癥病變分割。他們的模型是由兩條相互連接的路徑組成的三維CNN,即一個學(xué)習(xí)到類似于其他CNNs的分級特征表示的卷積路徑和包含與相應(yīng)卷積層有捷徑連接的反卷積層及反池化層的反卷積路徑。反卷積層被設(shè)計成根據(jù)每個卷積層的特征表示和前一個反卷積層的激活(如果適用的話)來計算抽象分割特征。與目前已有的5種多發(fā)性硬化病變分割方法相比,該方法在Dice相似系數(shù)、絕對體積差和病變假陽性率三個方面都取得了最好的效果。對于典型的深度CNN,一個重要限制來自于其模型本身的固定體系結(jié)構(gòu)。當輸入的觀測值大于輸入層中的單元時,直接的解決方案是應(yīng)用滑動窗口策略(sliding-window strategy)。但是這樣做在計算上非常昂貴,并且耗費時間/內(nèi)存。由于CNNs中存在這種尺度問題,Dou等人(36)通過將全連接層中的單元轉(zhuǎn)換為3D(1×1×1)可卷積核來設(shè)計了3D全連接網(wǎng)絡(luò),使其能夠有效地處理任意大小的輸入(101)。此3D全連接網(wǎng)絡(luò)的輸出可以重新映射回原始輸入,從而可以更直觀地解釋網(wǎng)絡(luò)輸出。為了檢測磁共振圖像中的腦微出血,學(xué)者們設(shè)計了一個級聯(lián)框架。他們首先用提出的3D全連接網(wǎng)絡(luò)對輸入進行篩選,以檢索出大腦微出血的高概率候選對象,然后應(yīng)用3D CNN判別模型進行最終檢測。這些實驗驗證了該方法的有效性,消除了大量的冗余計算,大大加快了檢測過程。3.5 深度學(xué)習(xí)在計算機輔助診斷(Computer-Aided Diagnosis,CADx)中的應(yīng)用
CADx從基于圖像的信息中提供了關(guān)于疾病評估的第二種客觀意見。CADx的主要應(yīng)用包括鑒別良惡性病變及從一幅或多幅圖像中識別某些疾病。通常,大多數(shù)CADx系統(tǒng)都是為了使用由領(lǐng)域?qū)<以O(shè)計的人工設(shè)計特性而開發(fā)的。近年來,深度學(xué)習(xí)方法已成功地應(yīng)用于CADx系統(tǒng)中。Cheng等人(39)使用帶去噪技術(shù)(SDAE)的SAE來區(qū)分乳腺超聲病變和肺部CT結(jié)節(jié)。首先將圖像感興趣區(qū)域(ROI)的大小調(diào)整為28×28,其中每個圖像塊中的所有像素都被視為SDAE的輸入。在預(yù)訓(xùn)練階段,作者用隨機噪聲破壞輸入圖像塊,以增強其模型的噪聲容忍度。隨后,在微調(diào)步驟中,它們加入了兩個ROI維度的尺度調(diào)整因子及原始ROI的尺寸比,以保留原始信息。Shen等人(41)用多尺度CNN創(chuàng)建了一個分級學(xué)習(xí)框架來捕捉不同大小的肺結(jié)節(jié)。在該CNN結(jié)構(gòu)中,三個以不同尺度的結(jié)節(jié)圖像塊為輸入的CNN被并行組裝。為了減少過擬合,作者將三個CNN的參數(shù)設(shè)置為在訓(xùn)練期間共享。將三個CNN中最高隱層的激活(每個尺度一個)連接起來,形成一個特征向量。對于分類,作者使用具有徑向基函數(shù)核的支持向量機(SVM)和隨機森林,該分類器被訓(xùn)練為伴生目標最小化,所述伴生目標定義為總體鉸鏈損失函數(shù)( hinge loss function)和伴生鉸鏈損失函數(shù)的和(117)的組合。Suk等人(31)利用SAE,通過融合神經(jīng)成像和生物學(xué)特征來識別阿爾茨海默病或輕度認知障礙。他們從MR圖像中提取GM體積特征,從PET圖像中提取區(qū)域平均強度值,從腦脊液中提取三個生物學(xué)特征(Aβ42, p-tau, and t-tau)。在訓(xùn)練特定模態(tài)的SAE之后,對于每個模態(tài),它們通過將原始特征與各個SAE的頂層隱層的輸出相連接來構(gòu)造增廣的特征向量。一個多核支持向量機(118)進行了臨床決策訓(xùn)練。相同的作者將他們的研究擴展到通過在特征表示學(xué)習(xí)期間而不是在分類器學(xué)習(xí)步驟(29)中組合不同的模態(tài)來尋找分級特征表示。他們使用DBM從3D圖像塊中找到潛在的分級特征表示,然后設(shè)計了一種系統(tǒng)的方法,用于從具有多模態(tài)DBM的MRI和PET的配對圖像塊中進行聯(lián)合特征表示(圖9a)。為了提高診斷性能,他們還使用了判別DBM,在最高隱層的頂部添加了判別RBM(119)。也就是說,頂部隱層同時連接到輸入圖像塊中的下層隱層和指示標簽的附加標簽層(圖9a)。使用這種方法,作者訓(xùn)練了一個多模態(tài)DBM,通過融合發(fā)現(xiàn)特征及其在分類中的使用來發(fā)現(xiàn)分級和判別特征表示。圖9b,c顯示了從MRI路徑和PET路徑學(xué)習(xí)到的連接權(quán)重。圖9.(a)利用多模態(tài)深度Boltzmann判別機(DBM)從不同模態(tài)的圖像塊(例如磁共振成像(MRI)和正電子發(fā)射斷層掃描(PET))進行共享特征學(xué)習(xí)。黃色圓圈表示輸入圖像塊,藍色圓圈表示聯(lián)合特征表示。(b,c)為多模態(tài)DBM(29)中高斯受限Boltzmann機器(RBM)(底部)中的學(xué)習(xí)權(quán)重和來自MRI第一隱藏層(頂部)及PET路徑的學(xué)習(xí)權(quán)重(頂部)的可視化。每列由上塊和下塊中的11個圖像塊組成一個三維圖像體。Plis等人(120)將DBN應(yīng)用于MR圖像,通過調(diào)查一個深度生成模型的構(gòu)建塊是否能與功能MRI中最廣泛應(yīng)用的獨立元分析進行競爭,來驗證應(yīng)用的可行性。他們還檢查了深度模度的深度對精神分裂癥(aschizophrenia)數(shù)據(jù)集和亨廷頓病(Huntington disease)數(shù)據(jù)集的結(jié)構(gòu)磁共振圖像分析的影響。受到Plis等人工作的啟發(fā),Kim等人(121)和Suk等人(33)獨立研究了深度學(xué)習(xí)在基于fMRI的大腦疾病診斷中的應(yīng)用。Kim等人在精神分裂癥的診斷及與精神分裂癥相關(guān)的異常功能連接模式的識別中使用SAE作為全腦靜息狀態(tài)功能連接模式表征。他們首先根據(jù)區(qū)域平均血氧水平依賴(BOLD)信號計算了116個區(qū)域?qū)χg的皮爾遜相關(guān)系數(shù)。在對系數(shù)進行Fisher r-to-z變換和高斯歸一化之后,他們將偽z得分水平反饋到他們的SAE中。最近,Suk等人(33)提出了一種將深度學(xué)習(xí)與隱馬爾可夫模型(hidden Markov model,HMM)相融合的fMRI功能動力學(xué)估計的新框架,并成功地將該框架用于輕度認知損傷(MCI)的診斷。他們設(shè)計了一個深度自動編碼器(DAE),通過堆疊多個RBM來發(fā)現(xiàn)大腦區(qū)域之間的分級非線性功能關(guān)系。圖10以功能網(wǎng)絡(luò)的形式展示出了學(xué)習(xí)到的連接權(quán)重的示例。該DAE用于將區(qū)域平均BOLD信號變換到嵌入空間,嵌入空間的基礎(chǔ)被理解為復(fù)雜的函數(shù)網(wǎng)絡(luò)。在嵌入功能信號之后,Suk等人。然后利用隱馬爾可夫模型(HMM)通過內(nèi)部狀態(tài)估計靜息狀態(tài)fMRI固有的功能網(wǎng)絡(luò)的動態(tài)特性,這些動態(tài)特性可以從觀測數(shù)據(jù)中統(tǒng)計推斷出來。通過用隱馬爾可夫模型(HMM)建立生成模型,他們估計了靜息狀態(tài)fMRI的輸入特征屬于相應(yīng)狀態(tài)(即MCI或正常健康對照)的可能性,然后使用這一信息來確定測試對象的臨床標簽。圖10. 參考文獻33中的深度自動編碼器構(gòu)建的從第一隱層學(xué)習(xí)到的功能網(wǎng)絡(luò)。左欄中的功能網(wǎng)絡(luò)(從上到下)對應(yīng)于默認模式網(wǎng)絡(luò)、執(zhí)行注意網(wǎng)絡(luò)、視覺網(wǎng)絡(luò)、皮質(zhì)下區(qū)域和小腦。右欄中的功能網(wǎng)絡(luò)顯示了不同網(wǎng)絡(luò)區(qū)域、大腦皮層和小腦之間的關(guān)系。一些其他研究也使用CNNs來診斷大腦疾病。Brosch等人(47)使用由三個卷積RBM和兩個RBM層組成的深度生成模型,從下采樣的MR圖像中進行流形學(xué)習(xí)。卷積計算的速度是訓(xùn)練算法的瓶頸,為了加快速度,他們在頻域進行訓(xùn)練。通過從他們的深度生成模型生成體素樣本,他們驗證了在沒有明確定義的相似性度量或鄰近圖(proximity graph)的情況下,流形嵌入(manifold embedding)深度學(xué)習(xí)的有效性。Li等(44)構(gòu)造了一個具有兩層卷積層和一層全連接層的三層CNN。他們建議使用CNNs來集成多模態(tài)神經(jīng)成像數(shù)據(jù),方法是設(shè)計一個3D CNN結(jié)構(gòu),接收一個體積MRI圖像體(patch)作為輸入,另一個體積PET圖像塊(patch)作為輸出。當利用受試者的兩種數(shù)據(jù)模態(tài)進行端到端的訓(xùn)練時,網(wǎng)絡(luò)可以捕捉到兩種模態(tài)之間的非線性關(guān)系。這些實驗表明,給定輸入的MRI數(shù)據(jù),PET數(shù)據(jù)是可以預(yù)測和估計的,并且作者通過將預(yù)測的PET圖像與實際的PET圖像的分類結(jié)果進行比較,對所提出的數(shù)據(jù)補全方法進行了定量的評估。醫(yī)學(xué)圖像分析的計算建模對臨床應(yīng)用和科學(xué)研究都有著重要的影響。深度學(xué)習(xí)的最新進展使僅從數(shù)據(jù)中發(fā)現(xiàn)圖像中的形態(tài)和/或紋理模式成為可能,從而為醫(yī)學(xué)圖像分析帶來了新的曙光。深度學(xué)習(xí)方法在不同的醫(yī)療應(yīng)用中實現(xiàn)了最先進的性能,但仍有進步空間。首先,如計算機視覺中所證明的,通過使用大量的訓(xùn)練數(shù)據(jù)(例如,ImageNet(24)中的100多萬個帶注釋的圖像)可以實現(xiàn)突破性的進步,深度模型也可以從大型、公開可用的醫(yī)學(xué)圖像數(shù)據(jù)集中找到更一般化特征,從而實現(xiàn)更高的性能。第二,雖然數(shù)據(jù)驅(qū)動的特征表示幫助提高了準確性,特別是以無監(jiān)督的方式,但設(shè)計一種涉及特定領(lǐng)域知識的新的方法體系結(jié)構(gòu)是可取的。第三,有必要開發(fā)算法技術(shù)來有效地處理用不同掃描協(xié)議獲取的圖像,這樣就不需要訓(xùn)練特定于模態(tài)的深度模型。最后,當使用深度學(xué)習(xí)來研究fMRI等圖像中的潛在模式時,由于深度模型的黑匣子特性,直觀地理解和解釋學(xué)習(xí)到的模型仍然具有挑戰(zhàn)性。原文:Deep Learning in MedicalImage Analysishttps://doi.org/10.1146/annurev- bioeng- 071516-044442
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。