本文介紹美國紐約州伊薩卡康奈爾大學獸醫(yī)學院貝克動物健康研究所Tinyi Chu和美國紐約州伊薩卡市康奈爾大學獸醫(yī)學院生物醫(yī)學系Charles G. Danko共同通訊發(fā)表在 Nature cancer 的研究成果:作者開發(fā)了貝葉斯細胞比例重構,使用統(tǒng)計邊緣化推斷(BayesPrism),一種貝葉斯方法,使用來源于患者的scRNA-seq作為先驗信息,從bulk RNA-seq中預測單個細胞類型的細胞組成和基因表達。對原發(fā)性膠質母細胞瘤、頭頸部鱗狀細胞癌和皮膚黑色素瘤進行了整合分析,以將細胞類型組成與不同腫瘤類型的臨床結果相關聯(lián),并探索惡性和非惡性細胞狀態(tài)的空間異質性。作者使用排除混雜的非惡性細胞后的基因表達注釋來細化當前的癌癥亞型。最后確定了惡性細胞中與多種腫瘤類型的巨噬細胞浸潤、T細胞、成纖維細胞和內(nèi)皮細胞相關的基因表達。并且引入了一種新的視角,可以在bulk RNA-seq數(shù)據(jù)中準確地推斷細胞組成和表達。
簡介
細胞與細胞之間的相互作用非常復雜,在生物環(huán)境中會強烈影響細胞行為,通常會產(chǎn)生醫(yī)學后果。
兩層信息對于理解腫瘤組成至關重要:(1)每種細胞類型的比例;(2)每種細胞類型中的基因表達水平。單細胞RNA測序(scRNA-seq)技術的興起最近使TME內(nèi)單個細胞轉錄組的全基因組測量和異質性表征成為可能。然而,scRNA-seq的成本和對高質量組織的要求限制了可檢測的患者樣本數(shù)量。此外,scRNA-seq易受細胞捕獲技術偏差的影響,這會干擾細胞類型組成的恢復。
作為一種替代方法,細胞類型豐度可以通過對一組任意定義的標記基因構建的參考表達矩陣進行回歸,從大量RNA-seq數(shù)據(jù)推斷。然而,現(xiàn)有的反卷積方法對參考樣本與體樣本的分布差異做了限制性的假設。這些假設經(jīng)常被大量數(shù)據(jù)和參考數(shù)據(jù)之間的技術和生物學差異阻礙。因此,現(xiàn)有的方法未能解決下述關鍵問題:在TME中,惡性細胞如何影響非惡性細胞的組成,哪些基因與這些相互作用相關?
因此作者提出了名為BayesPrism的貝葉斯模型,使用scRNA-seq作為先驗信息,通過bulk RNA-seq數(shù)據(jù)聯(lián)合推斷細胞類型的部分后驗分布和基因表達。通過明確建模和邊緣化單細胞參考數(shù)據(jù)和bulk數(shù)據(jù)之間的基因表達差異,BayesPrism在腫瘤和非腫瘤設置的細胞類型分數(shù)推斷方面大大優(yōu)于現(xiàn)有的方法。并且作者使用了一個包含膠質母細胞瘤(GBM)、頭頸部鱗狀細胞癌(HNSCC)和皮膚黑色素瘤(SKCM)的大樣本數(shù)據(jù)集,其中包含1412個批量RNA-seq和85個scRNA-seq樣本,證明了該方法的有效性。
2
結果
細胞類型部分和基因表達的貝葉斯推斷
BayesPrism使用一個參考的scRNA-seq來推斷每個bulk RNA-seq樣本的兩個統(tǒng)計數(shù)據(jù):(1) 從每個細胞類型獲得的讀數(shù)比例,假設它與該細胞類型的比例成正比;(2)每種細胞類型的基因表達水平(圖1a,b)。細胞去卷積最具挑戰(zhàn)性的方面是考慮各種不確定性的來源,包括技術和生物批次的變化,在bulk和參考scRNA-seq之間的基因表達。為了解釋這些不確定性,BayesPrism采用貝葉斯策略,使用scRNA-seq對先驗分布進行建模,利用每個觀測數(shù)據(jù),推斷出每個細胞類型和大量樣本中細胞類型比例和基因表達的聯(lián)合后驗分布。因此,每次估計的不確定性都可以從聯(lián)合后驗中剔除。
BayesPrism提高了細胞類型去卷積的準確性
為了評估BayesPrism是否在更現(xiàn)實的環(huán)境中提高去卷積性能,接下來作者通過在三種不同的環(huán)境中結合來自單細胞的讀數(shù)來生成偽bulk數(shù)據(jù),(1) 外周血單個核細胞(PBMC)和小鼠大腦皮質樣本;(2) 在三種人類癌癥類型的數(shù)據(jù)集中進行遺漏測試;(3) 使用不同的測序平臺從不同的隊列中產(chǎn)生的GBM數(shù)據(jù)集(圖1c,d)。使用PBMC scRNA-seq數(shù)據(jù)作為參考,BayesPrism獲得了比其他去卷積方法更準確的五個細胞類型的估計(MSE上,相關系數(shù)上P<0.03)(圖1e,f)。綜上所述,這些基準表明,BayesPrism 改善了現(xiàn)實環(huán)境中的解卷積性能。
BayesPrism估計未觀察患者的基因表達
作者估計了28個GBMs的SMART-seq2偽bulk數(shù)據(jù)中的細胞類型和基因表達。并使用了來自8個GBMs的基于microwell的scRNA-seq參考數(shù)據(jù),在bulk RNA-seq和scRNA-seq參考數(shù)據(jù)之間存在生物和技術差異的情況下,測試了BayesPrism的準確性。偽bulk樣本(ψmal)中惡性細胞的基因表達估計與已知的基礎真理高度相似(圖1g)。對腫瘤來說,BayesPrism基因表達估計值和已知的真實值之間的相關性>0.95,純度大于50%(圖1h)。使用BayesPrism進行基因表達估計比使用CIBERSORTx或無反卷積的bulk腫瘤更準確(圖1h)。
圖1 BayesPrism算法流程及性能驗證。
浸潤性免疫細胞類型和狀態(tài)對生存的影響。
作者分析了來自三種腫瘤類型GBM、HNSCC和SKCM16-18的1142份腫瘤基因組圖譜(TCGA)樣本的細胞類型比例。為了保持盡可能高的準確性,作者在每個去卷積任務中使用了來自相同腫瘤類型的scRNA-seq參考。利用這些參考數(shù)據(jù)集,提供了6種GBM細胞類型的估計,10種HNSCC細胞類型,8種SKCM細胞類型(圖2a)。作者發(fā)現(xiàn)CD8+ T細胞與生存有更強的相關性,與以往報告一致。在HNSCC中,T細胞比例也與更好的臨床結果相關,但僅在將細胞類型豐度作為連續(xù)變量處理的模型中,效果顯著(P = 0.001, Wald檢驗) (圖2b)。圖2c表明BayesPrism估計的巨噬細胞與SKCM患者的生存呈正相關(P = 0.01, log-rank檢驗)。作者使用BayesPrism來評估含有5%巨噬細胞的樣本中巨噬細胞特異性基因的表達。作者比較了巨噬細胞表達與兩個巨噬細胞亞群特征的標記基因M1和M2,這兩個亞群被認為在TME中有不同的作用。來自GBM的巨噬細胞M2評分最高,M1評分最低,而來自SKCM的巨噬細胞M2評分最低,M1評分與來自HNSCC的巨噬細胞相當(圖2d)。在SKCM中,巨噬細胞極化與生存率有極強的相關性(圖2e)。
圖2 三種TCGA腫瘤的預后與非惡性細胞的細胞類型比例或細胞狀態(tài)的關系。
基因表達模式與TME細胞類型相關
作者利用利用BayesPrism,同時實施兩個額外的過濾器,發(fā)現(xiàn)相互作用基因POSTN、ITGB1和LOX(圖3a)均與巨噬細胞浸潤具有顯著正相關。盡管IVY GAP數(shù)據(jù)集中每個標記的樣本量有限,但作者在PI3和POSTN的ISH陽性切片中觀察到了更高的巨噬細胞含量,這是通過至少10個ISH實驗分析的唯一有兩個通過過濾器的基因(圖3b、c)。因此,BayesPrism利用TCGA確定了可通過腫瘤內(nèi)異質性復制的相關性。為總結與細胞間相互作用相關的生物過程,作者使用候選相互作用基因和非惡性細胞類型部分之間的相關系數(shù)進行了基因集富集分析(圖3d),該分析揭示了幾種互動模式。首先,在所有三種腫瘤類型中,許多與非惡性細胞類型比例相關的生物學過程都是獨立發(fā)現(xiàn)的。例如,在所有三種腫瘤類型中,干擾素γ/α反應與巨噬細胞呈正相關(圖3e)。間充質激活與GBM中的巨噬細胞、SKCM中的內(nèi)皮細胞和成纖維細胞呈正相關,與HNSCC中的淋巴細胞呈負相關(圖3d,f)。最后,一些生物過程只與一種腫瘤類型相關,但與該腫瘤中的多種細胞類型相關。例如,角質化與HNSCC中的多個非惡性細胞呈負相關,但與肥大細胞呈正相關(圖3g)。這些結果突顯了BayesPrism在研究惡性和非惡性細胞浸潤中生物過程之間的相互作用方面有重要作用。
圖3 惡性細胞基因表達與非惡性細胞分數(shù)之間的相關性。
BayesPrism識別惡性細胞內(nèi)在基因程序
作者在BayesPrism中開發(fā)了一個用于推斷基因程序的線性組合的模塊,在從非惡性細胞類型中分解出基因表達后,解釋了bulk RNA-seq中的表達異質性(圖4a),作者在由28GBMs讀數(shù)聚集產(chǎn)生的偽bulk數(shù)據(jù)集上驗證了該方法,BayesPrism恢復的基因程序與最近通過對同一數(shù)據(jù)集的6863個單一惡性細胞進行因子化得到的基因程序相似(圖4b)。研究發(fā)現(xiàn),基于BayesPrism學習的每個基因程序的權重與分配給四個主要亞型腫瘤中的細胞比例相關(圖4c,d)。作者將嵌入學習應用于GBM、HNSCC和SKCM,揭示了GBM中與先前研究相似的幾個程序,包括程序3(經(jīng)典和AC類)、程序4(間充質)和程序5(前神經(jīng)、OPC和NPC類)(圖4e)。在HNSCC中,程序1因單細胞研究(圖4f)確定的部分EMT程序而豐富,與存活率呈負相關(P=0.017,瓦爾德檢驗)。在SKCM中,作者確定了多個與AXL和MITF基因程序相關的生存相關基因程序(之前使用TCGA批量數(shù)據(jù)報告),以及一個T細胞排除程序(在最近的scRNA-seq研究中確定;圖4g-j)。與基因集富集分析一致,BayesPrism沒有發(fā)現(xiàn)任何與HNSCC中的間充質亞型或GBM中的神經(jīng)亞型相似的基因程序。因此,作者認為,嵌入學習模塊減少了非惡性細胞類型的影響,導致了惡性細胞固有的基因程序。
圖4 BayesPrism在排除非惡性細胞表達后重新定義了GBM分子亞型。
GBM基因程序和細胞類型的空間異質性
本文假設惡性細胞中基因程序的激活與微環(huán)境中非惡性細胞類型的比例之間的關系可以顯示出腫瘤內(nèi)的空間異質性。實驗使用IVY GAP將122個RNA-seq樣本分離成五個結構:前緣(LE)、浸潤性腫瘤(IT)、細胞腫瘤(CT)、微血管增生(MVP)和壞死周圍的假柵欄細胞(PAN)(圖5a)。作者檢查了IVY GAP研究的解剖結構中富集了哪些細胞類型和基因程序(上面使用TCGA識別)(圖5b,c),發(fā)現(xiàn)MVP區(qū)域在內(nèi)皮細胞和周細胞高度富集,而LE和IT區(qū)域在少突膠質細胞和神經(jīng)元高度富集。同時,為有助于解釋BayesPrism獲得的程序中的富集情況,作者分析了每個IVY缺口結構中惡性細胞(使用BayesPrism推斷)的基因集富集分數(shù),這些生物學過程的子集顯示了TCGA-GBM的顯著變化(圖5d)。此外,發(fā)現(xiàn)CT和MVP具有高度增殖性,這與它們在程序3和5中的富集程度一致, MVP和PAN在組織重塑和免疫相互作用方面都有所增強(程序4),而MVP更具血管生成性,PAN更具炎癥性。綜上所述,上述分析顯示了BayesPrism如何利用IVY缺口數(shù)據(jù)集將路徑和基因程序與空間解剖結構聯(lián)系起來。
圖5 BayesPrism揭示了GBM的空間異質性。
3
總結與討論
現(xiàn)在有大量的文獻提供了非惡性細胞如何影響惡性細胞功能的例子,證實了一個多世紀以來關于TME關鍵作用的猜測。scRNA-seq不僅可以系統(tǒng)地測量腫瘤中存在的細胞類型,還可以測量它們的基因表達狀態(tài)。盡管scRNA-seq提供了正確的數(shù)據(jù)模式,但目前的研究還沒有足夠大的樣本量來解決這些問題。除此之外,雖然可用的bulk RNA-seq數(shù)據(jù)集可達上千個,但它們只能提供關于各種惡性腫瘤中整個細胞環(huán)境中少量的信息。本文利用了兩種基因組資源,開發(fā)了一個嚴格的統(tǒng)計模型來整合scRNA-seq和bulk RNA-seq數(shù)據(jù),為腫瘤學這一重大挑戰(zhàn)提供了一個新的視角。并且本文的綜合分析也為疾病進展提供了新的見解。此外,BayesPrism滿足了基因組學工具箱中的幾個關鍵需求。與以前的方法相比,BayesPrism能夠更準確地將bulk RNA-seq分解為細胞類型的比例,這部分要歸功于對bulk RNA-seq和scRNA-seq數(shù)據(jù)之間差異進行建模的貝葉斯統(tǒng)計模型。最重要的是,BayesPrism對細胞類型及其樣本特異性平均表達聯(lián)合建模,這對本文報告的分析至關重要。在實際應用中,BayesPrism的精度可能會受到參考矩陣中細胞狀態(tài)缺失的影響,異質性TME中細胞狀態(tài)缺失的表達有時會偏離BayesPrism建模的先驗分布,導致將細胞狀態(tài)缺失的轉錄本部分分配給屬于其他細胞類型的細胞。因此在探究基因表達和細胞類型分數(shù)的后驗估計值之間的相關性時需要謹慎,可能需要使用與本文介紹的類似的過濾器。作者推測,隨著從患者身上收集單細胞數(shù)據(jù)的增加,由于每個數(shù)據(jù)可能都涵蓋了轉錄狀態(tài)的細微差別,腫瘤樣本的反卷積計算將變得更加準確。因此,BayesPrism將提供一種新的視角,將不斷增長的scRNA-seq數(shù)據(jù)與現(xiàn)有的大量bulk RNA-seq數(shù)據(jù)進行整合,從而深入了解腫瘤與微環(huán)境的相互作用。
參考資料
Chu T , Wang Z , Pe'Er D , et al. Cell type and gene expression deconvolution with BayesPrism enables Bayesian integrative analysis across bulk and single-cell RNA sequencing in oncology. Nature Cancer(2022). https://doi.org/10.1038/s43018-022-00356-3
數(shù)據(jù)
https://doi.org/10.1038/s43018-022-00356-3
代碼
https://github.com/Danko-Lab/BayesPrism.git
聯(lián)系客服