今天小編分享的這篇paper是來自《Genome biology》的綜述,其回顧了空間轉(zhuǎn)錄組學(xué)中統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法的最新發(fā)展,總結(jié)了有用的資源。
空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)分析工作通常包括多個(gè)階段:第一步是數(shù)據(jù)預(yù)處理,通常包括質(zhì)量控制、基因表達(dá)標(biāo)準(zhǔn)化、降維和細(xì)胞類型注釋。可以通過空間分解、基因插補(bǔ)和標(biāo)簽轉(zhuǎn)移進(jìn)一步提高數(shù)據(jù)的豐富性。接下來可通過空間聚類和局部基因表達(dá)模式從數(shù)據(jù)中獲得生物學(xué)見解,這將進(jìn)一步促進(jìn)空間可變基因的識(shí)別、細(xì)胞-細(xì)胞/基因-基因相互作用的推斷和空間軌跡分析。此外,空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)可用于幫助重建scRNA-seq數(shù)據(jù)中的空間位置。
用于空間分辨轉(zhuǎn)錄組學(xué)數(shù)據(jù)分析的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法總結(jié)
SpatialDWLS
應(yīng)用場(chǎng)景:Spatial decomposition(空間分解)
算法:Weighted least squares(加權(quán)最小二乘)
優(yōu)點(diǎn):比基準(zhǔn)工具的精度更高、速度更快
缺點(diǎn):估計(jì)稀有細(xì)胞類型比例的偏差較大
SPOTlight
應(yīng)用場(chǎng)景:Spatial decomposition(空間分解)
算法:Seeded NMF regression(基于種子的非負(fù)矩陣因子分解回歸)
優(yōu)點(diǎn):跨多個(gè)組織的高精度
缺點(diǎn):沒有將捕獲的位置信息合并到模型空間分解中
RCTD
應(yīng)用場(chǎng)景:Spatial decomposition(空間分解)
算法:Poisson distribution with MLE(泊松分布的最大似然估計(jì))
優(yōu)點(diǎn):系統(tǒng)地模擬平臺(tái)效應(yīng)
缺點(diǎn):假設(shè)平臺(tái)效應(yīng)在細(xì)胞類型之間共享
stereoscope
應(yīng)用場(chǎng)景:Spatial decomposition(空間分解)
算法:Negative binomial distribution with MAP(具有最大后驗(yàn)概率的負(fù)二項(xiàng)分布)
優(yōu)點(diǎn):利用完整的表達(dá)譜而不是選定的標(biāo)記基因來實(shí)現(xiàn)更高的準(zhǔn)確性
缺點(diǎn):需要更深的測(cè)序深度
DSTG
應(yīng)用場(chǎng)景:Spatial decomposition(空間分解)
算法:Semi-supervised GCN(半監(jiān)督圖卷積神經(jīng)網(wǎng)絡(luò))
優(yōu)點(diǎn):比基準(zhǔn)工具更精確
缺點(diǎn):高度依賴于建模圖卷積神經(jīng)網(wǎng)絡(luò)的鏈接圖的質(zhì)量
ProximID
應(yīng)用場(chǎng)景:Cell-cell/gene-gene interactions
S(細(xì)胞-細(xì)胞/基因-基因相互作用)
算法:Cluster label permutations(聚類標(biāo)簽排列)
優(yōu)點(diǎn):不需要物理分離 FISH 圖像中的細(xì)胞
缺點(diǎn):無法檢測(cè)到?jīng)]有物理連接的相互作用
MISTy
應(yīng)用場(chǎng)景:Cell-cell/gene-gene interactions
S(細(xì)胞-細(xì)胞/基因-基因相互作用)
算法:Multi-view framework to dissect efects related to CCI(剖析與細(xì)胞-細(xì)胞互作相關(guān)影響的多視角框架)
優(yōu)點(diǎn):1.不需要細(xì)胞類型標(biāo)注;2. 利用完整的表達(dá)譜
缺點(diǎn):提取的相互作用不能直接視為因果關(guān)系
stLearn
應(yīng)用場(chǎng)景:1.Cell-cell/gene-gene interactions(細(xì)胞-細(xì)胞/基因-基因相互作用);2. Spatial clustering(空間聚類);3. Cell trajectories inference(細(xì)胞軌跡推斷)
算法:A toolbox containing integrated algorithms from multiple studies(包含來自多個(gè)研究的集成算法的工具箱)
優(yōu)點(diǎn):從原始輸入到深入下游分析的簡(jiǎn)化包
缺點(diǎn):僅與某些 ST 平臺(tái)兼容
SVCA
應(yīng)用場(chǎng)景:Cell-cell/gene-gene interactions
S(細(xì)胞-細(xì)胞/基因-基因相互作用)
算法:Gaussian processes(高斯過程)
優(yōu)點(diǎn):同時(shí)適用于RNA-seq和蛋白質(zhì)組學(xué)數(shù)據(jù)
缺點(diǎn):沒有考慮特定于技術(shù)的噪音
GCNG
應(yīng)用場(chǎng)景:Cell-cell/gene-gene interactions
S(細(xì)胞-細(xì)胞/基因-基因相互作用)
算法:GCN(圖卷積網(wǎng)絡(luò))
優(yōu)點(diǎn):可以推斷新的細(xì)胞間互作并預(yù)測(cè)新的功能基因
缺點(diǎn):當(dāng)應(yīng)用于不同的數(shù)據(jù)集時(shí),超參數(shù)需要重新優(yōu)化
Seurat V3
應(yīng)用場(chǎng)景:1. Gene imputation(基因插補(bǔ));2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建);3. Others(其他)
算法:Analysis pipelines with integrated algorithms(集成算法的分析管道)
優(yōu)點(diǎn):1. 一個(gè)全面的數(shù)據(jù)分析管道;2. 可應(yīng)用于多組學(xué)數(shù)據(jù)集,包括轉(zhuǎn)錄組、表觀基因組、蛋白質(zhì)組和空間分辨率的單細(xì)胞數(shù)據(jù)
缺點(diǎn):僅適用于某些類型的ST平臺(tái)
LIGER
應(yīng)用場(chǎng)景:1. Gene imputation(基因插補(bǔ));2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Integrative NMF(整合性非負(fù)矩陣分解)
優(yōu)點(diǎn):嵌入同時(shí)維護(hù)通用和特定于數(shù)據(jù)集的術(shù)語
缺點(diǎn):與基準(zhǔn)工具相比,內(nèi)存密集
SpaGE
應(yīng)用場(chǎng)景:1. Gene imputation(基因插補(bǔ));2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Domain adaptation model to align ST and scRNA-seq data to a common space(將 ST 和 scRNA-seq 數(shù)據(jù)對(duì)齊到公共空間的域適應(yīng)模型)
優(yōu)點(diǎn):在大型數(shù)據(jù)集中,內(nèi)存使用更少,速度比基準(zhǔn)工具更快
缺點(diǎn):模型中只包含兩個(gè)數(shù)據(jù)集中的共同基因
應(yīng)用場(chǎng)景:Gene imputation(基因插補(bǔ))
算法:Autoencoder model for dimensional reduction to map ST and scRNA-seq data into a shared space(將ST和scRNA-seq數(shù)據(jù)映射到共享空間的降維自動(dòng)編碼器模型)
優(yōu)點(diǎn):1. 在細(xì)胞類型聚類方面比基準(zhǔn)工具有更高的準(zhǔn)確性;2. 在應(yīng)用于大型數(shù)據(jù)集時(shí),比除SpaGE以外的大多數(shù)基準(zhǔn)工具的時(shí)間和內(nèi)存使用量更少
缺點(diǎn):僅適用于基于圖像的測(cè)序平臺(tái)的數(shù)據(jù)
gimVI
應(yīng)用場(chǎng)景:1. Gene imputation(基因插補(bǔ));2. Dimensional reduction and feature extraction(降維和特征提?。?/span>
算法:Variational autoencoders for dimensional reduction to map ST and scRNA-seq data into a shared space(具將ST和scRNA-seq數(shù)據(jù)映射到共享空間的降維變異自動(dòng)編碼器模型)
優(yōu)點(diǎn):在模型中生成平臺(tái)特定的模式,以獲得更好的生物可解釋性
缺點(diǎn):在大型數(shù)據(jù)集中比基準(zhǔn)測(cè)試工具慢
Harmony
應(yīng)用場(chǎng)景:1. Gene imputation(基因插補(bǔ));2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Maximum diversity clustering and mixture model based batch correction(基于最大多樣性聚類和混合模型的批量校正)
優(yōu)點(diǎn):能以較高的精度估算出低豐度的基因
缺點(diǎn):嵌入物缺乏生物學(xué)上的可解釋性
DEEPsc
應(yīng)用場(chǎng)景:Gene imputation(基因插補(bǔ))
算法:ANN(人工神經(jīng)網(wǎng)絡(luò))
優(yōu)點(diǎn):一種專門為基因插補(bǔ)設(shè)計(jì)的系統(tǒng)自適應(yīng)方法
缺點(diǎn):沒有將空間信息合并到計(jì)算中
Trendsceek
應(yīng)用場(chǎng)景:Identify SVGs(識(shí)別空間變異基因)
算法:Marked point process(標(biāo)值點(diǎn)過程)
優(yōu)點(diǎn):不需要指定一個(gè)分布或一個(gè)感興趣的空間區(qū)域
缺點(diǎn):每次只限于單個(gè)基因,計(jì)算量大
SpatialDE
應(yīng)用場(chǎng)景:Identify SVGs(識(shí)別空間變異基因)
算法:Gaussian process regression(高斯過程回歸)
優(yōu)點(diǎn):可以檢測(cè)時(shí)間和周期基因表達(dá)模式的SVGs識(shí)別
缺點(diǎn):不識(shí)別具有不同表達(dá)模式的空間區(qū)域,計(jì)算密集型
SPARK
應(yīng)用場(chǎng)景:1. Identify SVGs(識(shí)別空間變異基因);2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Generalized linear spatial models (廣義線性空間模型)
優(yōu)點(diǎn):1. 低誤檢率;2. 不需要用戶對(duì)原始計(jì)數(shù)矩陣進(jìn)行預(yù)處理
缺點(diǎn):當(dāng)應(yīng)用于不同的數(shù)據(jù)集時(shí),需要重新優(yōu)化超參數(shù)(內(nèi)核和權(quán)重)
SpaGCN
應(yīng)用場(chǎng)景:1. Identify SVGs(識(shí)別空間變異基因);2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:GCN(圖卷積網(wǎng)絡(luò))
優(yōu)點(diǎn):聯(lián)合識(shí)別SVGs和空間域
缺點(diǎn):沒有將細(xì)胞類型信息和組織解剖結(jié)構(gòu)納入計(jì)算
SPARK-X
應(yīng)用場(chǎng)景:1. Identify SVGs(識(shí)別空間變異基因);2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Non-parametric covariance test(非參數(shù)協(xié)方差檢驗(yàn))
優(yōu)點(diǎn):與大多數(shù)基準(zhǔn)測(cè)試工具相比,使用的時(shí)間和內(nèi)存更少,低誤檢率,尤其是在大規(guī)模和稀疏的ST數(shù)據(jù)中
缺點(diǎn):準(zhǔn)確性因不同的相似性測(cè)量和協(xié)方差函數(shù)而異
sepal
應(yīng)用場(chǎng)景:1. Identify SVGs(識(shí)別空間變異基因);2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Difusion mode(擴(kuò)散模型)
優(yōu)點(diǎn):可以檢測(cè)不規(guī)則空間模式的基因
缺點(diǎn):有CPU并行化,但沒有GPU加速
GLISS
應(yīng)用場(chǎng)景:1. Identify SVGs(識(shí)別空間變異基因);2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Graph Laplacian-based model(基于圖的拉普拉斯模型)
優(yōu)點(diǎn):不需要對(duì)空間或scRNA-seq數(shù)據(jù)進(jìn)行分布式假設(shè)
缺點(diǎn):需要手動(dòng)或通過其他算法預(yù)先指定landmark基因
smfishhmrf-py
應(yīng)用場(chǎng)景:
1. Profle localized gene expression pattern(剖析局部基因表達(dá)模式);2. Identify SVGs(識(shí)別空間變異基因);3. Identify interactions between cell type and spatial environment(確定細(xì)胞類型和空間環(huán)境之間的相互作用)
算法:HMRF(隱馬爾可夫隨機(jī)場(chǎng)模型)
優(yōu)點(diǎn):可以從頭識(shí)別新的空間關(guān)聯(lián)亞群
缺點(diǎn):僅適用于原位雜交數(shù)據(jù)集
應(yīng)用場(chǎng)景:1. Profle localized gene expression pattern to enhance ST data resolution(提供局部基因表達(dá)模式以提高ST數(shù)據(jù)分辨率);2. Spatial clustering(空間聚類)
算法:Bayesian statistical method(貝葉斯統(tǒng)計(jì)方法)
優(yōu)點(diǎn):不需要獨(dú)立的單細(xì)胞數(shù)據(jù)
缺點(diǎn):僅考慮ST和Visium平臺(tái)的數(shù)據(jù)中存在的鄰域結(jié)構(gòu)
XFuse
應(yīng)用場(chǎng)景:Gene expression prediction from histology images(從組織學(xué)圖像中預(yù)測(cè)基因表達(dá)情況)
算法:Deep generative model(深度生成模型)
優(yōu)點(diǎn):可用于在組織學(xué)圖像中轉(zhuǎn)錄組水平的基因表達(dá)推斷
缺點(diǎn):僅適用于原位 RNA 捕獲技術(shù)
Seurat V1
應(yīng)用場(chǎng)景:1. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建);2. Gene imputation(基因插補(bǔ))
算法:L1-constrained linear mode(L1約束線性模型)
優(yōu)點(diǎn):landmark基因的概念允許使用少量基因進(jìn)行空間位置重建
缺點(diǎn):需要預(yù)先計(jì)算landmark基因的位置
CSOmap
應(yīng)用場(chǎng)景:1. Identify cell-cell/gene-gene interactions(識(shí)別細(xì)胞-細(xì)胞/基因-基因相互作用);2. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Reconstructs cellular spatial organization based on cell-cell afnity by ligand-receptor interactions(通過配體-受體相互作用重建基于細(xì)胞間親和力的細(xì)胞空間組織)
優(yōu)點(diǎn):不需要預(yù)先定義組織形狀以進(jìn)行細(xì)胞間相互作用推斷;不需要預(yù)先定義landmark基因集
缺點(diǎn):提取的空間結(jié)構(gòu)是偽空間結(jié)構(gòu)
DistMap
應(yīng)用場(chǎng)景:Construct 3D gene expression blueprint for the Drosophila embryo(構(gòu)建果蠅胚胎的三維基因表達(dá)圖譜)
算法:Mapping scores to measure the similarity between spatial and scRNA-seq data(映射得分來衡量空間數(shù)據(jù)和scRNA-seq數(shù)據(jù)之間的相似性)
優(yōu)點(diǎn):高精度,僅 84 個(gè)原位即可
缺點(diǎn):基因調(diào)控可以被認(rèn)為是提高模型準(zhǔn)確性的原位方法
SpaOTsc
應(yīng)用場(chǎng)景:1. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建);2. Cell-cell/gene-gene interactions(細(xì)胞-細(xì)胞/基因-基因相互作用);3. Identify gene pairs that potentially intercellularly regulate each other(識(shí)別可能在細(xì)胞間相互調(diào)節(jié)的基因?qū)Γ?/span>
算法:Structured optimal transport model(結(jié)構(gòu)化最優(yōu)傳輸模型)
優(yōu)點(diǎn):1.大多數(shù)細(xì)胞只需少量基因就能精確定位;2.能夠識(shí)別細(xì)胞間基因調(diào)控信息
缺點(diǎn):不考慮細(xì)胞間通訊可能發(fā)生的時(shí)間延遲(包括配體的擴(kuò)散時(shí)間或細(xì)胞內(nèi)級(jí)聯(lián)反應(yīng)的時(shí)間)
novoSpaRc
應(yīng)用場(chǎng)景:Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建)
算法:Generalized optimal-transport model(廣義最優(yōu)傳輸模型)
優(yōu)點(diǎn):不需要指定用于對(duì)齊的landmark基因
缺點(diǎn):可以通過使用不同的損失函數(shù)來提高準(zhǔn)確性
Tangram
應(yīng)用場(chǎng)景:1. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建);2. Spatial decomposition(空間分解);3. Gene imputation from histology data(來自組織學(xué)數(shù)據(jù)的基因插補(bǔ))
算法:Non-convex optimization by deep learning methods for spatial alignment(用深度學(xué)習(xí)方法進(jìn)行空間排列的非凸優(yōu)化)
優(yōu)點(diǎn):與基于捕獲和基于圖像的ST數(shù)據(jù)兼容如果無法在圖像中分割細(xì)胞,則組織學(xué)基因表達(dá)預(yù)測(cè)的準(zhǔn)確性會(huì)降低
缺點(diǎn):每次只限于單個(gè)基因,計(jì)算量大
Cell2location
應(yīng)用場(chǎng)景:1. Spatial location reconstruction for scRNA-seq data(scRNA-seq數(shù)據(jù)的空間位置重建);2. Spatial decomposition(空間分解)
算法:Hierarchical Bayesian framework(層次貝葉斯框架)
優(yōu)點(diǎn):能夠推斷每個(gè)捕獲位置每種細(xì)胞類型的細(xì)胞絕對(duì)數(shù)量
缺點(diǎn):用戶通常不知道要預(yù)先指定的超參數(shù)
SC-MEB
應(yīng)用場(chǎng)景:Spatially clustering(空間聚類)
算法:HMRF based on empirical Bayes(基于經(jīng)驗(yàn)貝葉斯的隱馬爾可夫隨機(jī)場(chǎng)模型)
優(yōu)點(diǎn):比基準(zhǔn)工具更快、更準(zhǔn)確,尤其是在大型數(shù)據(jù)集中
缺點(diǎn):在模型中假設(shè)一個(gè)六邊形的鄰域結(jié)構(gòu),可能不會(huì)對(duì)所有的ST平臺(tái)保持高精確度
STAGATE
應(yīng)用場(chǎng)景:1. Spatially clustering(空間聚類);2. Identify SVGs(識(shí)別空間變異基因)
算法:Graph attention auto-encoder(圖注意力自動(dòng)編碼器)
優(yōu)點(diǎn):可以應(yīng)用于三維ST數(shù)據(jù)集
缺點(diǎn):兩個(gè)部分的邊界需要進(jìn)一步細(xì)化
MULTILAYER
應(yīng)用場(chǎng)景:1. Spatially clustering(空間聚類);2. Identify SVGs(識(shí)別空間變異基因)
算法:Agglomerative clustering of quantile normalized ST data(分位數(shù)歸一化ST數(shù)據(jù)的聚類分析 )
優(yōu)點(diǎn):當(dāng)應(yīng)用于來自不同ST平臺(tái)的數(shù)據(jù)時(shí),比基準(zhǔn)測(cè)試工具具有更高的準(zhǔn)確性
缺點(diǎn):對(duì)空間分辨率低的 ST 數(shù)據(jù)敏感
HisToGene
應(yīng)用場(chǎng)景:Gene expression prediction from histology images(從組織學(xué)圖像預(yù)測(cè)基因表達(dá))
算法:Attention-based (vision transformer) model(基于注意力的(視覺轉(zhuǎn)換器)模型)
優(yōu)點(diǎn):可以在捕獲位置水平預(yù)測(cè)組織學(xué)圖像中的基因表達(dá)
缺點(diǎn):模型訓(xùn)練需要大量的組織樣本
STARCH
應(yīng)用場(chǎng)景:Infer copy number aberrations(推斷拷貝數(shù)畸變)
算法:HMRF and HMM(隱馬爾可夫隨機(jī)場(chǎng)模型和隱馬爾可夫模型)
優(yōu)點(diǎn):在預(yù)測(cè)空間數(shù)據(jù)集中的拷貝數(shù)變化時(shí),比基準(zhǔn)工具更準(zhǔn)確
缺點(diǎn):每次只限于單個(gè)基因,計(jì)算量大
Giotto
應(yīng)用場(chǎng)景:A comprehensive toolbox for ST analysis and visualization(ST分析和可視化的綜合工具箱)
算法:A toolbox containing integrated algorithms from multiple studies(一個(gè)包含多項(xiàng)研究的綜合算法工具箱)
優(yōu)點(diǎn):為 ST 數(shù)據(jù)分析提供全面的管道
缺點(diǎn):僅適用于部分ST平臺(tái)
參考文獻(xiàn)
Zeng Z, Li Y, Li Y, et al. Statistical and machine learning methods for spatially resolved transcriptomics data analysis[J]. Genome biology, 2022, 23(1): 1-23.
圖片均來源于參考文獻(xiàn),如有侵權(quán)請(qǐng)聯(lián)系刪除。
首發(fā)公號(hào):國(guó)家基因庫大數(shù)據(jù)平臺(tái)
聯(lián)系客服