轉(zhuǎn)錄組(transcriptome),額定類型細(xì)胞中全體轉(zhuǎn)錄本(transcript)的集合,是細(xì)胞特定時(shí)刻基因表達(dá)譜的一個(gè)快照(snapshot of expression profile)。
在轉(zhuǎn)錄組中,既包括編碼蛋白的信使RNA(mRNA),也包括不編碼蛋白的mirRNA,long non-coding RNA(lncRNA)等非編碼RNA。
這些RNA轉(zhuǎn)錄本彼此協(xié)同作用,共同來(lái)調(diào)控細(xì)胞的生長(zhǎng),發(fā)育,凋亡等一系列重要的生理過(guò)程。因此,對(duì)于轉(zhuǎn)錄本的研究通常包括定性和定量?jī)蓚€(gè)方面。
Real-Time qRT-PCR通過(guò)對(duì)經(jīng)典PCR擴(kuò)增反應(yīng)中每一個(gè)循環(huán)產(chǎn)物熒光信號(hào)的實(shí)時(shí)檢測(cè),我們可以實(shí)現(xiàn)對(duì)其實(shí)模板的定量分析。通過(guò)正確設(shè)定引物(primer)和探針(probe),qRT-PCR技術(shù)可以很大范圍內(nèi)定量的檢測(cè)目標(biāo)轉(zhuǎn)錄本的拷貝數(shù),也即表達(dá)水平。因此長(zhǎng)被作為轉(zhuǎn)錄組分析中的金標(biāo)準(zhǔn)(Gold Standard).qRT-PCR只能測(cè)定一個(gè)轉(zhuǎn)錄本的表達(dá)水平,同時(shí)也需要知道待檢測(cè)轉(zhuǎn)錄本的序列,難以用來(lái)發(fā)現(xiàn)未知的轉(zhuǎn)錄本。
Microarray在高通量測(cè)序之前是主要的高通量轉(zhuǎn)錄本表達(dá)分析技術(shù)。
微陣列(microarray),也稱基因芯片(gene chip),通過(guò)將幾十萬(wàn)個(gè)不等的探針(probe)分子固定在約1cm見(jiàn)方的固體片基上制成的。
利用核苷酸分子在形成雙鏈時(shí)堿基互補(bǔ)配對(duì)原理,microarray可以一次性檢測(cè)出樣本中所有與探針互補(bǔ)的核苷酸片段,從而快速得到樣本中基因的表達(dá)譜(expression profile),因此,microarray從上世紀(jì)90年代問(wèn)世以來(lái),在生物,醫(yī)學(xué),農(nóng)學(xué)等領(lǐng)域快速獲得了廣泛應(yīng)用。與qRT-PCR相比,micoarray雖然在通量上有了顯著的提高,但仍然需要實(shí)現(xiàn)確定待測(cè)轉(zhuǎn)錄本的序列。
EST(表達(dá)序列標(biāo)簽)技術(shù)通過(guò)對(duì)一個(gè)隨機(jī)選擇的cDNA克農(nóng)進(jìn)行單次測(cè)序來(lái)獲得cDNA的部分序列。與microarray不同,EST是基于測(cè)序的,并不需要事先知道待檢測(cè)轉(zhuǎn)錄本的序列。可以被用來(lái)發(fā)現(xiàn)新的轉(zhuǎn)錄本。
早在1991年,當(dāng)時(shí)還在NIH的Craig Venter等就開(kāi)始利用EST來(lái)尋找人類的新基因。然而,由于當(dāng)時(shí)測(cè)序技術(shù)通量的限制,一次EST通常只能得到幾千個(gè)轉(zhuǎn)錄本的序列,遠(yuǎn)遠(yuǎn)無(wú)法進(jìn)行全轉(zhuǎn)錄本水平的profiling.
RNA-seq深度測(cè)序技術(shù)的出現(xiàn),使得研究人員首次可以,在全轉(zhuǎn)錄組水平利用測(cè)序技術(shù)同時(shí)進(jìn)行定量與定性的分析。
首先,對(duì)生物樣品中的RNA反轉(zhuǎn)錄為cDNA而后將這些cDNA打碎成較小片段后,上機(jī)測(cè)序。
一方面,RNA-seq技術(shù)使得研究人員可以快速確定轉(zhuǎn)錄本,進(jìn)而鑒定存在的可變剪切體(Alternative splicing isoform),這是傳統(tǒng)的microarray等技術(shù)很難做到的。
另一方面,對(duì)基因組特定位點(diǎn)上reads深度的計(jì)算,可以對(duì)表達(dá)量水平進(jìn)行估計(jì)。所以,RNA-seq技術(shù)使得研究人員可以同時(shí)對(duì)轉(zhuǎn)錄組進(jìn)行定性和定量的研究。需要注意的是,RNA-seq本質(zhì)上是對(duì)轉(zhuǎn)錄本序列的隨機(jī)抽樣(random sampling),因此,其檢測(cè)效力(power)和靈敏度(sensitivity)高度以來(lái)于測(cè)序深度。如果測(cè)序深度不夠,就難以檢測(cè)出低拷貝的基因。原則上,只有在飽和曲線(saturation curve)達(dá)到平臺(tái)期(plateau)后,才能認(rèn)為深度足夠。對(duì)于哺乳動(dòng)物轉(zhuǎn)錄組來(lái)說(shuō),一個(gè)經(jīng)驗(yàn)規(guī)則是通常要做到100-150X的coverage
image
在隨機(jī)抽樣的情況下(random sampling)情況下,map到轉(zhuǎn)錄本上的read數(shù)目正比于其表達(dá)量(transcript abundance),因此,我們可以利用落在某個(gè)轉(zhuǎn)錄本上reads的總數(shù)目來(lái)估計(jì)其表達(dá)量。
但另一方面,落在一個(gè)轉(zhuǎn)錄本上reads的書(shū)面,也于其長(zhǎng)度和總測(cè)序深度成正比。例如有A,B兩個(gè)基因,假定他們表達(dá)量相同,都轉(zhuǎn)錄2個(gè)轉(zhuǎn)錄本,但是A的長(zhǎng)度是B的兩倍,那么map到A的熱啊但是數(shù)目就是map到B的reads數(shù)目的兩倍。如果我們只是看這些reads的數(shù)目,我們會(huì)認(rèn)為A的表達(dá)量是B的兩倍,但這顯然是不對(duì)的。
image
通量,測(cè)序深度。
所以,我們?cè)趯?shí)際分析中,通常會(huì)將原始的reads數(shù)目(raw reads count)利用線性放縮(scaling),轉(zhuǎn)換為RPKM值來(lái)進(jìn)行歸一化(normalization)處理。
image
RPKM就是一個(gè)常用的歸一化的方法。
這個(gè)公式里面的C是貼到這段轉(zhuǎn)錄本上reads的總數(shù)目,N是這次試驗(yàn)總reads數(shù)目(也就是測(cè)序深度),L是這段學(xué)列的長(zhǎng)度。在假定不同樣本中RNA總體分布一致的前提下,RPKM就可以正確處理由于轉(zhuǎn)錄本長(zhǎng)度和測(cè)序深度引起的artifact,從而使得來(lái)自不同基因,不同sequencing run乃至不同樣本之間的表達(dá)數(shù)據(jù)彼此之間可以比較。需要注意的是,RPKM并不是唯一的歸一化方法。通過(guò)考慮不同的誤差因素(bias effectors),引入不同的生物學(xué)假設(shè),可以構(gòu)造不同的歸一化方法。
事實(shí)上,已有研究表明,相比于后續(xù)提出的TMM,DESeq等方法,RPKM方法在樣本差異基因表達(dá)檢驗(yàn)等分析中的效果不是最理想。另一個(gè)需要在RNA-Seq技術(shù)中引起注意的地方是鏈特異性(strand-specific)。我們知道,DNA的兩條鏈都可以轉(zhuǎn)錄,形成不同的轉(zhuǎn)錄本,然而,常用的Illumina RNA-Seq kit是不分鏈的,也就是說(shuō),我們無(wú)法知道配對(duì)的reads哪個(gè)方向和轉(zhuǎn)錄本是一致的,那個(gè)和轉(zhuǎn)錄本方向互補(bǔ)。對(duì)于分鏈的數(shù)據(jù),又有兩種不同的情況。在利用dUTP技術(shù)進(jìn)行標(biāo)記(labeling)的方法–也就是illumina的strand-specific kit 使用的方法中,第二個(gè)read和轉(zhuǎn)錄本方向一致,的一個(gè)read和轉(zhuǎn)錄本反向互補(bǔ)。在另一種SOLID等平臺(tái)常用的secondstrand分鏈方法中,就剛好反過(guò)來(lái)了。因此在分析之前,我們一定要弄清楚自己的數(shù)據(jù)有沒(méi)有分鏈,是怎樣分鏈的。
參考資料:
此博文內(nèi)容來(lái)自高歌老師的講課