小師妹
高通量測(cè)序里怎么那么多五花八門的專業(yè)術(shù)語啊?真讓人抓狂……師姐快幫幫我!
大師姐
知識(shí)都是苦心鉆研、不斷積累來的。你才剛?cè)腴T,慢慢學(xué)就好啦!
這里有一份寶典《高通量測(cè)序常見名詞解釋》,不妨來看看?
高通量測(cè)序常見名詞解釋
測(cè)序前,當(dāng)你選擇測(cè)序方法時(shí)可能會(huì)遇到這些問題:
什么是高通量測(cè)序(NGS)?
高通量測(cè)序又稱“下一代測(cè)序”或“深度測(cè)序”,可以一次性對(duì)幾十萬至幾百萬條DNA分子進(jìn)行序列測(cè)定。它是對(duì)傳統(tǒng)Sanger測(cè)序(一代測(cè)序技術(shù))革命性的改變,在保持高精準(zhǔn)度的同時(shí),大大降低了測(cè)序成本并提高了測(cè)序速度。
高通量測(cè)序技術(shù)以焦磷酸技術(shù)Roche公司454技術(shù)、Illumina公司的Solexa技術(shù)以及ABI公司Solid的連接酶測(cè)序法技術(shù)為標(biāo)志,具體可見我們之前推出的一篇詳解,點(diǎn)擊下方了解。
什么是de novo測(cè)序?
de novo測(cè)序也稱為從頭測(cè)序,不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序,利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接、組裝,從而獲得該物種的基因組圖譜。
什么是全基因組重測(cè)序(WGS)?
全基因組重測(cè)序是對(duì)已知基因組序列的物種進(jìn)行不同個(gè)體的基因組測(cè)序,并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)行差異性分析。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序,實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病或動(dòng)植物性狀相關(guān)的常見、低頻、甚至是罕見的突變位點(diǎn),以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值。
什么是外顯子測(cè)序(WES)?
外顯子組測(cè)序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法。外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較低,對(duì)研究已知基因的SNP、Indel等具有較大的優(yōu)勢(shì),但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。
什么是轉(zhuǎn)錄組測(cè)序(RNA-seq)?
轉(zhuǎn)錄組是某個(gè)物種或者特定細(xì)胞類型產(chǎn)生的所有轉(zhuǎn)錄本的集合,包括mRNA和非編碼RNA。
RNA-seq可供研究者轉(zhuǎn)錄本結(jié)構(gòu)研究(基因邊界鑒定、可變剪切研究等),轉(zhuǎn)錄本變異研究(如基因融合、編碼區(qū)SNP 研究),非編碼區(qū)域功能研究(Non-coding RNA 研究、microRNA 前體研究等), 基因表達(dá)水平研究以及全新轉(zhuǎn)錄本發(fā)現(xiàn)。
什么是染色質(zhì)免疫共沉淀測(cè)序(ChIP-seq)?
ChIP-seq是指通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對(duì)其進(jìn)行純化、文庫構(gòu)建、測(cè)序;再將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。
什么是Small RNA測(cè)序?
Small RNA(如miRNA、ncRNA、siRNA等)是一大類調(diào)控分子,幾乎存在于所有的生物體中,在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。通過對(duì)Small RNA大規(guī)模測(cè)序分析,可以從中獲得物種全基因組水平的miRNA圖譜,實(shí)現(xiàn)包括新Small RNA分子的挖掘,其作用靶基因的預(yù)測(cè)和鑒定、樣品間差異表達(dá)分析、Small RNA聚類和表達(dá)譜分析等科學(xué)應(yīng)用。
什么是微生物多樣性測(cè)序?
微生物多樣性測(cè)序,通過擴(kuò)增微生物的16S rDNA、18S rDNA以及ITS高變區(qū)域并進(jìn)行高通量測(cè)序,可分析環(huán)境中細(xì)菌、古細(xì)菌以及真菌等的物種組成和相對(duì)豐度差異,獲得環(huán)境樣本中的微生物群落結(jié)構(gòu)、進(jìn)化關(guān)系以及微生物與環(huán)境相關(guān)性等信息。
什么是宏基因組測(cè)序?
宏基因組測(cè)序(Metagenomics Sequencing)通過高通量測(cè)序研究特定環(huán)境下的微生物群體基因組,分析微生物多樣性、種群結(jié)構(gòu)、基因功能、代謝網(wǎng)絡(luò)和進(jìn)化關(guān)系等,并可進(jìn)一步探究微生物群體功能活性、相互協(xié)調(diào)作用關(guān)系及與環(huán)境之間的關(guān)系。宏基因組測(cè)序研究擺脫了微生物分離純培養(yǎng)的限制,擴(kuò)展了微生物資源的利用空間,為環(huán)境微生物群落的研究提供了有效工具。
測(cè)序后,當(dāng)你拿到測(cè)序數(shù)據(jù)時(shí),可能會(huì)遇到這些問題:
什么是Reads?
高通量測(cè)序平臺(tái)產(chǎn)生的短序列就稱為reads。PE125,就是讀長為125bp雙端測(cè)序。
什么是測(cè)序深度和覆蓋度?
測(cè)序深度(Sequencing Depth):測(cè)序得到的堿基總量(bp)與基因組大小(Genome)的比值,它是評(píng)價(jià)測(cè)序量的指標(biāo)之一。假設(shè)一個(gè)基因大小為2M,測(cè)序深度為10X,那么獲得的總數(shù)據(jù)量為20M。也可以理解為被測(cè)基因組上單個(gè)堿基被測(cè)序的平均次數(shù)。
測(cè)序的覆蓋度(coverage):是指測(cè)序獲得的序列占整個(gè)基因組的比例,也可理解為對(duì)目的基因的覆蓋程度。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測(cè)序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。
什么是單端測(cè)序、雙端測(cè)序?
Roche 454,Solexa和ABI SOLID均有單端測(cè)序和雙端測(cè)序。以solexa為例,對(duì)單端測(cè)序(Single-end)和雙端測(cè)序(Paired-end和Mate-pair)進(jìn)行介紹。
單端測(cè)序(Single-end/SE):首先將DNA樣本進(jìn)行片段化處理形成200-500p的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在flowcell上生成DNA簇,上機(jī)測(cè)序單端讀取序列。
Paired-end(PE):指在構(gòu)建待測(cè)DNA文庫時(shí)在兩端的接頭上都加上測(cè)序引物結(jié)合位點(diǎn),在第一輪測(cè)序完成后,去除第一輪測(cè)序的模板鏈,用對(duì)讀測(cè)序模塊引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增,以達(dá)到第二輪測(cè)序所用的模板量,進(jìn)行第二輪互補(bǔ)鏈的合成測(cè)序。
Mate-pair(MP):文庫制備旨在生成一些短的DNA片段,這些片段包含基因組中較大跨度(2-10k)片段兩端的序列,更具體地說:首先將基因組DNA隨機(jī)打斷到特定大?。?-10k范圍可選);然后經(jīng)末端修復(fù),生物素標(biāo)記和環(huán)化等實(shí)驗(yàn)步驟后,再把環(huán)化后的DNA分子打斷成400-600p的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫,然后上機(jī)測(cè)序。
當(dāng)你在進(jìn)行基因組重測(cè)序時(shí),可能會(huì)遇到這些問題:
什么是SNP、SNV?
SNP:即單核苷酸多態(tài)性(single nucleotide polymorphism),個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性,是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)。人基因組上平均每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān),但大多數(shù)與疾病無關(guān)。
SNV: 即單核苷酸位點(diǎn)變異(single nucleotide variants),相對(duì)于正常組織,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變(somatic mutation),稱做SNV。
什么是INDEL?
基因組上小片段(>50bp)的插入或缺失,形同SNP/SNV。
什么是CNV、SV?
CNV:即基因拷貝數(shù)變異(copy number variation),是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。
SV:即基因組結(jié)構(gòu)變異(structure variation ),主要包括染色體大片段的插入和缺失(引起CNV的變化),染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體之間發(fā)生重組(inter-chromosome trans-location)等。
什么是SD區(qū)域?
SD區(qū)域:指串聯(lián)重復(fù)(Segment duplication),由序列相近的一些DNA片段串聯(lián)組成。在人類染色體Y和22號(hào)染色體上,有很大的SD序列。
當(dāng)你在進(jìn)行轉(zhuǎn)錄組數(shù)據(jù)分析時(shí),可能會(huì)遇到這些問題:
什么是轉(zhuǎn)錄本?為什么一個(gè)基因可以有多個(gè)轉(zhuǎn)錄本?
轉(zhuǎn)錄本其實(shí)就是基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。但我們平常通過數(shù)據(jù)庫查找某個(gè)基因的相關(guān)信息時(shí),會(huì)發(fā)現(xiàn)該基因有多個(gè)轉(zhuǎn)錄本。為什么一個(gè)基因可以有多個(gè)轉(zhuǎn)錄本呢?
這是因?yàn)榧艚臃绞讲煌斐傻??;蜣D(zhuǎn)錄之后,先形成前體mRNA,通過剪切內(nèi)含子連接外顯子,5’端加帽及3’端加尾之后形成成熟的mRNA。但在剪切的過程中可能會(huì)剪切掉外顯子,也有可能保留部分內(nèi)含子,這樣就形成了多種mRNA即多個(gè)轉(zhuǎn)錄本。
什么是RPKM、FPKM?
RPKM和FPKM都用來表示基因的表達(dá)量。
RPKM: Reads Per Kilobases per Millionreads,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù),用于表示基因的表達(dá)量。
FPKM:Fragments per Kilobase Million,F(xiàn)PKM意義與RPKM很相近,二者區(qū)別在于Fragments 與 Reads。
RPKM的誕生是針對(duì)早期的SE測(cè)序,F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正。只要明確Reads 和 Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機(jī)后fastq數(shù)據(jù)中的每一條Reads,F(xiàn)ragments則是指每一段用于測(cè)序的核酸片段,在SE中,一個(gè)Fragments只測(cè)一條Reads,所以,Reads數(shù)與Fragments數(shù)目相等;在PE中,一個(gè)Fragments測(cè)兩端,會(huì)得到2條Reads,但由于后期質(zhì)量或比對(duì)的過濾,有可能一個(gè)Fragments的2條Reads最后只有一條進(jìn)入最后的表達(dá)量分析??傊?,對(duì)某一對(duì)Reads而言,這2條Reads只能算一個(gè)Fragments,所以Fragments的最終數(shù)目是Reads的1到2倍之間。
當(dāng)你想進(jìn)行基因組/轉(zhuǎn)錄本組裝時(shí),可能會(huì)遇到這些問題:
什么是Contig?
拼接軟件基于reads之間的重疊(overlap)區(qū),拼接獲得的序列稱為Contig(重疊群)。
什么是Contig N50?
Reads拼接后會(huì)獲得一些不同長度的Contigs,將所有的Contig長度相加,能獲得一個(gè)Contig總長度。將所有的Contigs按照從長到短進(jìn)行排序,如Contig 1,Contig 2,Contig 3...………Contig 25。然后按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Contigs總長度的一半時(shí),最后一個(gè)加上的Contig長度即為Contig N50。
如:Contig 1+Contig 2+ Contig 3+Contig4=Contig總長度*1/2時(shí),Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。
什么是Scaffold?
基因組de novo測(cè)序,通過reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫或Illumina Matepair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列?;谶@些序列,可以確定一些Contigs之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。
什么是Scaffold N50?
Scaffold N50 與Contig N50 的定義類似。Contigs 拼接組裝獲得一些不同長度的Scaffolds 。將所有的 Scaffolds長度相加,能獲得一個(gè)Scaffolds總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序,再按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Scaffolds 總長度的一半時(shí), 最后一個(gè)加上的Scaffold長度即為Scaffold N50 。Scaffold N50也是基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。
什么是基因組注釋?
基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)?;蚪M注釋的研究內(nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面?;蜃R(shí)別的核心是確定全基因組序列中所有基因的確切位置。
基因組注釋分析主要包括以下方面
(1) 重復(fù)序列的預(yù)測(cè)。通過比對(duì)已知的重復(fù)序列數(shù)據(jù)庫,找出序列中包含的重復(fù)序列,識(shí)別類型并轉(zhuǎn)化為N或者X,統(tǒng)計(jì)各種類型重復(fù)序列的分布。
(2) 編碼基因的預(yù)測(cè)。通過將轉(zhuǎn)錄組或EST數(shù)據(jù)比對(duì)到拼接后的基因組序列上,找出編碼基因位置,預(yù)測(cè)編碼基因結(jié)構(gòu)。或者通過專業(yè)的外顯子預(yù)測(cè)軟件,預(yù)測(cè)編碼基因的外顯子結(jié)構(gòu)。
(3) 小RNA基因的預(yù)測(cè)。通過比對(duì)已知的小RNA的數(shù)據(jù)庫,或者通過生物信息學(xué)軟件預(yù)測(cè),找出這些小RNA基因,并進(jìn)行分類。
(4) 調(diào)控序列和假基因的預(yù)測(cè)。
基因功能的注釋,使用的數(shù)據(jù)庫包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比對(duì)的方法找出同源相近的基因,并注釋功能。
基因注釋用到的那些數(shù)據(jù)庫都是啥?
(1)NR/NT數(shù)據(jù)庫
NR/NT數(shù)據(jù)庫是NCBI上比較常用的數(shù)據(jù)庫。NR:非冗余蛋白序列數(shù)據(jù)庫,包括所有的GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。它以核酸序列為基礎(chǔ)進(jìn)行交叉索引,將核酸與蛋白質(zhì)聯(lián)系起來。對(duì)于已知的或可能的編碼序列,NR記錄中都給出了相應(yīng)的氨基酸序列(由讀碼框推斷)。NT:非冗余核酸序列數(shù)據(jù)庫,是NR庫的子集。
NR和NT庫都可以通過NCBI進(jìn)行在線BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中將數(shù)據(jù)直接下載下來。
(2)Swiss-Prot:是檢查過的、手工注釋的蛋白數(shù)據(jù)庫,它的所有序列都經(jīng)過科學(xué)家查閱文獻(xiàn)的核實(shí)。Swiss-Prot能提供詳細(xì)的蛋白質(zhì)序列、功能信息,如蛋白質(zhì)功能描述、結(jié)構(gòu)域結(jié)構(gòu)、轉(zhuǎn)錄后修飾、修飾位點(diǎn)、變異度、二級(jí)結(jié)構(gòu)等,同時(shí)提供其他數(shù)據(jù)庫,包括序列數(shù)據(jù)庫、三維結(jié)構(gòu)數(shù)據(jù)庫、2-D凝聚電泳數(shù)據(jù)庫、蛋白質(zhì)家族數(shù)據(jù)庫的相應(yīng)鏈接。
Swiss-Prot目前已合并到UniProt數(shù)據(jù)庫中,同TrEMBL 、PIR-PSD構(gòu)成UniProt數(shù)據(jù)庫的三大主庫。鏈接:http://www.uniprot.org/
(3)COG :Clusters of Orthologous Groups of proteins,直系同源蛋白簇,該數(shù)據(jù)庫認(rèn)為構(gòu)成每個(gè)COG的蛋白都是被假定為來自于一個(gè)祖先蛋白。
COG分為兩類,一類是原核生物,另一類是真核生物。原核生物的一般稱為COG數(shù)據(jù)庫;真核生物的一般稱為KOG數(shù)據(jù)庫。
(4)KEGG :Kyoto Encyclopedia of Genes and Genomes,是處理基因組、生物通路、疾病、藥物和化學(xué)物質(zhì)之間聯(lián)系的集成數(shù)據(jù)庫。
其中最核心的是KEGG Pathway數(shù)據(jù)庫,又分為3個(gè)層級(jí):
第一層級(jí):生物代謝通路分為7個(gè)大類,新陳代謝、遺傳信息加工、環(huán)境信息加工、細(xì)胞過程、生物體系統(tǒng)、人類疾病、藥物開發(fā);
第二層級(jí):將第一層級(jí)中的7個(gè)類別進(jìn)一步細(xì)化;
第三層級(jí):直接對(duì)應(yīng)KEGG 的pathway,每一個(gè)pathway都標(biāo)示參與該過程的基因
(5)GO:Gene Ontology ,基因本體論數(shù)據(jù)庫。GO中最基本的概念是“term”,是用來描述基因和基因產(chǎn)物特性的,即GO數(shù)據(jù)庫是給每個(gè)基因貼上標(biāo)簽,以便研究者能夠通過標(biāo)簽快速尋找到目標(biāo)基因。
在GO分析中,所有的結(jié)果都按照以下3個(gè)一級(jí)功能來整理分類:
細(xì)胞學(xué)組件(CC):用于描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如核仁、端粒和識(shí)別起始的復(fù)合物等;
生物學(xué)途徑(BP):指分子功能的有序組合,以達(dá)成更廣的生物功能,如有絲分裂或嘌呤代謝等;
分子功能(MF):用于描述基因、基因產(chǎn)物的功能,如與碳水化合物結(jié)合或ATP水解酶活性等。
測(cè)序名詞千千萬,看完這篇會(huì)一大半!
聯(lián)系客服