国产成人精品免费视频网页大全,日日躁夜夜躁狠狠天天

小師妹

高通量測(cè)序里怎么那么多五花八門的專業(yè)術(shù)語啊？真讓人抓狂……師姐快幫幫我！

大師姐

知識(shí)都是苦心鉆研、不斷積累來的。你才剛?cè)腴T，慢慢學(xué)就好啦！

這里有一份寶典《高通量測(cè)序常見名詞解釋》，不妨來看看？

高通量測(cè)序常見名詞解釋

測(cè)序前，當(dāng)你選擇測(cè)序方法時(shí)可能會(huì)遇到這些問題：

什么是高通量測(cè)序（NGS）？

高通量測(cè)序又稱“下一代測(cè)序”或“深度測(cè)序”，可以一次性對(duì)幾十萬至幾百萬條DNA分子進(jìn)行序列測(cè)定。它是對(duì)傳統(tǒng)Sanger測(cè)序（一代測(cè)序技術(shù)）革命性的改變，在保持高精準(zhǔn)度的同時(shí)，大大降低了測(cè)序成本并提高了測(cè)序速度。

高通量測(cè)序技術(shù)以焦磷酸技術(shù)Roche公司454技術(shù)、Illumina公司的Solexa技術(shù)以及ABI公司Solid的連接酶測(cè)序法技術(shù)為標(biāo)志，具體可見我們之前推出的一篇詳解，點(diǎn)擊下方了解。

《圖文簡解一代、二代及三代測(cè)序技術(shù)》

什么是de novo測(cè)序？

de novo測(cè)序也稱為從頭測(cè)序，不需要任何現(xiàn)有的序列資料就可以對(duì)某個(gè)物種進(jìn)行測(cè)序，利用生物信息學(xué)分析手段對(duì)序列進(jìn)行拼接、組裝，從而獲得該物種的基因組圖譜。

什么是全基因組重測(cè)序（WGS）？

全基因組重測(cè)序是對(duì)已知基因組序列的物種進(jìn)行不同個(gè)體的基因組測(cè)序，并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)行差異性分析。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測(cè)序相結(jié)合的策略進(jìn)行高通量測(cè)序，實(shí)現(xiàn)在全基因組水平上檢測(cè)疾病或動(dòng)植物性狀相關(guān)的常見、低頻、甚至是罕見的突變位點(diǎn)，以及結(jié)構(gòu)變異等，具有重大的科研和產(chǎn)業(yè)價(jià)值。

什么是外顯子測(cè)序（WES）？

外顯子組測(cè)序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測(cè)序的基因組分析方法。外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較低，對(duì)研究已知基因的SNP、Indel等具有較大的優(yōu)勢(shì)，但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。

什么是轉(zhuǎn)錄組測(cè)序（RNA-seq）？

轉(zhuǎn)錄組是某個(gè)物種或者特定細(xì)胞類型產(chǎn)生的所有轉(zhuǎn)錄本的集合，包括mRNA和非編碼RNA。

RNA-seq可供研究者轉(zhuǎn)錄本結(jié)構(gòu)研究（基因邊界鑒定、可變剪切研究等），轉(zhuǎn)錄本變異研究（如基因融合、編碼區(qū)SNP 研究），非編碼區(qū)域功能研究（Non-coding RNA 研究、microRNA 前體研究等），基因表達(dá)水平研究以及全新轉(zhuǎn)錄本發(fā)現(xiàn)。

什么是染色質(zhì)免疫共沉淀測(cè)序（ChIP-seq）？

ChIP-seq是指通過染色質(zhì)免疫共沉淀技術(shù)（ChIP）特異性地富集目的蛋白結(jié)合的DNA片段，并對(duì)其進(jìn)行純化、文庫構(gòu)建、測(cè)序；再將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上，從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。

什么是Small RNA測(cè)序？

Small RNA（如miRNA、ncRNA、siRNA等）是一大類調(diào)控分子，幾乎存在于所有的生物體中，在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。通過對(duì)Small RNA大規(guī)模測(cè)序分析，可以從中獲得物種全基因組水平的miRNA圖譜，實(shí)現(xiàn)包括新Small RNA分子的挖掘，其作用靶基因的預(yù)測(cè)和鑒定、樣品間差異表達(dá)分析、Small RNA聚類和表達(dá)譜分析等科學(xué)應(yīng)用。

什么是微生物多樣性測(cè)序？

微生物多樣性測(cè)序，通過擴(kuò)增微生物的16S rDNA、18S rDNA以及ITS高變區(qū)域并進(jìn)行高通量測(cè)序，可分析環(huán)境中細(xì)菌、古細(xì)菌以及真菌等的物種組成和相對(duì)豐度差異，獲得環(huán)境樣本中的微生物群落結(jié)構(gòu)、進(jìn)化關(guān)系以及微生物與環(huán)境相關(guān)性等信息。

什么是宏基因組測(cè)序？

宏基因組測(cè)序（Metagenomics Sequencing）通過高通量測(cè)序研究特定環(huán)境下的微生物群體基因組，分析微生物多樣性、種群結(jié)構(gòu)、基因功能、代謝網(wǎng)絡(luò)和進(jìn)化關(guān)系等，并可進(jìn)一步探究微生物群體功能活性、相互協(xié)調(diào)作用關(guān)系及與環(huán)境之間的關(guān)系。宏基因組測(cè)序研究擺脫了微生物分離純培養(yǎng)的限制，擴(kuò)展了微生物資源的利用空間，為環(huán)境微生物群落的研究提供了有效工具。

測(cè)序后，當(dāng)你拿到測(cè)序數(shù)據(jù)時(shí)，可能會(huì)遇到這些問題：

什么是Reads?

高通量測(cè)序平臺(tái)產(chǎn)生的短序列就稱為reads。PE125，就是讀長為125bp雙端測(cè)序。

什么是測(cè)序深度和覆蓋度？

測(cè)序深度（Sequencing Depth）：測(cè)序得到的堿基總量（bp）與基因組大小（Genome）的比值，它是評(píng)價(jià)測(cè)序量的指標(biāo)之一。假設(shè)一個(gè)基因大小為2M，測(cè)序深度為10X，那么獲得的總數(shù)據(jù)量為20M。也可以理解為被測(cè)基因組上單個(gè)堿基被測(cè)序的平均次數(shù)。

測(cè)序的覆蓋度（coverage）：是指測(cè)序獲得的序列占整個(gè)基因組的比例，也可理解為對(duì)目的基因的覆蓋程度。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在，測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域，這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測(cè)序，覆蓋度是98%，那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。

什么是單端測(cè)序、雙端測(cè)序？

Roche 454，Solexa和ABI SOLID均有單端測(cè)序和雙端測(cè)序。以solexa為例，對(duì)單端測(cè)序(Single-end)和雙端測(cè)序(Paired-end和Mate-pair)進(jìn)行介紹。

單端測(cè)序(Single-end/SE)：首先將DNA樣本進(jìn)行片段化處理形成200-500p的片段，引物序列連接到DNA片段的一端，然后末端加上接頭，將片段固定在flowcell上生成DNA簇，上機(jī)測(cè)序單端讀取序列。

Paired-end（PE）：指在構(gòu)建待測(cè)DNA文庫時(shí)在兩端的接頭上都加上測(cè)序引物結(jié)合位點(diǎn)，在第一輪測(cè)序完成后，去除第一輪測(cè)序的模板鏈，用對(duì)讀測(cè)序模塊引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增，以達(dá)到第二輪測(cè)序所用的模板量，進(jìn)行第二輪互補(bǔ)鏈的合成測(cè)序。

Mate-pair（MP）：文庫制備旨在生成一些短的DNA片段，這些片段包含基因組中較大跨度(2-10k)片段兩端的序列，更具體地說：首先將基因組DNA隨機(jī)打斷到特定大?。?-10k范圍可選）；然后經(jīng)末端修復(fù)，生物素標(biāo)記和環(huán)化等實(shí)驗(yàn)步驟后，再把環(huán)化后的DNA分子打斷成400-600p的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫，然后上機(jī)測(cè)序。

當(dāng)你在進(jìn)行基因組重測(cè)序時(shí)，可能會(huì)遇到這些問題：

什么是SNP、SNV？

SNP：即單核苷酸多態(tài)性（single nucleotide polymorphism），個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性，是研究人類家族和動(dòng)植物品系遺傳變異的重要依據(jù)。人基因組上平均每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化，其中有些單核苷酸多態(tài)性可能與疾病有關(guān)，但大多數(shù)與疾病無關(guān)。

SNV: 即單核苷酸位點(diǎn)變異（single nucleotide variants），相對(duì)于正常組織，癌癥中特異的單核苷酸變異是一種體細(xì)胞突變（somatic mutation），稱做SNV。

什么是INDEL？

基因組上小片段（>50bp）的插入或缺失，形同SNP/SNV。

什么是CNV、SV？

CNV：即基因拷貝數(shù)變異（copy number variation），是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。

SV：即基因組結(jié)構(gòu)變異（structure variation ），主要包括染色體大片段的插入和缺失（引起CNV的變化），染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換，兩條染色體之間發(fā)生重組（inter-chromosome trans-location）等。

什么是SD區(qū)域？

SD區(qū)域：指串聯(lián)重復(fù)（Segment duplication），由序列相近的一些DNA片段串聯(lián)組成。在人類染色體Y和22號(hào)染色體上，有很大的SD序列。

當(dāng)你在進(jìn)行轉(zhuǎn)錄組數(shù)據(jù)分析時(shí)，可能會(huì)遇到這些問題：

什么是轉(zhuǎn)錄本？為什么一個(gè)基因可以有多個(gè)轉(zhuǎn)錄本？

轉(zhuǎn)錄本其實(shí)就是基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。但我們平常通過數(shù)據(jù)庫查找某個(gè)基因的相關(guān)信息時(shí)，會(huì)發(fā)現(xiàn)該基因有多個(gè)轉(zhuǎn)錄本。為什么一個(gè)基因可以有多個(gè)轉(zhuǎn)錄本呢？

這是因?yàn)榧艚臃绞讲煌斐傻??；蜣D(zhuǎn)錄之后，先形成前體mRNA，通過剪切內(nèi)含子連接外顯子，5’端加帽及3’端加尾之后形成成熟的mRNA。但在剪切的過程中可能會(huì)剪切掉外顯子，也有可能保留部分內(nèi)含子，這樣就形成了多種mRNA即多個(gè)轉(zhuǎn)錄本。

什么是RPKM、FPKM？

RPKM和FPKM都用來表示基因的表達(dá)量。

RPKM: Reads Per Kilobases per Millionreads，代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)，用于表示基因的表達(dá)量。

FPKM：Fragments per Kilobase Million，F(xiàn)PKM意義與RPKM很相近，二者區(qū)別在于Fragments 與 Reads。

RPKM的誕生是針對(duì)早期的SE測(cè)序，F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正。只要明確Reads 和 Fragments的區(qū)別，RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機(jī)后fastq數(shù)據(jù)中的每一條Reads，F(xiàn)ragments則是指每一段用于測(cè)序的核酸片段，在SE中，一個(gè)Fragments只測(cè)一條Reads，所以，Reads數(shù)與Fragments數(shù)目相等；在PE中，一個(gè)Fragments測(cè)兩端，會(huì)得到2條Reads，但由于后期質(zhì)量或比對(duì)的過濾，有可能一個(gè)Fragments的2條Reads最后只有一條進(jìn)入最后的表達(dá)量分析?？傊?，對(duì)某一對(duì)Reads而言，這2條Reads只能算一個(gè)Fragments，所以Fragments的最終數(shù)目是Reads的1到2倍之間。

當(dāng)你想進(jìn)行基因組/轉(zhuǎn)錄本組裝時(shí)，可能會(huì)遇到這些問題：

什么是Contig?

拼接軟件基于reads之間的重疊（overlap）區(qū)，拼接獲得的序列稱為Contig（重疊群）。

什么是Contig N50？

Reads拼接后會(huì)獲得一些不同長度的Contigs，將所有的Contig長度相加，能獲得一個(gè)Contig總長度。將所有的Contigs按照從長到短進(jìn)行排序，如Contig 1，Contig 2，Contig 3...………Contig 25。然后按照這個(gè)順序依次相加，當(dāng)相加的長度達(dá)到Contigs總長度的一半時(shí)，最后一個(gè)加上的Contig長度即為Contig N50。

如：Contig 1+Contig 2+ Contig 3+Contig4=Contig總長度*1/2時(shí)，Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。

什么是Scaffold?

基因組de novo測(cè)序，通過reads拼接獲得Contigs后，往往還需要構(gòu)建454 Paired-end庫或Illumina Matepair庫，以獲得一定大小片段（如3Kb、6Kb、10Kb、20Kb）兩端的序列?；谶@些序列，可以確定一些Contigs之間的順序關(guān)系，這些先后順序已知的Contigs組成Scaffold。

什么是Scaffold N50？

Scaffold N50 與Contig N50 的定義類似。Contigs 拼接組裝獲得一些不同長度的Scaffolds 。將所有的 Scaffolds長度相加，能獲得一個(gè)Scaffolds總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序，再按照這個(gè)順序依次相加，當(dāng)相加的長度達(dá)到Scaffolds 總長度的一半時(shí)，最后一個(gè)加上的Scaffold長度即為Scaffold N50 。Scaffold N50也是基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。

什么是基因組注釋？

基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具，對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋，是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)?；蚪M注釋的研究內(nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面?；蜃R(shí)別的核心是確定全基因組序列中所有基因的確切位置。

基因組注釋分析主要包括以下方面

（1）重復(fù)序列的預(yù)測(cè)。通過比對(duì)已知的重復(fù)序列數(shù)據(jù)庫，找出序列中包含的重復(fù)序列，識(shí)別類型并轉(zhuǎn)化為N或者X，統(tǒng)計(jì)各種類型重復(fù)序列的分布。

（2）編碼基因的預(yù)測(cè)。通過將轉(zhuǎn)錄組或EST數(shù)據(jù)比對(duì)到拼接后的基因組序列上，找出編碼基因位置，預(yù)測(cè)編碼基因結(jié)構(gòu)。或者通過專業(yè)的外顯子預(yù)測(cè)軟件，預(yù)測(cè)編碼基因的外顯子結(jié)構(gòu)。

（3）小RNA基因的預(yù)測(cè)。通過比對(duì)已知的小RNA的數(shù)據(jù)庫，或者通過生物信息學(xué)軟件預(yù)測(cè)，找出這些小RNA基因，并進(jìn)行分類。

（4）調(diào)控序列和假基因的預(yù)測(cè)。

基因功能的注釋，使用的數(shù)據(jù)庫包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等，使用比對(duì)的方法找出同源相近的基因，并注釋功能。

基因注釋用到的那些數(shù)據(jù)庫都是啥？

（1）NR/NT數(shù)據(jù)庫

NR/NT數(shù)據(jù)庫是NCBI上比較常用的數(shù)據(jù)庫。NR：非冗余蛋白序列數(shù)據(jù)庫，包括所有的GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。它以核酸序列為基礎(chǔ)進(jìn)行交叉索引，將核酸與蛋白質(zhì)聯(lián)系起來。對(duì)于已知的或可能的編碼序列，NR記錄中都給出了相應(yīng)的氨基酸序列（由讀碼框推斷）。NT：非冗余核酸序列數(shù)據(jù)庫，是NR庫的子集。

NR和NT庫都可以通過NCBI進(jìn)行在線BLAST，也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中將數(shù)據(jù)直接下載下來。

（2）Swiss-Prot：是檢查過的、手工注釋的蛋白數(shù)據(jù)庫，它的所有序列都經(jīng)過科學(xué)家查閱文獻(xiàn)的核實(shí)。Swiss-Prot能提供詳細(xì)的蛋白質(zhì)序列、功能信息，如蛋白質(zhì)功能描述、結(jié)構(gòu)域結(jié)構(gòu)、轉(zhuǎn)錄后修飾、修飾位點(diǎn)、變異度、二級(jí)結(jié)構(gòu)等，同時(shí)提供其他數(shù)據(jù)庫，包括序列數(shù)據(jù)庫、三維結(jié)構(gòu)數(shù)據(jù)庫、2-D凝聚電泳數(shù)據(jù)庫、蛋白質(zhì)家族數(shù)據(jù)庫的相應(yīng)鏈接。

Swiss-Prot目前已合并到UniProt數(shù)據(jù)庫中，同TrEMBL 、PIR-PSD構(gòu)成UniProt數(shù)據(jù)庫的三大主庫。鏈接：http://www.uniprot.org/

（3）COG ：Clusters of Orthologous Groups of proteins，直系同源蛋白簇，該數(shù)據(jù)庫認(rèn)為構(gòu)成每個(gè)COG的蛋白都是被假定為來自于一個(gè)祖先蛋白。

COG分為兩類，一類是原核生物，另一類是真核生物。原核生物的一般稱為COG數(shù)據(jù)庫；真核生物的一般稱為KOG數(shù)據(jù)庫。

鏈接：https://www.ncbi.nlm.nih.gov/COG/

（4）KEGG ：Kyoto Encyclopedia of Genes and Genomes，是處理基因組、生物通路、疾病、藥物和化學(xué)物質(zhì)之間聯(lián)系的集成數(shù)據(jù)庫。

其中最核心的是KEGG Pathway數(shù)據(jù)庫，又分為3個(gè)層級(jí)：

第一層級(jí)：生物代謝通路分為7個(gè)大類，新陳代謝、遺傳信息加工、環(huán)境信息加工、細(xì)胞過程、生物體系統(tǒng)、人類疾病、藥物開發(fā)；
第二層級(jí)：將第一層級(jí)中的7個(gè)類別進(jìn)一步細(xì)化；
第三層級(jí)：直接對(duì)應(yīng)KEGG 的pathway，每一個(gè)pathway都標(biāo)示參與該過程的基因

鏈接：https://www.kegg.jp/

（5）GO：Gene Ontology ，基因本體論數(shù)據(jù)庫。GO中最基本的概念是“term”，是用來描述基因和基因產(chǎn)物特性的，即GO數(shù)據(jù)庫是給每個(gè)基因貼上標(biāo)簽，以便研究者能夠通過標(biāo)簽快速尋找到目標(biāo)基因。

在GO分析中，所有的結(jié)果都按照以下3個(gè)一級(jí)功能來整理分類：

細(xì)胞學(xué)組件（CC）：用于描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物，如核仁、端粒和識(shí)別起始的復(fù)合物等；
生物學(xué)途徑（BP）：指分子功能的有序組合，以達(dá)成更廣的生物功能，如有絲分裂或嘌呤代謝等；
分子功能（MF）：用于描述基因、基因產(chǎn)物的功能，如與碳水化合物結(jié)合或ATP水解酶活性等。

鏈接：http://geneontology.org/

測(cè)序名詞千千萬，看完這篇會(huì)一大半！

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区