午夜久草,色噜噜狠狠一区二区三区果冻,成人毛片1024你懂的

轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析（無(wú)參考基因組）

2014.01.06

一、數(shù)據(jù)分析流程

二、數(shù)據(jù)分析內(nèi)容
1. 數(shù)據(jù)預(yù)處理
目的：對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行一定程度的過(guò)濾。
原理：根據(jù)測(cè)序接頭以及測(cè)序質(zhì)量對(duì)原始的測(cè)序數(shù)據(jù)進(jìn)行預(yù)處理，其中，測(cè)序質(zhì)量Q與測(cè)序錯(cuò)誤E之間的關(guān)系如下：

結(jié)果：對(duì)預(yù)處理后質(zhì)量以及堿基分布統(tǒng)計(jì)進(jìn)行統(tǒng)計(jì)

2. UniGene拼接
目的：將預(yù)處理后reads進(jìn)行拼接，得到拼接結(jié)果。
原理：應(yīng)用 de Bruijn graph path 算法對(duì)reads進(jìn)行denovo拼接；對(duì)上一步的拼接結(jié)果，再用Hamilton Path算法拼接。
結(jié)果：UniGene序列，UniGene統(tǒng)計(jì)信息，序列長(zhǎng)度分布圖

3. 數(shù)據(jù)庫(kù)注釋
目的：對(duì)拼接得到的UniGene進(jìn)行功能注釋
原理：通過(guò)blast+算法將拼接得到的UniGene序列與數(shù)據(jù)庫(kù)進(jìn)行比對(duì)
結(jié)果：比對(duì)結(jié)果表格，物種分布統(tǒng)計(jì)和Evalue分布統(tǒng)計(jì)

4. UniGene表達(dá)分析

目的：UniGene定量分析。
原理：以UniGene為reference，分別將每個(gè)樣本的reads進(jìn)行reference mapping ,從而得到每個(gè)樣本在每個(gè)UniGenes中的一個(gè)reads覆蓋度，然后應(yīng)用RPKM/FPKM標(biāo)準(zhǔn)化公式對(duì)富集片段的數(shù)量進(jìn)行歸一化。
RPKM：Reads Per Kilobase of exon model per Million mapped reads，公式下:

FPKM：Fragments Per Kilobase of exon model per Million mapped reads，公式下:

UniGene表達(dá)分布圖，1X，5X分別為FPKM=1，F(xiàn)PKM=5分界點(diǎn)，可以大體觀察到低表達(dá)，中表達(dá)以及高表達(dá)的比例關(guān)系

UniGene樣本間表達(dá)相關(guān)性散點(diǎn)圖

樣本間表達(dá)差異程度的MA圖，可以體現(xiàn)差異表達(dá)總體偏差

5. UniGene表達(dá)差異分析
目的：對(duì)定量結(jié)果進(jìn)行統(tǒng)計(jì)檢驗(yàn)分析，找出差異表達(dá)UniGene
原理：雙層過(guò)濾篩選差異基因
FC值篩選：采用Fold-change(FC)，表達(dá)差異倍數(shù)進(jìn)行第一層此的差異基因篩選
FDR檢驗(yàn)：一般采用卡方檢驗(yàn)中的fisher精確檢驗(yàn)進(jìn)行p值檢驗(yàn)，采用Benjamini FDR(False discovery ratio)校驗(yàn)方法對(duì)p值進(jìn)行假陽(yáng)性檢驗(yàn)，即，通過(guò)FDR顯著性參數(shù)進(jìn)行第二層次的差異基因篩選。
結(jié)果展示：

組間差異基因上調(diào)與下調(diào)個(gè)數(shù)統(tǒng)計(jì)，可以通過(guò)此圖觀察上調(diào)與下調(diào)的一個(gè)總體趨勢(shì)

差異基因火山圖，可以觀察到差異基因總體分布

6. GO功能分類
目的：利用數(shù)據(jù)庫(kù)注釋信息將 UniGene進(jìn)行 GO 功能分類。
原理：利用數(shù)據(jù)庫(kù)的注釋結(jié)果，應(yīng)用blast2GO算法進(jìn)行GO功能分類，得到所有序列在Gene Ontology 的三大類：molecular function, cellular component, biological process 的各個(gè)層次所占數(shù)目，一般取到14層。
結(jié)果：MF，BP，CC三大分類結(jié)果文件以及 UniGene2GO 關(guān)系列表，三大類別中第二層次上的柱狀分布圖和餅圖，GO功能的層次分布圖。

7. KEGG代謝通路分析
目的：對(duì)拼接得到 UniGene 進(jìn)行 KEGG pathway 映射。
原理：應(yīng)用KEGG KAAS在線 pathway比對(duì)分析工具對(duì)拼接得到的UniGene進(jìn)行KEGG映射分析。
結(jié)果：標(biāo)記的Pathway通路圖。

8. COG注釋
目的：對(duì)拼接得到 UniGene 進(jìn)行 COG功能分類。
原理：利用blast+算法將拼接得到的UniGene與CDD庫(kù)中的COG/KOG庫(kù)進(jìn)行比對(duì)，進(jìn)行COG功能分類預(yù)測(cè)，將其映射到COG分類中。
結(jié)果： COG分類分布情況圖。

9. SSR重復(fù)序列注釋
目的：對(duì)拼接得到 UniGene進(jìn)行 SSR 簡(jiǎn)單重復(fù)序列的查找。
原理：篩選標(biāo)準(zhǔn)：?jiǎn)魏塑账嶂貜?fù)的次數(shù)在10次或10次以上，二核苷酸重復(fù)的次數(shù)在 6次或6次以上，三至六核苷酸重復(fù)的次數(shù)在 5次或 5次以上。同時(shí)，也篩選中間被少數(shù)堿基 (間隔小于100或等于100)打斷的不完全重復(fù)的SSR。
結(jié)果：重復(fù)序列的信息文件以及統(tǒng)計(jì)文件。

10. LncRNA預(yù)測(cè)
目的：對(duì)拼接得到的UniGene進(jìn)行LncRNA(Long noncoding RNA)預(yù)測(cè)。
原理：通過(guò)以下過(guò)程對(duì)UniGene進(jìn)行過(guò)濾，最終得到候選LncRNA序列。
1) Unigene length > 200bp；
2) Unigene ORF(Open Reading Frame) length < 300；
3) 將滿足長(zhǎng)度條件的UniGene與多個(gè)近源物種進(jìn)行進(jìn)化分析，得到序列的保守性和進(jìn)化特性；
4) 根據(jù)上述的特性和已知數(shù)據(jù)庫(kù)中coding、noncoding區(qū)域的特性建立編碼篩選模型；
5) 將符合noncoding模型的UniGene與Pfam等蛋白域數(shù)據(jù)庫(kù)進(jìn)行同源性比對(duì)，進(jìn)一步去除可能的編碼特性，最終得出LncRNA預(yù)測(cè)結(jié)果。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

轉(zhuǎn)錄組基本知識(shí)點(diǎn)

轉(zhuǎn)錄組結(jié)果如何挖掘關(guān)鍵基因——你不得不知的“套路”

科研 | 破譯越南人參基因組并開(kāi)發(fā)分子標(biāo)記輔助育種

貝瑞和康 | 全基因組重測(cè)序

蛋白質(zhì)組學(xué)數(shù)據(jù)分析集錦

生信編程直播第七題：寫超幾何分布檢驗(yàn)！

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区