国产精品天干天干在线观看澳门,久久yy,国产精品深夜福利免费观看

測序后更重要的是解讀這些序列，分析這些序列都起到了什么作用。對于人類外其他物種基因組的分析可以給予我們更多的線索。

1. 找出基因

基因：基因組中的功能原件。

用開放閱讀框ORF來找到編碼蛋白的基因

開放閱讀框：由密碼子組成的核酸序列，其中不含中止密碼子（TAA/TAG/TGA）。

每一段DNA序列根據(jù)三聯(lián)密碼子都有6種不同的閱讀方式，每條鏈各三種，不被終止子（紅色）中斷的較長區(qū)域有可能預(yù)示其編碼蛋白，稱為開放閱讀框，此圖只有5號是。

但由于基因組很大，也會(huì)有足夠長但并非是基因的ORF，也會(huì)由于內(nèi)含子隔開外顯子的原因使得外顯子區(qū)域是短的序列，導(dǎo)致錯(cuò)過。但可以根據(jù)外顯子和內(nèi)含子連接處的特點(diǎn)進(jìn)行甄別。

這是一個(gè)RNA原始轉(zhuǎn)錄本，既有外顯子又有內(nèi)含子，有三個(gè)特征區(qū)域來保證去掉內(nèi)含子，連接外顯子。剪接供體（內(nèi)含子5&amp;#39;區(qū)GU跟隨幾個(gè)嘌呤）、剪接受體（內(nèi)含子3&amp;#39;區(qū)12-14個(gè)嘧啶跟著AG）、分支位點(diǎn)（剪接受體前30個(gè)堿基，富含嘧啶）

用全基因組序列比對，找出不同物種間的相似區(qū)域，盡管不一定是基因，但預(yù)示著自然選擇的進(jìn)化關(guān)系。

找DNA的保守序列

同源DNA片段（homologue）：兩個(gè)物種的DNA片段來源于共同祖先的同一個(gè)DNA片段。如果序列并非完全相同，就需要運(yùn)用適當(dāng)?shù)乃惴▉碜C明同源性，這就屬于生物信息學(xué)的研究內(nèi)容。當(dāng)這段相似的序列在許多不同物種中出現(xiàn)，就稱其保守（conserved）。

不同物種DNA序列保守性

進(jìn)化樹，改圖比較了13個(gè)物種的全基因組DNA序列，展現(xiàn)了物種間的親緣關(guān)系。分支點(diǎn)代表了共同的祖先，數(shù)字表明了距今時(shí)間（單位，百萬年）。

人類與其他脊椎動(dòng)物的DNA序列比對結(jié)果。第一列是全基因組DNA序列結(jié)果，第二列是編碼蛋白的序列比對結(jié)果。從表中看出，人與猩猩和猴子最相近，經(jīng)過400百萬年的時(shí)間后，人類中只保有魚類DNA的2%，而編碼蛋白的序列保守性卻相當(dāng)高，人類保有了魚類超過82%的編碼蛋白序列。

具有功能的序列會(huì)明顯影響表型，因此不易積累突變，導(dǎo)致該進(jìn)化慢，而非功能序列就并非如此，因此通過分析保守性，可以區(qū)分出功能性和非功能性的DNA序列。

直接定位轉(zhuǎn)錄區(qū)，是在基因組中更直接找到基因的方法。

可以通過分析轉(zhuǎn)錄出的RNA序列來得到對應(yīng)的DNA序列，rRNA較易分析，但是由于含量低(mRNA僅占細(xì)胞總RNA的1-5%，其他都是rRNA和tRNA)，直接分析mRNA就很難，需要先將其轉(zhuǎn)化為DNA，再用更成熟的DNA分析方法來測序。這種從mRNA得到DNA的靈感是源自反轉(zhuǎn)錄病毒（如HIV）通過反轉(zhuǎn)錄酶的作用得到cDNA。

cDNA，現(xiàn)指以RNA為模板獲得的單鏈或雙鏈DNA。

建立cDNA文庫

1. 從細(xì)胞中獲得mRNA

2. 真核生物的mRNA都具有poly A尾結(jié)構(gòu)，只需用含20個(gè)T的DNA片段作為引物就可以結(jié)合，在反轉(zhuǎn)錄酶作用下合成所有mRNA的cDNA。

3. 通過升溫使cDNA和mRNA分開，再用RNase降解掉原始mRNA。在cDNA 3&amp;#39;端會(huì)自動(dòng)回折形成發(fā)卡環(huán)充當(dāng)合成第二條鏈的引物。

4. 第二鏈合成，同時(shí)用S1 nuclease將發(fā)卡環(huán)去掉。

5. 用限制酶和連接酶將cDNA插入到合適的載體，再導(dǎo)入細(xì)胞，就可以得到cDNA文庫。該cDNA文庫中只含有外顯子，并且細(xì)胞克隆的多少與mRNA表達(dá)量相關(guān)。

對比全基因組文庫和cDNA文庫

通過比對cDNA序列和全基因組序列，就可以對全基因組的基因位置，外顯子，內(nèi)含子進(jìn)行注釋了。

一段隨機(jī)的基因組100kb DNA片段，包含3個(gè)基因

所有的細(xì)胞組織產(chǎn)生的基因組文庫都是相同的，而且克隆的數(shù)量是基本一致的。

不同組織細(xì)胞產(chǎn)生的cDNA文庫是具有組織細(xì)胞特異性的。

cDNA和可變剪切

可變剪切指一個(gè)原始的轉(zhuǎn)錄本，可以有多種剪切方式，最終導(dǎo)致一個(gè)基因可以產(chǎn)生多種不同的蛋白質(zhì)。

重鏈抗體原始轉(zhuǎn)錄本有兩種剪切方式，一種產(chǎn)生膜結(jié)合抗體，另一種產(chǎn)生分泌抗體。

該圖展示了一個(gè)基因中桔色數(shù)字是外顯子編碼蛋白，紅色是內(nèi)含子，在不同的組織中該基因會(huì)呈現(xiàn)不同的剪切方式，最終得到不同的蛋白質(zhì)。

2. 基因組的結(jié)構(gòu)和進(jìn)化

基因在不同物種基因組中的排列并非一致

人類基因組中僅發(fā)現(xiàn)了27000個(gè)基因，大約19000個(gè)基因是編碼蛋白的，其余的用于轉(zhuǎn)錄為rRNA和tRNA，還有剪切體中的snRNA。
與低等生物比，這個(gè)基因數(shù)目比預(yù)期小很多，因此，基因的機(jī)制而非數(shù)目才是早就多細(xì)胞動(dòng)物復(fù)雜性的本質(zhì)。
在進(jìn)化過程中，基因組長度的變化比起基因數(shù)目的變化要明顯的多，這是由于外顯子組只占有全基因組的1.5-2%，而其余的絕大多數(shù)序列都是內(nèi)含子、基因間序列、轉(zhuǎn)座子、和染色體結(jié)構(gòu)區(qū)如著絲粒和端粒。
物種間絕大多數(shù)的基因組差異，都是發(fā)生在非編碼區(qū)的擴(kuò)展和壓縮，而非基因數(shù)目的變化。例如，超過半數(shù)的人類基因組是轉(zhuǎn)座子的構(gòu)成部分，而轉(zhuǎn)座子被視為一種寄生DNA，利用我們?nèi)祟惖幕蚪M進(jìn)行自我繁殖。另外，人類基因組中也含有大量的簡單重復(fù)序列（CGCGCGCGCG）

大多數(shù)基因的轉(zhuǎn)錄方向是隨機(jī)的。

相鄰的基因可以同向也可逆向，即可朝向染色體的端粒也可朝向著絲粒。有時(shí)RNA聚合酶用DNA正義鏈轉(zhuǎn)錄，有時(shí)用反義鏈。只對少數(shù)基因如血紅素基因，其轉(zhuǎn)錄都是同向的。

箭頭指示轉(zhuǎn)錄方向

基因密度變化不定

人類中，平均大約100kb就有一個(gè)基因，人類中基因密度最高的地方是6號染色體，在700kb的區(qū)域含有60個(gè)基因，編碼不同功能的組織相容性蛋白。

該區(qū)域有60個(gè)基因（彩色矩形）箭頭表示他們不同的轉(zhuǎn)錄方向。

與之相對的就是基因沙漠區(qū)域，幾乎不含有基因。人類基因組中最大的基因沙漠區(qū)就是5號染色體的一段5.1Mb區(qū)域，其上沒有一個(gè)基因。

還有一些稱之為大基因，轉(zhuǎn)錄本一般超過500kb，人類中最大的基因是抗肌萎縮蛋白基因dystrophin，超過2.3 Mb，其含有很長的內(nèi)含子。大基因的轉(zhuǎn)錄本一般在快速分裂的細(xì)胞中來不及完成，因此大基因基本存在于不分離的細(xì)胞中，如神經(jīng)元。

進(jìn)化過程中的基因組改變

外顯子常常編碼互不相連的蛋白結(jié)構(gòu)域，作為一個(gè)獨(dú)立功能單元。與由不同功能車廂組成的火車相似，許多基因也是由許多編碼不同蛋白結(jié)構(gòu)域的外顯子組成，在進(jìn)化過程中，這些外顯子的轉(zhuǎn)移、增加或者刪除都會(huì)導(dǎo)致一個(gè)新的蛋白結(jié)構(gòu)域產(chǎn)生，從而產(chǎn)生新的作用。

外顯子的轉(zhuǎn)移會(huì)產(chǎn)生一個(gè)新的基因，從而產(chǎn)生新的蛋白結(jié)構(gòu)

基因家族

基因家族是指具有相似序列和功能的一類基因，這類基因在整個(gè)基因組中是很多的。例如血紅蛋白基因家族，免疫球蛋白（抗體）基因家族，嗅覺受體基因家族。這些基因可能會(huì)聚集在一條染色體上，也可能彌散在多條染色體。

α球蛋白位點(diǎn)是由5個(gè)基因（紫色）構(gòu)成的，黑色的是假基因，紅色LCR是控制域。

β球蛋白位點(diǎn)由5個(gè)基因（綠色）構(gòu)成，棕色是假基因。

通過生信分析，基因家族的基因們是來自一個(gè)祖基因，在進(jìn)化過程中，由基因復(fù)制和各自突變形成的。

此圖展示了人類球蛋白基因家族的來歷正式經(jīng)由一系列的復(fù)制和突變積累而來。

直系同源基因Orthologous gene：不同物種的基因，但來源于同一個(gè)祖先基因。一般保有同樣的功能。
旁系同源基因Paralogous gene：由基因復(fù)制產(chǎn)生，通常用來描述同一個(gè)家族中的基因數(shù)目。
同源性homology：是一個(gè)統(tǒng)稱，具有進(jìn)化相關(guān)性的所有相似序列都具有同源性。

直系同源基因來自物種的形成，旁系同源基因來自基因復(fù)制，所有圖中的基因都具有同源性。

假基因pseudogene：序列類似基因，但無作用的序列。許多高等動(dòng)物基因家族中都有。

新基因（de novo genes）

沒有同源基因的稱為新基因，例如人類基因組中就有數(shù)百個(gè)人類特有的基因。通常新基因都是年輕的基因，由祖先基因間的序列進(jìn)化而來，有兩種生發(fā)機(jī)制，一是獲得ATG啟動(dòng)子，二是原來的基因間ORF具有了轉(zhuǎn)錄調(diào)節(jié)序列。正因如此，通常新基因更小也更簡單。

獲得ATG

獲得轉(zhuǎn)錄激活序列

染色體重排

在人類和老鼠的基因組中，不僅單個(gè)基因序列有很高的相似性，基因在染色體上的順序也有極高相似度。這些在染色體上高相似度的區(qū)塊稱為同線區(qū)塊（syntenic blocks), 人類和老鼠比對后，大約有180個(gè)這樣的區(qū)塊，其中的基因順序高度相似，但是這些區(qū)塊在染色體上的位置在兩個(gè)物種間是絕然不同的。這就好比將人類的基因組隨機(jī)切成180份，然后再隨機(jī)排列組合，就成了老鼠的基因組。

不同顏色代表特定的老鼠染色體，他們在人類的染色體中也是成塊出現(xiàn)的。

這種染色體的切割再組裝是伴隨著物種進(jìn)化過程的，稱為染色體重組（chromosomal rearrangements）。一類稱為易位（translocation）是將一段染色體連接到非同源染色體上，另一類稱為反轉(zhuǎn)（inversions）是將染色體一段旋轉(zhuǎn)180度再連接起來。物種間的進(jìn)化關(guān)系越遠(yuǎn)，同線性區(qū)塊就越少。

僅少數(shù)基因可以對表型有明顯影響

盡管人類的基因數(shù)量只有27000個(gè)，蛋白的類型卻遠(yuǎn)遠(yuǎn)超出。導(dǎo)致這個(gè)現(xiàn)象的原因就是組合擴(kuò)增，即不同水平的DNA序列和RNA序列的組合可以產(chǎn)生很多中可能性。另外，蛋白質(zhì)還會(huì)發(fā)生翻譯后的修飾，也會(huì)導(dǎo)致種類的增多。

DNA層面的組合策略

人類T細(xì)胞受體基因家族有45個(gè)功能變量區(qū)段V,2個(gè)功能多樣區(qū)段D,11個(gè)功能連接區(qū)段J，2個(gè)恒定區(qū)段C，理論上，他們隨機(jī)組合可以產(chǎn)生45*2*11=990種DNA。這樣有重要的生物學(xué)意義，T細(xì)胞受體蛋白是與外源蛋白——抗原結(jié)合的部分，通過多種不同的組合，才可以產(chǎn)生能與抗原結(jié)合更好的受體，增強(qiáng)機(jī)體免疫力。

RNA層面的組合策略

一種是可變剪接，另一種是采用同一個(gè)基因的不同啟動(dòng)子來轉(zhuǎn)錄。

這是人類軸突蛋白，由三個(gè)基因組成，每個(gè)基因有兩個(gè)啟動(dòng)子，和5個(gè)可發(fā)生可變剪接的區(qū)域。藍(lán)色框代表了發(fā)生可變剪接的外顯子，數(shù)字表示了外顯子。這樣，總共能產(chǎn)生2000多個(gè)不同的mRNA。這些不同的mRNA在不同的組織和發(fā)育時(shí)期發(fā)生變化，預(yù)示著重要的作用。

蛋白翻譯后修飾

人類蛋白可以被超過400種化學(xué)反應(yīng)修飾來改變其功能，例如蛋白質(zhì)剪切和磷酸化。因此，一個(gè)人類的細(xì)胞一般含有50000個(gè)不同的mRNA，但是會(huì)有大概一百萬個(gè)不同的蛋白質(zhì)。

酶切可以移除甲基團(tuán)，切割成多個(gè)小肽，亦可以切割片段。

通過絲氨酸磷酸化，蘇氨酸糖基化，甘氨酸脂化，賴氨酸泛素化，添加相應(yīng)基團(tuán)來改變蛋白的結(jié)構(gòu)活性和在細(xì)胞種的位置。

3. 生物信息學(xué)

用二進(jìn)制數(shù)值00，01，10，11分別代表ACGT，用計(jì)算機(jī)來儲存和處理遺傳信息。

1982年，NIH（national institutes of health），建立了GenBank，到目前為止仍然是使用最多的在線序列數(shù)據(jù)庫。到2016年，已經(jīng)包含300，000，000，000的注釋完成的核酸序列。人們只要能夠上網(wǎng)，就能獲取這些數(shù)據(jù)。

生物信息學(xué)使基因組可視化，并提供了分析的工具。

物種的參考序列（Refseq）

Refseq：是一個(gè)物種唯一的，完全的，帶有注釋的基因組。它由NCBI來保持。該基因組不必來源于單一個(gè)體，也不需要含有該物種的多個(gè)成員的遺傳變體，但具有強(qiáng)制性，并且是被很好的識別出來的一個(gè)范例，這樣才能使該物種中新檢測出的序列可以與之比對。
NCBI，建于1988年，監(jiān)管GenBank和其他生物信息數(shù)據(jù)庫，并開發(fā)相應(yīng)的生信工具來分析和傳播這些信息。

使基因和基因組可視化

UCSC Genome Browser (UCSC Genome Browser Home) 使RefSeq可視化，展示其注釋，外顯子，內(nèi)含子，編碼蛋白區(qū)域等特征。

用BLAST尋找同源序列

BLAST (Basic Local Alignment Search Tool)，使NCBI開發(fā)的一個(gè)程序

用BLAST，來發(fā)現(xiàn)人類中與果蠅某蛋白同源的蛋白。+代表氨基酸具有相似的化學(xué)特性。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

1. 找出基因

2. 基因組的結(jié)構(gòu)和進(jìn)化

3. 生物信息學(xué)