九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
解讀遺傳信息之二——基因組注釋

測序后更重要的是解讀這些序列,分析這些序列都起到了什么作用。對于人類外其他物種基因組的分析可以給予我們更多的線索。

1. 找出基因

基因:基因組中的功能原件。

用開放閱讀框ORF來找到編碼蛋白的基因

開放閱讀框:由密碼子組成的核酸序列,其中不含中止密碼子(TAA/TAG/TGA)。

每一段DNA序列根據(jù)三聯(lián)密碼子都有6種不同的閱讀方式,每條鏈各三種,不被終止子(紅色)中斷的較長區(qū)域有可能預(yù)示其編碼蛋白,稱為開放閱讀框,此圖只有5號是。

  • 但由于基因組很大,也會(huì)有足夠長但并非是基因的ORF,也會(huì)由于內(nèi)含子隔開外顯子的原因使得外顯子區(qū)域是短的序列,導(dǎo)致錯(cuò)過。但可以根據(jù)外顯子和內(nèi)含子連接處的特點(diǎn)進(jìn)行甄別。

這是一個(gè)RNA原始轉(zhuǎn)錄本,既有外顯子又有內(nèi)含子,有三個(gè)特征區(qū)域來保證去掉內(nèi)含子,連接外顯子。剪接供體(內(nèi)含子5'區(qū)GU跟隨幾個(gè)嘌呤)、剪接受體(內(nèi)含子3'區(qū)12-14個(gè)嘧啶跟著AG)、分支位點(diǎn)(剪接受體前30個(gè)堿基,富含嘧啶)

用全基因組序列比對,找出不同物種間的相似區(qū)域,盡管不一定是基因,但預(yù)示著自然選擇的進(jìn)化關(guān)系。

  • 找DNA的保守序列

同源DNA片段(homologue):兩個(gè)物種的DNA片段來源于共同祖先的同一個(gè)DNA片段。如果序列并非完全相同,就需要運(yùn)用適當(dāng)?shù)乃惴▉碜C明同源性,這就屬于生物信息學(xué)的研究內(nèi)容。當(dāng)這段相似的序列在許多不同物種中出現(xiàn),就稱其保守(conserved)。
  • 不同物種DNA序列保守性

進(jìn)化樹,改圖比較了13個(gè)物種的全基因組DNA序列,展現(xiàn)了物種間的親緣關(guān)系。分支點(diǎn)代表了共同的祖先,數(shù)字表明了距今時(shí)間(單位,百萬年)。

人類與其他脊椎動(dòng)物的DNA序列比對結(jié)果。第一列是全基因組DNA序列結(jié)果,第二列是編碼蛋白的序列比對結(jié)果。從表中看出,人與猩猩和猴子最相近,經(jīng)過400百萬年的時(shí)間后,人類中只保有魚類DNA的2%,而編碼蛋白的序列保守性卻相當(dāng)高,人類保有了魚類超過82%的編碼蛋白序列。

  • 具有功能的序列會(huì)明顯影響表型,因此不易積累突變,導(dǎo)致該進(jìn)化慢,而非功能序列就并非如此,因此通過分析保守性,可以區(qū)分出功能性和非功能性的DNA序列。

直接定位轉(zhuǎn)錄區(qū),是在基因組中更直接找到基因的方法。

可以通過分析轉(zhuǎn)錄出的RNA序列來得到對應(yīng)的DNA序列,rRNA較易分析,但是由于含量低(mRNA僅占細(xì)胞總RNA的1-5%,其他都是rRNA和tRNA),直接分析mRNA就很難,需要先將其轉(zhuǎn)化為DNA,再用更成熟的DNA分析方法來測序。這種從mRNA得到DNA的靈感是源自反轉(zhuǎn)錄病毒(如HIV)通過反轉(zhuǎn)錄酶的作用得到cDNA。

cDNA,現(xiàn)指以RNA為模板獲得的單鏈或雙鏈DNA。
  • 建立cDNA文庫

1. 從細(xì)胞中獲得mRNA

2. 真核生物的mRNA都具有poly A尾結(jié)構(gòu),只需用含20個(gè)T的DNA片段作為引物就可以結(jié)合,在反轉(zhuǎn)錄酶作用下合成所有mRNA的cDNA。

3. 通過升溫使cDNA和mRNA分開,再用RNase降解掉原始mRNA。在cDNA 3'端會(huì)自動(dòng)回折形成發(fā)卡環(huán)充當(dāng)合成第二條鏈的引物。

4. 第二鏈合成,同時(shí)用S1 nuclease將發(fā)卡環(huán)去掉。

5. 用限制酶和連接酶將cDNA插入到合適的載體,再導(dǎo)入細(xì)胞,就可以得到cDNA文庫。該cDNA文庫中只含有外顯子,并且細(xì)胞克隆的多少與mRNA表達(dá)量相關(guān)。

  • 對比全基因組文庫和cDNA文庫

通過比對cDNA序列和全基因組序列,就可以對全基因組的基因位置,外顯子,內(nèi)含子進(jìn)行注釋了。

一段隨機(jī)的基因組100kb DNA片段,包含3個(gè)基因

所有的細(xì)胞組織產(chǎn)生的基因組文庫都是相同的,而且克隆的數(shù)量是基本一致的。

不同組織細(xì)胞產(chǎn)生的cDNA文庫是具有組織細(xì)胞特異性的。

  • cDNA和可變剪切

可變剪切指一個(gè)原始的轉(zhuǎn)錄本,可以有多種剪切方式,最終導(dǎo)致一個(gè)基因可以產(chǎn)生多種不同的蛋白質(zhì)。

重鏈抗體原始轉(zhuǎn)錄本有兩種剪切方式,一種產(chǎn)生膜結(jié)合抗體,另一種產(chǎn)生分泌抗體。

該圖展示了一個(gè)基因中桔色數(shù)字是外顯子編碼蛋白,紅色是內(nèi)含子,在不同的組織中該基因會(huì)呈現(xiàn)不同的剪切方式,最終得到不同的蛋白質(zhì)。

2. 基因組的結(jié)構(gòu)和進(jìn)化

基因在不同物種基因組中的排列并非一致

人類基因組中僅發(fā)現(xiàn)了27000個(gè)基因,大約19000個(gè)基因是編碼蛋白的,其余的用于轉(zhuǎn)錄為rRNA和tRNA,還有剪切體中的snRNA。
與低等生物比,這個(gè)基因數(shù)目比預(yù)期小很多,因此,基因的機(jī)制而非數(shù)目才是早就多細(xì)胞動(dòng)物復(fù)雜性的本質(zhì)。
在進(jìn)化過程中,基因組長度的變化比起基因數(shù)目的變化要明顯的多,這是由于外顯子組只占有全基因組的1.5-2%,而其余的絕大多數(shù)序列都是內(nèi)含子、基因間序列、轉(zhuǎn)座子、和染色體結(jié)構(gòu)區(qū)如著絲粒和端粒。
物種間絕大多數(shù)的基因組差異,都是發(fā)生在非編碼區(qū)的擴(kuò)展和壓縮,而非基因數(shù)目的變化。例如,超過半數(shù)的人類基因組是轉(zhuǎn)座子的構(gòu)成部分,而轉(zhuǎn)座子被視為一種寄生DNA,利用我們?nèi)祟惖幕蚪M進(jìn)行自我繁殖。另外,人類基因組中也含有大量的簡單重復(fù)序列(CGCGCGCGCG)
  • 大多數(shù)基因的轉(zhuǎn)錄方向是隨機(jī)的。

相鄰的基因可以同向也可逆向,即可朝向染色體的端粒也可朝向著絲粒。有時(shí)RNA聚合酶用DNA正義鏈轉(zhuǎn)錄,有時(shí)用反義鏈。只對少數(shù)基因如血紅素基因,其轉(zhuǎn)錄都是同向的。

箭頭指示轉(zhuǎn)錄方向

  • 基因密度變化不定

人類中,平均大約100kb就有一個(gè)基因,人類中基因密度最高的地方是6號染色體,在700kb的區(qū)域含有60個(gè)基因,編碼不同功能的組織相容性蛋白。

該區(qū)域有60個(gè)基因(彩色矩形)箭頭表示他們不同的轉(zhuǎn)錄方向。

與之相對的就是基因沙漠區(qū)域,幾乎不含有基因。人類基因組中最大的基因沙漠區(qū)就是5號染色體的一段5.1Mb區(qū)域,其上沒有一個(gè)基因。

還有一些稱之為大基因,轉(zhuǎn)錄本一般超過500kb,人類中最大的基因是抗肌萎縮蛋白基因dystrophin,超過2.3 Mb,其含有很長的內(nèi)含子。大基因的轉(zhuǎn)錄本一般在快速分裂的細(xì)胞中來不及完成,因此大基因基本存在于不分離的細(xì)胞中,如神經(jīng)元。

進(jìn)化過程中的基因組改變

  • 外顯子常常編碼互不相連的蛋白結(jié)構(gòu)域,作為一個(gè)獨(dú)立功能單元。與由不同功能車廂組成的火車相似,許多基因也是由許多編碼不同蛋白結(jié)構(gòu)域的外顯子組成,在進(jìn)化過程中,這些外顯子的轉(zhuǎn)移、增加或者刪除都會(huì)導(dǎo)致一個(gè)新的蛋白結(jié)構(gòu)域產(chǎn)生,從而產(chǎn)生新的作用。

外顯子的轉(zhuǎn)移會(huì)產(chǎn)生一個(gè)新的基因,從而產(chǎn)生新的蛋白結(jié)構(gòu)

基因家族

基因家族是指具有相似序列和功能的一類基因,這類基因在整個(gè)基因組中是很多的。例如血紅蛋白基因家族,免疫球蛋白(抗體)基因家族,嗅覺受體基因家族。這些基因可能會(huì)聚集在一條染色體上,也可能彌散在多條染色體。

α球蛋白位點(diǎn)是由5個(gè)基因(紫色)構(gòu)成的,黑色的是假基因,紅色LCR是控制域。

β球蛋白位點(diǎn)由5個(gè)基因(綠色)構(gòu)成,棕色是假基因。

通過生信分析,基因家族的基因們是來自一個(gè)祖基因,在進(jìn)化過程中,由基因復(fù)制和各自突變形成的。

此圖展示了人類球蛋白基因家族的來歷正式經(jīng)由一系列的復(fù)制和突變積累而來。

直系同源基因Orthologous gene:不同物種的基因,但來源于同一個(gè)祖先基因。一般保有同樣的功能。
旁系同源基因Paralogous gene:由基因復(fù)制產(chǎn)生,通常用來描述同一個(gè)家族中的基因數(shù)目。
同源性homology:是一個(gè)統(tǒng)稱,具有進(jìn)化相關(guān)性的所有相似序列都具有同源性。

直系同源基因來自物種的形成,旁系同源基因來自基因復(fù)制,所有圖中的基因都具有同源性。

假基因pseudogene:序列類似基因,但無作用的序列。許多高等動(dòng)物基因家族中都有。

新基因(de novo genes)

沒有同源基因的稱為新基因,例如人類基因組中就有數(shù)百個(gè)人類特有的基因。通常新基因都是年輕的基因,由祖先基因間的序列進(jìn)化而來,有兩種生發(fā)機(jī)制,一是獲得ATG啟動(dòng)子,二是原來的基因間ORF具有了轉(zhuǎn)錄調(diào)節(jié)序列。正因如此,通常新基因更小也更簡單。

獲得ATG

獲得轉(zhuǎn)錄激活序列

染色體重排

在人類和老鼠的基因組中,不僅單個(gè)基因序列有很高的相似性,基因在染色體上的順序也有極高相似度。這些在染色體上高相似度的區(qū)塊稱為同線區(qū)塊(syntenic blocks), 人類和老鼠比對后,大約有180個(gè)這樣的區(qū)塊,其中的基因順序高度相似,但是這些區(qū)塊在染色體上的位置在兩個(gè)物種間是絕然不同的。這就好比將人類的基因組隨機(jī)切成180份,然后再隨機(jī)排列組合,就成了老鼠的基因組。

不同顏色代表特定的老鼠染色體,他們在人類的染色體中也是成塊出現(xiàn)的。

這種染色體的切割再組裝是伴隨著物種進(jìn)化過程的,稱為染色體重組(chromosomal rearrangements)。一類稱為易位(translocation)是將一段染色體連接到非同源染色體上,另一類稱為反轉(zhuǎn)(inversions)是將染色體一段旋轉(zhuǎn)180度再連接起來。物種間的進(jìn)化關(guān)系越遠(yuǎn),同線性區(qū)塊就越少。

  • 僅少數(shù)基因可以對表型有明顯影響

盡管人類的基因數(shù)量只有27000個(gè),蛋白的類型卻遠(yuǎn)遠(yuǎn)超出。導(dǎo)致這個(gè)現(xiàn)象的原因就是組合擴(kuò)增,即不同水平的DNA序列和RNA序列的組合可以產(chǎn)生很多中可能性。另外,蛋白質(zhì)還會(huì)發(fā)生翻譯后的修飾,也會(huì)導(dǎo)致種類的增多。

DNA層面的組合策略

人類T細(xì)胞受體基因家族有45個(gè)功能變量區(qū)段V,2個(gè)功能多樣區(qū)段D,11個(gè)功能連接區(qū)段J,2個(gè)恒定區(qū)段C,理論上,他們隨機(jī)組合可以產(chǎn)生45*2*11=990種DNA。這樣有重要的生物學(xué)意義,T細(xì)胞受體蛋白是與外源蛋白——抗原結(jié)合的部分,通過多種不同的組合,才可以產(chǎn)生能與抗原結(jié)合更好的受體,增強(qiáng)機(jī)體免疫力。

RNA層面的組合策略

一種是可變剪接,另一種是采用同一個(gè)基因的不同啟動(dòng)子來轉(zhuǎn)錄。

這是人類軸突蛋白,由三個(gè)基因組成,每個(gè)基因有兩個(gè)啟動(dòng)子,和5個(gè)可發(fā)生可變剪接的區(qū)域。藍(lán)色框代表了發(fā)生可變剪接的外顯子,數(shù)字表示了外顯子。這樣,總共能產(chǎn)生2000多個(gè)不同的mRNA。這些不同的mRNA在不同的組織和發(fā)育時(shí)期發(fā)生變化,預(yù)示著重要的作用。

蛋白翻譯后修飾

人類蛋白可以被超過400種化學(xué)反應(yīng)修飾來改變其功能,例如蛋白質(zhì)剪切和磷酸化。因此,一個(gè)人類的細(xì)胞一般含有50000個(gè)不同的mRNA,但是會(huì)有大概一百萬個(gè)不同的蛋白質(zhì)。

酶切可以移除甲基團(tuán),切割成多個(gè)小肽,亦可以切割片段。

通過絲氨酸磷酸化,蘇氨酸糖基化,甘氨酸脂化,賴氨酸泛素化,添加相應(yīng)基團(tuán)來改變蛋白的結(jié)構(gòu)活性和在細(xì)胞種的位置。

3. 生物信息學(xué)

用二進(jìn)制數(shù)值00,01,10,11分別代表ACGT,用計(jì)算機(jī)來儲存和處理遺傳信息。

1982年,NIH(national institutes of health),建立了GenBank,到目前為止仍然是使用最多的在線序列數(shù)據(jù)庫。到2016年,已經(jīng)包含300,000,000,000的注釋完成的核酸序列。人們只要能夠上網(wǎng),就能獲取這些數(shù)據(jù)。

  • 生物信息學(xué)使基因組可視化,并提供了分析的工具。

物種的參考序列(Refseq)

Refseq:是一個(gè)物種唯一的,完全的,帶有注釋的基因組。它由NCBI來保持。該基因組不必來源于單一個(gè)體,也不需要含有該物種的多個(gè)成員的遺傳變體,但具有強(qiáng)制性,并且是被很好的識別出來的一個(gè)范例,這樣才能使該物種中新檢測出的序列可以與之比對。
NCBI,建于1988年,監(jiān)管GenBank和其他生物信息數(shù)據(jù)庫,并開發(fā)相應(yīng)的生信工具來分析和傳播這些信息。

使基因和基因組可視化

UCSC Genome Browser (UCSC Genome Browser Home) 使RefSeq可視化,展示其注釋,外顯子,內(nèi)含子,編碼蛋白區(qū)域等特征。

用BLAST尋找同源序列

BLAST (Basic Local Alignment Search Tool),使NCBI開發(fā)的一個(gè)程序

用BLAST,來發(fā)現(xiàn)人類中與果蠅某蛋白同源的蛋白。+代表氨基酸具有相似的化學(xué)特性。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
科學(xué)網(wǎng)
一步一步教你使用NCBI(挺不錯(cuò)的,推薦)
8大測序技術(shù)長文解讀 | 測序前不得不知道的''秘密''
轉(zhuǎn)錄組測序問題集錦
載體原件
在DNA序列中從來不表達(dá)的基因在做什么?
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服