編碼區(qū):不連續(xù)的基因結(jié)構(gòu),包含外顯子和內(nèi)含子,它們交替出現(xiàn)。CDS序列以ATG開始,起始密碼子只有這一個,并且在外顯子中。
(1)外顯子:編碼區(qū)中不連續(xù)的具有蛋白編碼功能的DNA序列。第一個外顯子的頭部是蛋白翻譯的起始密碼子;最后一個外顯子的尾部是終止密碼子。
(2)內(nèi)含子:編碼區(qū)中外顯子之間間隔的非編碼序列。
外顯子與內(nèi)含子的鄰接部位是一段高度保守的序列:外顯子尾巴與下一個內(nèi)含子的頭部多數(shù)是GT,內(nèi)含子的尾巴與下一個外顯子的頭部多數(shù)是AG,可以簡單記做GT-AG法則,作為RNA剪切的識別信號。
DNA→ pre-mRNA(mRNA前體)→ mRNA,其中pre-mRNA中包括了外顯子和內(nèi)含子,成熟的mRNA只剩外顯子。
(3)開放閱讀框(ORF):從DNA的起始密碼子(ATG)到終止密碼子(TAA、TGA、TAG)的堿基序列,且不包含終止密碼子。
非編碼區(qū):又叫側(cè)翼序列(flank),是編碼區(qū)第一個外顯子和最后一個外顯子之間以外的區(qū)域,這個區(qū)域中包含了啟動子、終止子、增強子等調(diào)控元件。一個基因中有外顯子和內(nèi)含子,但是基因和基因也不是連續(xù)的,它們之間的區(qū)域就不是內(nèi)含子了,而是叫做基因區(qū)間,同樣屬于非編碼序列。
(1)上游側(cè)翼:第一個外顯子以外的序列,包含啟動子區(qū)域。
啟動子(promoter):與RNA聚合酶特異性結(jié)合。啟動子雖然感覺和起始相關(guān),但是它既不屬于外顯子也不屬于內(nèi)含子,它是非編碼區(qū)序列
TATA 框:第一個外顯子的5'轉(zhuǎn)錄起始位點(TSS)上游大約20-30個堿基的位置,是TATA box,包含的堿基位置是TATAATAAT,保證RNA聚合酶可以準(zhǔn)確識別轉(zhuǎn)錄起始位點并開始轉(zhuǎn)錄過程。總而言之,它影響轉(zhuǎn)錄起始。
CAAT 框:第一個外顯子的5'轉(zhuǎn)錄起始位點上游大約70-80個堿基的位置,是CAAT box,包含的堿基位置是GGCTCAATCT,它是另一個RNA聚合酶的結(jié)合位點,它不影響轉(zhuǎn)錄起始,但可以控制轉(zhuǎn)錄起始頻率。另外CAAT box兩側(cè)是GC box,包含的堿基是GGCGGG,起到轉(zhuǎn)錄調(diào)節(jié)、激活轉(zhuǎn)錄的功能。
增強子:一般位于TSS上游大約100個堿基以外,具有增強轉(zhuǎn)錄的作用,但是不用于啟動基因轉(zhuǎn)錄。
沉默子:抑制DNA的轉(zhuǎn)錄過程,從而抑制翻譯,最常見是位于啟動子上游。有時也會出現(xiàn)在啟動子下游、基因本身內(nèi)含子或外顯子上;另外在下游側(cè)翼的3'非翻譯區(qū)也發(fā)現(xiàn)了沉默子。
(2)下游側(cè)翼:最后一個外顯子以外的序列,包含終止子序列。
首先在最后一個外顯子的終止密碼子下游有一個AATAAA序列,這個序列主要參與mRNA 的
多聚腺苷酸化過程。多聚腺苷酸化就是得到polyA尾巴之前,mRNA的3'端會水解掉10-15個堿基。這個序列的作用就是作為RNA裂解的信號,指導(dǎo)核酸內(nèi)切酶在此信號下游10~15堿基處裂解 mRNA。之后就是聚合酶作用使得3'端加上polyA變成成熟mRNA。
AATAAA序列再往下到轉(zhuǎn)錄終止位點(TTS)之前,是一個反向重復(fù)序列(7-20個堿基對),轉(zhuǎn)錄后形成一個發(fā)卡結(jié)構(gòu),可以阻礙RNA聚合酶移動,終止轉(zhuǎn)錄。
注意:起始密碼子和終止密碼子都在外顯子上,位于編碼區(qū);但是,轉(zhuǎn)錄起始位點TSS和轉(zhuǎn)錄終止位點TTS都在非編碼區(qū),TSS在啟動子區(qū)下游&起始密碼子上游,TTS在終止子區(qū)下游&終止密碼子下游。
(1) pre-mRNA → mature mRNA:pre-mRNA(前體mRNA)就是從轉(zhuǎn)錄起始位點TSS到終止位點TTS,還需要進行內(nèi)含子剪切,5'加帽子結(jié)構(gòu),3'加PolyA修飾,才可以形成成熟mRNA。
(2)mature mRNA:包括編碼區(qū)、5'UTR、3'UTR、5'帽子結(jié)構(gòu)、3'polyA尾。
UTR:mRNA兩端的非編碼序列。UTR在DNA序列中算是外顯子exon的部分。
5'UTR:上游非編碼區(qū),位于5'帽子與起始密碼子(AUG)之間
3'UTR:下游非編碼區(qū),位于編碼區(qū)末端的終止密碼子到3’尾巴之間
5'帽子:作用就是幫助mRNA跨過核膜,進入胞質(zhì),并且此過程中保護5'不被降解;翻譯時保證IFiii和核糖體識別。
3’poly-A尾巴:作用也是幫助mRNA跨過核膜,進入胞質(zhì),并且增加了mRNA在胞質(zhì)中存在的穩(wěn)定性。因為mRNA的降解過程是隨著時間延長,A尾逐漸變短。
單順反子mRNA:只編碼一個蛋白的mRNA。
多順反子mRNA:編碼多個蛋白。
真核生物:
下面先從真核生物開始,小編在網(wǎng)上找了個圖片,希望原作者不要見怪。
圖片
圖片
大多數(shù)真核基因都是由蛋白質(zhì)編碼序列和非蛋白質(zhì)編碼序列兩部分組成的?;蛑械木幋a序列稱為外顯子(exon),而基因中的非編碼序列稱為內(nèi)含子(intron)。在一個結(jié)構(gòu)基因中,編碼某一蛋白質(zhì)不同區(qū)域的各個外顯子并不是連續(xù)地排列在一起的,而是常常被長度不同的內(nèi)含子所隔離,形成鑲嵌排列的斷裂方式。
我們常說的“基因”嚴(yán)格來講是指:負載特定生物遺傳信息,能夠產(chǎn)生一條多肽鏈或功能RNA所必需的DNA分子片段,不但包括編碼區(qū),還包括5'-端和3'-端兩側(cè)特異性序列,雖然這些序列不編碼氨基酸,但在基因表達的過程中起著重要的作用。
1. mRNA:
大家平時接觸較多的轉(zhuǎn)錄組測得是mRNA,并不是嚴(yán)格意義上的基因,而是基因信息的載體,稱作Messenger RNA (mRNA)--信使核糖核酸,如下如所示:
圖片
圖片
真核生物mRNA一般由5′端帽子結(jié)構(gòu)、5′端UTR區(qū)、編碼區(qū)、3′端UTR區(qū)和3′端聚腺苷酸尾巴構(gòu)成,真核生物mRNA通常都有相應(yīng)的前體。從DNA轉(zhuǎn)錄產(chǎn)生的原始轉(zhuǎn)錄產(chǎn)物可稱作 原始前體(或mRNA前體)。一般認(rèn)為原始前體要經(jīng)過hnRNA核不均-RNA的階段,最終才被加工為成熟的mRNA。所以,生物汪嘴里經(jīng)常說的什么啟動子、增強子、沉默子、順式作用元件等都是DNA序列上的結(jié)構(gòu)概念,mRNA里面是不包含的!
2. cDNA:
cDNA是以mRNA為模板,在適當(dāng)引物的存在下,由mRNA經(jīng)過反轉(zhuǎn)錄而得到的DNA,是mRNA鏈互補的DNA鏈,其內(nèi)部已無內(nèi)含子等結(jié)構(gòu),值得說明的是,目前火熱的二代測序均是先將RNA反轉(zhuǎn)錄組成cDNA再進行測序的。
3. CDS與ORF:
這是一個經(jīng)常被人混淆的兩個概念;
4. 單拷貝基因與基因家族
單拷貝基因指在基因組中只出現(xiàn)一次,多是編碼蛋白質(zhì)的基因,真核生物中有25%~50%的基因是以單個基因存在的,而其余編碼蛋白質(zhì)的基因以基因家族形式存在;基因家族是來源于同一個祖先,由一個基因通過基因重復(fù)而產(chǎn)生兩個或更多的拷貝而構(gòu)成的一組基因,它們在結(jié)構(gòu)和功能上具有明顯的相似性,編碼相似的蛋白質(zhì)產(chǎn)物。
5. 假基因
假基因也叫偽基因,他是基因家族在進化過程中形成的無功能的殘留物。它與正?;蛳嗨?,但喪失正常功能的DNA序列,往往存在于真核生物的多基因家族中,一般情況都不被轉(zhuǎn)錄,且沒有明確生理意義。
原核生物:
原核基因組結(jié)構(gòu)較真核生物要簡單很多,一般只有一個環(huán)狀的DNA分子,基因組中無內(nèi)含子,少有的重復(fù)序列,多為單拷貝基因。
原核生物( 包括病毒) 的mRNA 多是多順反子,即可以有幾個基因同時被轉(zhuǎn)錄成一個mRNA,共同使用一個啟動調(diào)控區(qū),而真核生物多是單順反子,即一次只轉(zhuǎn)錄出一個基因;原核生物mRNA與真核不同,無5′端帽子結(jié)構(gòu)和3′端聚腺苷酸尾巴。
參考:
CDS區(qū)與exon的關(guān)系
CDS是編碼一段蛋白產(chǎn)物的序列。
外顯子(expressed region)是真核生物的一部分,它在剪接(Splicing)后仍會被保存下來,并可在蛋白質(zhì)生物合成過程中被表達為蛋白質(zhì)。外顯子是最后出現(xiàn)在成熟RNA中的基因序列,又稱表達序列。
關(guān)系圖