核酸:一種通常位于細(xì)胞核內(nèi)的大型生物分子,主要負(fù)責(zé)生物體遺傳信息的攜帶和傳遞。核酸有兩大類,分別是脫氧核糖核酸(DNA)和核糖核酸(RNA)。核酸的單體結(jié)構(gòu)為核苷酸。每一個(gè)核苷酸分子由三部分組成:一個(gè)五碳糖、一個(gè)含氮堿基(A,T,C,G,U)和一個(gè)磷酸基。如果五碳糖是脫氧核糖則為脫氧核糖核苷酸,此單體之聚合物是DNA。如果其五碳糖是核糖則為核糖核苷酸,此單體之聚合物是RNA。
基因(gene):是指一段能夠編碼基因產(chǎn)物(RNA或蛋白質(zhì))的核苷酸序列(ATCG)。能編碼出蛋白質(zhì)的是編碼基因,能編碼出RNA的是非編碼基因。弄清其序列本身的過程叫基因測(cè)序。基因產(chǎn)物可以是蛋白質(zhì)(蛋白質(zhì)編碼基因)及RNA,從而控制生物個(gè)體的性狀(差異)表現(xiàn)。在一個(gè)個(gè)體當(dāng)中所有的基因總和叫基因組。在一個(gè)物種中所有等位基因的總合叫基因庫(kù)。在大多數(shù)真核生物中,基因分為細(xì)胞核基因及線粒體基因,綠色植物的葉綠體也含有獨(dú)立于細(xì)胞核的葉綠體基因組。
在某一細(xì)胞類型當(dāng)中所有被表達(dá)的基因叫轉(zhuǎn)錄組,所有編碼蛋白質(zhì)的基因叫蛋白質(zhì)組。
管家基因:在生物體生命的全過程都是必須的,且在一個(gè)生物個(gè)體的幾乎所有細(xì)胞中持續(xù)表達(dá)的基因。
C值悖論:物種的基因組大小與遺傳復(fù)雜性并不是線性關(guān)系,與進(jìn)化的復(fù)雜性也并不一致。
DNA:是一種生物大分子,由四種脫氧核苷酸分子按照一定數(shù)目和順序組合而成,是一條長(zhǎng)鏈分子?;騽t是DNA分子上具有遺傳效應(yīng)的DNA片段(一般來(lái)說(shuō))。一個(gè)DNA分子上有很多個(gè)基因。
DNA復(fù)制:以DNA為模板,在DNA聚合酶的催化作用下,將四種游離的dNTP(ATCG)按照堿基互補(bǔ)配對(duì)原則合成新鏈DNA,DNA復(fù)制:模板為雙鏈DNA,合成的新鏈與模板鏈一模一樣,原料為四種dNTP,為半保留復(fù)制。
脫氧核苷酸是DNA的基本組成單位,基因是DNA上有遺傳效應(yīng)的DNA片段,DNA是染色體上的存在物?;蚴侵本€排列在染色體上。
基因是具有遺傳效應(yīng)的DNA片段,存在于DNA上,真核生物的DNA存在于染色體上,基因是構(gòu)成染色體的最小單位,染色體只能存在于真核生物的細(xì)胞核中?;虼嬖谟诩?xì)胞核和細(xì)胞質(zhì)中,也存在于真核生物和原核生物中,真核生物的DNA存在于細(xì)胞核、葉綠體和線粒體中。
染色質(zhì):由組蛋白和 DNA 組成,147 個(gè)堿基對(duì)的 DNA 纏繞在 8 個(gè)核心組蛋白周圍,形成基本染色質(zhì)單元,即核小體。
染色質(zhì)的功能是將 DNA 高效包裝成小體積,以適合進(jìn)入細(xì)胞的細(xì)胞核,保護(hù) DNA 結(jié)構(gòu)和序列。將 DNA 包裝到染色質(zhì)中可確保有絲分裂和減數(shù)分裂,防止染色體斷裂,并控制基因表達(dá)和 DNA 復(fù)制。
DNA 纏繞在組蛋白周圍,形成核小體;核小體再結(jié)合成染色質(zhì)纖維。1)未包裝的 DNA。2)DNA 纏繞組蛋白八聚體,形成核小體。3)核小體壓縮成染色質(zhì)纖維。
端粒(Telomere):存在于真核細(xì)胞線狀染色體末端的一小段DNA-蛋白質(zhì)復(fù)合體,作用是保持染色體的完整性和控制細(xì)胞分裂周期。端粒、著絲粒和復(fù)制原點(diǎn)是染色體保持完整和穩(wěn)定的三大要素。端粒學(xué)說(shuō):處于染色體末端的端粒會(huì)隨著細(xì)胞的分裂復(fù)制不斷縮短,直至臨界長(zhǎng)度,此時(shí)細(xì)胞失去活性而死亡,因此端粒的縮短意味著細(xì)胞的衰老。
著絲粒:又稱中節(jié), 染色質(zhì)的結(jié)構(gòu),將染色體分成分為短臂(p)和長(zhǎng)臂(q),主要作用是使復(fù)制的染色體在有絲分裂和減數(shù)分裂中可均等地分配到子細(xì)胞中。由高度重復(fù)的異染色質(zhì)組成,其主要成分為DNA和蛋白質(zhì)。
在很多高等真核生物中,著絲粒看起來(lái)像是在染色體一個(gè)點(diǎn)上的濃縮區(qū)域,這個(gè)區(qū)域包含著絲點(diǎn),又稱主縊痕。著絲粒和動(dòng)粒是存在于主縊痕的兩個(gè)特殊結(jié)構(gòu)。中期染色體的兩條姐妹染色單體的連接處,有一向內(nèi)凹陷、著色較淺的縊痕,稱為主縊痕(初級(jí)縊痕primary constriction)。
隨體(satellite):位于染色體末端的、圓形或圓柱形的染色體片段, 通過 次縊痕 與染色體主要部分相連,主要由異染色質(zhì)組成,含高度重復(fù)的DNA序列,不具有常染色質(zhì)的功能活性。
基因組:細(xì)胞或生物體的一套完整單倍體的遺傳物質(zhì)總和。
單倍體:物種的細(xì)胞中只有一套染色體的為單倍體。(例:人的精子和未受精的卵子中都只有一套23條染色體,精子細(xì)胞和未受精的卵子細(xì)胞為單倍體)
雙倍體:物種的細(xì)胞中有兩套染色體的為雙倍體。(例:人的體細(xì)胞有23對(duì)共46條染色體,每23條為一套,人的體細(xì)胞為雙倍體)
多倍體:細(xì)胞中有n套染色體的為多倍體(n大于或等于3)。
同源染色體:
國(guó)外教材:真核生物體細(xì)胞中成對(duì)存在的染色體稱為同源染色體。一對(duì)同源染色體上有控制同一性狀的基因,這些基因的排列順序相同,等位基因之間具有相似的序列,所以一對(duì)同源染色體彼此具有高度相似的序列,但不一定完全相同。
國(guó)內(nèi)教材:同源染色體在二倍體生物細(xì)胞中,形態(tài)、結(jié)構(gòu)基本相同,在減數(shù)第一次分裂的四分體時(shí)期中彼此聯(lián)會(huì)(若是三倍體及其他奇數(shù)倍體生物細(xì)胞,聯(lián)會(huì)時(shí)會(huì)發(fā)生紊亂),在這一對(duì)染色體其中的一條來(lái)自母方,另一條來(lái)自父方。
染色體組:一組非同源染色體,攜帶著控制生物體生長(zhǎng),發(fā)育,遺傳和變異的一套信息。
交叉互換:在四分體時(shí)期,非姐妹染色單體之間發(fā)生交叉互換,導(dǎo)致基因重組。
區(qū)分同源染色體與姐妹染色單體:姐妹染色單體是由一個(gè)著絲點(diǎn)連著的兩條染色單體,是在細(xì)胞分裂的間期由同一條染色體經(jīng)復(fù)制后形成的,兩條染色單體的DNA序列完全一致。它們形狀大小,DNA序列完全相同(不考慮復(fù)制出差錯(cuò)),但并非一條來(lái)自父方、一條來(lái)自母方,所以姐妹染色單體不是同源染色體。同源染色體的兩條單體的DNA序列不相同,并且分別來(lái)源于父母體。
等位基因:在真核生物中,染色體在體細(xì)胞中是成對(duì)存在的。每條染色體上都帶有一定數(shù)量的基因。等位基因(allele),是指位于一對(duì)同源染色體相同位置上控制同一性狀不同形態(tài)的基因。等位基因依所攜帶性狀的表現(xiàn),又可分為顯性基因A和隱性基因a。每個(gè)個(gè)體分別遺傳自父方和母方的等位基因的不同,兩等位基因 A 和 a 四種組合方式,決定表現(xiàn)出來(lái)的性狀也就不同,所以生物與生物之間長(zhǎng)得就有一樣之處也有不一樣之處。
基因表達(dá):生物基因組中結(jié)構(gòu)基因所攜帶的遺傳信息經(jīng)過轉(zhuǎn)錄、翻譯等一系列過程,合成特定的蛋白質(zhì),進(jìn)而發(fā)揮其特定生物學(xué)功能和生物學(xué)效應(yīng)的全過程。說(shuō)白了基因表達(dá)就是轉(zhuǎn)錄,翻譯。
轉(zhuǎn)錄:遺傳信息從DNA流向RNA的過程。即以雙鏈DNA中的確定的模板鏈(模板鏈用于轉(zhuǎn)錄,編碼鏈不用于轉(zhuǎn)錄)為模板,以A,U,C,G四種核糖核苷酸為原料,在RNA聚合酶催化下合成RNA的過程。合成的新鏈除了把DNA上的T改為U外,其他與編碼鏈一樣。生成的mRNA攜有的密碼子,進(jìn)入核糖體后實(shí)現(xiàn)蛋白質(zhì)的合成。
翻譯:以mRNA為模板,在核糖體內(nèi)合成蛋白質(zhì)。原料為20種游離的氨基酸,3個(gè)堿基決定一個(gè)氨基酸。將成熟的mRNA分子(由DNA通過轉(zhuǎn)錄而生成)中“堿基的排列順序” 解碼,生成對(duì)應(yīng)的特定氨基酸序列的過程。但轉(zhuǎn)錄生成的非編碼RNA,如長(zhǎng)鏈非編碼RNA(lncRNA)、轉(zhuǎn)運(yùn)RNA(tRNA)、核糖體RNA(rRNA)和小核RNA(snRNA)等并不被翻譯為氨基酸序列。
翻譯過程需要的原料:mRNA、tRNA、20種氨基酸、能量、酶、核糖體。翻譯的過程大致可分作三個(gè)階段:起始、延長(zhǎng)、終止。
翻譯主要在細(xì)胞質(zhì)內(nèi)的核糖體中進(jìn)行,氨基酸分子在氨基酰-tRNA合成酶的催化作用下與特定的轉(zhuǎn)運(yùn)RNA(tRNA)結(jié)合并被帶到核糖體上。生成的多肽鏈(即氨基酸鏈)需要通過正確折疊形成蛋白質(zhì),許多蛋白質(zhì)在翻譯結(jié)束后還需要在內(nèi)質(zhì)網(wǎng)上進(jìn)行翻譯后修飾才能具有真正的生物學(xué)活性。
mRNA:messengerRNA,信使RNA是由DNA經(jīng)hnRNA剪接而成,攜帶遺傳信息的能指導(dǎo)蛋白合成的一類單鏈核糖核酸。
反義RNA:堿基序列正好與有意義的 mRNA 互補(bǔ)的 RNA。
轉(zhuǎn)錄組:一般是指從細(xì)胞或組織的基因組所轉(zhuǎn)錄出來(lái)的RNA的總和,包括編碼蛋白質(zhì)的mRNA和各種非編碼RNA (rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等)
轉(zhuǎn)錄本:是指由一條基因通過轉(zhuǎn)錄,由于可變剪切形成的一種或多種可供編碼蛋白質(zhì)的成熟mRNA(狹義)
非編碼RNA(Non-coding RNA)如lncRNA也有轉(zhuǎn)錄本的說(shuō)法
可變剪切(Alternative splicing):一條未經(jīng)剪接的前體hnRNA,要將非編碼蛋白質(zhì)的內(nèi)含子(intron)切除,同一基因中的很多個(gè)外顯子以不同形式進(jìn)行隨機(jī)組合(在剪切的過程中是有可能剪切掉一些外顯子的),使一個(gè)基因在不同時(shí)間、不同環(huán)境中能夠制造出不同的蛋白質(zhì),增加生理狀況下系統(tǒng)的復(fù)雜性或適應(yīng)性。這個(gè)過程有多種多樣的剪切和拼接方式(選擇不同的剪接位點(diǎn)),從而產(chǎn)生不同的剪切異構(gòu)體(isoform)。
最長(zhǎng)轉(zhuǎn)錄本:由于可變剪切一個(gè)基因得到好多個(gè)序列長(zhǎng)度不同的轉(zhuǎn)錄本,應(yīng)該挑選出序列最長(zhǎng)的最長(zhǎng)轉(zhuǎn)錄本作為數(shù)據(jù)的分析
lncRNA:和mRNA一樣,是由對(duì)應(yīng)的基因轉(zhuǎn)錄而成,通過剪接形成成熟體的lncRNA,具有5'帽子和poly尾巴(有些會(huì)沒有)。同一基因可以形成不同的轉(zhuǎn)錄本的lncRNA。在lncRNA所對(duì)應(yīng)的的DNA序列上,包含內(nèi)含子和外顯子,轉(zhuǎn)錄之后的轉(zhuǎn)錄本,經(jīng)過剪接等作用,外顯子,內(nèi)含子拼接到一起成為一個(gè)成熟的lncRNA(lncRNA對(duì)應(yīng)的轉(zhuǎn)錄本剪切會(huì)保留內(nèi)含子)。但是它因?yàn)槿狈勺R(shí)別的閱讀框,所以不表達(dá)蛋白。
基因DNA分為編碼區(qū)和非編碼區(qū),編碼區(qū)包含外顯子和內(nèi)含子,非編碼區(qū)包括前導(dǎo)區(qū)(5'UTR)、尾部區(qū)(3'UTR)、調(diào)控區(qū),調(diào)控區(qū)又包括啟動(dòng)子、增強(qiáng)子、終止子等。真核生物非編碼區(qū)位于編碼區(qū)的上游和下游,故又稱側(cè)翼序列。編碼區(qū)則轉(zhuǎn)錄為mRNA并最終翻譯成蛋白質(zhì)。真核生物的基因含有外顯子和內(nèi)含子,是前者區(qū)別原核生物的特征之一。
基因轉(zhuǎn)錄之后,首先是形成前體mRNA(或pre-mRNA),通過剪切內(nèi)含子連接外顯子,5’端加帽及3’端加尾之后形成成熟的mRNA。真正編碼蛋白質(zhì)的是外顯子,內(nèi)含子無(wú)編碼功能。內(nèi)含子存在于DNA中,在轉(zhuǎn)錄的過程中,DNA上的內(nèi)含子也會(huì)被轉(zhuǎn)錄到前體RNA中,但前體RNA上的內(nèi)含子會(huì)在RNA離開細(xì)胞核進(jìn)行翻譯前被切除。
內(nèi)含子和外顯子的概念都是針對(duì)DNA序列而不是RNA序列的。內(nèi)含子和外顯子的分界線在于:GU-AG法則。即每個(gè)內(nèi)含子的開始兩個(gè)堿基都是GU(或GT),最后兩個(gè)是AG。
基因經(jīng)過轉(zhuǎn)錄形成Pre mRNA,這里面包含著內(nèi)含子和外顯子(5端是以外顯子打頭,但是這段外顯子不僅包含CDS,還包含5' UTR;3端是以外顯子結(jié)束,但是這段外顯子不僅包含CDS,還包含3' UTR),經(jīng)過剪接形成成熟mRNA,內(nèi)含子已減掉,如果拋開后來(lái)加上去的cap和poly A的話,這時(shí)全是外顯子,但是不全是CDS,因?yàn)橹挥兄虚g的那部分以起始密碼子AUG開始、以終止密碼子結(jié)束的片段才是CDS,只有這部分才會(huì)被翻譯成蛋白質(zhì)。
一個(gè)外顯子經(jīng)常編碼蛋白的一個(gè)蛋白質(zhì)結(jié)構(gòu)域。蛋白質(zhì)結(jié)構(gòu)域(protein domain)是蛋白質(zhì)中的一類結(jié)構(gòu)單元,是構(gòu)成蛋白質(zhì)(三級(jí))結(jié)構(gòu)的基本單元。
CDS Sequence :蛋白質(zhì)編碼區(qū) coding for amino acids in protein ,是編碼一段蛋白產(chǎn)物的序列,是結(jié)構(gòu)基因組學(xué)術(shù)語(yǔ)。它就是與蛋白序列一一對(duì)應(yīng)的DNA序列,并且序列中間不存在其他與蛋白無(wú)關(guān)的序列,即:
CDS沒有任何內(nèi)含子,5'UTR,3'UTR
ORF 開放閱讀框:Open Reading Frame。是從一個(gè)起始密碼子開始到一個(gè)終止密碼子結(jié)束的一段序列,它是理論上的蛋白編碼區(qū),一般是先在DNA序列中尋找起始密碼子(AUG)對(duì)應(yīng)的序列ATG,然后按每3個(gè)堿基一組(密碼子以三個(gè)堿基為一單位)向后延伸,一直到出現(xiàn)終止密碼子(UAG、UGA、UAA)對(duì)應(yīng)的序列。
由于密碼子讀寫起始位點(diǎn)的不同,mRNA序列可能按六種ORF閱讀和翻譯(每條鏈三種,對(duì)應(yīng)三種不同的起始位點(diǎn))。在6種潛在ORF中,一般選擇中間沒有被終止密碼子隔開的最大的閱讀框?yàn)檎_結(jié)果。(可能不好懂,舉個(gè)例子)
CDS與開放閱讀框ORF的區(qū)別:CDS可以是開放閱讀框(ORF)的子集。
密碼子(codon)是指 mRNA 分子中每相鄰的三個(gè)核苷酸編成一組,在蛋白質(zhì)合成時(shí),代表某一種氨基酸的規(guī)律。
信使RNA在細(xì)胞中能決定蛋白質(zhì)分子中的氨基酸種類和排列次序。mRNA分子中的四種核苷酸(堿基)的序列(AUCG)能決定蛋白質(zhì)分子中的20種氨基酸的序列。而在信使RNA分子上的三個(gè)堿基能決定一個(gè)氨基酸。
密碼子的簡(jiǎn)并性:分子生物學(xué)中,同一種氨基酸具有兩個(gè)或更多個(gè)密碼子的現(xiàn)象稱為密碼子的簡(jiǎn)并性(degeneracy)。對(duì)應(yīng)于同一種氨基酸的不同密碼子稱為同義密碼子(synonymous codon),只有色氨酸與甲硫氨酸僅有1個(gè)密碼子。
起始密碼子和終止密碼子都是mRNA上的三聯(lián)體堿基序列,分別決定翻譯的起始和終止。
起始密碼子 start codon:指定 mRNA 上開始合成蛋白質(zhì)的密碼子,也是第一個(gè)被核糖體翻譯的mRNA上的密碼子,位于編碼區(qū)內(nèi),緊鄰5′UTR。較為常見的起始密碼子是AUG。
起始密碼子 start codon 和起始子 Initiator 不是一個(gè)概念。真核生物中蛋白質(zhì)編碼基因的核心啟動(dòng)子元件有4類:傳統(tǒng)的TATA盒、上游核心啟動(dòng)子元件BRE、下游啟動(dòng)子元件DPE和起始子(initiator,Inr)。Initiator元件指的是一段富含嘧啶的序列——PyPyA 1NT/ApyPy,轉(zhuǎn)錄起始位點(diǎn)位于其中的 1位。
終止密碼子 stop codon:終止肽鏈合成的信使核糖核酸(mRNA)的三聯(lián)體堿基序列,UAA、UAG和UGA,它們不編碼氨基酸。
UTR Untranslated Regions 非翻譯區(qū),代表Exon的非蛋白質(zhì)編碼部分,是 mRNA 分子兩端的非蛋白編碼片段
5'-UTR從mRNA起點(diǎn)的 甲基化鳥嘌呤核苷酸帽 延伸至 AUG起始密碼子
3'-UTR從編碼區(qū)末端的 終止密碼子 延伸至 多聚A尾巴(Poly-A)的前端
下圖為DNA直接轉(zhuǎn)錄產(chǎn)物(hnRNA)不含非編碼區(qū)含有內(nèi)含子
genome.fasta 即基因組每條染色體/scanffold/contig的DNA序列(ATCG)
final.gene.longest.gff3 基因組 gff 注釋文件 一般基因的位置信息與mRNA位置信息相同,就只包括了5'UTR到3'UTR之間的區(qū)域(即只包括編碼區(qū)不包括非編碼區(qū)),注釋文件中也可能會(huì)有一些基因 5'UTR,3'UTR區(qū)域鑒定不出來(lái)沒有細(xì)寫
final.gene.longest.gff3.transcript.fa 即最長(zhǎng)轉(zhuǎn)錄本每條轉(zhuǎn)錄本對(duì)應(yīng)的每個(gè)基因的核苷酸序列 (ATCG)
final.gene.longest.gff3.cds.fa 即最長(zhǎng)轉(zhuǎn)錄本每條轉(zhuǎn)錄本對(duì)應(yīng)的編碼蛋白質(zhì)的核苷酸序列(ATCG)
final.gene.longest.gff3.pep.fa 即最長(zhǎng)轉(zhuǎn)錄本每條轉(zhuǎn)錄本的CDS序列翻譯出來(lái)的蛋白序列(氨基酸序列)(CLESRKVFVG等)
非編碼區(qū)(Non-coding region)是不能夠轉(zhuǎn)錄為相應(yīng)信使RNA,不能指導(dǎo)蛋白質(zhì)合成(也就是不能編碼蛋白質(zhì))的區(qū)段。非編碼區(qū)位于編碼區(qū)前后,同屬于一個(gè)基因,控制基因的表達(dá)和強(qiáng)弱。真核生物非編碼區(qū)位于編碼區(qū)的上游和下游,故又稱側(cè)翼序列。
順式作用元件(cis-regulatory elements):CREs, 能影響基因表達(dá),但不編碼RNA和蛋白質(zhì)的DNA序列。
按功能特性,真核基因順式作用元件分為啟動(dòng)子、增強(qiáng)子及沉默子。
反式作用因子:能識(shí)別和結(jié)合特定的順式作用元件,并影響基因轉(zhuǎn)錄的一類蛋白質(zhì)或RNA。
啟動(dòng)子:promoter,指一段能使特定基因進(jìn)行轉(zhuǎn)錄的DNA序列。啟動(dòng)子可以被RNA聚合酶辨認(rèn),并開始轉(zhuǎn)錄合成RNA。一般啟動(dòng)子位于5'UTR上游(編碼區(qū)上游),緊靠著轉(zhuǎn)錄起點(diǎn),引導(dǎo)RNA聚合酶與基因的正確部位結(jié)合,其本身不被轉(zhuǎn)錄,長(zhǎng)約100~1000堿基對(duì)(nt)。有一些啟動(dòng)子 (如tRNA啟動(dòng)子) 位于轉(zhuǎn)錄起始點(diǎn)的下游,這些DNA序列可以被轉(zhuǎn)錄。
增強(qiáng)子:enhancer,與反式作用因子結(jié)合,增強(qiáng)轉(zhuǎn)錄活性,在基因任意位置都有效,無(wú)方向性,遠(yuǎn)離轉(zhuǎn)錄起始位點(diǎn),可位于轉(zhuǎn)錄起始點(diǎn)的上游或下游。從功能上講,沒有增強(qiáng)子存在,啟動(dòng)子通常不能表現(xiàn)活性;沒有啟動(dòng)子時(shí),增強(qiáng)子也無(wú)法發(fā)揮作用。根據(jù)南京大學(xué)陳迪俊老師的研究表明增強(qiáng)子比啟動(dòng)子能結(jié)合更多的轉(zhuǎn)錄因子(Nature Communications)
沉默子:silencer,基因表達(dá)負(fù)調(diào)控元件,與反式作用因子結(jié)合,抑制轉(zhuǎn)錄活性。
如下圖,可以看到不同的調(diào)控序列:
1.轉(zhuǎn)錄起始位點(diǎn)(transcription start site,TSS )是指一個(gè)基因的5'端轉(zhuǎn)錄的第一個(gè)堿基(是指 5'UTR 頭的第一個(gè)堿基,不是尾),它是與新生RNA鏈第一個(gè)核苷酸相對(duì)應(yīng)DNA鏈上的堿基,通常為一個(gè)嘌呤(A或G)。在一個(gè)典型的基因內(nèi)部,排列順序?yàn)檗D(zhuǎn)錄起始位點(diǎn)(TSS,一個(gè)堿基)-起始密碼子編碼序列 (ATG)-終止密碼子編碼序列-轉(zhuǎn)錄終止位點(diǎn) (TTS),即TSS-ATG-TGA-TTS
通常把轉(zhuǎn)錄起始位點(diǎn)前即 5'末端(5'UTR 頭的末端,不是尾)的序列稱為上游,而把其后即 3'末端(3'UTR 尾的末端) 的序列稱為下游。
2.啟動(dòng)子(promoter):是指一段能使特定基因進(jìn)行轉(zhuǎn)錄的DNA序列。啟動(dòng)子可以被RNA聚合酶辨認(rèn),并開始轉(zhuǎn)錄合成RNA。在RNA合成中,啟動(dòng)子可以和調(diào)控基因轉(zhuǎn)錄的轉(zhuǎn)錄因子產(chǎn)生相互作用,控制基因表達(dá)(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度,包含核心啟動(dòng)子區(qū)域和調(diào)控區(qū)域,就像“開關(guān)”,決定基因的活動(dòng),繼而控制細(xì)胞開始生產(chǎn)哪一種蛋白質(zhì)。其核心部分是非編碼區(qū)上游的RNA聚合酶結(jié)合位點(diǎn),指揮聚合酶的合成,這種酶指導(dǎo)RNA的復(fù)制合成。
一般啟動(dòng)子位于5'UTR上游(編碼區(qū)上游),緊靠著轉(zhuǎn)錄起點(diǎn),引導(dǎo)RNA聚合酶與基因的正確部位結(jié)合,其本身不被轉(zhuǎn)錄,長(zhǎng)約100~1000堿基對(duì)(nt)。有一些啟動(dòng)子 (如tRNA啟動(dòng)子) 位于轉(zhuǎn)錄起始點(diǎn)的下游,這些DNA序列可以被轉(zhuǎn)錄。
強(qiáng)啟動(dòng)子(strong promoter):對(duì)RNA聚合酶有很高親和力的啟動(dòng)子,可以指導(dǎo)合成大量的mRNA。
真核生物體內(nèi)具有三種保守的RNA聚合酶(Pol I,II,和III),它們可以將核基因組轉(zhuǎn)錄成各種編碼和非編碼轉(zhuǎn)錄本(植物還使用另外兩種酶,Pol IV和Pol V來(lái)產(chǎn)生非編碼轉(zhuǎn)錄本如lncRNA)。Pol I,II,和III 三類聚合酶能夠識(shí)別不同的啟動(dòng)子,即啟動(dòng)子有三類。其中II類啟動(dòng)子由:傳統(tǒng)的TATA盒、上游核心啟動(dòng)子元件BRE、下游啟動(dòng)子元件DPE 和 起始子(initiator,Inr) 四部分組成,轉(zhuǎn)錄起始位點(diǎn)位于起始子內(nèi)。
終止子 terminator :位于編碼區(qū)下游,是轉(zhuǎn)錄過程中能夠終止RNA聚合酶轉(zhuǎn)錄的DNA序列。緊靠著轉(zhuǎn)錄的終點(diǎn)位置,阻礙RNA聚合酶的移動(dòng),并使其從DNA模板鏈上脫離下來(lái)。終止子可分為兩類:一類不依賴于蛋白質(zhì)輔因子就能實(shí)現(xiàn)終止作用。另一類則依賴蛋白輔因子才能實(shí)現(xiàn)終止作用。
基因非編碼區(qū)的堿基的插入、缺失和替代也屬于基因突變事件,盡管大多數(shù)的研究是局限在編碼區(qū)突變。
回文序列:是一段長(zhǎng)約7-20個(gè)核苷酸對(duì)的反向重復(fù)順序,也稱為終止信號(hào),是RNA聚合酶轉(zhuǎn)錄終止的信號(hào),位于AATAAA的下游,其對(duì)稱軸距轉(zhuǎn)錄終止點(diǎn)約16-24bp。因?yàn)榛匚男蛄械奶厥馀帕?,其大多都位于非編碼區(qū)。
轉(zhuǎn)錄因子(transcription factor):一群能與基因5'端上游特定序列專一性結(jié)合,從而保證目的基因以特定的強(qiáng)度在特定的時(shí)間與空間表達(dá)的蛋白質(zhì)分子,這些蛋白質(zhì)能調(diào)控其基因的轉(zhuǎn)錄。調(diào)控方法是轉(zhuǎn)錄因子可以調(diào)控核糖核酸聚合酶(RNA聚合酶,或叫RNA合成酶)與DNA模板的結(jié)合。 更詳細(xì)的轉(zhuǎn)錄因子介紹:https://cloud.tencent.com/developer/article/1376739
TF結(jié)合位點(diǎn) transcription factor binding site,TFBS:轉(zhuǎn)錄因子調(diào)節(jié)基因表達(dá)時(shí),與基因模板鏈結(jié)合的區(qū)域。一般應(yīng)該分布在基因前端(但:人21和22號(hào)染色體上,只有22%的轉(zhuǎn)錄因子結(jié)合位點(diǎn)分布在蛋白編碼基因的5'端)
三種基因是對(duì)基因的功能所作的區(qū)分,是以直線形式排列在染色體上:
1)原核生物結(jié)構(gòu)基因:連續(xù)的,RNA合成不需要剪接加工;
2)真核生物結(jié)構(gòu)基因:由外顯子(編碼序列) 和內(nèi)含子(非編碼序列) 兩部分組成。
調(diào)節(jié)基因:是調(diào)節(jié)蛋白質(zhì)合成的基因 。它能使結(jié)構(gòu)基因在需要某種酶時(shí)就合成某種酶,不需要時(shí),則停止合成,它對(duì)不同染色體上的結(jié)構(gòu)基因有調(diào)節(jié)作用。
操縱基因:位于結(jié)構(gòu)基因的一端,是操縱結(jié)構(gòu)基因的基因。當(dāng)操縱基因“開動(dòng)”時(shí),處于同一染色體上的,由它所控制的結(jié)構(gòu)基因就開始轉(zhuǎn)錄、翻譯和合成蛋白質(zhì)。當(dāng)“關(guān)閉”時(shí),結(jié)構(gòu)基因就停止轉(zhuǎn)錄與翻譯。操縱基因與一系列受它操縱的結(jié)構(gòu)基因合起來(lái)就形成一個(gè)操縱子。
在正常情況下,在需要某種或其有關(guān)的酶時(shí),在調(diào)節(jié)基因和操縱基因的控制下等候在啟動(dòng)子 (Promotor) 位置上的RNA聚合酶開始轉(zhuǎn)錄,從而產(chǎn)生了與這些酶有關(guān)的結(jié)構(gòu)基因的信使RNA,并由后者合成所需的酶。若結(jié)構(gòu)基因發(fā)生突變,便會(huì)產(chǎn)生失去活性的蛋白質(zhì),從而造成差錯(cuò)。
聲明:本篇多為資料整理總結(jié),僅用于自學(xué)記錄和交流,侵刪,謝謝。參考:
素錦時(shí)年_1b00 https://www.jianshu.com/p/df37d5f56bca
米妮愛分享 https://www.jianshu.com/p/65e2c2ad19a6
劉小澤 https://www.jianshu.com/p/2ba85c5306e7
Han_zh https://www.jianshu.com/p/91241c82ba5e
LeoinUSA https://www.jianshu.com/p/a56ba94eaf36
劉小澤 https://www.jieandze1314.com/post/cnposts/169/
叩響生信之門 https://mp.weixin.qq.com/s/Fs0wogah7G9u-lCZeo4tdw
https://www.abcam.cn/epigenetics/chromatin-structure-and-function-a-guide-2
Sc_RNA_seq https://www.jianshu.com/p/a2c0d5b0dbc1
聯(lián)系客服