前言
很多研究僧在詢問如何查詢基因序列、如何進行引物設計、如何使用BLAST 進行序列比對……,這些問題在 NCBI 上都可以方便的找到答案。
交流經(jīng)驗的時間到啦!
接下來本文將按以下幾個部分說一下 NCBI 的使用:
Part 1:如何查找基因序列、mRNA、Promoter
Part 2:如何查找連續(xù)的 mRNA、cDNA、蛋白序列
Part 3: 運用 STS 查找已經(jīng)公布的引物序列
Part 4:如何運用 BLAST進行序列比對、檢驗引物特異性
1、利用Map viewer 查找基因序列、mRNA 序列、啟動子(Promoter)
下面以人的 IL6(白細胞介素 6)為例講述一下具體的操作步驟
1. 打開Map viewer 頁面, 網(wǎng)址為: http://www.ncbi.nlm.nih.gov/mapview/index.html 在 search 的下拉菜單里選擇物種,for 后面填寫你的目的基因。操作完畢如圖所示:
2.點擊“GO”出現(xiàn)如下頁面:
3. 在步驟二圖示的右下角有一個Quick Filter,下面是讓你選擇的幾個復選框, 在Gene前面的小方框里打勾,然后點擊Filter. 出現(xiàn)下圖:
說明一下:1、染色體的紅色區(qū)域即為你的目的基因所處位置。2、下面參考序列給出了三個,是不同的部門做出來的,經(jīng)我驗證,序列有微小的差異,但總體來說基本相同。盡管你分別點擊后,序列代碼、序列代碼等有所差異,但堿基基本一致,不影響大家研究分析序列?,F(xiàn)在普遍采用的是最上面的那個序列,這一條是世界范圍的生物科學家用計算機合成的一個序列。我也推薦大家使用這個序列。
4.點擊上述三條序列第一條序列(即 reference)對應的'Genes seq',出現(xiàn)新的頁面,頁面下方為:
5.點擊上圖出現(xiàn)的“Download/View Sequence/Evidence ”,即下載查看序列等功能,結果如圖所示:
先對上面這張圖做點簡要的說明,在 Sequence Format(序列輸出格式)后面是一個下拉式選擇菜單,默認的為 FASTA 格式,還有一個是 GenBank 格式。我推薦大家選擇 GenBnak格式,因為這個格式提供了很多該基因的信息,而 FASTA格式只有基因序列。
6.在 Sequence Format 后選擇 GenBank,然后點擊下面的 Display,目的基因的相關信息和序列就出現(xiàn)在眼前了。點擊后如圖所示(網(wǎng)頁較大,只抓取一小部分以作示范) :
在上述打開的網(wǎng)頁中,你可以看到基因長度,基因序列,以及這個基因是如何被報道出來的等各種信息。 你會看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) 這代表了從基因的 3598位開始就是轉錄區(qū)了, 即我們常說的 mRNA 片斷, 由于內(nèi)含子的存在,所以 mRNA 在DNA 序列上分成了幾段。 CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970) CDS 代表編碼序列,即蛋白編碼區(qū)是從 3660 開始的(ATG) ,由于剪接作用所以 CDS 區(qū)也是不連續(xù)的。
說到這里,可能很多朋友都已經(jīng)明白了 promoter 即啟動子區(qū)域在哪里了。但我還是再嘮叨幾句:轉錄起始位點前面是基因的調(diào)控區(qū),啟動子區(qū)沒有明顯的位置定義,大家也只是猜測它的大體位置,如果你要研究 promoter 區(qū)的話,建議你選擇轉錄起始位點前的 2000個堿基進行研究,一般默認的是這樣。當然你如果覺得長度太長不好研究的話,也可以只研究-1000 到0這一千個堿基,因為一般情況下,啟動子區(qū)的變異都在這個區(qū)域內(nèi)。
這樣大家就可以找到自己的目的基因序列和啟動子了,這種方法可能使用的人不是很多,但我個人比較喜歡,因為它最大的優(yōu)點是可以找到啟動子區(qū)域和其他調(diào)控區(qū)域。希望大家可以發(fā)帖交流,讓我們把 NCBI 用的更好!
2、如何查找連續(xù)的mRNA、cDNA、蛋白序列(依然以人類的 IL6 為例)
1.進入NCBI 主頁:http://www.ncbi.nlm.nih.gov/ 在 search 后面選擇 Gene,在 for 后面填寫需要查找的基因的名字。如圖所示:
出現(xiàn)了很多基因序列,在每個序列的右邊還有“Order cDNA clone” 的鏈接,這些序列中有些序列是跟你的目的基因同名的,有些是別名(Other Aliases)與你的目的基因一致,根據(jù)每個序列的介紹認真選擇你的目的基因。上圖中我需要的 IL6 是標號為2的序列。
2.1 查找 cDNA 序列
2.1.1 點擊Order cDNA clone, 出現(xiàn)目的頁面如圖所示:
2.1.2 點擊Clone Sequence 后面的鏈接即可得到cDNA 序列。點擊后如圖所示(只抓取其中一部分)
2.2 查找 mRNA、蛋白序列
回到步驟 1 點擊“Go”之后出現(xiàn)的頁面,點擊目的基因的名字,出現(xiàn)以下頁面 (只抓取相關部分):
頁面的下半部分,即可以獲取 mRNA和蛋白序列的部分:
找到“NCBI Reference Sequences (RefSeq)”,它分為幾個板塊,第一個“mRNA and Protein ”區(qū)可以讓我們找到連續(xù)的編碼 mRNA 序列和蛋白序列。在 mRNA and Protein下面有兩個序列代碼(中間劃有一個箭頭) ,這代表了 mRNA序列和蛋白序列。分別點擊就可以得到相應的序列頁面。點擊后如圖所示,mRNA 序列:
NCBI Reference Sequences (RefSeq)的第二個板塊是 Reference assembly,它下面顯示的是 Genomic ,點擊 Genomic 下面Reference assembly 對應的 Genbank 或 FASTA 即可出現(xiàn)編碼的 DNA 序列(注意:只是編碼序列,其中包括內(nèi)含子,但一般沒有 5‘非編碼區(qū)) 。一步就不做貼圖演示了吧,
這樣我們就可以找到基因的 cDNA 序列、連續(xù)的編碼 mRNA 序列、蛋白序列以及含有內(nèi)含子的編碼DNA 序列了。相信這些操作對很多戰(zhàn)友還是有用的。
友情提示:在 NCBI 里打開的每一個頁面都會給我們提供大量的信息,大家不妨好好看看,可能會有令我們驚喜的收獲!
3、運用STS 查找已經(jīng)公布的引物序列
STS,序列標簽位點(Sequence Tagged Site):一段短的DNA 序列(200-500 個堿基對),這種序列在染色體上只出現(xiàn)一次,其位置和堿基順序都是已知的。在PCR 反應中可以檢測處STS 來,STS 適宜于作為人類基因組的一種地標,據(jù)此可以判定DNA 的方向和特定序列的相對位置。以上內(nèi)容基本是STS 的定義,要活學活用,下面就介紹一下用STS 數(shù)據(jù)庫查找引物的一點經(jīng)驗。
還是使用人的IL6 基因為例,
1. 打開 NCBI 主頁,在 Search 后面的下拉菜單選擇 UniSTS,在 FOR 后面填寫目的基因。
操作完畢如圖所示
點擊GO以后出現(xiàn)以下頁面
這是你會發(fā)現(xiàn) NCBI 又提供了很多序列,下面我們還是要初步篩選我們需要的序列。
2.根據(jù)物種、目的引物所在染色體的位置等選擇相應序列(可能不只一個) ,點擊。 下面以點擊第一個進入的畫面為例。
你會發(fā)現(xiàn)這個頁面直接就給出了引物序列,PCR之后的片段長度也是給了的(247bp) 。下面還有很多相關的信息……
3.點擊GeneBank Accession 后面的代碼,進入下一個頁面。
前后引物都呈現(xiàn)在眼前了,還有反應體系和反應條件!其中 Primer A 是前引物序列,Primer B 則是后引物序列,并且給出了他們在 DNA 序列中的位置。有興趣的朋友可以在序列中找一下,是可以找到的, 不過要注意,PCR 是雙鏈擴增,在序列中可以直接找到的是 Primer A 的原序列 和 Primer B的互補序列。
在步驟二里面我只點開了一個序列,繼續(xù)打開其他的可能還會有對自己有用的引物,不過這要你自己慢慢發(fā)掘了。
這種尋找引物的方法有點投機取巧的味道,實用程度不是很高,但如果這里面恰好有你想 P 的片段的話,恭喜你,這些引物都是很成熟的引物,可以直接拿過來使用了。
如果這兩種方法都不能找到你需要的引物的話, 那就自己設計吧, 建議使用 Primer 5 和 Oligo。
4、如何運用 BLAST 進行序列比對、檢驗引物特異性
提到序列比對,絕大多數(shù)戰(zhàn)友都會想到 BLAST,但 BLAST 的使用確實又是一個很大的難題, 因為他的功能比較強悍, 里面涉及到的知識比較多, 而且比對結束后輸出的結果參數(shù) (指標)又很多。如果把 BLAST 的使用詳細的都講出來,我想我發(fā)帖發(fā)到明天也發(fā)不完,更何況我自己也不是完全懂得 BLAST 的使用。 所以我在這里也就“畫龍點睛”——以比對核酸序列為例來給大家介紹一下 BLAST 的使用, 也算是 BLAST 的入門課程吧。 請看帖的戰(zhàn)友好好體會,如果你用心看,在看帖完畢之后 BLAST 的基本使用(包括其他序列的比對)應該沒有問題了。
1.打開BLAST 頁面,http://www.ncbi.nlm.nih.gov/BLAST/ 打開后如圖所示:
對上面這個頁面進行一下必要的介紹:
BLAST 的這個頁面主體部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。相信大家可以看懂這三個短語的意思,我就不多說了;我要說的是,可以認為這是三種序列比對的方法,或者說是 BLAST 的三條途徑。
第一部分 BLAST Assembled Genomes 就是讓你選擇你要比對的物種,點擊相應物種之后即可進入比對頁面。
第二部分 Basic BLAST 包含了 5 個常用的 BLAST,每一個都附有簡短的介紹。
第三部分 Specialized BLAST 是一些特殊目的的 BLAST,如 IgBLAST、SNP 等等,這個時候你就需要在 Specialized BLAST部分做出適當?shù)倪x擇了。
總之, 這是一個導航頁面, 它的目的是讓你根據(jù)自己的比對目的選擇相應的 BLAST 途徑。
下面以最基本的核酸序列比對來談一下 BLAST的使用, 期間也會捎帶著說一下其他序列比對的方法。
2. 點擊Basic BLAST部分的nucleotide blast 鏈接到一個新的頁面。打開后如圖所示:
介紹一下上述頁面:
Enter Query Sequence 部分是讓我們輸入序列的,你可以直接把序列粘貼進去,也可以上傳序列,還可以選擇你要比對的序列的范圍(留空就代表要比對你要輸入的整個序列) 。Job Title 部分還可以為本次工作命一個名字。
Choose Search Set 部分是讓我們選擇要與目的序列比對的物種或序列種類(genome DNA、mRNA 等等) 。如果是人或老鼠的話,就可以直接選擇了如果是其他物種就要選擇“others”了,這時候網(wǎng)頁會主動跳出一個下拉對話框和一個輸入式對話框,你可以分別選擇和輸入要跟你的序列比對的序列種類和物種。下面的 Entrez Query 可以對比對結果進行適當?shù)南拗啤?/span>
Program Selection 部分其實是讓我們選擇本次比對的精確度,種內(nèi)種間等等。
在 BLAST 按鈕下面有一個“Algorithm parameters” ,這是參數(shù)設置選項,一般用戶使用不到此項,所以它比較隱蔽,點擊,原網(wǎng)頁下方即可增加了 Algorithm parameters 的內(nèi)容。大部分戰(zhàn)友都用不到更改這里面的選項,我也不多說了,有興趣的朋友可以自己研究一下。
3.依次填寫上述網(wǎng)頁必須部分,點擊 BLAST 按鈕后,出現(xiàn)如下界面(只截取其中一部分) :
出現(xiàn)的這個結果頁面信息含量非常大,如果我們用心觀察,還是可以發(fā)現(xiàn)其中的一些主要指標的。列舉上圖也是為了給大家展示一下這些評價標準。其中 Description 部分推薦大家詳細看一下,另外說一下“E value” 這個指標與其他指標不同,它的數(shù)值越小相似程度越高,其他幾個(如 Totle score)都是數(shù)值越高相似度越高。
在這個圖示的表格下方就是具體的相似性的核酸序列了,還配合著各種參數(shù)的得分。
聯(lián)系客服