隨著新一代DNA測(cè)序技術(shù)出現(xiàn),人們能夠同時(shí)對(duì)多個(gè)DNA樣本的宏基因組進(jìn)行并行分析。尤其是以16S rRNA基因高變區(qū)為分子標(biāo)記的測(cè)序已經(jīng)成為微生物多樣性研究最為簡(jiǎn)潔有效的方法。目前二代高通量測(cè)序的讀長(zhǎng)不能覆蓋16S rRNA基因的全長(zhǎng),需要選擇一個(gè)有效的高變區(qū)進(jìn)行測(cè)序。十多年來,對(duì)于16S rRNA基因高變區(qū)的選擇策略沒有統(tǒng)一的標(biāo)準(zhǔn)。本文分析了常用的高變區(qū)選擇策略,指出不同環(huán)境條件是影響高變區(qū)選擇的重要因素之一。在此基礎(chǔ)上,提出了高變區(qū)選擇的參考準(zhǔn)則,同時(shí)建議應(yīng)對(duì)選擇的高變區(qū)進(jìn)行有效評(píng)估。
1. 16S rRNA 的結(jié)構(gòu)
圖1 16S rRNA一級(jí)結(jié)構(gòu)示意圖
Figure 1 Primary structure of 16S rRNA
16S rDNA指的是基因組中與編碼核糖體16S rRNA分子對(duì)應(yīng)的DNA序列。一般進(jìn)行系統(tǒng)進(jìn)化分析或是對(duì)某特定環(huán)境進(jìn)行細(xì)菌群落結(jié)構(gòu)分析時(shí),所分析的對(duì)象都是16S rDNA。因?yàn)镈NA 提取容易,也比較穩(wěn)定,但研究者從習(xí)慣上往往還是以 16S rRNA來進(jìn)行描述。在基因組上,16S rRNA基因與5S rRNA和23S rRNA的各自編碼基因組成一個(gè)轉(zhuǎn)錄單元,共同轉(zhuǎn)錄。大腸桿菌16S rRNA全長(zhǎng)基因約為1,542 bp,由9個(gè)可變區(qū)和10個(gè)保守區(qū)組成,其中保守區(qū)反映了生物物種間的親緣關(guān)系,而可變區(qū)則表明物種間的差異,其位置和長(zhǎng)度見圖1和表1。
表 1 16SrRNA可變區(qū)在16SrRNA基因上的位置
Table1 Position of the hypervariable regions in 16S rRNA
注:大腸桿菌16S rRNA位點(diǎn)Position in 16S rRNA ofE.coli
在分析原核微生物多樣性時(shí),最為常用的基因是核糖體RNA(rRNA)基因。由于功能上高度保守,序列上的不同位置具有不同的變異速率,核糖體RNA (rRNA)是目前在微生物分子生態(tài)學(xué)上最為有用以及應(yīng)用最廣泛的分子標(biāo)記。一般認(rèn)為,rRNA基因很少發(fā)生大規(guī)模的橫向基因遷移,具有一系列由非常保守到高變的區(qū)域,適合于原核微生物分類信息的確定。通過rRNA序列比對(duì),可以分析不同分類水平的系統(tǒng)發(fā)育關(guān)系。對(duì)于16S rRNA基因序列,序列之間有97%以上的相似性可以認(rèn)為是同種,95%以上的相似性可以認(rèn)為是同屬,80%以上的相似性則可認(rèn)為是同門。
2. 為什么要進(jìn)行16S rRNA的V區(qū)測(cè)序
從目前的研究來看,以16S rRNA作為分子標(biāo)記的應(yīng)用最為廣泛。因此,這里我們主要探討基于16S rRNA基因擴(kuò)增子(16S rRNA gene amplicons)的宏基因組學(xué)研究。大腸桿菌(Escherichia coli)的16S rRNA全長(zhǎng)約1,542 bp,但是目前主流的二代測(cè)序技術(shù),如Illumina Miseq(PE300), Illumina Hiseq2000(PE100), Illumina Hiseq2500(PE250), Roche 454 FLX+(PE600)和Ion Torrent PGM(400)等讀長(zhǎng)均不能覆蓋16S rRNA全長(zhǎng),必須選擇一個(gè)或多個(gè)短的、有效的高變區(qū)(hypervariable regions)作為替代。然而,擴(kuò)增16S rRNA不同的V區(qū)會(huì)對(duì)原核微生物群落結(jié)構(gòu)的分析結(jié)果產(chǎn)生明顯的影響。在16S rRNA高變區(qū)(V區(qū))的選擇策略方面還存在較大爭(zhēng)議。目前用于多樣性分析的V區(qū)主要分為兩類,一類是單獨(dú)V區(qū),如V3、V4、V5、V6和V7等,另一類是連續(xù)V區(qū),如V1-V2、V1-V3、V3-V4、V3-V5、V4-V5、V4-V6、V5-V6、V6-V7、V5-V8、V6-V8、V7-V8、V1-V8,V5-V9、V6-V9和NLF(nearly full-length)等。因此,對(duì)不同類型樣本的16S rRNA高變區(qū)(V區(qū))進(jìn)行有效性評(píng)估以及研究V區(qū)的選擇策略對(duì)于原核微生物群落的研究非常必要。
3. V區(qū)及其引物對(duì)選擇的標(biāo)準(zhǔn)
V區(qū)的選擇標(biāo)準(zhǔn)主要有:1) 該區(qū)具有較高的可變性,能夠很好的區(qū)別物種;2) 該區(qū)兩邊的側(cè)翼位點(diǎn)具有較好的保守型,能夠抓取絕大多數(shù)微生物。由圖2可知,16S rRNA各V區(qū)的熵(H’),H’越大代表該區(qū)的可變性越大。通常,可變和中度保守的16S rRNA區(qū)域被認(rèn)為是進(jìn)行多樣性分析的最佳選擇。
引物選擇的標(biāo)準(zhǔn)主要有覆蓋率Coverage、覆蓋范圍Spectrum和可注釋率POAOs等3個(gè)標(biāo)準(zhǔn)。覆蓋率Coverage和覆蓋范圍Spectrum是指在特定數(shù)據(jù)庫中(Silva, RDP, Greengenes)中,一個(gè)特定的分類級(jí)別(界、門、綱、目、科和屬),一對(duì)引物所能匹配數(shù)據(jù)庫中序列的百分比和序列所涵蓋的分類個(gè)數(shù)。例如,Phylum spectrum就是指在門水平上,某個(gè)引物所能“抓取”門的個(gè)數(shù)。作者定義POAOs,也即OTU注釋率(The percentage of annotated OTUs, POAOs),具體見下面公式:
POAOs=注釋OTUs/全部OTUs×100%
其中,全部OTUs是指在Qiime中調(diào)用uclust的方法對(duì)優(yōu)質(zhì)序列按相似度0.97進(jìn)行聚類后所獲得的OTU數(shù)目,而注釋OTUs是指通過特定數(shù)據(jù)庫注釋后有明確分類信息的OTU數(shù)目。
圖2 16S rRNA各V區(qū)的熵
Figure 2 Entropy plot of 42,109 soil derived 16S rRNA gene sequence alignment. Hypervariable regions indicated as designated by Baker et al. E. coli nucleotide numbering. Sequence area presented excludes poorly supported areas from the beginning and end of the sequences (due to nearly full sequences) and thus excludes the V9 region. doi:10.1371/journal.pone.0042671.g001
4. 最佳V區(qū)及其引物對(duì)
以富營養(yǎng)化水體太湖為例(圖3),結(jié)合數(shù)據(jù)庫模擬和實(shí)驗(yàn)驗(yàn)證,論證了在富營養(yǎng)化水體中進(jìn)行水體細(xì)菌多樣性分析的最佳V區(qū)和最佳引物。pobeBase 2016是一個(gè)在線的rRNA寡核苷酸探針和引物數(shù)據(jù)庫。利用數(shù)據(jù)庫(http://www.probebase.net)收集了常用75個(gè)引物的名稱、堿基序列、位點(diǎn)、長(zhǎng)度和 Tm 等基本信息。此外,還通過TestPrime1.0 (www.arb-silva.de/ search/testprime)對(duì)引物對(duì)進(jìn)行基于 SILVA SSU Ref 123NR數(shù)據(jù)庫的in silicoPCR模擬。最終,共有49個(gè)引物對(duì),對(duì)常用的12個(gè)不同V區(qū)進(jìn)行了基于SILVA SSU Ref 123NR數(shù)據(jù)庫的in silicoPCR模擬評(píng)估。同時(shí),開展了歷時(shí)1年多,覆蓋3個(gè)不同湖區(qū),以及兩個(gè)不同類型的樣本的驗(yàn)證實(shí)驗(yàn),基本滿足了研究太湖水體中細(xì)菌多樣性的樣本要求。基于模擬和驗(yàn)證的結(jié)果表明,V4的表現(xiàn)最好,基于Coverage、Spectrum和POAOs等3個(gè)評(píng)價(jià)標(biāo)準(zhǔn),推薦S-D-Bact-0564-a-S-15/S-D-Bact-0785-b-A-18作為太湖水體細(xì)菌多樣性調(diào)查的最佳引物對(duì)(圖4)。
圖3 太湖藍(lán)藻水華
Figure 3 Cyanobacterial blooms in Lake Taihu
圖4 研究概要
Figure 4 Graphical abstract
5. 幾個(gè)關(guān)鍵問題的討論
5.1引物偏好性
一般來說,引物偏好性(Primer set bias)主要是在目標(biāo)序列的PCR擴(kuò)增和測(cè)序過程被引入。測(cè)序錯(cuò)誤率高度依賴于測(cè)序平臺(tái),及其所使用的儀器和化學(xué)試劑。PCR錯(cuò)誤可以通過優(yōu)化PCR條件來降低,而不像依賴于測(cè)序平臺(tái)的錯(cuò)誤那樣很難解決。偏向性在某些環(huán)境樣本中的影響會(huì)非常大,會(huì)造成對(duì)某些種類過低或過高的估計(jì),甚至有些群體被完全遺漏。例如,8F、337F、338R、515F、915F和930R和1061R等一些通用的引物在腸道微生物群落的研究中,通過RDP數(shù)據(jù)庫可以比對(duì)95%以上的主要門類(Firmicutes,Bacteroidetes,Actinobacteria,Verrucomicrobia和Proteobacteria)序列。但是對(duì)于某些門類的缺失也同樣存在,如784F很難區(qū)分Verrucomicrobia的種類;967F只能比對(duì)不足5%的Bacteroidetes序列;1492R只能比對(duì)61%的Actinobacteria,54%的Proteobacteria序列和不到一半的其他門類。同時(shí),也有通過優(yōu)化引物設(shè)計(jì),來實(shí)現(xiàn)對(duì)98.0%的細(xì)菌和94.6%古細(xì)菌在RDP數(shù)據(jù)庫中同時(shí)分析的策略。在玉米根際微生物群落的研究中,可能是因?yàn)檫^長(zhǎng)的原因,804F-1392R產(chǎn)生的序列數(shù)最少;27F-338R對(duì)于Verrucomicrobia擴(kuò)增的效率不高;926F-1392R擴(kuò)增了大量的色素體(Plastid)16S rRNA基因;515F-806R在域和門的水平上獲得的多樣性最好。Klindworth等通過計(jì)算機(jī)模擬在SILVA數(shù)據(jù)庫中研究了175條引物和512對(duì)引物,結(jié)合引物的物種覆蓋度(Taxonomic coverage)和門覆蓋度(Phylum spectrum)認(rèn)為僅有10條可以被推薦為廣譜性引物(Broad range primers),同時(shí)推薦擴(kuò)增長(zhǎng)度為464 bp的S-D-Bact-0341-b-S-17/S-D-Bact-0785-a-A-21為最好的引物組合。不同測(cè)序平臺(tái)引物的表現(xiàn)有所不同,同時(shí)一些被認(rèn)為是通用的引物(例如,F(xiàn)515-R806)表現(xiàn)也并非最為突出。
5.2調(diào)查環(huán)境影響
從本質(zhì)上講,最敏感和特定的通用16S rRNA引物對(duì)選擇極大地依賴于調(diào)查的樣品類型和目標(biāo)群落?;?6S rRNA擴(kuò)增子的太湖水體多樣性研究,V4(F)被認(rèn)為是一種較為可靠的細(xì)菌多樣性引物對(duì)。16S rRNA的V4區(qū)被廣泛運(yùn)用于多種類型樣本的細(xì)菌多樣性調(diào)查。然而,正如本研究中所示,不同的V區(qū)選擇,甚至針對(duì)相同的V區(qū),不同的引物對(duì)所獲得的結(jié)果在各個(gè)分類水平(門、綱、目、科、屬、種)均有所不同。這與我們先前的研究結(jié)果,在物種注釋中,每一個(gè)屬均有自己偏好的V區(qū)選擇結(jié)果一致。實(shí)際上,目前使用的引物沒有真正意義上的完全“通用”,因?yàn)闆]有一個(gè)確定的引物對(duì)可以保證擴(kuò)增所有的原核微生物。此外,也沒有一個(gè)完美的引物對(duì)能夠覆蓋所有來源的樣本,盡管不斷有新的引物對(duì)被設(shè)計(jì)用來提高物種分類。因此,對(duì)于16S rRNA的最佳V區(qū)(或引物對(duì)),也許根本無法達(dá)到共識(shí),但是非常有必要在慎重考慮調(diào)查環(huán)境或樣本類型的基礎(chǔ)上選擇更加合適的引物對(duì)。
5.3 16S rRNA全長(zhǎng)測(cè)序
16S rRNA全長(zhǎng)測(cè)序被看作是克服V區(qū)(單個(gè)和多個(gè))測(cè)序物種鑒定局限性的靈丹妙藥。幾年前,第三代測(cè)序技術(shù)所提供的16S rRNA全長(zhǎng)測(cè)序被給予厚望,然而,Pac Bio SMRT測(cè)序平臺(tái)的高錯(cuò)誤率極大地限制了該技術(shù)在微生物系統(tǒng)發(fā)育和物種分類中的運(yùn)用。直到最近,Pac Bio SMRT的應(yīng)用仍然受困于其測(cè)序錯(cuò)誤率和測(cè)序成本。但是,隨著測(cè)序平均讀長(zhǎng)的不斷增加,錯(cuò)誤率的急劇減少,以及測(cè)序成本的持續(xù)下降,16S rRNA基全長(zhǎng)測(cè)序必定給細(xì)菌多樣性和生態(tài)學(xué)的研究注入新的動(dòng)力。此外,準(zhǔn)確的物種鑒定高度依賴于現(xiàn)有的參考數(shù)據(jù)庫( SILVA、GG、RDP 和FW),因此已有學(xué)者在數(shù)據(jù)庫的建設(shè)和使用上做出了大量工作。同時(shí),隨著讀長(zhǎng)更長(zhǎng),成本更低和更快的DNA測(cè)序技術(shù)出現(xiàn),這必將極大的豐富現(xiàn)有數(shù)據(jù)庫中的序列。強(qiáng)大的參考數(shù)據(jù)庫結(jié)合即將到來的全長(zhǎng)16S rRNA測(cè)序,必將給微生物群落的分類和功能的多樣性提供前所未有的解決方案。
5.4 數(shù)據(jù)庫的影響
利用數(shù)據(jù)庫對(duì)聚類后的OTU進(jìn)行注釋是多樣性分析中的重要環(huán)節(jié),目前常用的數(shù)據(jù)庫有SILVA、GG 和RDP。因此數(shù)據(jù)庫中序列的多樣性、全面性和準(zhǔn)確性對(duì)多樣性的分析結(jié)果具有明顯的影響。因此,為了驗(yàn)證不同數(shù)據(jù)庫對(duì)本研究結(jié)論的影響,除SILVA (Release 123)的注釋結(jié)果外,分別用GG (Aug. 2013)和RDP (Release 11.5)數(shù)據(jù)庫對(duì)OTU進(jìn)行了注釋。值得注意的是,在GG和RDP的注釋結(jié)果中,V4(F)相比于V3(C)和V6(F)在覆蓋率和注釋率上從門到屬水平上均具有較為明顯的優(yōu)勢(shì)。同時(shí)V4(F)的這種優(yōu)勢(shì)同樣體現(xiàn)在覆蓋范圍上??梢奊G和RDP與SILVA注釋的結(jié)果基本一致;V4(F) 不但可以覆蓋更多的常見門類,而且在覆蓋率和注釋率上具有較為明顯的優(yōu)勢(shì);因此V4(F)可以被推薦為太湖水體細(xì)菌多樣性研究的最佳引物。
全面、可靠的數(shù)據(jù)庫和有效的分析工具作為微生物多樣性研究的重要內(nèi)容,是支撐微生物多樣性研究的基礎(chǔ)工作,目前已經(jīng)開展了大量的研究工作。除了SILVA、GG 和RDP這些通用數(shù)據(jù)庫外,還有在一些特殊領(lǐng)域,例如淡水(Freshwater)、人體微生物(Human body microbiome)、藍(lán)藻(Cyanobacteria)等專業(yè)數(shù)據(jù)庫被運(yùn)用于微生物多樣性分析。隨著測(cè)序成本的不斷下降,以及更快、更長(zhǎng)和更準(zhǔn)的測(cè)序技術(shù)的不斷涌現(xiàn),可以預(yù)見這些數(shù)據(jù)庫將會(huì)得到不斷的充實(shí)和完善,而這也將必定促進(jìn)微生物群落及其功能多樣性研究前所未有的大發(fā)展。
5.5 小結(jié)
本研究中,通過16S rRNA擴(kuò)增子測(cè)序來調(diào)查太湖水體中細(xì)菌群落,其結(jié)果受到不同V區(qū)(引物對(duì))的顯著影響。結(jié)合In silico模擬和實(shí)驗(yàn)驗(yàn)證結(jié)果,V4區(qū)具有很好“捕捉”細(xì)菌多樣性的能力,并推薦S-D-Bact-0564-a-S-15/S-D-Bact-0785-b-A-18作為太湖水體細(xì)菌多樣性調(diào)查的最佳引物對(duì)。盡管如此,仍然沒有一個(gè)單V區(qū)或連續(xù)的多個(gè)V區(qū)能夠完全替代全長(zhǎng)16S rRNA的測(cè)序。因此,在不久的將來,全長(zhǎng)16S rRNA測(cè)序必將成為一個(gè)主流的方法。此外,基于高通量測(cè)序技術(shù)的微生物多樣性研究,非常依賴于一個(gè)能夠提供更準(zhǔn)、更多、更全分類信息的數(shù)據(jù)庫。因此數(shù)據(jù)庫的建設(shè)和完善將是微生物多樣性研究中必將面對(duì)的重要課題。
6. 結(jié)論
隨著高通量測(cè)序技術(shù)的不斷發(fā)展,尤其是測(cè)序成本的持續(xù)下降,微生物多樣性必將迎來新一輪的研究高峰。目前基于微生物多樣性的測(cè)序平臺(tái),V區(qū)測(cè)序主要是Illumina HiSeq 2500和Illumina Miseq,而16S rRNA全長(zhǎng)測(cè)序主要以PacBio RS II和PacBio Seque l平臺(tái)為主。近期,V區(qū)擴(kuò)增子的測(cè)序費(fèi)用已經(jīng)降至500元以下,而全長(zhǎng)測(cè)序的費(fèi)用還在1,000元以上,因此在未來很長(zhǎng)一段時(shí)間內(nèi),V區(qū)擴(kuò)增子的測(cè)序仍是主流。隨著測(cè)序成本的快速下降,高通量測(cè)序越來越凸顯其研究手段的真實(shí)一面。因此,盲目測(cè)序的研究將越來越少,合理的“實(shí)驗(yàn)設(shè)計(jì)”和精彩的“故事”才是科研永恒的主題。
參考文獻(xiàn)
Zhang JY, Ding X, Guan R, Zhu CM, Xu C, ZhuBC, Zhang H, Xiong ZP, Xue YG, Tu J, Lu ZH*. Evaluation of different 16S rRNAgene V regions for exploring bacterial diversity in a eutrophic freshwaterlake[J]. Science of the Total Environment. 2018.
DOI:10.1016/j.scitotenv.2017.09.228
張軍毅, 朱冰川, 徐超, 丁嘯, 李俊鋒, 張學(xué)工, 陸祖宏. 基于分子標(biāo)記的宏基因組16S rRNA 基因高變區(qū)選擇策略. 應(yīng)用生態(tài)學(xué)報(bào). 2015. 26(11):3545-3553.
聯(lián)系客服