研究背景和方法
Nanopore長(zhǎng)讀長(zhǎng)測(cè)序在人類基因組測(cè)序方面主要優(yōu)勢(shì)集中于基因組組裝及結(jié)構(gòu)變異檢測(cè)方面。由于其堿基錯(cuò)誤率較高,其在臨床應(yīng)用所需的單核苷酸變異(SNV)檢測(cè)方面存在困難。
為了評(píng)估納米孔測(cè)序在臨床人類基因組學(xué)的應(yīng)用潛力,作者利用便攜式MinION三代測(cè)序儀測(cè)序了2個(gè)人類基因組:基因組參考樣本NA12878,增加其測(cè)序深度,以評(píng)估和校準(zhǔn)三代nanopore變異檢測(cè)方法;然后對(duì)伴有嚴(yán)重免疫失調(diào)的共濟(jì)失調(diào)性全血細(xì)胞減少綜合征患者進(jìn)行測(cè)序,以解決與分子遺傳學(xué)診斷相關(guān)的2種新生蛋白編碼變異的染色體定相(phasing)相關(guān)問題。
研究結(jié)果
1.對(duì)參考樣品進(jìn)行MinION全基因組測(cè)序
GM12878人B淋巴細(xì)胞采用PCR擴(kuò)增和6kb片段篩選的文庫制備方案,共計(jì)獲得45,740,123條reads(圖1a),平均讀取長(zhǎng)度為6373bp(圖1b)在流動(dòng)細(xì)胞中是一致的,并且基于測(cè)序文庫的物理大小選擇非常接近預(yù)期??倲?shù)據(jù)量為273.4Gb,每個(gè)flow cell的平均產(chǎn)量為3.7Gb(圖1c)。總計(jì)42,924,782個(gè)高質(zhì)量clean reads的比對(duì)率為99.3%,唯一比對(duì)率為88.8%。
比對(duì)上的reads平均堿基替換SNV發(fā)生率為12.7%(與參考?jí)A基不同的頻率),平均缺失率為4.7%(參考序列中堿基缺失的頻率),平均插入率為3.2%(圖1d)。作者還評(píng)估了不同堿基識(shí)別算法對(duì)reads水平準(zhǔn)確性的影響,發(fā)現(xiàn)Albacore v2.0.2實(shí)現(xiàn)了最低的未過濾替換錯(cuò)誤率和缺失錯(cuò)誤率,而其他方法具有較低的插入錯(cuò)誤率。
平均每個(gè)堿基覆蓋深度(不包括缺失)為81.7X(圖1e),其中90.4%的基因組區(qū)域被至少40個(gè)reads覆蓋。9.6%人基因組區(qū)域覆蓋深度降低(<40×),反映文庫制備方案的PCR步驟中的擴(kuò)增偏差(圖1f)。
圖1
2.NA12878中的單核苷酸變異SNV檢測(cè)
使用multi-platform Genomes in a Bottle (GIAB)作為黃金標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)集評(píng)估ONT檢測(cè)SNV的準(zhǔn)確性。NA12878樣本22號(hào)染色體數(shù)據(jù)運(yùn)行FreeBayes方法檢測(cè)SNV,選擇獲得最佳F1分?jǐn)?shù)的參數(shù),與GIAB參考變異檢測(cè)集相比,實(shí)現(xiàn)了99.9%的總體一致性準(zhǔn)確度,并且觀察到12.8%的錯(cuò)誤發(fā)現(xiàn)率(FDR)和14.4%假陰性率(FNR),結(jié)合創(chuàng)造了86.4%的F1分?jǐn)?shù)(表1)。在全基因組水平使用上述參數(shù),獲得了10.9%的FDR,12.5%的FNR和88%的F1分?jǐn)?shù)。
表1
為了更好地理解變異檢測(cè)錯(cuò)誤的潛在來源,作者注釋了變異檢測(cè)位點(diǎn),其中包含一系列關(guān)于參考序列和跨越位點(diǎn)的reads注釋。這些包括接近均聚物重復(fù)區(qū)域、較低的覆蓋深度、鏈偏好和存在大量短缺失的reads覆蓋區(qū)域(圖2左)。表明,假陽性(FP)和假陰性的主要驅(qū)動(dòng)因素是均聚物和低覆蓋率。此外,使用高質(zhì)量評(píng)分閾值(QUAL)來維持可接受的FDR會(huì)產(chǎn)生許多假陰性。
圖2
初始變異集中的大部分假陽性基因型是雜合基因型。使用ONT數(shù)據(jù)的好處是跨越多個(gè)雜合位點(diǎn)的長(zhǎng)reads提供了糾正此問題的機(jī)會(huì)。當(dāng)reads被分成代表親本單倍型的2組時(shí),預(yù)期真陽性變異等位基因只固定在一個(gè)定相組(親本單倍體)存在,而假陽性變異預(yù)期在組之間均勻分布。據(jù)此,作者開發(fā)了單樣本、基于reads、無參考panel的定相算法。
使用過濾器改進(jìn)變異檢測(cè),通過phasing和注釋過濾器(Post?phasing classification)顯著改善變異檢測(cè),最佳結(jié)果F1評(píng)分為92.2%,F(xiàn)DR為7.1%,F(xiàn)NR為8.5%(表1,圖2中)。進(jìn)一步考慮覆蓋深度>=60X的假定變異位點(diǎn)(基因組的85%)時(shí),觀察到F1得分改善至93.6%,F(xiàn)DR為6.1%,F(xiàn)NR為6.6%(圖2右),這意味著減少或消除覆蓋深度偏差源(如PCR)的操作改進(jìn)在提高準(zhǔn)確性方面可以發(fā)揮一定作用。(百邁客目前ONT全基因組重測(cè)序和ONT全基因組甲基化測(cè)序建庫過程正是PCR-free建庫--direct-DNA建庫,一是可減少覆蓋深度偏好,有利于提高變異檢測(cè)準(zhǔn)確度;二是可以保留堿基修飾信息,同時(shí)檢測(cè)甲基化修飾等信息
)在推定的致病LOF變異(功能缺失突變:本文針對(duì)終止密碼子獲得和剪接位點(diǎn)突變)中,與全基因組真陽性突變(173/788782,0.02%)相比,F(xiàn)Ps(假陽性突變,69/45219,0.15%)富集,但FPs在高度不耐受LOF突變的基因(pLI>0.90,17 FP對(duì)20 TP)與LOF突變耐受基因(pLI <= 0.10,46 FP對(duì)122 TP)中成比例地富集。
在每條read隨機(jī)堿基替換錯(cuò)誤和無基因組擴(kuò)增偏差的理想化模型下模擬NA12878數(shù)據(jù)集,與實(shí)測(cè)數(shù)據(jù)比較,表明均聚物缺失錯(cuò)誤累積導(dǎo)致缺失變異檢測(cè)錯(cuò)誤,納米孔測(cè)序中增加的測(cè)序覆蓋深度以減小均聚物相關(guān)FDR,目前受到基因組范圍的in-read缺失率的限制。
3.NA12878樣本突變定相
基因型是通過母本或父本單倍型遺傳的,但大多數(shù)基因分型方法,會(huì)產(chǎn)生非定相基因型檢測(cè),即無法區(qū)分單倍型。基因型定相很有意義,除了上述促進(jìn)變異檢測(cè)準(zhǔn)確性的改進(jìn)之外,還能夠進(jìn)行許多遺傳分析,比如臨床用途中解決多個(gè)雜合LoF變異的共分離和鑒定新生突變的起源親本。作者開發(fā)的新型定相算法相比于其他算法,具有更低的錯(cuò)誤率,其定相精確度類似于使用非常大的參考panel從SNP基因分型陣列數(shù)據(jù)定相常見變異所獲得的定相精確度。
4.NA12878樣本大片段結(jié)構(gòu)變異檢測(cè)
大的結(jié)構(gòu)變異相對(duì)于snp和indel少見,但其對(duì)罕見疾病的影響可能甚至比目前估計(jì)的更大,因?yàn)楝F(xiàn)有分析檢測(cè)這些突變存在技術(shù)困難。采用Sniffles檢測(cè)22號(hào)染色體SV變異,共計(jì)檢測(cè)到82個(gè),其中22個(gè)是在GIAB真實(shí)數(shù)據(jù)集中存在的,之后通過ONT、Illumina和PacBio reads覆蓋數(shù)據(jù)來判斷剩余的60個(gè)SV:其中21個(gè)SV被Pacbio檢測(cè)到或reads強(qiáng)烈支持,31個(gè)SV僅ONT reads明顯證實(shí),但PacBio reads很少或不支持。ONT特異性檢測(cè)SV可能代表其他技術(shù)遺漏的真實(shí)缺失、由PCR擴(kuò)增產(chǎn)生的假象或在NA12878細(xì)胞系的細(xì)胞培養(yǎng)期間發(fā)生的亞克隆缺失。作者發(fā)現(xiàn)目前ONT平臺(tái)允許檢測(cè)大的缺失,靈敏度在60%-91%(21/35和32/35)。
僅ONT檢測(cè)到的缺失突變示例
5.使用MinION對(duì)臨床樣品進(jìn)行全基因組測(cè)序
鑒于長(zhǎng)reads可成功地檢測(cè)雜合變異,作者試圖使用全基因組納米孔測(cè)序來解決具有不確定的免疫調(diào)節(jié)病癥的個(gè)體基因組臨床問題。簡(jiǎn)而言之,女性患者最初在嬰兒期出現(xiàn)復(fù)發(fā)性感染、低丙種球蛋白血癥、血小板減少癥和輕度貧血,并且在兒童時(shí)期出現(xiàn)慢性炎癥,在成年早期出現(xiàn)進(jìn)行性神經(jīng)系統(tǒng)癥狀。
患者及其父母組成的核心家系3個(gè)樣本Illumina平臺(tái)全基因組重測(cè)序(PE 126bp)結(jié)果:發(fā)現(xiàn)了84個(gè)高置信度的新生SNV,一個(gè)接近預(yù)期范圍上限的數(shù)字,這與受孕時(shí)的父母年齡(母親是38歲,父親39歲)一致。其中3個(gè)變異預(yù)測(cè)為導(dǎo)致蛋白序列改變,2個(gè)位于SAMD9L基因蛋白質(zhì)編碼區(qū)中。該基因中罕見的雜合變異最近涉及常染色體顯性遺傳性共濟(jì)失調(diào)性全血細(xì)胞減少綜合征(OMIM:#159550),并且有證據(jù)表明造血組織的出生后逆轉(zhuǎn)可能與較輕微的疾病表現(xiàn)相關(guān)。雖然這2個(gè)非同義突變(c.1076 G>A和c.3353 A>G; p.R359Q和p.Y1118C,NM_152703.3)位于同一個(gè)外顯子中,但它們相距2277 bp,所以不能直接使用Illumina reads進(jìn)行定相;其附近缺乏遺傳的雜合變異也阻止將突變定相于親本單倍型。解釋這個(gè)問題對(duì)于解釋每個(gè)等位基因的致病潛力非常重要,解決此類問題的能力與類似情況下的生殖決策直接相關(guān)。
全血樣本Nanopore全基因組重測(cè)序結(jié)果:在34個(gè)R9.4 MinION flowcell中共計(jì)產(chǎn)生122 Gb數(shù)據(jù)量(16,692,656 reads,約40X),比對(duì)率為99.1%。通過上述在NA12878樣本確定的變異檢測(cè)和定相方法進(jìn)行分析。
ONT數(shù)據(jù)基因組覆蓋深度統(tǒng)計(jì)
不出所料,ONT數(shù)據(jù)也鑒定到了具有預(yù)期雜合基因型的c.1076 G> A和c.3353 A> G變異。使用ONT reads對(duì)其他附近變異進(jìn)行定相,以確認(rèn)新生變異的遺傳和來源(圖3)。這2個(gè)新生突變被定相于一個(gè)199kb的block內(nèi),33條reads(6.1-18.9kb)跨越2個(gè)新生突變位點(diǎn),11條reads包含新生突變等位基因,8條reads包含2個(gè)參考等位基因,表明突變的等位基因是順式的(來自于同一條染色體)。(NA12878數(shù)據(jù)中沒有reads跨越包含2個(gè)位點(diǎn)的突變等位基因。)使用一系列等位基因特異性PCR實(shí)驗(yàn)證實(shí)來自O(shè)NT reads的新生等位基因的單倍型構(gòu)象。相位區(qū)中的側(cè)翼位點(diǎn)表明,父系遺傳的單倍型出現(xiàn)了新生變異(圖3)。
圖3及等位基因特異性PCR結(jié)果
注:前3行為未定相母親(MI),父親(FI),先證者(PI)基因型,第4行為先證者單倍型Phased proband genotypes (PN)。藍(lán)色=alt ,橙色=ref。PN下面2行為單倍型1(母系遺傳)或單倍型2(父系遺傳)對(duì)應(yīng)的reads,其中對(duì)于每條read,堿基是矩形,reads跨度以水平線顯示。間隙代表gap(缺失)。底部顯示物理位置,感興趣的位點(diǎn)為紅色?;贕RCh37 NM_152703.3, 92761932 T>C對(duì)應(yīng)于c.3353 A>G,92764209 C>T對(duì)應(yīng)于c.1076 G>A。
討論
該研究首次詳細(xì)評(píng)估了ONT測(cè)序?qū)θ祟悩颖镜淖儺悪z測(cè)和基因分型、染色體定相(單倍型分析)的準(zhǔn)確性。雖然很有希望,在總共107個(gè)MinION flowcell中對(duì)這2個(gè)人類基因組進(jìn)行測(cè)序是一項(xiàng)重大任務(wù),在技術(shù)和計(jì)算等方面具有挑戰(zhàn)。最近商業(yè)化推出的PromethION是一種更高通量的納米孔測(cè)序儀,自帶數(shù)據(jù)處理功能,有望解決人類基因組規(guī)模數(shù)據(jù)中的許多挑戰(zhàn)。(百邁客與Oxford Nanopore公司合作-斥巨資引進(jìn)Nanopore全測(cè)序平臺(tái))最后,雖然變異檢測(cè)的總體準(zhǔn)確性仍存在局限性,但該工作突出了錯(cuò)誤上下文,這些錯(cuò)誤上下文將受益于基本檢測(cè)、reads比對(duì)和一致性變異檢測(cè)方法的改進(jìn),并說明了將ONT應(yīng)用于臨床目的的途徑。
小編碎語:隨著nanopore測(cè)序技術(shù)的發(fā)展更新,比如最新ONT內(nèi)測(cè)的R10芯片75X達(dá)到一致性質(zhì)量值Q50,比如新的'flip-flop'堿基識(shí)別軟件可將R9一致性準(zhǔn)確性提升至Q42等??傊?,ONT長(zhǎng)讀長(zhǎng)測(cè)序錯(cuò)誤率down down down,測(cè)序通量up up up,測(cè)序價(jià)格low low low,三代取代二代指日可待。誰說魚(長(zhǎng)讀長(zhǎng))和熊掌(準(zhǔn)確度)不可兼得呢。
參考文獻(xiàn):
Bowden R, Davies R W, Heger A, et al. Sequencing of human genomes with nanopore technology[J]. Nature communications, 2019, 10(1): 1869.
文獻(xiàn)下載:
聯(lián)系客服