加州大學(xué)圣克魯斯基因組研究所(UC Santa Cruz Genomics Institute)的研究人員推出了一種名為“長(zhǎng)頸鹿”(Giraffe)的新工具,可以有效地將新的基因組序列繪制到代表多種不同人類基因組序列的“泛基因組”(pangenome)上。
使用泛基因組學(xué)方法而不是單一的參考基因組,可以更全面地描述遺傳變異,并可以改進(jìn)廣泛的研究人員和臨床醫(yī)生使用的基因組分析(Elena Zhukova)
自從20多年前人類基因組的第一次測(cè)序以來(lái),人類基因組的研究幾乎完全依賴于一個(gè)參考基因組,并與其他基因組進(jìn)行比較,以確定遺傳變異??茖W(xué)家們?cè)缇驼J(rèn)識(shí)到,單一的參考基因組不能代表人類的多樣性,而且使用它會(huì)給這些研究帶來(lái)普遍的偏見(jiàn)。現(xiàn)在,他們終于有了一個(gè)可行的選擇。
在12月16日發(fā)表在《科學(xué)》(Science)雜志上的一篇論文中,加州大學(xué)圣克魯斯基因組研究所(UC Santa Cruz Genomics Institute)的研究人員介紹了一種名為長(zhǎng)頸鹿(Giraffe)的新工具,它可以有效地將新的基因組序列繪制到代表多種不同人類基因組序列的“整體基因組”。他們表明,這種方法可以對(duì)遺傳變異進(jìn)行更全面的表征,并可以改進(jìn)廣泛使用的研究人員和臨床醫(yī)生的基因組分析。
通訊作者Benedict Paten是加州大學(xué)圣克魯茲分校的生物分子工程學(xué)副教授,也是基因組研究所的副主任,他說(shuō):“我們已經(jīng)為此努力了多年,現(xiàn)在我們第一次有了比單一參考基因組更快、更好的實(shí)用方法。對(duì)生物醫(yī)學(xué)的未來(lái)來(lái)說(shuō),基因組學(xué)平等地幫助每個(gè)人是很重要的,所以我們需要考慮到人類群體多樣性而不帶有偏見(jiàn)的工具。”
所有人類都有相同的基因,但在基因的確切序列上有許多變化——這意味著DNA亞基(縮寫為A, C, T, G)的序列,以及在蛋白質(zhì)編碼基因之外的基因組的大部分區(qū)域。單個(gè)編碼字母的差異被稱為單核苷酸變異(SNV),短序列的插入或刪除被統(tǒng)稱為“indels”。
最復(fù)雜的變體是結(jié)構(gòu)上的變體,包括重新安排大段代碼(50個(gè)或更多字母)。使用單一的參考基因組很難找到這些基因,但它們可以產(chǎn)生顯著影響,并且已知在某些疾病中發(fā)揮重要作用。每個(gè)人都有數(shù)百萬(wàn)個(gè)SNVs和indels,還有成千上萬(wàn)個(gè)更大的結(jié)構(gòu)變體,這些結(jié)構(gòu)變體總體上比其他類型的變體包含更多的代碼字母。
Paten說(shuō):“基因組學(xué)的主力一直是SNVs和indels,因?yàn)榻Y(jié)構(gòu)變異一直隱藏在視野之外。泛基因組學(xué)讓結(jié)構(gòu)變異變得可見(jiàn),所以我們可以像研究SNVs和短indels一樣研究它們。有很多結(jié)構(gòu)變異,它們可以產(chǎn)生很大的影響,所以這對(duì)疾病的遺傳研究的未來(lái)至關(guān)重要。”
可以從多個(gè)基因組序列中創(chuàng)建泛基因組參考,使用數(shù)學(xué)圖結(jié)構(gòu)來(lái)表示不同序列之間的關(guān)系。在這篇新論文中,研究人員利用公開數(shù)據(jù)繪制了兩張人類基因組參考圖。這些數(shù)據(jù)被用于評(píng)估新工具Giraffe,這是一組將新的序列數(shù)據(jù)映射到泛基因組參考的算法。
第一作者Jouni Sirén是基因組學(xué)研究所的研究科學(xué)家,開創(chuàng)了Giraffe的許多關(guān)鍵算法創(chuàng)新。Giraffe可以準(zhǔn)確地將新的序列數(shù)據(jù)映射到嵌入在泛體基因組參考中的數(shù)千個(gè)基因組,就像現(xiàn)有工具映射到單個(gè)參考基因組一樣快。該研究還表明,使用Giraffe減少了繪制偏差,即不正確地繪制與參考基因組不同的序列的傾向。
“這種分析方法不僅更好,而且和目前使用線性參考基因組的方法一樣快,”基因組研究所的博士后研究員、共同第一作者Jean Monlong說(shuō)。
廉價(jià)的短讀測(cè)序是現(xiàn)代基因組學(xué)的支柱,產(chǎn)生的序列片段必須被繪制到參考基因組上才能理解。測(cè)繪顯示每個(gè)片段屬于23條人類染色體中的一條,并識(shí)別出個(gè)體基因組中每個(gè)位置的變異,這個(gè)過(guò)程被稱為基因分型。
研究人員發(fā)現(xiàn),谷歌健康公司的深度學(xué)習(xí)變異調(diào)用者DeepVariant,使用Giraffe對(duì)泛基因組的比對(duì)比使用對(duì)單個(gè)參考基因組的比對(duì)可以更準(zhǔn)確地識(shí)別SNVs和indels。
Monlong說(shuō)他最興奮的是使用泛基因組學(xué)來(lái)研究結(jié)構(gòu)變異。
他說(shuō):“最近通過(guò)長(zhǎng)讀測(cè)序發(fā)現(xiàn)了許多結(jié)構(gòu)變異。有了泛基因組,我們可以在短讀測(cè)序的大型數(shù)據(jù)集中尋找這些結(jié)構(gòu)變異。這很令人興奮,因?yàn)檫@將使我們能夠在許多人身上研究這些新的結(jié)構(gòu)變異,并就它們的功能影響、與疾病的關(guān)聯(lián)或在進(jìn)化中的作用提出問(wèn)題?!?/span>
研究人員使用Giraffe繪制了來(lái)自5202人的不同群體的序列解讀圖,并確定了16.7萬(wàn)最近發(fā)現(xiàn)的結(jié)構(gòu)變異的基因型。這使他們能夠估計(jì)這些結(jié)構(gòu)變異的不同版本在整個(gè)人類群體中以及在單個(gè)亞群體中出現(xiàn)的頻率。他們發(fā)現(xiàn),某些變異的頻率在不同的亞種群之間存在很大差異,如果只在某些特定變異頻率較低的歐洲血統(tǒng)種群中進(jìn)行分析,可能會(huì)被誤解。
一個(gè)單一的參考基因組必須選擇任何變異的一個(gè)版本來(lái)表示,而留下其他版本不表示。通過(guò)使更廣泛的具有代表性的泛基因組參考實(shí)用,Giraffe可以使基因組學(xué)更具包容性。
Paten和加州大學(xué)圣克魯斯基因組研究所的其他人參與了一項(xiàng)由美國(guó)國(guó)家人類基因組研究所資助的重大努力,以建立一個(gè)全面的人類泛體基因組參考,他們預(yù)計(jì)將于明年發(fā)布,作為科學(xué)界的資源。
參考文獻(xiàn)
Tumour DDR1 Promotes Collagen Fibre Alignment to Instigate Immune Exclusion
聯(lián)系客服