生信草堂
據(jù)WHO統(tǒng)計(jì),目前吸煙每年會帶走至少六百萬人的生命。
照這個(gè)趨勢下去,本世紀(jì)會有超過10億煙草相關(guān)的死亡。從流行病學(xué)角度,吸煙與至少17種人類癌癥相關(guān),但直到現(xiàn)在,還沒有人找到吸煙導(dǎo)致癌癥發(fā)生的背后機(jī)制。
多年來,科學(xué)研究發(fā)現(xiàn)吸煙可以對身體不同器官造成的災(zāi)難性的基因損傷,并不斷試圖尋找吸煙導(dǎo)致疾病發(fā)生的病理機(jī)制。
下面我們向大家介紹一篇SCI論文(Georgiadis, Hebels et al. 2016),看它如何利用已有的數(shù)據(jù),通過再次提出新的問題,并回答問題。
本文利用的組學(xué)數(shù)據(jù)包括三種:gene expression (Agilent 4 × 44K human whole genome microarray platform), CpG methylation (Illumina Infinium HumanMethylation450 platform), miRNA expression profiling [Agilent Human miRNA Microarray (Release 19.0, 8 × 60K), representing 2006 human miRNAs].
這些數(shù)據(jù)基于649個(gè)健康人的血液樣本,詳情請見圖1,處理方法已經(jīng)在已發(fā)表的文章描述過 (Hebels, Georgiadis et al. 2013, Coonen, Theunissen et al. 2015)。
之前的研究主要關(guān)注于發(fā)現(xiàn)與吸煙暴露相關(guān)的生物標(biāo)記(Biomarker)。
本文整合這些已發(fā)表的數(shù)據(jù),回答科學(xué)問題:基于健康者血液樣本,這些發(fā)現(xiàn)的與吸煙相關(guān)的轉(zhuǎn)錄組和甲基化組改變是否與吸煙相關(guān)的疾病發(fā)生有關(guān)。
為了這一目的,他們進(jìn)行一系列生物信息學(xué)分析如下:
一. 吸煙誘導(dǎo)基因表達(dá)、DNA甲基化及miRNA表達(dá)的改變
首先,作者們分別對基因表達(dá)、DNA甲基化和miRNA表達(dá)數(shù)據(jù)進(jìn)行了常規(guī)的差異分析,發(fā)現(xiàn)了一些差異基因。
A. 吸煙者 VS. 非吸煙者,作者們發(fā)現(xiàn)了350個(gè)差異表達(dá)轉(zhuǎn)錄本(FDR<0.1,其中231>0.1,其中231><>
B. 吸煙者 VS. 非吸煙者,作者們發(fā)現(xiàn)了1,273個(gè)差異CpG位點(diǎn)(FDR <>
其中最顯著的基因是AHRR,它上面有27個(gè)CpG位點(diǎn)顯著(FDR<>
這是很重要的結(jié)果,因?yàn)檫@個(gè)基因是吸煙甲基化研究中證據(jù)最多,結(jié)果最有力的。這里發(fā)現(xiàn)了它,可以有力的證明了結(jié)果的可靠性。不然就不好解釋啦。
C. 吸煙者 VS. 非吸煙者,作者們發(fā)現(xiàn)了34個(gè)差異表達(dá)的miRNA,其中26個(gè)高表達(dá)和8個(gè)低表達(dá)。
二. 疾病關(guān)聯(lián)分析
第一部分的分析發(fā)現(xiàn)了一系列的與吸煙相關(guān)的差異基因,這一部分作者們想建立這些發(fā)現(xiàn)的差異基因與疾病之間的關(guān)系。
這里用到了一個(gè)很好用的數(shù)據(jù)庫:The Comparative Toxicogenomic Database (http://ctdbase.org)。
這個(gè)數(shù)據(jù)庫包涵了許多信息:chemical-gene/protein interactions, chemical-disease 和 gene-disease關(guān)系(如圖2)。
圖2. The Comparative Toxicogenomic Database首頁
通過這個(gè)數(shù)據(jù)庫的疾病富集分析,可以找到差異基因富集的疾病List。這里作者們分別對差異表達(dá)基因集、差異甲基化基因集及它們的合并基因集進(jìn)行了疾病富集分析(如圖3)。
這里大家一定會意識到通過這樣的疾病數(shù)據(jù)庫分析,會有許多的疾病被富集,其中有一些疾病在流行病學(xué)研究中沒有任何證據(jù)與吸煙相關(guān)。這個(gè)時(shí)候就要考慮到有可能是假陽性富集導(dǎo)致的這一現(xiàn)象產(chǎn)生。
所以作者們就想到了一個(gè)解決辦法:利用已有的流行病學(xué)知識進(jìn)行有效排除,即對那些有充足流行病學(xué)證據(jù)的疾病作進(jìn)一步研究。
這里他們用到兩個(gè)數(shù)據(jù)來源:the US Surgeon General’ s report on the health consequences of smoking和the latest IARC Monograph on tobacco。
整合比較后找到一些較為可靠地富集疾病List,如一系列吸煙相關(guān)的癌癥 (詳見圖4)
圖3. 通過不同的基因集富集相關(guān)的疾病List
圖4. 總結(jié)從the Comparative Toxicogenomic Database富集的疾病list與the US Surgeon General’s Report on the health consequences of smoking和 the IARC Monograph on tobacco比較的結(jié)果。
三. 生物信息學(xué)分析
1. 信號通路富集分析
為了進(jìn)一步研究吸煙相關(guān)的這些差異表達(dá)(DEG)/甲基化(DMG)基因在吸煙相關(guān)疾病中發(fā)揮作用的分子機(jī)制,他們進(jìn)行了通路富集分析。
這里使用的通路富集分析軟件是:ConsensusPathDB(http://consensuspathdb.org/)。
該軟件是利用DEG基因集、DMG基因集和合集進(jìn)行富集分析,總共有894個(gè)基因。
通過通路富集分析,發(fā)現(xiàn)了97個(gè)顯著富集的信號通路(FDR<>
圖5. 信號通路富集結(jié)果
2. hub基因的鑒定(identification of hub DEGs/DMGs)
因?yàn)樽髡邆儼l(fā)現(xiàn)了大量的基因(n=894),很難進(jìn)行重點(diǎn)研究。
所以可以利用生物信息學(xué)軟件GORevenge進(jìn)行鑒定hub基因,減少gene list的復(fù)雜度。
對于GORevenge軟件:用戶提供gene list, 軟件利用Gene ontology(GO)進(jìn)行富集分析,并根據(jù)GO條目的多少進(jìn)行排序打分。通過這樣的分析,本文總發(fā)現(xiàn)了40個(gè)基因是hub基因,關(guān)聯(lián)的條目在30到120之間。
這個(gè)時(shí)候,作者想看看這些hub基因之間的關(guān)聯(lián)關(guān)系,并通過網(wǎng)絡(luò)構(gòu)建作了一個(gè)全局性的展示。
這里用到的軟件是STRING。發(fā)現(xiàn)它們之間存在一定的關(guān)聯(lián)關(guān)系,并找到了幾個(gè)重要的hub基因,方便后續(xù)研究。如下圖6。
圖6. 基于STRING構(gòu)建Hub基因之間的網(wǎng)絡(luò)圖
接著利用the Comparative Toxicogenomic Database數(shù)據(jù)庫,對這40個(gè)hub基因做了疾病關(guān)聯(lián)分析,結(jié)果發(fā)現(xiàn)同樣富集了與吸煙相關(guān)的疾病,如肺癌和心血管疾病(圖7)。
4. 對健康人群中發(fā)現(xiàn)的結(jié)果在疾病人群中做驗(yàn)證
因?yàn)樯厦娴难芯慷际腔诮】嫡哐褐械幕虮磉_(dá)和DNA甲基化差異,來反映吸煙相關(guān)疾病發(fā)生的分子機(jī)制。
所以這一部分,作者利用已經(jīng)發(fā)表的基于病人血液樣本的數(shù)據(jù)對以上發(fā)現(xiàn)進(jìn)行驗(yàn)證。
這里選用了與吸煙相關(guān)證據(jù)較多的兩種疾?。悍伟?(Rotunno, Hu et al. 2011, Zander, Hofmann et al. 2011) 和冠心病 (Joehanes, Ying et al. 2013)。
通過比較分析,發(fā)現(xiàn)在健康者中發(fā)現(xiàn)的差異基因也可以在病人的數(shù)據(jù)中發(fā)現(xiàn)(如下表),這一結(jié)果證明了本文發(fā)現(xiàn)的結(jié)果具有一定的可靠性。
老馬小結(jié):本文總體構(gòu)思直截了當(dāng),通過組學(xué)數(shù)據(jù)的疾病富集與流行病學(xué)證據(jù)結(jié)合,找到與吸煙相關(guān)的疾病list。并通過一系列的生物信息學(xué)分析,發(fā)現(xiàn)與吸煙相關(guān)疾病發(fā)生的重要生物學(xué)通路和hub基因。再結(jié)合健康人與病人之間的結(jié)果一致性比較,證明發(fā)現(xiàn)結(jié)果的可靠性??傮w來說,本文發(fā)表在Scientific Reports上是夠了,但是可能仍有許多不足,需要改進(jìn),例如,本文采用了mRNA/DNA methylation/miRNA三種類型的數(shù)據(jù),但通篇沒有討論他們之間是否有什么聯(lián)系,而只是簡單的把它們的結(jié)果合并在一起。
參考文獻(xiàn):
Coonen, M., D. H. Theunissen, J. C. Kleinjans and D. G. Jennen (2015). 'MagiCMicroRna: a web implementation of AgiMicroRna using shiny.' Source Code Biol Med 10: 4.
Georgiadis, P., D. G. Hebels, I. Valavanis, I. Liampa, I. A. Bergdahl, A. Johansson, D. Palli, M. Chadeau-Hyam, A. Chatziioannou, D. G. Jennen, J. Krauskopf, M. J. Jetten, J. C. Kleinjans, P. Vineis, S. A. Kyrtopoulos and c. EnviroGenomarkers (2016). 'Omics for prediction of environmental health effects: Blood leukocyte-based cross-omic profiling reliably predicts diseases associated with tobacco smoking.' Sci Rep 6: 20544.
Hebels, D. G., P. Georgiadis, H. C. Keun, T. J. Athersuch, P. Vineis, R. Vermeulen, L. Portengen, I. A. Bergdahl, G. Hallmans, D. Palli, B. Bendinelli, V. Krogh, R. Tumino, C. Sacerdote, S. Panico, J. C. Kleinjans, T. M. de Kok, M. T. Smith, S. A. Kyrtopoulos and C. EnviroGenomarkers Project (2013). 'Performance in omics analyses of blood samples in long-term storage: opportunities for the exploitation of existing biobanks in environmental health research.' Environ Health Perspect 121(4): 480-487.
Joehanes, R., S. Ying, T. Huan, A. D. Johnson, N. Raghavachari, R. Wang, P. Liu, K. A. Woodhouse, S. K. Sen, K. Tanriverdi, P. Courchesne, J. E. Freedman, C. J. O'Donnell, D. Levy and P. J. Munson (2013). 'Gene expression signatures of coronary heart disease.' Arterioscler Thromb Vasc Biol 33(6): 1418-1426.
Rotunno, M., N. Hu, H. Su, C. Wang, A. M. Goldstein, A. W. Bergen, D. Consonni, A. C. Pesatori, P. A. Bertazzi, S. Wacholder, J. Shih, N. E. Caporaso, P. R. Taylor and M. T. Landi (2011). 'A gene expression signature from peripheral whole blood for stage I lung adenocarcinoma.' Cancer Prev Res (Phila) 4(10): 1599-1608.
Zander, T., A. Hofmann, A. Staratschek-Jox, S. Classen, S. Debey-Pascher, D. Maisel, S. Ansen, M. Hahn, M. Beyer, R. K. Thomas, B. Gathof, C. Mauch, K. S. Delank, W. Engel-Riedel, H. E. Wichmann, E. Stoelben, J. L. Schultze and J. Wolf (2011). 'Blood-based gene expression signatures in non-small cell lung cancer.' Clin Cancer Res 17(10): 3360-3367..
聯(lián)系客服