文章的題目是A bidirectional Mendelian randomization study supports causal effects of kidney function on blood pressure,這篇文章用到的統(tǒng)計(jì)技巧叫做Two-sample MR----兩樣本孟德爾隨機(jī)分析。我還查閱了別的孟德爾隨機(jī)化的文獻(xiàn),這個(gè)Two-sample MR的分析其實(shí)是非常常用的。
Two-sample MR分析的一般步驟
第一步是找工具變量,我們要的是基因作為工具變量這些個(gè)基因都是從別人的研究中挑出來的,所有的基因研究有個(gè)專門的庫叫做genome wide association studies (GWAS)。我們需要做的就是從這個(gè)庫中挑出來我們自己需要的和我們暴露相關(guān)的基因變量SNPs。這是第一步。第二步就是估計(jì)我們的工具變量對(duì)結(jié)局的作用,工具變量對(duì)結(jié)局的作用也是從所有的研究中估計(jì)出來的整體效應(yīng),這樣可以拒絕單個(gè)研究的偏倚。第三步就是合并多個(gè)SNP的效應(yīng)量,這個(gè)效應(yīng)量是我們得到暴露和結(jié)局因果效應(yīng)的前提。第四步就是用合并后的數(shù)據(jù)進(jìn)行孟德爾隨機(jī)化分析和相應(yīng)的敏感性分析。做分析的整個(gè)流程就在下面的圖中啦:總體來看就是在孟德爾隨機(jī)化研究中我們的工具變量可以不需要你收集,工具變量的效應(yīng)也不需要你計(jì)算,這些都只需要你在GWAS挖掘合并就行。就是說做孟德爾隨機(jī)化研究是不需要你有原始數(shù)據(jù)的。我們把上面的步驟具體在剛剛提到的文獻(xiàn)中走一遍:這篇文獻(xiàn)是要研究高血壓和腎功能的因果方向的,就是到底是高血壓導(dǎo)致腎功能下降,還是腎功能下降導(dǎo)致的高血壓,具體地就是研究eGFRcr和BP的因果方向。首先作者從別人的基因研究中找自己研究變量的工具變量,別人的研究的情況如下表:注意下表是包含一個(gè)聯(lián)盟的很多個(gè)研究的(腎功能的工具變量是從CKDGen Consortium找來的,血壓的工具變量是UKB-ICBP中找來的),是需要進(jìn)行meta整合的:通過meta分析作者就篩選出了兩個(gè)變量可能的工具變量,因?yàn)槊總€(gè)變量的工具變量其實(shí)是比較多的,為了保證同一個(gè)變量工具變量間的獨(dú)立性,作者有做一個(gè)叫LD clumping的操作:
To ensure independence among genetic instruments, we applied LD clumping60 with a clumping window of 10 MB and an r2 cutoff of 0.001 (default of the ld_clumpfunction)
作者有把篩出來的變量的暴露和結(jié)局的工具變量展示在文獻(xiàn)中(但是放在補(bǔ)充材料中的,我并沒有能找到,欸)然后就到第二步和第三步,估計(jì)工具變量對(duì)暴露和結(jié)局的作用,這個(gè)時(shí)候要考慮工具變量一定不能直接影響結(jié)局(叫做pleiotropy),所以作者會(huì)用好幾個(gè)算法(inverse variance weighted method, mendelian randomisation-Egger (MR-Egger) method, weighted median method, and weighted mode based estimation)來估計(jì)SNP的作用,并將多個(gè)SNP的效應(yīng)合并,用到的是harmonise_data這個(gè)函數(shù)。最后得到一個(gè)總的合并后的效應(yīng),這個(gè)效應(yīng)被認(rèn)為是比較穩(wěn)健的:
We applied four complementary methods of two sample mendelian randomisation (inverse variance weighted method, mendelian randomisation-Egger (MR-Egger) method, weighted median method, and weighted mode based estimation), which make different assumptions about horizontal pleiotropy. A consistent effect across the four methods is less likely to be a false positive.
Two sample Mendelian randomisation (2SMR) is a method to estimate the causal effect of an exposure on an outcome using only summary statistics from genome wide association studies (GWAS).
具體地,作者使用的R包是'TwoSampleMR’。使用TwoSampleMR的基本流程包括4步:
選擇工具變量
從GWAS數(shù)據(jù)庫提取工具變量
合并效應(yīng)量
做MR分析,敏感性分析,畫圖,出報(bào)告
在分析中我們要使用SNPs來作為工具變量:
Mendelian randomization is a method to assess the causal effect of an exposure on an outcome using an instrument, defined by one or more SNPs, as a proxy for the exposure.
Methodological advances mean that Mendelian randomization can be implemented using summary statistics from GWAS, without individual level data. This requires SNP-exposure associations and SNP-outcome associations obtained from separate datasets and is known as two-sample Mendelian randomization
這里又有許多術(shù)語需要給大家做做鋪墊:
孟德爾隨機(jī)化:Mendelian randomization is a method to assess the causal effect of an exposure on an outcome using an instrument, defined by one or more single nucleotide polymorphisms, as a proxy for exposure.(SNP就是工具變量)
Genome-wide association study (GWAS):Genome-wide association studies identify the genetic variants that are associated with a given phenotype.和暴露(表型)相關(guān)的基因都是從GWAS中找的
Heterogeneity:Heterogeneity is defined as the variation in the causal estimate across SNPs.這個(gè)是不同SNP效應(yīng)的異質(zhì)性,所以多個(gè)SNP的效應(yīng)是需要合并的