美國明尼蘇達大學(xué)生物統(tǒng)計系博士后薛浩然、統(tǒng)計系沈曉彤教授、生物統(tǒng)計系潘偉教授在The American Journal of Human Genetics雜志上發(fā)表論文——“Constrained maximum likelihood-based Mendelian randomization robust to both correlated and uncorrelated pleiotropic effects”。
該研究提出了一種新的孟德爾隨機化方法來推斷性狀及疾病之間的因果關(guān)系,該方法對于基因多效效應(yīng)具有穩(wěn)健的表現(xiàn)。
不同事件和變量之間的相關(guān)關(guān)系在我們的生活以及自然環(huán)境中廣泛的存在。例如某一國家不同城市的人均用電量同當(dāng)?shù)厝司砀叱收嚓P(guān),大自然中氣溫同海拔高度呈負(fù)相關(guān)。但由于普遍存在的未被觀測的混雜因素(Confounder),我們并不能由觀測到的相關(guān)性推導(dǎo)出因果關(guān)系(Causality)。比如在第一個例子中一個可能的混雜因素是經(jīng)濟發(fā)展水平,經(jīng)濟發(fā)展水平高的地方電器使用多因此用電量高,并且飲食營養(yǎng)豐富均衡因此人均身高也高,而非用電量高導(dǎo)致人們身高增長。
因果推斷(Causal Inference)可以幫助人們更加深刻地理解相關(guān)關(guān)系背后的因果關(guān)系,并幫助人們做出更好的決策。特別是在生物和醫(yī)學(xué)中,因果關(guān)系具有重要的意義。如果我們可以判斷性狀以及疾病之間是否存在因果關(guān)系,我們就可以據(jù)此發(fā)展治療疾病的方法,并對人們?nèi)绾谓】瞪钐峁└訙?zhǔn)確的指導(dǎo)。
工具變量(Instrumental Variable)方法是一類重要的研究因果關(guān)系的方法。假設(shè)我們想要研究變量X對變量Y的因果效應(yīng),并用U代表所有未被觀測到的混雜因素,那么一個有效的工具變量IV需要滿足三個條件:(A1)IV與X相關(guān),(A2)IV與Y無直接聯(lián)系,(A3)IV與U獨立。一個滿足條件的工具變量可以被看作是X的替代,并且這個替代不與U和Y直接發(fā)生聯(lián)系,因此通過判斷IV和Y是否有關(guān)聯(lián)可以推斷出X與Y是否有因果關(guān)系。
孟德爾隨機化方法(Mendelian Randomization,MR)是一類利用
遺傳變異,多為單核苷酸多態(tài)性,作為工具變量(Instrumental Variable)來研究不同性狀及疾病間因果關(guān)系的方法。然而從上述的有效工具變量的三個假設(shè)中可以看出,找到一個有效的SNP作為工具變量在大部分情況下是困難的,因為這意味著我們要完全清楚該SNP的作用機制。并且由于廣泛存在的基因多效效應(yīng),部分SNP有可能與U、Y之間存在直接的聯(lián)系,因此并非有效的工具變量。一個SNP如果不滿足A2則稱之為有不相關(guān)的多效效應(yīng),如果不滿足A3則稱之為有相關(guān)的多效效應(yīng)。
構(gòu)建一種對于兩種多效效應(yīng)都有穩(wěn)健表現(xiàn)的方法可以幫助研究人員得到更加可靠的結(jié)論?;诩s束最大似然(Constrained Maximum Likelihood),模型平均(Model Average),以及貝葉斯信息量(BIC),研究人員提出了一種新的方法cML-MA-BIC來解決這個問題。
當(dāng)一組SNP被用作工具變量時,研究人員構(gòu)造一組模型并在每一個模型中利用約束最大似然選擇有效的SNP,然后基于BIC產(chǎn)生不同模型的權(quán)重來得到加權(quán)平均模型,最終利用這個模型來推斷X和Y之間的因果關(guān)系。并且研究人員提出了利用數(shù)據(jù)擾動(Data Perturbation)來更好的衡量估計誤差以作為對變量選擇不穩(wěn)定的補充,以及提出兩種擬合優(yōu)度檢驗(Goodness-of-fit Test)來衡量變量選擇的準(zhǔn)確程度。
通過大量的模擬實驗,研究人員比較了cML-MA-BIC以及其他被廣泛運用的MR方法,實驗結(jié)果證實了cML-MA-BIC穩(wěn)健的表現(xiàn)。在真實數(shù)據(jù)分析中研究人員探究了12種風(fēng)險因素對4種常見疾病的影響,cML-MA-BIC發(fā)現(xiàn)了一些風(fēng)險因素與疾病間可能存在的因果關(guān)系,比如高體脂率可能引發(fā)冠狀動脈疾病,吸煙可能會導(dǎo)致
中風(fēng)。這些關(guān)系也得到了其他相關(guān)研究的支持。
此外,當(dāng)一些常見的假設(shè)成立時,研究人員的定理1提供了對cML-MA-BIC的理論支持。研究人員用迭代算法來實現(xiàn)cML-MA-BIC,并將其編寫成
軟件MRcML,可以從GitHub下載:https://github. com/xue-hr/MRcML。(
生物谷Bioon.com)
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。