SPSS中的Univariate過程是被輕視了的一個分析方法,尤其是在較新版本的一些功能增加之后。在線性回歸中遇到多分類變量時,我們是需要將其設(shè)置成啞變量的,你可以手動設(shè)置,也可以通過創(chuàng)建啞變量過程(轉(zhuǎn)換Transform>>創(chuàng)建虛擬變量Create Dummy Variables),雖非難事,但我還是會奇怪為什么在線性回歸的對話框里面不能像logistic回歸那樣有一個可以把分類變量設(shè)置成啞變量的按鈕。我們常常說方差分析是線性回歸的一個特殊形式,線性回歸可以實現(xiàn)方差分析,但其實線性回歸也可以在Univariate過程中實現(xiàn),只需要將分類變量放入因子框、連續(xù)變量放入?yún)f(xié)變量框就可以了。放入因子框的變量會自動按啞變量處理。結(jié)果除了可以獲得方差分析表,也可以獲得線性回歸里的參數(shù)估計表,只需要在【選項】按鈕中選中參數(shù)估計[Parameter estimates]就可以了。另外【選項】里面提供的異方差檢驗[Heteroskedasticity test]也可以直接實現(xiàn)對線性模型方差齊同性的Breusch-Pagan、White等統(tǒng)計學(xué)檢驗,甚至還可以進(jìn)行穩(wěn)健回歸,這在線性回歸里面反而做不到。其他像趨勢檢驗、事后(Post Hoc)多重比較,邊際均值(EM means)估計與比較也不是線性回歸能比擬的,而且還提供了估計值/殘差/模型診斷參數(shù)的保存。
獨立、正態(tài)、方差齊同是我們進(jìn)行方差分析時的前提條件,在進(jìn)行方差分析前我們需要對這些條件進(jìn)行考察。這里面獨立性最重要,可根據(jù)專業(yè)做出判斷。正態(tài)性和方差齊性對的考察方法也很多,可參見《正態(tài)分布與方差齊性的檢驗方法》。
需要特別注意的是這里的正態(tài)性是指各個單元格的殘差都呈正態(tài)分布,方差齊同是指各個單元格的殘差的方差相等。什么是單元格?單元格指的是模型中各個因素各個水平的組合。比如一個三水平的單因素方差分析中,會有三個單元格,而在一個兩因素的方差分析中,如果一個因素兩水平,另外一個因素三水平,結(jié)果會有6個單元格。在進(jìn)行方差分析時,如兩因素Yijk=u+αi+βj+εijk,考察各單元格殘差的正態(tài)性和方差齊性跟考察單元格內(nèi)的因變量的正態(tài)性和方差齊性結(jié)果是一致的。另外,方差分析歸屬于一般線性模型,方差分析只不過是線性模型中自變量均為分類變量的特殊形式而已,因此我們也可采用線性回歸中正態(tài)性和方差齊性的考察辦法來考察方差分析中的正態(tài)性和方差齊性,這些方法可參見《線性回歸中的正態(tài)分布》和《線性回歸中的方差齊性探察》,這些在Univariate過程中也可以實現(xiàn)。示例:我們使用1989年Hosmer和Lemeshow研究了低出生體重嬰兒的影響因素的數(shù)據(jù),結(jié)局變量是每個新生兒的具體體重(bwt,g),只選取其中的兩個分類變量:產(chǎn)婦在妊娠期間是否吸煙(smoke,0=未吸、1=吸煙),種族(race,1=白人、2=黑人、3=其他民族)。吸煙和種族對新生兒體重是否有影響?在進(jìn)行兩因素多水平的方差分析前,我們需要先檢驗一下數(shù)據(jù)的正態(tài)性和方差齊性。分析(Analyze)>>一般線性模型(General Linear Models)>>單變量(Univariate):
固定因素(Fixed Factor)列表選入smoke、race;【模型】默認(rèn)全因子(Full factorial)模型。全因素模型分析主對話框中的所有的變量(包括因子和協(xié)變量)的主效應(yīng)以及各因子間的交互作用,但注意想要分析A和B的交互項每個單元格至少需要3個數(shù)據(jù)點;【保存】選擇未標(biāo)準(zhǔn)化的預(yù)測值和未標(biāo)準(zhǔn)化的殘差;【選項】選擇描述性統(tǒng)計量(Descriptive statistics)以及與方差齊性檢驗相關(guān)的Homogeneity test、Spread vs. Level plot、Residual plot以及Heteroskedasticity test。Homogeneity test:各個單元格[受試者間因子(分類變量)各水平組合]中的因變量的方差是否相等的Levene檢驗,檢驗的是誤差方差在各個單元格內(nèi)是否恒定。Spread vs. Level plot是單元格均值和標(biāo)準(zhǔn)差的散點圖,是方差齊性的的可視化檢驗。殘差圖(Residual plot)作用比較多,可用于線性、正態(tài)、等方差的大體判斷。異方差檢驗(Heteroskedasticity test)用于檢驗誤差的方差是否取決于自變量的值,可以理解為從線性模型的角度,檢測方差是否會隨自變量的變化而變化,提供了Breusch-Pagan檢驗、修正的Breusch-Pagan檢驗、 F 檢驗和White檢驗。這些檢驗方法大體思路就是通過回歸求得殘差,然后以殘差的平方為因變量與自變量再次回歸,再次回歸時有的方法可能用線性有的方法會加入高次項和交互項,如果再次回歸時的系數(shù)都等于0就表示殘差與自變量沒啥關(guān)系,滿足方差齊性。本次筆記以演示方差分析中正態(tài)分布和方差齊性的考察為目的,吸煙和種族對新生兒體重的影響分析我們先暫不考慮,對話框中其他按鈕暫不設(shè)置。描述性統(tǒng)計量顯示了每個單元格內(nèi)及分類匯總的均值、標(biāo)準(zhǔn)差及樣本量。
誤差方差齊性的Levene檢驗給出的是誤差方差在各個單元格內(nèi)是否恒定的檢驗結(jié)果,本例顯示顯著性檢驗P=0.831 >0.05,沒有理由認(rèn)為違反了等方差假設(shè),或者說在描述性統(tǒng)計表中觀察到的單元格的標(biāo)準(zhǔn)差的差異是由于隨機(jī)變異造成的。 同時異質(zhì)性檢驗(White檢驗、修正的Breusch-Pagan檢驗、Breusch-Pagan檢驗、 F 檢驗)結(jié)果也都顯示因變量殘差方差的變化并不取決于自變量,即方差是恒定的。Spread vs. Level plot
Spread和level圖有兩副,一幅是單元格均值和標(biāo)準(zhǔn)差,另外一幅是單元格均值和方差的。該圖只有在存在分類變量時才產(chǎn)生。下圖顯示的是level(均值)和Spread(標(biāo)準(zhǔn)差),該圖直接顯示了均值和標(biāo)準(zhǔn)差之間的關(guān)系,相對level(均值)差異(約900)而言,spread(標(biāo)準(zhǔn)差)差異(約200)并不算大,因此大體可判斷假設(shè)方差在組間是同質(zhì)的。
異質(zhì)性檢驗在檢驗單元格內(nèi)無重復(fù)數(shù)據(jù)的方差分析的方差齊性時還是比較有用的。比如在區(qū)組設(shè)計、交叉設(shè)計、正交設(shè)計這些設(shè)計,每個單元格中只有1個數(shù)據(jù)點(元素),1個數(shù)字是也無法考察正態(tài)性的,1個數(shù)字連方差都沒法計算更別說方差齊性了。對于這些設(shè)計進(jìn)行方差分析時常常因為條件不具備而不做這方面的檢驗,如果需要考察其實是可以方差分析中的異質(zhì)性檢驗來進(jìn)行的。
以《方差分析》一文中的隨機(jī)區(qū)組設(shè)計的方差分析為例,因變量框選入Weight;固定因素列表選入Group、Block;【模型】默認(rèn)全因子(Full factorial)模型;【選項】選擇描述性統(tǒng)計量、Homogeneity test、Heteroskedasticity test中的White檢驗。
結(jié)果會首先收到警告Warnings:All absolute deviations are constant within each cell. Levene F statistics cannot be computed. 各單元格方差齊性的Levene檢驗無法進(jìn)行,因為每個單元格中只有一個數(shù)據(jù)點, Levene F統(tǒng)計量無法計算。然后會發(fā)現(xiàn)在描述性統(tǒng)計表中,標(biāo)準(zhǔn)差無法計算,單元格樣本量為1。同樣在最后的組間效應(yīng)檢驗也無法給出顯著性檢驗【要分析A和B的交互項每個單元格至少需要3個數(shù)據(jù)點,隨機(jī)區(qū)組設(shè)計的方差分析只能分析主效應(yīng),需要在[模型]中將默認(rèn)全因素模型去掉交互項構(gòu)建只含主效應(yīng)的模型】。
但這不妨礙我們對模型的殘差進(jìn)行異質(zhì)性檢驗,White檢驗結(jié)果表明殘差齊同。組間效應(yīng)檢驗結(jié)果表明吸煙和種族并不存在交互作用,接下來我們需要去掉交互項以簡化模型。在【模型】模型按鈕中將默認(rèn)的全因素(Full factorial)模型改為構(gòu)建項(Build Term),將smokep和rance選入型(Model)框,構(gòu)建類型(Type)為“主效應(yīng)(Main effects)”,其他設(shè)置同前。Levene檢驗結(jié)果如下:F=0.646,P=0.665,這跟全模型下的檢驗結(jié)果雖然一致,但具體結(jié)果(F=0.424,P=0.831)卻不盡相同。因為該檢驗是基于單元格的數(shù)據(jù)進(jìn)行的,兩種模型對應(yīng)的單元格數(shù)據(jù)都是一樣的,結(jié)果卻出現(xiàn)了這種絕對差異,搞了好幾天也沒弄明白其背后的算法和邏輯。。。異質(zhì)性檢驗(White檢驗、修正的Breusch-Pagan檢驗、Breusch-Pagan檢驗、 F 檢驗)結(jié)果也都顯示無統(tǒng)計學(xué)意義(方差恒定),但檢驗統(tǒng)計量和P值跟全模型下卻不再相同。其實這很容易理解,當(dāng)模型發(fā)生變化時,每個個案對應(yīng)的殘差也會不同,以殘差為基礎(chǔ)的檢驗結(jié)果自然會發(fā)生變化。White檢驗、修正的Breusch-Pagan檢驗結(jié)果如下:我們前面就說過多因素方差分析中的正態(tài)性和方差齊性檢驗是以單元格為基本單位的,本例只有兩個因素:吸煙和種族,吸煙有兩個水平,種族有三個水平,這樣會形成6個單元格,分別是:不吸煙白人、不吸煙黑人、不吸煙其他種族、吸煙白人、吸煙黑人、吸煙其他種族,我們用新變量cellgroup來標(biāo)識,那么對模型的正態(tài)性和方差齊性檢驗就可以直接轉(zhuǎn)變成對這6個單元格的出生體重(或殘差)的正態(tài)性和方差齊性的檢驗。分析(Analyze)>>描述統(tǒng)計量(Descriptive Statistics)>>探索(Explore)因變量列表選入bwt(出生體重)、RES_1(全模型殘差)、RES_2(簡約模型殘差);因子列表選入cellgroup;【繪制】按鈕中選中帶檢驗的正態(tài)圖及方差齊性檢驗(Spreads vs Level with Levene Test,不轉(zhuǎn)換)。6個單元格的正態(tài)性和方差齊性檢驗結(jié)果如下:并不是所有的單元格都嚴(yán)格滿足正態(tài)性,當(dāng)然方差分析對正態(tài)分布的要求并不高。單元格內(nèi)模型殘差的正態(tài)性和方差齊性與單元格內(nèi)的因變量檢測結(jié)果一致。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。