作者:數(shù)據(jù)小兵
一、什么是預(yù)處理、預(yù)分析?
高質(zhì)量數(shù)據(jù)是數(shù)據(jù)分析的前提和分析結(jié)論可靠性的保障。盡管在獲取數(shù)據(jù)源時數(shù)據(jù)分析師格外謹(jǐn)慎,耗費大量的時間,但數(shù)據(jù)質(zhì)量仍然需持續(xù)關(guān)注。不管是一手還是二手?jǐn)?shù)據(jù)源,總是會存在一些質(zhì)量問題。同時,為了滿足數(shù)據(jù)分析、挖掘的實際需要,對噪聲數(shù)據(jù)如何處理,是丟棄還是補充,或者重新計算新的數(shù)據(jù)變量,這些不是隨意決定的,這就是數(shù)據(jù)預(yù)處理的一個過程,是在數(shù)據(jù)分析、挖掘開始前對數(shù)據(jù)源的審核和判斷,是數(shù)據(jù)分析必不可少的一項。本文暫只簡單討論一下缺失值、異常值的處理。
二、如何發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,例如,如何發(fā)現(xiàn)缺失值?
1、SPSS是如何做到的?
?。?)系統(tǒng)缺失值、空白值
每一個變量均有可能出現(xiàn)系統(tǒng)缺失或者空白,當(dāng)數(shù)據(jù)量巨大時我們根本無法用眼睛看出是否有缺失,最明智的做法是把這項任務(wù)交給數(shù)據(jù)分析工具,比如Excel,可通過數(shù)據(jù)有效性、篩選、查找、計數(shù)等功能去實現(xiàn),如果是SPSS數(shù)據(jù)源,可以通過描述統(tǒng)計之“頻率”項來實現(xiàn)。
上圖,五個變量中,家庭人均收入有效樣本94,有6個無效樣本,在spss數(shù)據(jù)區(qū)域顯示為空白值。其他變量均沒有缺失,對于這6個缺失值是留是踢需要謹(jǐn)慎。
?。?)變量取值分布
這一項不容忽視,一般由于輸入錯誤、數(shù)據(jù)本身或者其他原因造成。這里分分類變量和數(shù)值變量進行檢查。
分類變量取值分布檢查:
描述統(tǒng)計之“頻率”項,可以對變量以及變量取值進行頻次統(tǒng)計匯總,因此,此處仍然采用“頻率”項。
上圖,我們已經(jīng)確認(rèn)是否獻血樣本全部有效,但是不代表這個變量沒有其他噪聲。通過此變量取值分布的考察,我們可以發(fā)現(xiàn)是否獻血有4個水平,分別為“0”“1”“No”“Yes”,但實際上,該變量的取值至于兩個水平,“No”“Yes”,其余兩個取值是錯誤操作導(dǎo)致的,這是系統(tǒng)缺失值,可以通過重新賦值進行處理。
數(shù)值變量取值分布檢查:
數(shù)值變量取值分布不宜采用“頻次”的統(tǒng)計,一般可通過直方圖、含有正態(tài)檢驗的直方圖來實現(xiàn)。
上圖,數(shù)值變量的直方圖,可以清楚的看到其分布情況。可以初步判斷存在異常值。
?。?)離群值、極值
在SPSS中可以通過“箱圖”直觀的看到異常值,探索分析項或者箱圖功能可實現(xiàn)。
上圖,為spss探索分析結(jié)果,還可以設(shè)置分組變量??梢灾庇^的發(fā)現(xiàn),家庭人均收入存在極值,編號為66,可以快速查找定位。
2、Clementine是怎么做到的?
Data Audit,數(shù)據(jù)審核節(jié)點示例:以下數(shù)據(jù)流看圖不解釋。
首先,建立以上數(shù)據(jù)流。最后一個為“數(shù)據(jù)審核”節(jié)點,右鍵選擇并打開編輯:
上圖,為clementine變量診斷結(jié)果,非常直觀,圖文并茂,而且一張圖幾乎說明了數(shù)據(jù)源各種質(zhì)量問題。是否無償獻血,取值水平有4個,家庭人均收入最大值有異常,且明確顯示有6個無效值。其他變量正常。
上圖,是clementine變量診斷結(jié)果中的另外一張圖表,我們可以發(fā)現(xiàn)家庭人均收入有一枚極值,六枚無效值。通過上述診斷,數(shù)據(jù)質(zhì)量問題一目了然。
三、如何處理缺失值、離群值、極值?
1、SPSS實現(xiàn)方法
上圖,為spss變量轉(zhuǎn)換菜單下的重新編碼為相同變量選項卡??梢暂p松實現(xiàn)變量重新賦值。主要實現(xiàn)方法:重新編碼為相同/不同變量、計算變量、缺失值分析模塊,此處略,后續(xù)文章會涉及。
2、Clementine實現(xiàn)方法
(1)是否無償獻血 重新分類
我們已經(jīng)清楚的知道,是否無償獻血變量在取值分布上存在問題。在clementine,需要用Reclassify節(jié)點進行重新分類,在變量診斷的第一種表格上選中是否無償獻血變量,點擊左上角“生成”按鈕,生成一個Reclassify節(jié)點。打開該節(jié)點,如上圖所示,即可完成重新分類。
?。?)無效值、空白值的處理
家庭人均收入變量存在6個無效值,我們建議保留這6個樣本,希望通過決策樹算法進行針對性的預(yù)測,從而為這6個無效值進行賦值。如上圖所示進行操作。然后,選中該變量,點擊左上角“生成”按鈕,自動生成一個缺失值插補超級節(jié)點。
(3)離群值、極值的處理
家庭收入變量還存在一枚極值,對于該極值,我們采取剔除丟棄處理,在clementine變量診斷表格中,如上圖操作,點擊生成按鈕,自動生成一個離群值和極值超級節(jié)點。
?。?)以下為clementine的處理結(jié)果
我們將自動生成的兩個超級節(jié)點,連接在數(shù)據(jù)流末端,再次進行數(shù)據(jù)審核,結(jié)果如上圖所示,此時,我們可以看到,上述幾個問題已經(jīng)達到合理地解決。最終我們剔除了一個極值,對其他質(zhì)量問題采取保守態(tài)度進行相應(yīng)的處理。
上圖,為整個過程的數(shù)據(jù)流圖示。
四、總結(jié)
1、通過SPSS描述統(tǒng)計的相關(guān)過程,可以實現(xiàn)數(shù)據(jù)質(zhì)量的探索分析并進行相應(yīng)的預(yù)處理。
2、通過Clementine的Type節(jié)點、Filler節(jié)點、Reclassify節(jié)點、Data Audit等節(jié)點可以實現(xiàn)數(shù)據(jù)質(zhì)量的探索,而且比SPSS更直觀,更快捷。
3、相比而言,clementine在數(shù)據(jù)分析預(yù)處理方面更加優(yōu)秀,結(jié)果可視化程度較高,直觀易懂,而且處理流程簡短精悍,雖然通過spss或者excel也可以完成這些工作,但我想,如果能合理選擇有效駕馭,clementine是一個不錯的選擇,這不是炫耀或者奢侈,更效率更效果的工作才是最終目的。
Excel數(shù)據(jù)分析實戰(zhàn)視頻教程 R數(shù)據(jù)分析實戰(zhàn)視頻教程 SQL數(shù)據(jù)分析實戰(zhàn)視頻教程 數(shù)據(jù)挖掘?qū)崙?zhàn)視頻教程