91精品日本久久久久久牛牛,久久午夜精品视频

如何用SPSS和Clementine處理缺失值、離群值、極值

2017.04.10

作者：數(shù)據(jù)小兵

　　一、什么是預(yù)處理、預(yù)分析？

　　高質(zhì)量數(shù)據(jù)是數(shù)據(jù)分析的前提和分析結(jié)論可靠性的保障。盡管在獲取數(shù)據(jù)源時數(shù)據(jù)分析師格外謹(jǐn)慎，耗費大量的時間，但數(shù)據(jù)質(zhì)量仍然需持續(xù)關(guān)注。不管是一手還是二手?jǐn)?shù)據(jù)源，總是會存在一些質(zhì)量問題。同時，為了滿足數(shù)據(jù)分析、挖掘的實際需要，對噪聲數(shù)據(jù)如何處理，是丟棄還是補充，或者重新計算新的數(shù)據(jù)變量，這些不是隨意決定的，這就是數(shù)據(jù)預(yù)處理的一個過程，是在數(shù)據(jù)分析、挖掘開始前對數(shù)據(jù)源的審核和判斷，是數(shù)據(jù)分析必不可少的一項。本文暫只簡單討論一下缺失值、異常值的處理。

　　二、如何發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題，例如，如何發(fā)現(xiàn)缺失值？

　　1、SPSS是如何做到的？

　?。?）系統(tǒng)缺失值、空白值

　　每一個變量均有可能出現(xiàn)系統(tǒng)缺失或者空白，當(dāng)數(shù)據(jù)量巨大時我們根本無法用眼睛看出是否有缺失，最明智的做法是把這項任務(wù)交給數(shù)據(jù)分析工具，比如Excel，可通過數(shù)據(jù)有效性、篩選、查找、計數(shù)等功能去實現(xiàn)，如果是SPSS數(shù)據(jù)源，可以通過描述統(tǒng)計之“頻率”項來實現(xiàn)。

　　上圖，五個變量中，家庭人均收入有效樣本94，有6個無效樣本，在spss數(shù)據(jù)區(qū)域顯示為空白值。其他變量均沒有缺失，對于這6個缺失值是留是踢需要謹(jǐn)慎。

　?。?）變量取值分布

　　這一項不容忽視，一般由于輸入錯誤、數(shù)據(jù)本身或者其他原因造成。這里分分類變量和數(shù)值變量進行檢查。

　　分類變量取值分布檢查：

　　描述統(tǒng)計之“頻率”項，可以對變量以及變量取值進行頻次統(tǒng)計匯總，因此，此處仍然采用“頻率”項。

　　上圖，我們已經(jīng)確認(rèn)是否獻血樣本全部有效，但是不代表這個變量沒有其他噪聲。通過此變量取值分布的考察，我們可以發(fā)現(xiàn)是否獻血有4個水平，分別為“0”“1”“No”“Yes”，但實際上，該變量的取值至于兩個水平，“No”“Yes”，其余兩個取值是錯誤操作導(dǎo)致的，這是系統(tǒng)缺失值，可以通過重新賦值進行處理。

　　數(shù)值變量取值分布檢查：

　　數(shù)值變量取值分布不宜采用“頻次”的統(tǒng)計，一般可通過直方圖、含有正態(tài)檢驗的直方圖來實現(xiàn)。

　　上圖，數(shù)值變量的直方圖，可以清楚的看到其分布情況。可以初步判斷存在異常值。

　?。?）離群值、極值

　　在SPSS中可以通過“箱圖”直觀的看到異常值，探索分析項或者箱圖功能可實現(xiàn)。

　　上圖，為spss探索分析結(jié)果，還可以設(shè)置分組變量?？梢灾庇^的發(fā)現(xiàn)，家庭人均收入存在極值，編號為66，可以快速查找定位。

　　2、Clementine是怎么做到的？

　　Data Audit，數(shù)據(jù)審核節(jié)點示例：以下數(shù)據(jù)流看圖不解釋。

　　首先，建立以上數(shù)據(jù)流。最后一個為“數(shù)據(jù)審核”節(jié)點，右鍵選擇并打開編輯：

　　上圖，為clementine變量診斷結(jié)果，非常直觀，圖文并茂，而且一張圖幾乎說明了數(shù)據(jù)源各種質(zhì)量問題。是否無償獻血，取值水平有4個，家庭人均收入最大值有異常，且明確顯示有6個無效值。其他變量正常。

　　上圖，是clementine變量診斷結(jié)果中的另外一張圖表，我們可以發(fā)現(xiàn)家庭人均收入有一枚極值，六枚無效值。通過上述診斷，數(shù)據(jù)質(zhì)量問題一目了然。

　　三、如何處理缺失值、離群值、極值？

　　1、SPSS實現(xiàn)方法

　　上圖，為spss變量轉(zhuǎn)換菜單下的重新編碼為相同變量選項卡?？梢暂p松實現(xiàn)變量重新賦值。主要實現(xiàn)方法：重新編碼為相同/不同變量、計算變量、缺失值分析模塊，此處略，后續(xù)文章會涉及。

　　2、Clementine實現(xiàn)方法

　　（1）是否無償獻血重新分類

　　我們已經(jīng)清楚的知道，是否無償獻血變量在取值分布上存在問題。在clementine，需要用Reclassify節(jié)點進行重新分類，在變量診斷的第一種表格上選中是否無償獻血變量，點擊左上角“生成”按鈕，生成一個Reclassify節(jié)點。打開該節(jié)點，如上圖所示，即可完成重新分類。

　?。?）無效值、空白值的處理

　　家庭人均收入變量存在6個無效值，我們建議保留這6個樣本，希望通過決策樹算法進行針對性的預(yù)測，從而為這6個無效值進行賦值。如上圖所示進行操作。然后，選中該變量，點擊左上角“生成”按鈕，自動生成一個缺失值插補超級節(jié)點。

　　（3）離群值、極值的處理

　　家庭收入變量還存在一枚極值，對于該極值，我們采取剔除丟棄處理，在clementine變量診斷表格中，如上圖操作，點擊生成按鈕，自動生成一個離群值和極值超級節(jié)點。

　?。?）以下為clementine的處理結(jié)果

　　我們將自動生成的兩個超級節(jié)點，連接在數(shù)據(jù)流末端，再次進行數(shù)據(jù)審核，結(jié)果如上圖所示，此時，我們可以看到，上述幾個問題已經(jīng)達到合理地解決。最終我們剔除了一個極值，對其他質(zhì)量問題采取保守態(tài)度進行相應(yīng)的處理。

　　上圖，為整個過程的數(shù)據(jù)流圖示。

　　四、總結(jié)

　　1、通過SPSS描述統(tǒng)計的相關(guān)過程，可以實現(xiàn)數(shù)據(jù)質(zhì)量的探索分析并進行相應(yīng)的預(yù)處理。

　　2、通過Clementine的Type節(jié)點、Filler節(jié)點、Reclassify節(jié)點、Data Audit等節(jié)點可以實現(xiàn)數(shù)據(jù)質(zhì)量的探索，而且比SPSS更直觀，更快捷。

　　3、相比而言，clementine在數(shù)據(jù)分析預(yù)處理方面更加優(yōu)秀，結(jié)果可視化程度較高，直觀易懂，而且處理流程簡短精悍，雖然通過spss或者excel也可以完成這些工作，但我想，如果能合理選擇有效駕馭，clementine是一個不錯的選擇，這不是炫耀或者奢侈，更效率更效果的工作才是最終目的。

　　Excel數(shù)據(jù)分析實戰(zhàn)視頻教程

　　R數(shù)據(jù)分析實戰(zhàn)視頻教程

　　SQL數(shù)據(jù)分析實戰(zhàn)視頻教程

　　數(shù)據(jù)挖掘?qū)崙?zhàn)視頻教程

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

缺失值的插補：隨機森林法（二）

Spss人口學(xué)變量統(tǒng)計分析

SPSS太不靠譜，明明沒有缺失值，非說有缺失值，難道是真的？

如何用spss軟件處理問卷

SPSS數(shù)據(jù)分析心得小結(jié)_數(shù)據(jù)分析心得分享

R數(shù)據(jù)分析：掃盲貼，什么是多重插補

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区