九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
如何用SPSS和Clementine處理缺失值、離群值、極值
作者:數(shù)據(jù)小兵

  一、什么是預(yù)處理、預(yù)分析?

  高質(zhì)量數(shù)據(jù)是數(shù)據(jù)分析的前提和分析結(jié)論可靠性的保障。盡管在獲取數(shù)據(jù)源時數(shù)據(jù)分析師格外謹(jǐn)慎,耗費大量的時間,但數(shù)據(jù)質(zhì)量仍然需持續(xù)關(guān)注。不管是一手還是二手?jǐn)?shù)據(jù)源,總是會存在一些質(zhì)量問題。同時,為了滿足數(shù)據(jù)分析、挖掘的實際需要,對噪聲數(shù)據(jù)如何處理,是丟棄還是補充,或者重新計算新的數(shù)據(jù)變量,這些不是隨意決定的,這就是數(shù)據(jù)預(yù)處理的一個過程,是在數(shù)據(jù)分析、挖掘開始前對數(shù)據(jù)源的審核和判斷,是數(shù)據(jù)分析必不可少的一項。本文暫只簡單討論一下缺失值、異常值的處理。

  二、如何發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,例如,如何發(fā)現(xiàn)缺失值?

  1、SPSS是如何做到的?

 ?。?)系統(tǒng)缺失值、空白值

  每一個變量均有可能出現(xiàn)系統(tǒng)缺失或者空白,當(dāng)數(shù)據(jù)量巨大時我們根本無法用眼睛看出是否有缺失,最明智的做法是把這項任務(wù)交給數(shù)據(jù)分析工具,比如Excel,可通過數(shù)據(jù)有效性、篩選、查找、計數(shù)等功能去實現(xiàn),如果是SPSS數(shù)據(jù)源,可以通過描述統(tǒng)計之“頻率”項來實現(xiàn)。


  上圖,五個變量中,家庭人均收入有效樣本94,有6個無效樣本,在spss數(shù)據(jù)區(qū)域顯示為空白值。其他變量均沒有缺失,對于這6個缺失值是留是踢需要謹(jǐn)慎。

 ?。?)變量取值分布

  這一項不容忽視,一般由于輸入錯誤、數(shù)據(jù)本身或者其他原因造成。這里分分類變量和數(shù)值變量進行檢查。

  分類變量取值分布檢查:

  描述統(tǒng)計之“頻率”項,可以對變量以及變量取值進行頻次統(tǒng)計匯總,因此,此處仍然采用“頻率”項。


  上圖,我們已經(jīng)確認(rèn)是否獻血樣本全部有效,但是不代表這個變量沒有其他噪聲。通過此變量取值分布的考察,我們可以發(fā)現(xiàn)是否獻血有4個水平,分別為“0”“1”“No”“Yes”,但實際上,該變量的取值至于兩個水平,“No”“Yes”,其余兩個取值是錯誤操作導(dǎo)致的,這是系統(tǒng)缺失值,可以通過重新賦值進行處理。

  數(shù)值變量取值分布檢查:

  數(shù)值變量取值分布不宜采用“頻次”的統(tǒng)計,一般可通過直方圖、含有正態(tài)檢驗的直方圖來實現(xiàn)。


  上圖,數(shù)值變量的直方圖,可以清楚的看到其分布情況。可以初步判斷存在異常值。

 ?。?)離群值、極值

  在SPSS中可以通過“箱圖”直觀的看到異常值,探索分析項或者箱圖功能可實現(xiàn)。


  上圖,為spss探索分析結(jié)果,還可以設(shè)置分組變量??梢灾庇^的發(fā)現(xiàn),家庭人均收入存在極值,編號為66,可以快速查找定位。

  2、Clementine是怎么做到的?

  Data Audit,數(shù)據(jù)審核節(jié)點示例:以下數(shù)據(jù)流看圖不解釋。


  首先,建立以上數(shù)據(jù)流。最后一個為“數(shù)據(jù)審核”節(jié)點,右鍵選擇并打開編輯:


  上圖,為clementine變量診斷結(jié)果,非常直觀,圖文并茂,而且一張圖幾乎說明了數(shù)據(jù)源各種質(zhì)量問題。是否無償獻血,取值水平有4個,家庭人均收入最大值有異常,且明確顯示有6個無效值。其他變量正常。


  上圖,是clementine變量診斷結(jié)果中的另外一張圖表,我們可以發(fā)現(xiàn)家庭人均收入有一枚極值,六枚無效值。通過上述診斷,數(shù)據(jù)質(zhì)量問題一目了然。

  三、如何處理缺失值、離群值、極值?

  1、SPSS實現(xiàn)方法


  上圖,為spss變量轉(zhuǎn)換菜單下的重新編碼為相同變量選項卡??梢暂p松實現(xiàn)變量重新賦值。主要實現(xiàn)方法:重新編碼為相同/不同變量、計算變量、缺失值分析模塊,此處略,后續(xù)文章會涉及。

  2、Clementine實現(xiàn)方法

  (1)是否無償獻血 重新分類


  我們已經(jīng)清楚的知道,是否無償獻血變量在取值分布上存在問題。在clementine,需要用Reclassify節(jié)點進行重新分類,在變量診斷的第一種表格上選中是否無償獻血變量,點擊左上角“生成”按鈕,生成一個Reclassify節(jié)點。打開該節(jié)點,如上圖所示,即可完成重新分類。

 ?。?)無效值、空白值的處理


  家庭人均收入變量存在6個無效值,我們建議保留這6個樣本,希望通過決策樹算法進行針對性的預(yù)測,從而為這6個無效值進行賦值。如上圖所示進行操作。然后,選中該變量,點擊左上角“生成”按鈕,自動生成一個缺失值插補超級節(jié)點。

  (3)離群值、極值的處理


  家庭收入變量還存在一枚極值,對于該極值,我們采取剔除丟棄處理,在clementine變量診斷表格中,如上圖操作,點擊生成按鈕,自動生成一個離群值和極值超級節(jié)點。

 ?。?)以下為clementine的處理結(jié)果


  我們將自動生成的兩個超級節(jié)點,連接在數(shù)據(jù)流末端,再次進行數(shù)據(jù)審核,結(jié)果如上圖所示,此時,我們可以看到,上述幾個問題已經(jīng)達到合理地解決。最終我們剔除了一個極值,對其他質(zhì)量問題采取保守態(tài)度進行相應(yīng)的處理。


  上圖,為整個過程的數(shù)據(jù)流圖示。

  四、總結(jié)

  1、通過SPSS描述統(tǒng)計的相關(guān)過程,可以實現(xiàn)數(shù)據(jù)質(zhì)量的探索分析并進行相應(yīng)的預(yù)處理。

  2、通過Clementine的Type節(jié)點、Filler節(jié)點、Reclassify節(jié)點、Data Audit等節(jié)點可以實現(xiàn)數(shù)據(jù)質(zhì)量的探索,而且比SPSS更直觀,更快捷。

  3、相比而言,clementine在數(shù)據(jù)分析預(yù)處理方面更加優(yōu)秀,結(jié)果可視化程度較高,直觀易懂,而且處理流程簡短精悍,雖然通過spss或者excel也可以完成這些工作,但我想,如果能合理選擇有效駕馭,clementine是一個不錯的選擇,這不是炫耀或者奢侈,更效率更效果的工作才是最終目的。

  Excel數(shù)據(jù)分析實戰(zhàn)視頻教程

  R數(shù)據(jù)分析實戰(zhàn)視頻教程

  SQL數(shù)據(jù)分析實戰(zhàn)視頻教程

  數(shù)據(jù)挖掘?qū)崙?zhàn)視頻教程

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
缺失值的插補:隨機森林法(二)
Spss人口學(xué)變量統(tǒng)計分析
SPSS太不靠譜,明明沒有缺失值,非說有缺失值,難道是真的?
如何用spss軟件處理問卷
SPSS數(shù)據(jù)分析心得小結(jié)_數(shù)據(jù)分析心得分享
R數(shù)據(jù)分析:掃盲貼,什么是多重插補
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服