關(guān)鍵詞 大數(shù)據(jù)分析聚類分析判別決策樹離群點(diǎn)分析
隨著社會(huì)的不斷進(jìn)步和計(jì)算機(jī)技術(shù)的快速發(fā)展,信息系統(tǒng)在各領(lǐng)域快速拓展,系統(tǒng)采集、累積和處理的數(shù)據(jù)越來(lái)越多,信息增速也不斷加快,這也預(yù)示著大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。麥肯錫認(rèn)為,“大數(shù)據(jù)”指所涉及的數(shù)據(jù)集規(guī)模超過(guò)了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、管理和分析的能力[1]。
雖然現(xiàn)實(shí)世界產(chǎn)生的數(shù)據(jù)量不斷增長(zhǎng),但其中可理解的比例卻不斷下降,人們迫切需要對(duì)大數(shù)據(jù)進(jìn)行分析,以了解海量數(shù)據(jù)背后的重要信息和知識(shí),大數(shù)據(jù)分析技術(shù)應(yīng)運(yùn)而生。大數(shù)據(jù)分析是基于IT技術(shù)、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等多門學(xué)科的成果應(yīng)用,通過(guò)從海量數(shù)據(jù)中分析出有效模式,獲取存在的關(guān)系和規(guī)則并對(duì)發(fā)展趨勢(shì)作出預(yù)測(cè),這也是大數(shù)據(jù)生態(tài)環(huán)境中的最重要一環(huán)——使數(shù)據(jù)產(chǎn)生價(jià)值。
經(jīng)過(guò)城市照明管理行業(yè)20多年的快速發(fā)展,路燈遠(yuǎn)程自動(dòng)化監(jiān)控技術(shù)有了很大提高。監(jiān)控系統(tǒng)每分鐘都會(huì)產(chǎn)生實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),運(yùn)行至今的系統(tǒng)大都已經(jīng)存儲(chǔ)了龐大數(shù)據(jù),它們記錄了照明監(jiān)控設(shè)備的運(yùn)行狀況。但是人們更關(guān)心它們背后隱含著的知識(shí)和信息,這些“數(shù)據(jù)”中的“數(shù)據(jù)”可用于運(yùn)行狀況評(píng)估、異常預(yù)警和后續(xù)運(yùn)營(yíng)參數(shù)調(diào)優(yōu),對(duì)照明管理部門降本增效、不斷改善服務(wù)質(zhì)量具有積極指導(dǎo)意義。由此可見(jiàn),大數(shù)據(jù)分析技術(shù)應(yīng)用于城市照明管理行業(yè)尤為迫切和必要。
一、大數(shù)據(jù)分析理論
大數(shù)據(jù)分析理論指從海量數(shù)據(jù)中分析和挖掘出知識(shí)的方法,本文主要采用聚類、分類等方法。
1、數(shù)據(jù)倉(cāng)庫(kù)建立
進(jìn)行大數(shù)據(jù)分析前必須收集待分析的數(shù)據(jù)資源,雖然數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息,但建議從專用性和可靠性角度考慮,不采用原有的數(shù)據(jù)庫(kù)或數(shù)據(jù)結(jié)構(gòu),而是將待分析數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集成、相對(duì)靜態(tài)、面向主題的數(shù)據(jù)集合,通過(guò)建立數(shù)據(jù)倉(cāng)庫(kù),可將異種數(shù)據(jù)源中的數(shù)據(jù)通過(guò)集成,從而構(gòu)成語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu),它可按不同的主題劃分管理決策所需信息,為查詢、分析和決策打下基礎(chǔ)[2]。
2、特征提取
數(shù)據(jù)倉(cāng)庫(kù)中的集合包含了大量特征,為了通過(guò)聚類分析發(fā)現(xiàn)潛在的運(yùn)行模式,需要從序列數(shù)據(jù)中提取反映運(yùn)行情況的重要特征向量。
這主要有兩方面的工作:一方面為了讓模型更容易理解,需要降低數(shù)據(jù)集的維度,刪除不相關(guān)的特征并降低噪聲,使大數(shù)據(jù)分析算法效果更好;另一方面通過(guò)創(chuàng)建新屬性樹,將一些舊屬性合并或創(chuàng)建新的屬性,這樣可更有效地捕獲數(shù)據(jù)集中的重要信息。
最常使用的特征集提取技術(shù)都是高度針對(duì)某一具體領(lǐng)域,一旦大數(shù)據(jù)分析用于其它領(lǐng)域,首要任務(wù)就是找到新的特征并進(jìn)行特征提取。
3、數(shù)據(jù)預(yù)處理
由于待分析數(shù)據(jù)可能存在數(shù)值區(qū)間范圍較大、且不同時(shí)間段內(nèi)變化快的問(wèn)題,因此在大數(shù)據(jù)分析之前必須使用轉(zhuǎn)換方法進(jìn)行標(biāo)準(zhǔn)化處理。
數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換也是大數(shù)據(jù)分析中常見(jiàn)的轉(zhuǎn)換措施之一,它通過(guò)將數(shù)據(jù)按照比例進(jìn)行縮小,使之歸入一個(gè)較小區(qū)間范圍內(nèi),為數(shù)據(jù)分析建立相對(duì)平等的基礎(chǔ)。標(biāo)準(zhǔn)分?jǐn)?shù)(Z-score)是一種數(shù)據(jù)標(biāo)準(zhǔn)化的重要方法,能夠真實(shí)地反應(yīng)一個(gè)分?jǐn)?shù)距離平均數(shù)的相對(duì)標(biāo)準(zhǔn)距離,標(biāo)準(zhǔn)分?jǐn)?shù)可由式(1)求出:
其中,X為被標(biāo)準(zhǔn)化的數(shù)據(jù),μ為數(shù)據(jù)集的平均值,σ為數(shù)據(jù)集的標(biāo)準(zhǔn)差。Z值代表著原始數(shù)據(jù)和數(shù)據(jù)集平均值之間的距離,它能表明原始數(shù)據(jù)在數(shù)據(jù)類集中的位置,方便在不同分布的數(shù)據(jù)之間進(jìn)行比較[3]。
4、聚類算法
聚類就是將數(shù)據(jù)對(duì)象分為多個(gè)類,類內(nèi)數(shù)據(jù)點(diǎn)具有較高的相似 度 而 距 離 近,類 間 數(shù) 據(jù) 對(duì) 象 差 別 大 而 距 離 點(diǎn)遠(yuǎn)[4]。聚類技術(shù)可以將數(shù)據(jù)集劃分成不同的子集集合,它們?cè)诳臻g上都是一個(gè)稠密的區(qū)域,能方便實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析。K - Means 是最為經(jīng)典的一種基于劃分的聚類算法,它采用數(shù)據(jù)點(diǎn)之間的距離作為評(píng)價(jià)度量指標(biāo),也即將距離比較相近的對(duì)象組成類,以得到緊湊而獨(dú)立的類作為最終目標(biāo)[5]。K - Means 算法的基本工作過(guò)程:首先隨機(jī)選擇 k 個(gè)數(shù)據(jù)作為初始質(zhì)心,將數(shù)據(jù)對(duì)象根據(jù)其與各個(gè)類的質(zhì)心距離進(jìn)行劃分,之后重新計(jì)算各個(gè)類的質(zhì)心,循環(huán)執(zhí)行直到目標(biāo)函數(shù)最小為止[6]。類的質(zhì)心為類內(nèi)所有點(diǎn)的算術(shù)平均值,對(duì)象到質(zhì)心的距離一般采用歐幾里得距離,可由式(2)求出:
其中,(X1,Y1)為質(zhì)心坐標(biāo),(X2,Y2)為樣本數(shù)據(jù)。目標(biāo)函數(shù)采用平方誤差準(zhǔn)則函數(shù),可由式(3)求出:
其中,Ci為第i個(gè)簇,Ci為簇Ci的質(zhì)心,K為簇的個(gè)數(shù),X為數(shù)據(jù)對(duì)象,dist為標(biāo)準(zhǔn)歐幾里得距離[7]。
5、分類算法
數(shù)據(jù)分類目的是通過(guò)構(gòu)建一個(gè)分類模型,將數(shù)據(jù)集中的所有項(xiàng)映射到給定類別中的某一項(xiàng),用于歸納和描述重要數(shù)據(jù)的分類情況。判別決策樹是用于數(shù)據(jù)分類和預(yù)測(cè)未來(lái)的主要技術(shù),它基于從一類無(wú)規(guī)則的數(shù)據(jù)中推理出規(guī)律性模型的分類規(guī)則[8]。它采用自頂向下方法,在樹的節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同值判斷向下分支,最后在樹末端的葉節(jié)點(diǎn)得到結(jié)論。該算法主要基于信息論中的熵理論,把信息增益率作為節(jié)點(diǎn)分支屬性選擇的度量標(biāo)準(zhǔn),獲得最終的決策規(guī)則。各屬性的信息增益率可由式(4)求出:
其中,S為數(shù)據(jù)集,A為分割屬性,Gain為信息增益,SplitInfo為分裂信息量。分裂信息量可由式(5)求出:
其中,s為數(shù)據(jù)子集,si為分割屬性,c為數(shù)據(jù)子集樣本數(shù)[7]。
6、離群點(diǎn)檢測(cè)
離群點(diǎn)是數(shù)據(jù)集中與正常點(diǎn)有較大差異的那一類數(shù)據(jù)點(diǎn),在數(shù)據(jù)點(diǎn)中找出異常點(diǎn)是離群點(diǎn)檢測(cè)的主要任務(wù)。離群點(diǎn)檢測(cè)在大數(shù)據(jù)分析中有重要應(yīng)用,它采用基于距離的異常點(diǎn)檢測(cè)算法,以歐式距離為衡量標(biāo)準(zhǔn),找到脫離給定數(shù)據(jù)集的異常數(shù)據(jù)。離群點(diǎn)檢測(cè)算法:根據(jù)分類結(jié)果選擇該數(shù)據(jù)對(duì)象的質(zhì)心,計(jì)算該數(shù)據(jù)對(duì)象到質(zhì)心的歐氏距離,根據(jù)區(qū)間范圍判斷是否為離散點(diǎn)[7]。
二、大數(shù)據(jù)分析方法
1、城市照明管理相關(guān)數(shù)據(jù)
城市照明運(yùn)行管理數(shù)據(jù)具有非常重要的參考價(jià)值,可通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析,挖掘其中有價(jià)值的信息,從而為故障報(bào)警、狀況預(yù)測(cè)和決策支持奠定基礎(chǔ)。
城市照明運(yùn)行管理數(shù)據(jù)按邏輯分類,有動(dòng)態(tài)監(jiān)控?cái)?shù)據(jù)和靜態(tài)業(yè)務(wù)數(shù)據(jù),監(jiān)控?cái)?shù)據(jù)分為照明實(shí)時(shí)數(shù)據(jù)和故障數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)分為資產(chǎn)數(shù)據(jù)和管理數(shù)據(jù)。系統(tǒng)每隔20min遠(yuǎn)程采樣照明實(shí)時(shí)數(shù)據(jù)一次,故障數(shù)據(jù)由遠(yuǎn)程監(jiān)控終端主報(bào)。城市照明管理中產(chǎn)生的運(yùn)行數(shù)據(jù)如表1所示。
2、運(yùn)行狀況評(píng)估
本文對(duì)照明監(jiān)控設(shè)備運(yùn)行狀況評(píng)估數(shù)據(jù)源是基于路燈監(jiān)控終端產(chǎn)生的照明實(shí)時(shí)數(shù)據(jù),并且以輸出有功功率作為主要研究對(duì)象,對(duì)有功功率負(fù)荷變化情況進(jìn)行分析。有功功率指一個(gè)周期內(nèi)發(fā)出或負(fù)載消耗的瞬時(shí)功率的積分的平均值,傳統(tǒng)判斷有功功率是否出現(xiàn)異常的監(jiān)測(cè)方法是在系統(tǒng)中設(shè)定一個(gè)閾值,根據(jù)超出上下限報(bào)警,這完全沒(méi)有考慮時(shí)間和環(huán)境特征等因素,導(dǎo)致閾值難以確定,也不能動(dòng)態(tài)適應(yīng)變化。
本文采用大數(shù)據(jù)分析方法,通過(guò)識(shí)別存在的有功功率運(yùn)行模式,建立模式判定,然后對(duì)實(shí)時(shí)采樣的數(shù)據(jù)進(jìn)行比較,判斷是否存在異常情況。
(1)數(shù)據(jù)特征提取及標(biāo)準(zhǔn)化
試驗(yàn)數(shù)據(jù)采用某地010#城市照明監(jiān)控終端,該監(jiān)控終端裝于迎賓大道路燈控制柜中,主臺(tái)系統(tǒng)每隔20分鐘對(duì)該終端運(yùn)行數(shù)據(jù)采樣一次,將90天產(chǎn)生的1080條亮燈有效數(shù)據(jù)寫入數(shù)據(jù)倉(cāng)庫(kù)。010#終端部分輸出有功功率數(shù)據(jù)如圖1所示。
為了通過(guò)聚類分析發(fā)現(xiàn)潛在的運(yùn)行狀況判斷模式,從有功功率序列數(shù)據(jù)中提取出反映運(yùn)行情況的特征向量可由式(6)求出:
P = (Apmean,Apmax) ……………………(6)
其中,Apmean為單位小時(shí)有功功率中值,Apmax為單位小時(shí)有功功率最大值。
由于有功功率數(shù)據(jù)值較大且不同時(shí)間段變化快,因而對(duì)于特征向量使用Z-score規(guī)范化處理,實(shí)現(xiàn)數(shù)據(jù)分布于一定區(qū)間范圍內(nèi),標(biāo)準(zhǔn)化結(jié)果如圖2所示。
(2)K-Means自然劃分
K-Means算法中必須選擇合適的 K 值,采用多次迭代的方式以同簇距離總長(zhǎng)度來(lái)判斷 K 值的合理性。圖3是在不同 K值下的類指標(biāo)圖,從圖中可以明顯看到,當(dāng)簇?cái)?shù)目為3時(shí),類指標(biāo)急劇下降,所以確定這次采用的K-Means聚類算法的 K值為3。采用K值為3的K-Means算法對(duì)該數(shù)據(jù)集進(jìn)行聚類,完成如圖4所示的自然劃分結(jié)果。
完成聚類分析后,為方便分析有功功率運(yùn)行模式判別條件,需要構(gòu)造4個(gè)新的屬性:質(zhì)心點(diǎn) X、質(zhì)心點(diǎn)Y、類簇標(biāo)識(shí)和前后半夜標(biāo)識(shí)。構(gòu)造新屬性之后的部分?jǐn)?shù)據(jù)如表2所示。
在共1080組數(shù)據(jù)中,使用810組數(shù)據(jù)構(gòu)成訓(xùn)練集,對(duì)構(gòu)造了新屬性的數(shù)據(jù)集進(jìn)行分類,得到判定決策樹如圖2所示。使用270組數(shù)據(jù)作為檢驗(yàn)集,分類誤差小于2% ,完全可以采納。
(3)運(yùn)行狀況評(píng)估應(yīng)用
為論證該方法的實(shí)際監(jiān)測(cè)和評(píng)估效果,選取010#終端2014年8月25日23點(diǎn)數(shù)據(jù)進(jìn)行檢驗(yàn)。該采樣數(shù)值為Apmean =33.18KW ,Apmax=33.25KW ,根據(jù)模式判別決策樹判斷該點(diǎn)的模式為Cluster2。特征向量P(33.18,33.25)與Cluster2模式的歷史數(shù)據(jù)一起使用歐氏距離算法進(jìn)行離群點(diǎn)分析,離群點(diǎn)結(jié)果分析結(jié)果如圖6所示。其中原數(shù)據(jù)簇中歐氏距離極大值為0.5191,而該數(shù)據(jù)點(diǎn)歐氏值為0.7462,因此判定為離群點(diǎn)。城市照明監(jiān)控系統(tǒng)根據(jù)判斷結(jié)果立即報(bào)警,推測(cè)現(xiàn)場(chǎng)發(fā)生異常滅燈情況,值班人員安排維修人員至現(xiàn)場(chǎng)進(jìn)行查驗(yàn)和檢修。
圖6離群點(diǎn)結(jié)果分析
三、 結(jié)語(yǔ)
通過(guò)對(duì)城市照明監(jiān)控信息進(jìn)行大數(shù)據(jù)分析表明,新方法能夠?qū)γ總€(gè)采樣點(diǎn)的有功功率數(shù)據(jù)進(jìn)行分析,并能及時(shí)發(fā)現(xiàn)和報(bào)告異常狀況。在實(shí)際運(yùn)用中,由于采用的大數(shù)據(jù)算法具有良好抗噪聲干擾能力,可以幫助管理人員及時(shí)有效了解系統(tǒng)運(yùn)行情況,為采取有效的管理措施提供決策支持。該方法還具有通用性,能夠廣泛應(yīng)用于城市市政設(shè)施行業(yè)監(jiān)控系統(tǒng)的數(shù)據(jù)分析中。將研究成果用于高壓鈉燈運(yùn)行壽命、光源全壽命成本、光亮成本費(fèi)用和照明管理維護(hù)費(fèi)用預(yù)測(cè)中,則有待進(jìn)一步研究。
聯(lián)系客服