田 炯,秦發(fā)憲,朱 濤
(國(guó)網(wǎng)寧夏電力有限公司中衛(wèi)供電公司,寧夏中衛(wèi) 755000)
離群點(diǎn)檢測(cè)問(wèn)題已引起了數(shù)據(jù)挖掘領(lǐng)域的廣泛關(guān)注,并成為眾多學(xué)者探討的焦點(diǎn)。離群點(diǎn)指的是一個(gè)與其他數(shù)據(jù)點(diǎn)差別較大的數(shù)據(jù)點(diǎn),有可能是不同機(jī)制處理后的結(jié)果。離散數(shù)據(jù)點(diǎn)可以反映局部的數(shù)據(jù)點(diǎn)與整體的數(shù)據(jù)點(diǎn)之間的差異,有深層的數(shù)據(jù)內(nèi)涵,能夠表現(xiàn)出優(yōu)于普通數(shù)據(jù)的模式,因此在交通運(yùn)輸、識(shí)別信貸、分析客戶(hù)數(shù)據(jù)等諸多領(lǐng)域有著較為廣泛的應(yīng)用。
眾多學(xué)者圍繞離群點(diǎn)識(shí)別展開(kāi)研究,并涉及多種算法。其中,早期主要偏重于統(tǒng)計(jì)算法、距離算法、偏差算法等,如以離群因子作為標(biāo)準(zhǔn)對(duì)整體數(shù)據(jù)進(jìn)行分析,使其作為整體數(shù)據(jù)的表征。隨著研究的發(fā)展,人們?cè)谇叭嘶A(chǔ)上提出了一些有效的離群點(diǎn)識(shí)別方法,例如文獻(xiàn)[1]利用指標(biāo)計(jì)算,滿足離群點(diǎn)檢測(cè)指標(biāo);文獻(xiàn)[2]利用不同計(jì)算處理器的計(jì)算資源,基于網(wǎng)格劃分的動(dòng)態(tài)方法進(jìn)行處理,同時(shí)定位數(shù)據(jù)點(diǎn)的空間位置,進(jìn)行并行離群點(diǎn)檢測(cè),實(shí)現(xiàn)數(shù)據(jù)離群點(diǎn)的識(shí)別。但上述研究成果重點(diǎn)聚焦靜態(tài)數(shù)據(jù)庫(kù)、低維度數(shù)據(jù)庫(kù),難以處理動(dòng)態(tài)、高維的大數(shù)據(jù)。
從現(xiàn)有文獻(xiàn)來(lái)看,關(guān)于離群點(diǎn)研究重點(diǎn)集中在低維數(shù)據(jù)離群點(diǎn),少有學(xué)者基于局部信息熵進(jìn)行智能電網(wǎng)數(shù)據(jù)識(shí)別,為此,該文以局部信息熵為基礎(chǔ),研究了一種新的智能電網(wǎng)數(shù)據(jù)離群點(diǎn)識(shí)別方法。
設(shè)n維空間集N的特性集,特性集中特定的數(shù)據(jù)點(diǎn)a在特性集S上的投影為,M(a)為距離半徑域,則可得到S的方差定義式為:
其中,VS表示特征集S中特殊點(diǎn)a的方差值[3-4]。
進(jìn)行閾值設(shè)定時(shí),要綜合考慮數(shù)據(jù)所處的空間位置和鄰近數(shù)據(jù)帶來(lái)的影響,降低閾值設(shè)定時(shí)的偶然性和片面性,對(duì)優(yōu)選空間的范圍進(jìn)行壓縮,得到最佳范圍,提高識(shí)別方法的可行性[5]。
根據(jù)上述方差數(shù)據(jù)計(jì)算公式,可以得到不同數(shù)據(jù)點(diǎn)的子空間特性集,在不同空間維度上進(jìn)行比較,得到最優(yōu)子空間[6-7]。設(shè)φ為優(yōu)質(zhì)空間集閾值,若滿足VS(M(a))≤φ,則可稱(chēng)該空間集為優(yōu)選空間,對(duì)該空間集進(jìn)行加權(quán)處理,便于下一步計(jì)算優(yōu)選空間的信息熵。
信息熵是用來(lái)計(jì)算信息穩(wěn)定性的重要指標(biāo),也是檢測(cè)數(shù)據(jù)變化特性的重要工具。設(shè)W為待檢測(cè)數(shù)據(jù),則有W的信息熵?cái)?shù)據(jù)為:
其中,E(W)表示信息熵?cái)?shù)據(jù)的期望值,S(W)表示信息熵?cái)?shù)據(jù)的取值集合。
根據(jù)計(jì)算結(jié)果可知,E(W) 與數(shù)據(jù)穩(wěn)定性呈正比,E(W)數(shù)值越大,數(shù)據(jù)的不穩(wěn)定性越強(qiáng)[8-9]。再對(duì)數(shù)據(jù)值域進(jìn)行壓縮,據(jù)此可以得到局部信息熵值計(jì)算公式:
其中,LC(w) 表示局部信息熵值,VS(M(a))max和VS(M(a))min分別表示方差數(shù)據(jù)值的最大值和最小值,S(w)表示特定集中的特殊數(shù)據(jù)點(diǎn)。
利用局部信息熵值對(duì)數(shù)據(jù)鄰近點(diǎn)進(jìn)行分析,得到該數(shù)據(jù)點(diǎn)和其他數(shù)據(jù)點(diǎn)的投影值,通過(guò)無(wú)量化處理判斷臨界點(diǎn)數(shù)值,數(shù)值越大,則以該數(shù)據(jù)點(diǎn)為中心的數(shù)據(jù)排布的不穩(wěn)定性越大;數(shù)值越小,則以該數(shù)據(jù)點(diǎn)為中心的數(shù)據(jù)排布越穩(wěn)定,因此該文選取符合優(yōu)選空間選取條件的空間范圍,減小識(shí)別誤差[10-11]。從信息熵?cái)?shù)值考慮,離群點(diǎn)使數(shù)據(jù)整體的不穩(wěn)定性增強(qiáng),離散程度變大,不確定性越強(qiáng),因此選擇不穩(wěn)定程度更大的特殊數(shù)據(jù)點(diǎn)范圍作為最優(yōu)子空間。在選取優(yōu)選空間,計(jì)算信息熵值的基礎(chǔ)上,選取子空間,得到最優(yōu)的子空間范圍[12]。
基于該文提出的識(shí)別方法,采用LOF 算法輸入樣本中的數(shù)據(jù),同時(shí)輸入離散方法和離散點(diǎn)設(shè)定閾值,輸出得到離群點(diǎn)的空間值[13]。同時(shí)分析輸出數(shù)據(jù),并計(jì)算算法的復(fù)雜程度,為改進(jìn)算法統(tǒng)計(jì)數(shù)據(jù)。具體流程如圖1 所示。
圖1 離群狀態(tài)變化的檢索與分析流程
步驟一:根據(jù)樣本得到記錄集合,進(jìn)行挖掘處理,去除不符合條件的數(shù)據(jù)值,以此為下一步數(shù)據(jù)處理的基礎(chǔ),設(shè)其復(fù)雜程度為I。
步驟二:根據(jù)數(shù)據(jù)點(diǎn)的數(shù)據(jù)情況,與鄰近的數(shù)據(jù)進(jìn)行比較。進(jìn)而確定鄰近數(shù)據(jù)的空間集合,確定參照對(duì)象,設(shè)其復(fù)雜程度為Ⅱ。
步驟三:確定空間離散方法,設(shè)定等區(qū)間的限定條件,進(jìn)行數(shù)據(jù)離散化處理。利用式(2)和式(3)進(jìn)行運(yùn)算,得到數(shù)據(jù)對(duì)象的熵值,設(shè)為局部離群因子,設(shè)其復(fù)雜程度為Ⅲ。
步驟四:根據(jù)上述的步驟得到局部離群因子,如果局部離群因子大于設(shè)定閾值,則作為輸出數(shù)據(jù)進(jìn)行計(jì)算。
綜上,得到總復(fù)雜程度Ⅳ,根據(jù)得到的復(fù)雜程度進(jìn)行算法演繹,對(duì)繁瑣的算法過(guò)程進(jìn)行簡(jiǎn)化處理,識(shí)別更加準(zhǔn)確的離群點(diǎn),判斷離群點(diǎn)與優(yōu)選空間值域之間的差別,如果有較大的差別,則證明離群點(diǎn)處于較遠(yuǎn)位置,具有明顯的離群特征[14-15]。
智能電網(wǎng)數(shù)據(jù)離群點(diǎn)識(shí)別中,需要進(jìn)行離群因子的計(jì)算,設(shè)LEAA1為離群因子e的離群屬性,則有:
其中,LEA為離群數(shù)據(jù)的特征數(shù)據(jù),M(e)為上文提到的距離半徑域。
得到離群因子的離群屬性后,與離群屬性閾值進(jìn)行比較,劃分閾值空間,得到斷點(diǎn)集合的特征性。過(guò)多的斷點(diǎn)會(huì)導(dǎo)致準(zhǔn)確性降低,因此盡量減少斷點(diǎn),以提高識(shí)別的精確度,增強(qiáng)方法的聚類(lèi)能力[16]。設(shè)空間鄰域集合為:
其中,Y表示鄰域集合;p表示鄰域?qū)ο螅琾1、p2等表示數(shù)據(jù)所處位置。則有非空間鄰域集合為:
其中,H表示非鄰域集合;t表示非鄰域?qū)ο?,t1,t2,…,tn表示數(shù)據(jù)所處位置。
在對(duì)非鄰域集合進(jìn)行離散化處理后,就可以得到一個(gè)特定的概率,表示非空間屬性的概率值,如下式所示:
其中,ζ為屬性系數(shù);R為所得概率,H(t)max和Y(p)max分別為集合中最大數(shù)值。
得到概率之后進(jìn)行篩選,通過(guò)挖掘處理確定概率更大的非空間屬性值,對(duì)概率較小的非空間屬性概率值進(jìn)行刪除處理,增強(qiáng)算法對(duì)冗余數(shù)據(jù)的甄別能力,完成劃分過(guò)程。
更新數(shù)據(jù)時(shí),如果不對(duì)原始數(shù)據(jù)進(jìn)行處理,就會(huì)對(duì)個(gè)別數(shù)據(jù)產(chǎn)生影響,進(jìn)而影響整體數(shù)據(jù),使最終結(jié)果產(chǎn)生較大偏差。因此在插入和刪除智能電網(wǎng)數(shù)據(jù)時(shí),要對(duì)智能電網(wǎng)數(shù)據(jù)離群點(diǎn)的變化進(jìn)行檢測(cè)。
當(dāng)刪除數(shù)據(jù)時(shí),需要重新計(jì)算剩余離群點(diǎn)數(shù)據(jù)。當(dāng)數(shù)據(jù)點(diǎn)b從集合G中刪除時(shí),若數(shù)據(jù)點(diǎn)滿足式(8)時(shí),直接刪除該數(shù)據(jù),無(wú)需進(jìn)行其他處理。
其中,c表示離群點(diǎn)數(shù)據(jù)標(biāo)準(zhǔn)值;u表示標(biāo)準(zhǔn)差值;k表示離群點(diǎn)相鄰數(shù)據(jù);Ai表示離群因子e的離群屬性。
當(dāng)增加數(shù)據(jù)時(shí),若同樣滿足式(8),則可直接添加數(shù)據(jù)到值域中;不滿足式(8)時(shí),需要將最遠(yuǎn)端的數(shù)據(jù)進(jìn)行刪除處理,然后計(jì)算剩余數(shù)據(jù)平均值,并求出添加數(shù)據(jù)點(diǎn)與相鄰數(shù)據(jù)點(diǎn)的差值,以平均值計(jì)入值域,根據(jù)平均值實(shí)現(xiàn)離群點(diǎn)值域識(shí)別。
為了驗(yàn)證該文提出的基于局部信息熵的智能電網(wǎng)數(shù)據(jù)離群點(diǎn)識(shí)別方法的實(shí)際應(yīng)用效果,設(shè)定實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境如圖2 所示。
根據(jù)圖2 可知,該文提出的實(shí)驗(yàn)環(huán)境核心設(shè)備為MCP2510 控制器,通過(guò)通信模塊、顯示模塊、輸入輸出接口電路模塊和芯片內(nèi)部測(cè)試模塊設(shè)定實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)過(guò)程中,工作電壓為200 V,工作電流為150 A,選用的操作系統(tǒng)為Windows10 系統(tǒng)。
選用該文提出的離群點(diǎn)識(shí)別方法和傳統(tǒng)的文獻(xiàn)[1]基于評(píng)價(jià)指標(biāo)的離群點(diǎn)識(shí)別方法和文獻(xiàn)[2]并行檢測(cè)的離群點(diǎn)識(shí)別方法進(jìn)行實(shí)驗(yàn)對(duì)比,分別計(jì)算識(shí)別準(zhǔn)確率和識(shí)別效率。
識(shí)別準(zhǔn)確率計(jì)算如式(9)所示:
其中,Z表示識(shí)別準(zhǔn)確率;d表示識(shí)別的正確數(shù)據(jù);l表示識(shí)別的錯(cuò)誤數(shù)據(jù)。
識(shí)別效率計(jì)算過(guò)程如式(10)所示:
其中,M表示識(shí)別效率;R表示時(shí)間T內(nèi)識(shí)別的數(shù)據(jù)量。實(shí)驗(yàn)識(shí)別的離群點(diǎn)如圖3 所示。
圖3 識(shí)別離群點(diǎn)
根據(jù)式(9)計(jì)算識(shí)別準(zhǔn)確率,得到的實(shí)驗(yàn)結(jié)果如圖4 所示。
圖4 識(shí)別準(zhǔn)確率實(shí)驗(yàn)結(jié)果
根據(jù)圖4 可知,隨著識(shí)別時(shí)間的增加,三種識(shí)別方法的識(shí)別準(zhǔn)確率都在不斷提高,該文提出的識(shí)別方法識(shí)別準(zhǔn)確率高于傳統(tǒng)識(shí)別方法,當(dāng)時(shí)間為60 s時(shí),準(zhǔn)確率可以達(dá)到95%以上。造成這種現(xiàn)象的原因是該文方法識(shí)別的過(guò)程中,能夠圍繞局部信息熵進(jìn)行子空間選取,在一定程度上彌補(bǔ)了現(xiàn)有離群點(diǎn)檢測(cè)方法的缺陷,同時(shí)為離群點(diǎn)現(xiàn)實(shí)應(yīng)用提供了有力且清晰的參考數(shù)據(jù)。
識(shí)別效率實(shí)驗(yàn)結(jié)果如表1 所示。
表1 識(shí)別效率實(shí)驗(yàn)結(jié)果
根據(jù)表1 可知,該文提出的識(shí)別方法識(shí)別效率始終在90%以上,具有極強(qiáng)的識(shí)別能力。
綜上所述,該文方法研究結(jié)果通過(guò)選取智能電網(wǎng)數(shù)據(jù)離群點(diǎn)所屬的子空間,并在其中計(jì)算信息熵,檢索與分析離群子狀態(tài),計(jì)算離群因子,識(shí)別離群點(diǎn)的變化并更新數(shù)據(jù),進(jìn)行重新處理后,數(shù)據(jù)更貼近設(shè)定算法的要求,提高了計(jì)算準(zhǔn)確性。
該文基于局部信息熵提出一種新的智能電網(wǎng)數(shù)據(jù)離群點(diǎn)識(shí)別方法,通過(guò)選取局部信息熵子空間、智能電網(wǎng)數(shù)據(jù)離群點(diǎn)識(shí)別兩個(gè)步驟確定智能電網(wǎng)數(shù)據(jù)離群點(diǎn)識(shí)別的關(guān)鍵因素。研究表明,該文的識(shí)別方法具有極強(qiáng)的識(shí)別能力,能夠?yàn)殡x群點(diǎn)檢測(cè)提供切實(shí)的參考依據(jù)與方向啟示。但是該文方法也存在一定不足,主要表現(xiàn)在選取優(yōu)秀子空間計(jì)算信息熵過(guò)程中計(jì)算難度大,且計(jì)算結(jié)果易與實(shí)際結(jié)果存在偏差,檢索分析計(jì)算離群因子步驟較為煩瑣,不利于連續(xù)數(shù)據(jù)的深度剖析。