田 野,張 程,毛昕儒,劉 驥
(1.重慶大學(xué) 計(jì)算機(jī)學(xué)院, 重慶 400044; 2.國(guó)網(wǎng)重慶永川電力公司, 重慶 402160)
運(yùn)用PCA改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的用電異常行為檢測(cè)
田 野1,張 程1,毛昕儒2,劉 驥1
(1.重慶大學(xué) 計(jì)算機(jī)學(xué)院, 重慶 400044; 2.國(guó)網(wǎng)重慶永川電力公司, 重慶 402160)
針對(duì)目前用戶用電行為和異常檢測(cè)的傳統(tǒng)方式所遇到的資源耗費(fèi)、效率低下、檢測(cè)困難等問題,結(jié)合數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)實(shí)現(xiàn)了適用于大規(guī)模用電數(shù)據(jù)挖掘的算法,并建立了有效的異常特征提取模型。通過使用基于統(tǒng)計(jì)的特征提取方式確定異常指標(biāo),并使用主成分分析方法對(duì)特征數(shù)據(jù)降維,進(jìn)行異常用電信息的分析、辨識(shí)和處理,之后對(duì)處理后的用電數(shù)據(jù)建立BP神經(jīng)網(wǎng)絡(luò)完成用電異常行為檢測(cè)。檢測(cè)結(jié)果表明:該方法可以有效地提取出用電行為特征,并且能有效用于用電異常檢測(cè)。
用電行為;異常檢測(cè);特征提??;主成分分析;神經(jīng)網(wǎng)絡(luò)
隨著電網(wǎng)系統(tǒng)信息化程度的不斷提高和用戶用電數(shù)據(jù)量的迅速增長(zhǎng),各類電網(wǎng)裝置及系統(tǒng)都有大量的數(shù)據(jù)要處理,數(shù)據(jù)規(guī)模龐大,蘊(yùn)含的事件信息種類繁多。然而,從大量?jī)r(jià)值密度較低的數(shù)據(jù)中挖掘出有價(jià)值的信息仍是電力企業(yè)面臨的重要問題[1]。同時(shí),由于通信、設(shè)備故障、電網(wǎng)波動(dòng)以及用戶異常用電行為等原因,出現(xiàn)了大量數(shù)據(jù)異常的現(xiàn)象,這些異常數(shù)據(jù)影響了電能數(shù)據(jù)的準(zhǔn)確性。因此,本文針對(duì)上述問題研究適用于大數(shù)據(jù)的用戶用電行為分析方法,并建立一個(gè)有效的異常發(fā)現(xiàn)模型。
早期對(duì)于設(shè)備故障產(chǎn)生的用電異常多采用的是現(xiàn)場(chǎng)檢測(cè)方法,即技術(shù)人員到用電現(xiàn)場(chǎng)進(jìn)行排查。這種處理方式極其耗費(fèi)人力、物力資源,效率低、效果差,而且很難獲取計(jì)量設(shè)備的電壓、電流、功率等瞬時(shí)量數(shù)據(jù)[2]。同時(shí),這種方式還存在極大的人為因素,不利于電力行業(yè)的管理。近年來,國(guó)內(nèi)外專家學(xué)者提出了一些基于數(shù)據(jù)挖掘技術(shù)和智能優(yōu)化算法的用電異常檢測(cè)方法,其中人工神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域興起的研究熱點(diǎn)。
本文以用戶日常用電行為檢測(cè)為主,以提取數(shù)據(jù)有用特征和提高分類精度為主要目的,結(jié)合數(shù)據(jù)挖掘的方法解決時(shí)序數(shù)據(jù)分類的問題,實(shí)現(xiàn)用電異常檢測(cè)的概率預(yù)警。該方法降低了電網(wǎng)公司檢測(cè)分析的時(shí)間及成本,提高了異常檢測(cè)精確度及工作效率,具有重大的經(jīng)濟(jì)效益。
1.1 智能電網(wǎng)的發(fā)展
一般的用電異常指標(biāo)分為線損異常和瞬時(shí)量異常兩類。早期的用電異常檢測(cè)辦法是確定各個(gè)用電異常指標(biāo)以及每個(gè)異常指標(biāo)的閾值,并其賦予不同的權(quán)重分值,累加后計(jì)算每個(gè)用戶的竊電嫌疑系數(shù)[3]。即根據(jù)這些異常指標(biāo)設(shè)計(jì)竊電識(shí)別模型,通過計(jì)算嫌疑系數(shù)來識(shí)別竊電用戶。然而這類異常數(shù)據(jù)大多由設(shè)備故障產(chǎn)生,需要到現(xiàn)場(chǎng)檢測(cè)排查,導(dǎo)致效率太低且不利于統(tǒng)計(jì)管理。
近年來,隨著智能電網(wǎng)的高速發(fā)展建設(shè),智能電表的快速普及,使得電網(wǎng)能夠更方便、更準(zhǔn)確地獲取并查詢用戶的用電信息。它利用現(xiàn)代網(wǎng)絡(luò)通信技術(shù)進(jìn)行信息海量交互,實(shí)現(xiàn)電網(wǎng)設(shè)備間的信息交換,并自動(dòng)完成信息采集、測(cè)量和檢測(cè)等基本功能,有利于現(xiàn)代化管理,并方便用于數(shù)據(jù)挖掘分析。
1.2 用電行為分析
國(guó)內(nèi)外許多專家學(xué)者對(duì)用戶用電行為特征進(jìn)行了大量研究。近年來,一些基于數(shù)據(jù)挖掘技術(shù)和智能優(yōu)化算法的異常檢測(cè)方法相繼提出,包括決策樹、模糊C均值、人工神經(jīng)網(wǎng)絡(luò)、負(fù)荷模式、SVM、OPF分類以及極限學(xué)習(xí)機(jī)等。
1.2.1 異常檢測(cè)算法相關(guān)研究
謝濤等[4]針對(duì)非法用電行為構(gòu)建線性方程組數(shù)學(xué)模型,提出了基于智能電表的分布式檢測(cè)方法。簡(jiǎn)富俊等[5]使用單類SVM無監(jiān)督機(jī)器學(xué)習(xí)架構(gòu)對(duì)電力用戶負(fù)荷異常進(jìn)行檢測(cè),在小樣本及樣本分類不均衡環(huán)境下提高檢測(cè)的準(zhǔn)確性。馮曉蒲等[6]使用模糊C均值算法對(duì)其進(jìn)行聚類分析,得到負(fù)荷簇和負(fù)荷代表曲線,分析了屬于各行業(yè)和電價(jià)類的用戶負(fù)荷聚類結(jié)果。林嘉暉[7]構(gòu)建了適用于電網(wǎng)企業(yè)的用戶行為分析系統(tǒng)并實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,能夠?qū)Υ罅坑脩魯?shù)據(jù)進(jìn)行分析。
Cabral等[8]提出了一種基于粗糙集的異常用電檢測(cè)統(tǒng)計(jì)方法。Nagi等[9]提出一種基于改進(jìn)SVM的異常檢測(cè)模型,并使用包含知識(shí)和專家意見的模糊推理系統(tǒng)。Ramos等[10]提出一種基于和聲搜索算法和OPF分類的混合特征選擇算法,并成功應(yīng)用到電力系統(tǒng)。Pereira等[11]提出一種利用電場(chǎng)算法訓(xùn)練多層感知機(jī)的人工神經(jīng)網(wǎng)絡(luò)方法。
1.2.2 特征提取方法研究現(xiàn)狀
現(xiàn)有的時(shí)間序列特征提取的方法有分別基于統(tǒng)計(jì)方法、模型、變換和分形維數(shù)的特征提取。 基于統(tǒng)計(jì)特征的提取就是提取數(shù)據(jù)波形的均值、方差等統(tǒng)計(jì)特征來代表原有的時(shí)序數(shù)據(jù)作為特征矢量;而基于變換的特征提取方法包括SVD、主成分分析(PCA)和線性判別式分析等。其中,利用PCA方法的變換可以在信息損失最小的前提下,用較少的分量來代替原來的高維數(shù)據(jù),達(dá)到降維的效果[12]。
楊光[13]使用BP神經(jīng)網(wǎng)絡(luò)算法建立異常用電檢測(cè)模型,然而該模型缺乏數(shù)據(jù)特征提取過程,不能用于本實(shí)驗(yàn)含有大量噪聲和隨機(jī)性的時(shí)序數(shù)據(jù)。胡殿剛等[14]在訓(xùn)練數(shù)據(jù)前做了基于CFS方法的特征選擇過程,但由于數(shù)據(jù)類型的差異,在本實(shí)驗(yàn)中不能取得很好的效果,所以需要針對(duì)本實(shí)驗(yàn)數(shù)據(jù)集提出更合適的特征提取方法。
1.3 BP神經(jīng)網(wǎng)絡(luò)技術(shù)
人工神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域興起的研究熱點(diǎn)。近幾年,BP神經(jīng)網(wǎng)絡(luò)的研究工作不斷深入,在許多實(shí)際應(yīng)用領(lǐng)域中取得了很大的進(jìn)展,成功地解決了許多現(xiàn)代計(jì)算機(jī)難以解決的實(shí)際問題,表現(xiàn)出了良好的智能特性。目前,在手寫字體的識(shí)別、語音識(shí)別、文本—語言轉(zhuǎn)換、圖像識(shí)別以及生物醫(yī)學(xué)信號(hào)處理方面已有實(shí)際的應(yīng)用[15]。
BP神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
BP網(wǎng)絡(luò)具有很強(qiáng)的非線性映射能力,而且網(wǎng)絡(luò)的中間層數(shù)、各層神經(jīng)元個(gè)數(shù)及網(wǎng)絡(luò)的學(xué)習(xí)系數(shù)等參數(shù)可以根據(jù)實(shí)際情況設(shè)定,有很大的靈活性,經(jīng)過學(xué)習(xí)能夠把樣本隱含的特征和規(guī)則分布在神經(jīng)網(wǎng)絡(luò)的連接權(quán)上。
隨著電力系統(tǒng)升級(jí)、智能電力設(shè)備的普及,國(guó)家電網(wǎng)公司可以實(shí)時(shí)收集海量的用戶用電行為數(shù)據(jù)。如圖2所示,為國(guó)家電網(wǎng)搜集到的2015年全年近10 000個(gè)用戶的每日用電量數(shù)據(jù)表。其中,用戶日用電量表記錄了所有用戶每日用電量千瓦時(shí)、當(dāng)天及前一天的總用電量表示值,每個(gè)用戶擁有一組維度為334的時(shí)序數(shù)據(jù)。用戶清單確定了用戶標(biāo)識(shí)信息,提供了對(duì)應(yīng)編號(hào)用戶是否為用電異常用戶的標(biāo)識(shí)。
圖2 用戶部分用電數(shù)據(jù)實(shí)例
2.1 特征提取方法
本文結(jié)合已獲取的用戶用電時(shí)序數(shù)據(jù),使用基于統(tǒng)計(jì)特征和基于PCA變換的提取方法,對(duì)用電數(shù)據(jù)建立特征提取模型。首先對(duì)用戶用電數(shù)據(jù)中的噪聲干擾進(jìn)行清洗處理;然后確定出各類統(tǒng)計(jì)特征指標(biāo);最后采用PCA方法對(duì)用電數(shù)據(jù)特征降維。
2.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗過程用于發(fā)現(xiàn)并糾正數(shù)據(jù)集中可識(shí)別的錯(cuò)誤,包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。不符合要求的數(shù)據(jù)主要分為殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)3類。
首先,對(duì)本實(shí)驗(yàn)所用的數(shù)據(jù)集做歸一化處理后計(jì)算所有用戶同一天用電量的均值,并得出一年用電量的平均走勢(shì)圖,如圖3所示。圖4為每個(gè)用戶一年的用電量走勢(shì)。從圖中可以看出:數(shù)據(jù)集中用戶在10月份的用電量數(shù)據(jù)均有大部分缺失,故在數(shù)據(jù)處理時(shí)去除10月份的時(shí)序片段。
圖3 所有用戶全年平均用電走勢(shì)
圖4 所有用戶全年用電量時(shí)序
然后,在對(duì)原始數(shù)據(jù)集的觀察中得知:有部分用戶全年的日用電量數(shù)據(jù)大部分為0或者缺失,如圖5所示。這類用戶數(shù)據(jù)信息殘缺嚴(yán)重,在對(duì)數(shù)據(jù)特征提取階段會(huì)造成一定干擾,所以需要去除這類殘缺用戶的數(shù)據(jù)。本實(shí)驗(yàn)定義當(dāng)單個(gè)用戶的日用電數(shù)值為0或缺失的天數(shù)占全年時(shí)間的60%以上時(shí)認(rèn)為該用戶為殘缺用戶。
對(duì)于數(shù)據(jù)缺失量低于60%的用戶,通過計(jì)算缺失位置前后兩天的均值來做填充補(bǔ)全處理。
圖5 部分用戶的大量缺失數(shù)據(jù)
2.3 建立統(tǒng)計(jì)特征
參考用戶用電行為相關(guān)研究并結(jié)合實(shí)際用電數(shù)據(jù)分析,本文首先對(duì)用電行為特征在時(shí)間上以年、季度、月份為單位劃分,并計(jì)算每個(gè)用戶的單位時(shí)間均值、標(biāo)準(zhǔn)差和離散系數(shù)序列;然后在用電走勢(shì)上大致分為變動(dòng)趨勢(shì)、波動(dòng)趨勢(shì)、升降趨勢(shì)3種趨勢(shì)類型。基于統(tǒng)計(jì)方法提取的特征如表1所示。
表1 統(tǒng)計(jì)特征指標(biāo)
假設(shè)本實(shí)驗(yàn)所用到的數(shù)據(jù)集為X={xn,n=1,…,N},數(shù)據(jù)集中包含N個(gè)日常用電用戶,每個(gè)用戶劃分為D天、M個(gè)月、Q個(gè)季度的用電數(shù)據(jù),則:
每個(gè)用戶的日用電量序列:
xn={xnd,d=1,…,D}
月用電量序列:
季度用電量序列:
2.3.1 波動(dòng)趨勢(shì)
在統(tǒng)計(jì)中標(biāo)準(zhǔn)差被用來評(píng)估序列可能的變化或波動(dòng)程度,標(biāo)準(zhǔn)差越大,數(shù)值波動(dòng)的范圍就越大。所以,這里計(jì)算用電量標(biāo)準(zhǔn)差std來表示用電數(shù)據(jù)的波動(dòng)特征。同時(shí),計(jì)算用電離散系數(shù)cv來衡量用戶用電的離散程度。令某一時(shí)間段用電平均值為μ,則用電量標(biāo)準(zhǔn)差:
(1)
用電離散系數(shù):
cv=std/μ
(2)
2.3.2 變動(dòng)趨勢(shì)
變動(dòng)性特征是指用戶用電量的前后差異性度量,即由某一時(shí)間段與前一相鄰時(shí)間段的平均用電量比較,其差值和比值來反映用電量變動(dòng)的快慢程度。定義計(jì)算方式如下:
相鄰k月或k季度用電均值的差值:
(3)
相鄰k月或k季度用電均值的比值:
(4)
2.3.3 升降趨勢(shì)
上升下降趨勢(shì)特征是指通過根據(jù)用戶連續(xù)幾日的用電量做出下一次用電量的預(yù)測(cè),并與下一次實(shí)際用電量比較,得出上升或下降的可能性。這里使用簡(jiǎn)單移動(dòng)平均法來確定升降趨勢(shì)的特征向量。簡(jiǎn)單移動(dòng)平均法根據(jù)時(shí)間序列逐項(xiàng)推移,依次計(jì)算固定項(xiàng)數(shù)的一組平均值,并作為下一次的預(yù)測(cè)值。令k為移動(dòng)項(xiàng)數(shù),t時(shí)刻實(shí)際值為xnt,則升降特征的計(jì)算方法得
t時(shí)刻預(yù)測(cè)值:
Ft=(xn(t-1)+xn(t-2)+…+xn(t-k)/k
(5)
t時(shí)刻升降趨勢(shì):
tr=xnt-Ft
(6)
若tr<0,則表明用電趨勢(shì)下降;若tr>0,則用電趨勢(shì)上升。
2.4 主成分分析
在進(jìn)行時(shí)序數(shù)據(jù)的特征提取的過程中,提取的特征維數(shù)太多會(huì)導(dǎo)致特征在匹配時(shí)過于復(fù)雜,消耗系統(tǒng)資源,因此需要對(duì)數(shù)據(jù)進(jìn)行特征降維,將高緯度的特征經(jīng)過某種函數(shù)映射至低緯度作為新的特征。
主成分分析(PCA,principal component analysis)就是一種常用的數(shù)據(jù)降維方法。PCA算法通過提取數(shù)據(jù)的主要特征分量,將高維數(shù)據(jù)投影到較低維空間,將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,使得處理數(shù)據(jù)的時(shí)間和費(fèi)用大大降低。另一方面,由于各主成分是相互垂直的,所以增大了類間距,減小了類內(nèi)差異,可提高分類精度。
對(duì)于n維向量的m個(gè)樣本值,形成一個(gè)m×n的矩陣X。將X的每一列減去對(duì)應(yīng)該列的均值得X′,再計(jì)算它的協(xié)方差矩陣C。然后求出協(xié)方差矩陣C的特征值λ及對(duì)應(yīng)的特征向量V:
CV=λV
(7)
將特征值由大到小排列:λ=[λ1,λ2, …,λn],并取前k個(gè)特征值對(duì)應(yīng)的特征向量,得到一個(gè)n×k的矩陣A。計(jì)算:Ym×k=Xm×nAn×k,Y即為降維到k維后的新特征數(shù)據(jù)。
在PCA算法中,對(duì)于新的特征維度k值的確定,需要進(jìn)一步分析每個(gè)主成分對(duì)信息的貢獻(xiàn)。如果取的k值小,則數(shù)據(jù)的維數(shù)低,便于分析,同時(shí)也降低了噪聲,但可能丟失一些有用的信息。所以定義主成分貢獻(xiàn)率r作為k的取值標(biāo)準(zhǔn)。貢獻(xiàn)率是指主成分對(duì)應(yīng)的特征值在整個(gè)數(shù)據(jù)中承擔(dān)的比重,當(dāng)取前k個(gè)主成分來代替原始數(shù)據(jù)特征時(shí),累計(jì)貢獻(xiàn)率的大小反映了新特征的可靠性,累計(jì)貢獻(xiàn)率越大,則可靠性越大。本實(shí)驗(yàn)要求選取的新特征的累計(jì)貢獻(xiàn)率達(dá)95%以上,即:
(8)
3.1 異常檢測(cè)模型
本文的模型設(shè)計(jì)流程大致分為數(shù)據(jù)采集、數(shù)據(jù)清洗、特征提取、神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)、模型建立、實(shí)驗(yàn)分析這6個(gè)部分?;赑CA改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的用戶用電異常行為檢測(cè)模型的總體結(jié)構(gòu)如圖6所示。
圖6 用戶用電異常檢測(cè)模型結(jié)構(gòu)
3.2 BP神經(jīng)網(wǎng)絡(luò)
本實(shí)驗(yàn)將特征提取步驟中對(duì)原始數(shù)據(jù)樣本提取的6個(gè)特征維度作為輸入因素,最后輸出用電異常和用電正常2種可能結(jié)果,分別以0和1表示,即網(wǎng)絡(luò)模型為多輸入單輸出二類分類模型,如圖7所示。相對(duì)于一般的BP神經(jīng)網(wǎng)絡(luò),本文針對(duì)用電時(shí)序數(shù)據(jù)樣本量較大和維度較高的特征,在BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)上采用雙隱含層,使數(shù)據(jù)處理精度得到保證。
圖7 本文所用BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
為保證在實(shí)際訓(xùn)練時(shí)網(wǎng)絡(luò)具有較高的收斂速度,同時(shí)減少變化的幅度以便降低調(diào)整權(quán)重的難度,對(duì)輸入數(shù)據(jù)進(jìn)行歸一化的處理。樣本數(shù)據(jù)歸一化區(qū)間限于[0,1]。隱含層的激活函數(shù)分別選擇tansig和logsig兩種Sigmoid型激活函數(shù),其表達(dá)式和誤差函數(shù)分別為:
(9)
其中:Ti為期望輸出;Oi為實(shí)際輸出。輸出層函數(shù)選擇purelin線性激活函數(shù)。訓(xùn)練函數(shù)選擇收斂速度較快的LM優(yōu)化算法trainlm。
4.1 數(shù)據(jù)測(cè)試
本實(shí)驗(yàn)選取的原始數(shù)據(jù)集來自重慶某地電網(wǎng)9 956個(gè)用戶從2015-01-01—2015-12-31共一年的日用電量數(shù)據(jù),具體實(shí)驗(yàn)過程如下:
1) 對(duì)原始數(shù)據(jù)做數(shù)據(jù)清理。本實(shí)驗(yàn)中經(jīng)清理后得到334天可供分析的有效數(shù)據(jù)維度和8 146個(gè)數(shù)據(jù)有效的用戶訓(xùn)練集。其中包含6 977個(gè)正常用戶和1 169個(gè)異常用戶,異常用戶比例為14.35%。
2) 對(duì)清理后的數(shù)據(jù)集建立統(tǒng)計(jì)特征。根據(jù)表1對(duì)實(shí)驗(yàn)數(shù)據(jù)提取49個(gè)維度的統(tǒng)計(jì)特征。
4) 對(duì)PCA降維處理后的新特征數(shù)據(jù)集做相關(guān)性分析,得到的相關(guān)系數(shù)矩陣如表3所示。
從表3中可以看出各個(gè)特征之間的線性相關(guān)程度,其中cor表示相關(guān)系數(shù)。|cor|越接近1,表示這兩個(gè)特征間線性關(guān)系越密切;|cor|越接近于0,則這兩個(gè)特征的線性相關(guān)越弱??梢?,經(jīng)PCA處理后得到的新特征幾乎相互獨(dú)立,消除了信息重疊。
表2 總貢獻(xiàn)率高于0.95的特征值
表3 基于新特征的相關(guān)系數(shù)
圖8 d1與d2維度的空間分布
6) 根據(jù)已提取的6個(gè)新的特征數(shù)據(jù),構(gòu)建用于BP神經(jīng)網(wǎng)絡(luò)的6個(gè)輸入向量及1個(gè)輸出向量,并進(jìn)行歸一化處理。然后根據(jù)構(gòu)建的模型,利用Matlab建立含有2個(gè)隱含層的BP神經(jīng)網(wǎng)絡(luò),如圖11所示。設(shè)置2個(gè)隱含層的激活函數(shù)分別為 tansig和logsig,輸出層激活函數(shù)為線性函數(shù)purelin,訓(xùn)練函數(shù)為trainlm,訓(xùn)練次數(shù)為5 000次、目標(biāo)精度為1e-5。
圖9 d1與d3維度的空間分布
圖10 d2與d3維度的空間分布
圖11 利用Matlab建立BP神經(jīng)網(wǎng)絡(luò)
4.2 實(shí)驗(yàn)結(jié)果
經(jīng)過本實(shí)驗(yàn)建立的用電行為異常檢測(cè)模型分析得出的結(jié)果如表4所示,其中輸出異常檢測(cè)值res在[0,1]之間。若res<0.5,則判斷用戶無異常用電行為;若res≥0.5,則用戶存在用電異常嫌疑。
本實(shí)驗(yàn)分別使用了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)算法和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法對(duì)樣本數(shù)據(jù)集進(jìn)行異常嫌疑判斷,統(tǒng)計(jì)了兩種檢測(cè)方式的分類準(zhǔn)確率。
從以上實(shí)驗(yàn)結(jié)果(表5)可以看出:基于PCA的特征提取方法提高了分類的準(zhǔn)確率。同時(shí),本實(shí)驗(yàn)提出的基于PCA的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的整體分類準(zhǔn)確率達(dá)88.58%,高于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法。在基于PCA的各項(xiàng)分類上,傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)之間正常用戶的分類準(zhǔn)確率相差只有0.25%,都達(dá)到了很高的分類精度。但本實(shí)驗(yàn)的改進(jìn)方法在異常檢測(cè)的分類上比傳統(tǒng)方法高4.45%,說明本實(shí)驗(yàn)所建立的基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的用電異常檢測(cè)模型在性能上更加有效,檢測(cè)效果更好。
表4 部分異常檢測(cè)實(shí)驗(yàn)結(jié)果
表5 檢測(cè)算法的分類準(zhǔn)確率對(duì)比
4.3 結(jié)論分析
本實(shí)驗(yàn)首先對(duì)用原始用電時(shí)序數(shù)據(jù)集進(jìn)行了基于統(tǒng)計(jì)和主成分分析的特征提取處理,處理后的數(shù)據(jù)特征集之間線性不相關(guān),基本消除了原始數(shù)據(jù)中的信息重疊。同時(shí),主成分的選擇將高維度特征映射到更低的維度,使得模型訓(xùn)練收斂速度更快,顯著提升計(jì)算效率,也提高了分類精度。
結(jié)合特征提取后的數(shù)據(jù)對(duì)改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)做訓(xùn)練,異常檢測(cè)準(zhǔn)確率相比傳統(tǒng)網(wǎng)絡(luò)更高,說明兩層隱含層的設(shè)計(jì)明顯提高了用電異常檢測(cè)的精度。但是,從兩類用電用戶分類效果比較可以看出異常用戶分類誤差較大。實(shí)驗(yàn)分析得出的原因有:原始數(shù)據(jù)集本身不均衡,異常用戶所占的比重較少;時(shí)間序列數(shù)據(jù)本身軌跡不規(guī)則,在特征提取分析上還有待進(jìn)一步研究。
傳統(tǒng)的用電異常檢測(cè)技術(shù)效率低、效果差,為此本文研究了時(shí)序數(shù)據(jù)特征提取方法和機(jī)器學(xué)習(xí)分類算法,提出了基于PCA的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的異常用電檢測(cè)模型,模型包括統(tǒng)計(jì)特征提取、主成分分析、BP神經(jīng)網(wǎng)絡(luò)改進(jìn)這幾個(gè)部分。在理論研究的基礎(chǔ)上,通過電網(wǎng)公司的真實(shí)時(shí)序數(shù)據(jù)實(shí)例驗(yàn)證用電異常分析效果,發(fā)現(xiàn)基于數(shù)據(jù)挖掘技術(shù)的異常檢測(cè)模型具有較高的科學(xué)性。本文方法為用電異常檢測(cè)提供了一種新的可行思路,避免傳統(tǒng)檢測(cè)工作的資源浪費(fèi),有著廣闊的應(yīng)用前景。
后續(xù)的研究將針對(duì)時(shí)序數(shù)據(jù)特征分析和樣本類型分布不均衡問題,結(jié)合混沌時(shí)序分析和單類分類,進(jìn)一步提高異常用電檢測(cè)的準(zhǔn)確率和檢測(cè)效率。
[1] 中國(guó)電機(jī)工程學(xué)會(huì)電力信息化專業(yè)委員會(huì).中國(guó)電力大數(shù)據(jù)發(fā)展白皮書[M].北京:中國(guó)電力出版社,2013.
[2] 姚偉智,林幕群,紀(jì)素娜,等.基于用電行為分析的低壓用戶竊電在線監(jiān)測(cè)分析方法研究[J].中國(guó)新通信,2015,17(2):97-99.
[3] 譚致遠(yuǎn).基于用電行為分析的在線用電異常及風(fēng)險(xiǎn)監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2015.
[4] 謝濤,靳丹,馬志程,等.基于智能電網(wǎng)的分布式非法用電行為檢測(cè)方法[J].微型電腦應(yīng)用,2015,31(2):54-57.
[5] 簡(jiǎn)富俊,曹敏,王磊,等.基于SVM的AMI環(huán)境下用電異常檢測(cè)研究[J].電測(cè)與儀表,2014,(6):64-69.
[6] 馮曉蒲,張鐵峰.基于實(shí)際負(fù)荷曲線的電力用戶分類技術(shù)研究[J].電力科學(xué)與工程,2010,26(9):18-22.
[7] 林嘉暉.基于數(shù)據(jù)挖掘的電網(wǎng)用戶行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:中山大學(xué),2013.
[8] CABRAL J E,PINTO J O P,GONTIJO E M,et al.Fraud detection in electrical energy consumers using rough sets[C]//IEEE Int Conf.Systems,Man and Cybernetics.USA:[s.n.],2004:3625-3629.
[9] NAGI J,YAP K S,TIONG S K,et al.Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system[J].IEEE Transactions on power delivery,2011,26(2):1284-1285.
[10]RAMOS C C,SOUZA A N,CHIACHIA G,et al.A novel algorithm for feature selection using Harmony Search and its application for non-technical losses detection[J].Computers and Electrical Engineering,2011(37):886-894.
[11]PEREIRA L A M,AFONSO L C S,PAPA J P,et al.Multilayer perceptron neural networks training through charged system search and its application for non-technical losses detection[C]//IEEE Innovative Smart Grid Technologies Latin America(ISGT LA),USA:[s.n.],2013:1-6.
[12]林珠,邢延.數(shù)據(jù)挖掘中適用于分類的時(shí)序數(shù)據(jù)特征提取方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(10):224-229.
[13]楊光.基于神經(jīng)網(wǎng)絡(luò)的異常用電檢測(cè)算法模型研究[J].供用電,2016(10):56-59.
[14]胡殿剛,李韶瑜,樓俏,等.ELM 算法在用戶用電行為分析中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(8):155-161.
[15]毛健,趙紅東,姚婧婧.人工神經(jīng)網(wǎng)絡(luò)的發(fā)展及應(yīng)用[J].電子設(shè)計(jì)工程,2011,19(24):62-65.
(責(zé)任編輯 陳 艷)
Research on Abnormal Behavior of Power Consumption Based on BP Neural Network with PCA
TIAN Ye1, ZHANG Cheng1, MAO Xinru2, LIU Ji1
(1.College of Computer Science, Chongqing University, Chongqing 400044, China; 2.State Grid Corporation, Chongqing 402160, China)
According to the problems of resource wasting, low efficiency and difficult detection encountered in the traditional way of detecting user’s abnormal power consumption, the algorithm for large-scale data mining was designed and realized combined with data mining technology, and an effective anomaly feature extraction model was established. It determines the abnormal indicators using the statistic-based feature extraction method, and reduces the dimension of the characteristic data using the principal component analysis method to achieve the analysis, identification and processing for abnormal power consumption. Then, the back-propagation neural network was established to detect the abnormal behavior from the power consumption information. The test result shows that this method can effectively extract the characteristics of power consumption behavior, and can be effectively used in the detection of electricity-using anomaly.
power consumption behavior; anomaly detection; feature extraction; principal component analysis; neural network
2017-03-24 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61502060)
田野(1992—),男,重慶人,碩士,主要從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)研究,E-mail:403521937@qq.com。
田野,張程,毛昕儒,等.運(yùn)用PCA改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的用電異常行為檢測(cè)[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(8):125-133.
format:TIAN Ye, ZHANG Cheng, MAO Xinru,et al.Research on Abnormal Behavior of Power Consumption Based on BP Neural Network with PCA[J].Journal of Chongqing University of Technology(Natural Science),2017(8):125-133.
10.3969/j.issn.1674-8425(z).2017.08.021
TP302.7
A
1674-8425(2017)08-0125-09
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2017年8期