楊 婧,石云輝,盧啟芳
(貴州電網(wǎng)有限責(zé)任公司計(jì)量中心,貴州 貴陽 550000)
電量異常數(shù)據(jù)會(huì)導(dǎo)致電網(wǎng)系統(tǒng)中的數(shù)據(jù)出現(xiàn)較大變化,對(duì)電網(wǎng)穩(wěn)定運(yùn)行產(chǎn)生直接影響,因此應(yīng)避免電量異常數(shù)據(jù)產(chǎn)生。而電網(wǎng)異常數(shù)據(jù)識(shí)別是避免電量異常數(shù)據(jù)產(chǎn)生的主要技術(shù)[1-3]。
針對(duì)電量異常數(shù)據(jù)問題,有學(xué)者采用大數(shù)據(jù)技術(shù)建立電量異常數(shù)據(jù)識(shí)別模型[4]。該模型采用大數(shù)據(jù)挖掘Spark模塊采集和處理電表數(shù)據(jù);制定了表碼和電量異常數(shù)據(jù)判定規(guī)則;采用大數(shù)據(jù)直線差值擬合表碼,生成異常數(shù)據(jù)預(yù)警結(jié)果。有學(xué)者在電量異常數(shù)據(jù)風(fēng)險(xiǎn)識(shí)別過程中引入了概率預(yù)測(cè)模型[5]。該模型基于狀態(tài)空間模型建立用電量結(jié)構(gòu)化模型;采用變分貝葉斯推斷模型進(jìn)行用電量的概率分布預(yù)測(cè),根據(jù)預(yù)測(cè)標(biāo)準(zhǔn)分?jǐn)?shù)實(shí)現(xiàn)異常數(shù)據(jù)的在線識(shí)別。以上電量異常數(shù)據(jù)智能識(shí)別方法存在未對(duì)識(shí)別指標(biāo)進(jìn)行降維處理、異常識(shí)別指標(biāo)不合理、使用的識(shí)別算法容易陷入局部最優(yōu)的問題,導(dǎo)致識(shí)別準(zhǔn)確率較低,難以滿足電量數(shù)據(jù)安全管理的實(shí)際應(yīng)用需求[6-8]。
數(shù)據(jù)挖掘算法可以從電量異常數(shù)據(jù)的歷史數(shù)據(jù)中尋找電量異常數(shù)據(jù)的變化規(guī)律[9-11]。為了解決電量異常數(shù)據(jù)識(shí)別結(jié)果不準(zhǔn)確的問題,本文設(shè)計(jì)了基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識(shí)別方法。本文設(shè)計(jì)識(shí)別流程,構(gòu)建異常識(shí)別指標(biāo)體系;創(chuàng)新性地采用主成分分析算法對(duì)識(shí)別指標(biāo)進(jìn)行線性組合降維處理,構(gòu)建合理性更高的異常識(shí)別綜合指標(biāo);基于相關(guān)系數(shù)矩陣,采用數(shù)據(jù)挖掘算法確定指標(biāo)權(quán)重;使用數(shù)據(jù)挖掘技術(shù)中的模糊C均值算法進(jìn)行電量異常特征聚類,融合徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建異常識(shí)別模型,以提高算法識(shí)別的尋優(yōu)效果、實(shí)現(xiàn)電量異常數(shù)據(jù)智能識(shí)別。本文通過仿真試驗(yàn)分析電量異常數(shù)據(jù)智能識(shí)別效果。試驗(yàn)結(jié)果表明,本文方法能得到較高的電量異常數(shù)據(jù)智能識(shí)別正確率,提高了電量異常數(shù)據(jù)的智能識(shí)別效率。
基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識(shí)別方法流程如圖1所示。
圖1 電量異常數(shù)據(jù)智能識(shí)別方法流程圖
圖1流程首先構(gòu)建電量異常數(shù)據(jù)識(shí)別指標(biāo)體系,采集相關(guān)指標(biāo)數(shù)據(jù),并對(duì)數(shù)據(jù)實(shí)施數(shù)據(jù)清洗、缺失補(bǔ)全以及結(jié)構(gòu)轉(zhuǎn)換等預(yù)處理;然后采用主成分分析算法對(duì)電量異常數(shù)據(jù)指標(biāo)進(jìn)行降維處理;最后使用數(shù)據(jù)挖掘技術(shù),根據(jù)降維處理后的數(shù)據(jù)建立電量異常數(shù)據(jù)識(shí)別模型。
本文獲取待識(shí)別電量數(shù)據(jù),設(shè)定電量異常標(biāo)準(zhǔn)值,構(gòu)建電量異常數(shù)據(jù)識(shí)別指標(biāo)體系。電量異常數(shù)據(jù)智能識(shí)別指標(biāo)如表1所示。
表1 電量異常數(shù)據(jù)智能識(shí)別指標(biāo)
電量異常數(shù)據(jù)識(shí)別過程需要分析指標(biāo)之間的關(guān)系。電量異常數(shù)據(jù)識(shí)別指標(biāo)的主成分分析流程如圖2所示。
圖2 主成分分析流程圖
本文采用主成分分析算法對(duì)初始電量異常數(shù)據(jù)識(shí)別指標(biāo)實(shí)施線性組合,以構(gòu)建新的電量異常數(shù)據(jù)識(shí)別綜合指標(biāo)。F1表示第一主成分,可令電量異常數(shù)據(jù)識(shí)別綜合指標(biāo)的方差足夠大。由于方差同F(xiàn)1內(nèi)所含信息之間成正比,在全部線性組合內(nèi)選取F1方差最大的指標(biāo)。如果F1無法描述初始指標(biāo)包含的全部信息,選取第二個(gè)線性組合F2,將其定義為第二主成分。循環(huán)上述過程能夠獲取p個(gè)彼此間不具備關(guān)聯(lián)性的主成分。這些主成分的方差依次遞減。在實(shí)際電量異常數(shù)據(jù)識(shí)別過程中,一般選取前幾個(gè)方差最大的主成分。這樣就減少了電量異常數(shù)據(jù)識(shí)別模型的輸入,提升了電量異常數(shù)據(jù)識(shí)別方法的工作效率。
電量異常數(shù)據(jù)識(shí)別指標(biāo)權(quán)重確定步驟如下。
①讀取初始電量異常數(shù)據(jù)識(shí)別指標(biāo),對(duì)其實(shí)施標(biāo)準(zhǔn)化處理后,對(duì)指標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)量檢驗(yàn)、球形檢測(cè)。這2種檢測(cè)均以相關(guān)系數(shù)矩陣為基礎(chǔ)。統(tǒng)計(jì)量檢驗(yàn)的取值范圍為[0,1],其值越大,表示電量異常數(shù)據(jù)識(shí)別指標(biāo)越優(yōu)。球形檢測(cè)需進(jìn)行相關(guān)系數(shù)矩陣與單位矩陣間的相關(guān)性分析。若指標(biāo)樣本數(shù)據(jù)檢驗(yàn)結(jié)果為0.001,代表異常指標(biāo)間具有相關(guān)性。
②確定模型主成分特征值及其貢獻(xiàn)率,選取特征值大于1%的若干個(gè)主成分構(gòu)建評(píng)價(jià)指標(biāo)。
③利用數(shù)據(jù)挖掘法實(shí)施因子旋轉(zhuǎn),獲取因子載荷矩陣。根據(jù)因子載荷矩陣數(shù)據(jù),構(gòu)建電量異常數(shù)據(jù)智能識(shí)別主成分因子模型,計(jì)算不同主成分貢獻(xiàn)率的乘積。
④評(píng)價(jià)一致性矩陣。根據(jù)計(jì)算權(quán)重,評(píng)價(jià)一致性矩陣為:
R=(txy)n×n
(1)
式中:txy為模型主成分特征值x和y的貢獻(xiàn)率,%;n×n為因子載荷矩陣。
對(duì)評(píng)價(jià)一致性矩陣進(jìn)行規(guī)范化處理,則:
(2)
式中:Rmax和Rmin為權(quán)值指標(biāo)的最大值和最小值;u為因子旋轉(zhuǎn)系數(shù)。
⑤數(shù)據(jù)挖掘方法根據(jù)計(jì)算權(quán)重設(shè)定關(guān)聯(lián)規(guī)則,建立電量異常數(shù)據(jù)智能識(shí)別模型。
本文使用數(shù)據(jù)挖掘技術(shù)中的模糊C均值算法實(shí)現(xiàn)電量異常特征聚類。本文采用X={x1,x2,…,xn}表示異常指標(biāo)樣本。其聚類中心及模糊分類矩陣分別用C=[c1、c2,…,cc′]T、A=[aij]c′×n描述。模糊C均值算法的表達(dá)式如式(3)所示。
(3)
式中:n為異常指標(biāo)j的數(shù)量;c為聚類中心;c′為c的數(shù)量;aij為指標(biāo)j的聚類隸屬度。
聚類數(shù)量的最優(yōu)結(jié)果可通過模糊聚類有效性指標(biāo)函數(shù)獲取,用Vx描述:
(4)
Vx的值越小,聚類結(jié)果越優(yōu)。本文以最優(yōu)聚類結(jié)果為基準(zhǔn),通過分類提取出與異常特征聚類中心最接近的電量數(shù)據(jù),從而獲得電量異常數(shù)據(jù)特征。
本文利用數(shù)據(jù)樣本與異常特征的相似性,通過正態(tài)分布理論確定識(shí)別閾值,以識(shí)別電量異常數(shù)據(jù)。
待識(shí)別的電量數(shù)據(jù)集合用P描述。其隸屬類的特征用Q描述。P中的某識(shí)別樣本為p={1,2,…,k},相似性對(duì)比因數(shù)用y1描述:
y1(p)=P(p)-Q(p)
(5)
異常數(shù)據(jù)相似性特征符合式(6):
(6)
式中:δ1為y1的均方差;E1為δ1的均值;θ1為相似性識(shí)別閾值。
若電量數(shù)據(jù)符合式(6),則該數(shù)據(jù)為異常數(shù)據(jù)。
為了保證異常識(shí)別結(jié)果的準(zhǔn)確性,本文使用徑向基函數(shù)(radial basis functions,RBF)神經(jīng)網(wǎng)絡(luò)構(gòu)建異常識(shí)別模型,對(duì)樣本集進(jìn)行訓(xùn)練,以增強(qiáng)模型的識(shí)別能力,從而獲得相似性識(shí)別閾值內(nèi)的最優(yōu)識(shí)別結(jié)果。
RBF神經(jīng)網(wǎng)絡(luò)輸出結(jié)果用式(7)描述:
(7)
式中:wik為連接權(quán)值向量;s為輸出節(jié)點(diǎn)k的數(shù)量;Ri(k)為RBF。
為了獲得最優(yōu)值,需增加計(jì)算節(jié)點(diǎn)數(shù)量。各節(jié)點(diǎn)構(gòu)建RBF神經(jīng)網(wǎng)絡(luò),將訓(xùn)練樣本均分給各節(jié)點(diǎn)實(shí)現(xiàn)并行處理,以訓(xùn)練各節(jié)點(diǎn)的RBF神經(jīng)網(wǎng)絡(luò)。為了提高訓(xùn)練準(zhǔn)確率,需優(yōu)化連接權(quán)值向量。優(yōu)化后的連接權(quán)值向量為:
(8)
式中:αi′為節(jié)點(diǎn)i′對(duì)于全部節(jié)點(diǎn)所占比重;wi′為節(jié)點(diǎn)權(quán)重;m為節(jié)點(diǎn)數(shù)量。
本文采用某市電網(wǎng)18個(gè)電量數(shù)據(jù)采集節(jié)點(diǎn)作為研究對(duì)象,并將其分別命名為M01~M18。節(jié)點(diǎn)分布式環(huán)境采用Hadoop框架配置。仿真平臺(tái)為多個(gè)節(jié)點(diǎn)組成Cluster,搭建Hadoop節(jié)點(diǎn)集群,集群通信基于多點(diǎn)接口(multi point interface,MPI)庫實(shí)現(xiàn)。電量數(shù)據(jù)集選擇該市電網(wǎng)公司這18個(gè)節(jié)點(diǎn)的開放數(shù)據(jù)集數(shù)據(jù)樣本(共53 GB),寫入Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)中。仿真環(huán)境配置如下:網(wǎng)絡(luò)環(huán)境為DDR 20 GB Infiniband;單節(jié)點(diǎn)內(nèi)存為6 GB;節(jié)點(diǎn)連接網(wǎng)絡(luò)為天河-1A;MPI版本為MPICH-2;處理器為Intel Xeon 64 2.33 GHz;操作系統(tǒng)為Centors 7.0;Hadoop版本為Cloudera Hadoop 5.0。
測(cè)試過程為:按照設(shè)計(jì)的識(shí)別流程,構(gòu)建指標(biāo)體系;對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,采用主成分分析算法對(duì)識(shí)別指標(biāo)進(jìn)行線性組合降維處理;利用數(shù)據(jù)挖掘算法確定指標(biāo)權(quán)重(貢獻(xiàn)率)并進(jìn)行指標(biāo)排序;使用數(shù)據(jù)挖掘技術(shù)中的模糊C均值算法進(jìn)行電量異常特征聚類,利用RBF神經(jīng)網(wǎng)絡(luò)構(gòu)建異常識(shí)別模型;設(shè)定相似度識(shí)別閾值,通過模型訓(xùn)練獲得最優(yōu)識(shí)別結(jié)果。本文分別通過指標(biāo)貢獻(xiàn)率、識(shí)別準(zhǔn)確性和識(shí)別效率測(cè)試本文方法的應(yīng)用性能。
本文以M16為識(shí)別對(duì)象,對(duì)其進(jìn)行電量異常數(shù)據(jù)識(shí)別。21個(gè)評(píng)價(jià)指標(biāo)主成分特征值的貢獻(xiàn)率如圖3所示。
圖3 評(píng)價(jià)指標(biāo)主成分特征值的貢獻(xiàn)率
由圖3可知,主成分特征值的累計(jì)貢獻(xiàn)率達(dá)到92.087%。這說明主成分分析能夠體現(xiàn)識(shí)別指標(biāo)的信息,有效實(shí)現(xiàn)降維。
本文采用本文方法對(duì)18個(gè)對(duì)象進(jìn)行電量異常數(shù)據(jù)智能識(shí)別,并進(jìn)行排序。各研究對(duì)象電量異常數(shù)據(jù)識(shí)別結(jié)果如圖4所示。
圖4 各研究對(duì)象電量異常數(shù)據(jù)識(shí)別結(jié)果
本文將電量異常數(shù)據(jù)相似度識(shí)別閾值設(shè)定為-0.253~-0.185,取這2個(gè)數(shù)值的均值,即電量異常數(shù)據(jù)的識(shí)別閾值分界點(diǎn)設(shè)定為-0.219。分析圖4可知,M17~M11不存在電量異常數(shù)據(jù),而M13~M04具有一定的電量異常數(shù)據(jù)。這說明本文方法能夠識(shí)別各種電量異常數(shù)據(jù)。
本文將本文方法和文獻(xiàn)[4]方法識(shí)別出的電量異常數(shù)據(jù)與實(shí)際情況進(jìn)行對(duì)比,以分析電量異常數(shù)據(jù)識(shí)別準(zhǔn)確率。電量異常數(shù)據(jù)識(shí)別準(zhǔn)確率結(jié)果如圖5所示。
圖5 識(shí)別準(zhǔn)確率結(jié)果
由圖5可知,本文方法識(shí)別準(zhǔn)確率高于70%,而文獻(xiàn)[4]方法的準(zhǔn)確率低于70%。這說明采用本文方法對(duì)電量異常數(shù)據(jù)進(jìn)行識(shí)別的準(zhǔn)確性較高。
本文進(jìn)行異常識(shí)別效率測(cè)試。本文選擇3個(gè)電量數(shù)據(jù)集作為測(cè)試對(duì)象。各數(shù)據(jù)集大小分別為1.56 GB、1.89 GB、2.01 GB。數(shù)據(jù)條數(shù)均為700條。本文對(duì)不同數(shù)據(jù)條數(shù)下數(shù)據(jù)識(shí)別效率進(jìn)行測(cè)試。數(shù)據(jù)識(shí)別效率的測(cè)試結(jié)果如圖6所示。
圖6 數(shù)據(jù)識(shí)別效率的測(cè)試結(jié)果
由圖6可知,本文方法對(duì)3個(gè)試驗(yàn)數(shù)據(jù)集的識(shí)別時(shí)間均較少。其中:數(shù)據(jù)量為1.56 GB的試驗(yàn)數(shù)據(jù)集的識(shí)別時(shí)間平均為402.32 ms;數(shù)據(jù)量為1.89 GB的試驗(yàn)數(shù)據(jù)集的識(shí)別時(shí)間平均為543.25 ms;數(shù)據(jù)量為2.01 GB的試驗(yàn)數(shù)據(jù)集的識(shí)別時(shí)間平均為596.32 ms。綜上分析可知,本文方法的數(shù)據(jù)識(shí)別速度快,具有良好的識(shí)別效率。
針對(duì)當(dāng)前電量異常數(shù)據(jù)智能識(shí)別過程存在的問題,如識(shí)別時(shí)間長(zhǎng)、錯(cuò)誤率高等,本文設(shè)計(jì)了基于數(shù)據(jù)挖掘的電量異常數(shù)據(jù)智能識(shí)別方法。該方法采用主成分分析算法對(duì)識(shí)別指標(biāo)進(jìn)行降維處理,構(gòu)建異常識(shí)別綜合指標(biāo);利用數(shù)據(jù)挖掘算法確定指標(biāo)權(quán)重;創(chuàng)新性地融合模糊C均值算法和RBF神經(jīng)網(wǎng)絡(luò)構(gòu)建電量異常數(shù)據(jù)識(shí)別模型,實(shí)現(xiàn)電量異常數(shù)據(jù)智能識(shí)別。試驗(yàn)結(jié)果表明,本文方法能夠準(zhǔn)確識(shí)別不同電網(wǎng)數(shù)據(jù)異?,F(xiàn)象,為電力數(shù)據(jù)安全管理提供支持。本文方法具有十分廣闊的應(yīng)用前景。