李堅, 楊峰, 吳佳, 李平舟, 陳樂然, 付金鳳
(國網(wǎng)冀北電力有限公司,北京 100052; 北京博望華科科技有限公司,北京 100045)
電力調(diào)度系統(tǒng)中存在大量多源異構(gòu)數(shù)據(jù),其數(shù)據(jù)來源復(fù)雜且過于分散,導(dǎo)致數(shù)據(jù)共享度低、數(shù)據(jù)集成和融合性較差,無法對整體數(shù)據(jù)進行調(diào)控。同時,在電力調(diào)度控制系統(tǒng)進行數(shù)據(jù)采集時,受到環(huán)境、噪聲等外部因素的干擾,使得數(shù)據(jù)出現(xiàn)缺失,嚴重影響后期調(diào)度效果。因此,對多源異構(gòu)數(shù)據(jù)進行缺失填補,往往是保證電力正常運行的基本要求。陳娜等[1]采用跨模態(tài)聚合算法對該系統(tǒng)中的多源異構(gòu)數(shù)據(jù)進行缺失數(shù)據(jù)填補,此方法只針對單一數(shù)據(jù)進行處理,但整體性較弱;張人上等[2]基于改進混沌系統(tǒng)的加密算法對通信中的多源異構(gòu)數(shù)據(jù)進行擴頻,在一定程度上提升了數(shù)據(jù)融合效果;王維嘉等[3]提出了FCM算法和MCMC算法等多種數(shù)據(jù)處理算法,然后利用多目標優(yōu)化方法對多源異構(gòu)數(shù)據(jù)進行識別和最優(yōu)目標提取,以此完成多源數(shù)據(jù)的分類。但多源異構(gòu)數(shù)據(jù)缺失仍是影響異構(gòu)數(shù)據(jù)預(yù)處理的難題,且FCM算法本身也存在問題。因此,本研究嘗試對缺失數(shù)據(jù)進行估計,通過FCM算法對數(shù)據(jù)進行去噪,以更好地實現(xiàn)多源異構(gòu)數(shù)據(jù)的快速收斂,提升多源異構(gòu)數(shù)據(jù)全局調(diào)控能力。
由于多源異構(gòu)數(shù)據(jù)缺失嚴重影響了數(shù)據(jù)的完整性和穩(wěn)定性,不利于后續(xù)關(guān)鍵數(shù)據(jù)的分析利用,因此,分別采用改進的混沌遺傳算法(CGA)和馬爾科夫蒙特卡羅(MCMC)算法估計多源異構(gòu)數(shù)據(jù)中不完整數(shù)據(jù)集參數(shù)和缺失數(shù)據(jù),加快更新速度,實現(xiàn)快速收斂,并提高參數(shù)估計精度,減小誤差[4]。
1.1.1 數(shù)據(jù)參數(shù)估計
(1) 優(yōu)化估計參數(shù)模型
若多源異構(gòu)缺失數(shù)據(jù)集Y中含有k個屬性,且Y=(Yobs,Ymis);參數(shù)φ=(μ,Σ)為不確定參數(shù),μ、Σ分別表示數(shù)據(jù)集Y的均值向量和協(xié)方差矩陣。為更好地估計數(shù)據(jù)集參數(shù),將采用極大似然估計算法和正態(tài)分別規(guī)律特性,構(gòu)建包括μ和Σ的對數(shù)似然函數(shù)[5]:
(1)
式(1)中,μ=(μ1,μ2,…,μk)表示均值向量,為隸屬數(shù)據(jù)各屬性的均值,Σ=(σij)為屬性(X1,X2,…,Xk)的協(xié)方差矩陣,表示數(shù)據(jù)各屬性間的相關(guān)性,μ、Σ初始值取決于數(shù)據(jù)集Yobs[6],xi為數(shù)據(jù)記錄i(i=1,2,…,n)對應(yīng)屬性的向量,缺失值數(shù)據(jù)用估計相應(yīng)均值取代,n表示數(shù)據(jù)記錄個數(shù)。
在估計數(shù)據(jù)集參數(shù)過程中,f(φ)的函數(shù)值越大,所估計的參數(shù)φ越準確[7]?;诖?可對估計函數(shù)值進行優(yōu)化處理,確定缺失數(shù)據(jù)的目標函數(shù),具體表示為
(2)
式(2)中,參數(shù)φ的適應(yīng)函數(shù)為f(φ),其迭代過程中尋優(yōu)概率取決于參數(shù)適應(yīng)函數(shù)大小[8]。
(2) 參數(shù)迭代尋優(yōu)
在參數(shù)種群中,可能存在大量的參數(shù),通常選用遺傳算法對參數(shù)進化尋優(yōu),但此方法存在局部最優(yōu)問題,無法滿足全局優(yōu)化需求。為解決此問題,通過CGA算法加快收斂,進行混沌干擾操作,以快速找出最優(yōu)解,實現(xiàn)全局最優(yōu)。
(3)
(4)
式(4)中,ε主要通過尋優(yōu)參數(shù)精度得到,表示為標準參數(shù)值。
1.1.2 缺失值估計方法
完成數(shù)據(jù)參數(shù)估計后,采用改進的MCMC方法縮小估計值誤差值,具體步驟如下。
(1) 對參數(shù)φ(0)進行初始化處理。
(2) 對采集數(shù)據(jù)進行多次迭代,并利用MCMC對缺失數(shù)據(jù)進行估計,通過對數(shù)據(jù)進行隨機抽樣和缺失值填補后求得參數(shù)φ(t+1)。
(3) 迭代完成后,得到一條MCMC鏈,根據(jù)迭代結(jié)束條件將此鏈大小設(shè)置在合理區(qū)間內(nèi)。
(4) 最后從該鏈中選出一個擴充鏈,利用該鏈擴充缺失值,從而獲得多個估計參數(shù)值。之后為選出誤差最小的估計值,選用均值方法對多個參數(shù)值進行擬合,從而實現(xiàn)缺失值估計。
模糊C均值聚類算法(FCM),屬于一種柔性的模糊劃分算法,在數(shù)據(jù)處理、圖像識別分類等方面均取得較好的應(yīng)用效果。算法流程如圖1所示。
圖1 FCM算法流程圖
FCM算法受人為干預(yù)的影響較小,該算法在數(shù)據(jù)集過大或過多時,算法計算過程復(fù)雜,實時性較差。因此,為提高FCM算法的聚類準確性和實時性,對該算法進行改進。
相似性度量的基本原理判別2個數(shù)據(jù)間的相似性,常用方法為歐氏距離、余弦相似度、相關(guān)系數(shù)法等[9]。
其中,歐氏距離通過設(shè)置一個距離閾值,如式(5),并將此閾值作為評價標準進行評估:
(5)
余弦相似度在相似性度量中應(yīng)用較多,其通過樣本間的余弦值作為評判標準,以判別相似度大小,表達式為
(6)
該參數(shù)的區(qū)間為[-1,1],通過余弦值大小對相似度進行判斷,兩者呈反比關(guān)系。
(7)
得到改進算法為
(8)
若存在一個歐氏距離r,并將其設(shè)置為閾值,r取簇內(nèi)全部樣本點到聚類中心的加權(quán)歐氏距離的均勻值l,目標去噪數(shù)據(jù)完成聚類后,當dv(xt,vj)>r時表明此樣本點是噪聲點并進行刪除,dv(xt,vj) 針對聚類中心個數(shù)k的取值,通常采用肘部法則(Elbow Method)進行表示。k與代價函數(shù)呈反比關(guān)系,代價函數(shù)隨著k的增大而不斷減小。兩者的關(guān)系如圖2所示。 圖2 肘部法則 根據(jù)以上改進,得到改進后的FCM步驟如圖3所示。 圖3 去噪算法流程 當FCM進行計算時,數(shù)據(jù)量的增加可能增加計算量,使得計算過程更為復(fù)雜,為簡化計算步驟,可對數(shù)據(jù)進行預(yù)處理。具體方法為通過K-均值聚類分割數(shù)據(jù),并將其作為算法的初始聚類中心,從而實現(xiàn)快速收斂,迭代數(shù)和計算量減少,進一步提升實時性。 3.1.1 實驗環(huán)境和數(shù)據(jù)來源 為驗證以上方案,在MATLAB和SAS環(huán)境下進行仿真實驗,從配網(wǎng)調(diào)控系統(tǒng)數(shù)據(jù)庫中選擇多源異構(gòu)數(shù)據(jù)報表作為實驗數(shù)據(jù)。配網(wǎng)調(diào)控系統(tǒng)數(shù)據(jù)采集時存在大量干擾信息,導(dǎo)致數(shù)據(jù)缺失嚴重,采用本文填補方法對缺失數(shù)據(jù)進行填補。 3.1.2 實驗對比結(jié)果 為驗證提出的CGA數(shù)據(jù)填補方法的有效性,將CGA填補方法與最大期望算法(EM)和遺傳算法(GA)進行對比實驗,得到3種算法的參數(shù)估計過程如圖4所示。 圖4 3種算法參數(shù)估計過程 從圖4可以看出,3種算法迭代在15時取得了目標函數(shù),但CGA算法的目標函數(shù)最大,且提出的算法迭代次數(shù)更快,迭代至37時實現(xiàn)最優(yōu)解,而EM算法和GA算法在120和80時才達到最優(yōu),由此說明本算法性能更為優(yōu)越。 為進一步驗證CGA算法對參數(shù)估計的準確性,將3種算法估計的絕對誤差和相對誤差進行對比,得到估計過程如圖5所示。 圖5 3種算法參數(shù)估計誤差曲線 由圖5可知,3種算法中,本文算法的誤差最小,GA算法的誤差最大,EM算法的誤差位居第二。由此說明,本文算法對多源異構(gòu)數(shù)據(jù)的估計準確率更高,明顯優(yōu)于另外2種算法。 以上述多源異構(gòu)缺失數(shù)據(jù)為實驗參數(shù),將本文算法與EM算法和GA算法進行估計正確性對比,得到對比結(jié)果如圖6所示。 圖6 3種算法所得估計值誤差曲線 從圖6可以看出,本文算法的誤差值均低于另外2種算法,特別在缺失數(shù)據(jù)5、6和8處的誤差最大,說明采用本算法能夠完成對估計值誤差進行精準估計。 為了驗證本算法在缺失率為10%、20%和30%下的性能,將其與EM算法和GA算法的均方根誤差進行對比,結(jié)果如表1所示。 表1 3種缺失率下3種算法的填充數(shù)據(jù)精度對比 從表1可以看出,在不同的缺失率下,本文算法的估計缺失值誤差依舊為最小,均優(yōu)于另外2種算法,說明本算法對多源異構(gòu)數(shù)據(jù)處理具有一定的有效性和穩(wěn)定性。 3.2.1 實驗數(shù)據(jù)和參數(shù)設(shè)置 同樣選擇電力調(diào)控系統(tǒng)中的700條數(shù)據(jù)進行驗證,其中正常數(shù)據(jù)500條、異常數(shù)據(jù)200條,異常數(shù)據(jù)中的噪聲數(shù)據(jù)30條。數(shù)據(jù)集中的kmin=10,kmax=30。 3.3.2 實驗結(jié)果與分析 為驗證改進的FCM算法的優(yōu)越性,將該算法與經(jīng)典FCM算法、K-均值算法和自組織映射算法(SOM)進行檢出率和運行時間對比,結(jié)果如表2、圖7所示。 表2 BCW數(shù)據(jù)集上的運行時間 圖7 BCW數(shù)據(jù)集檢出率對比 綜合表2和圖7得出,在聚類中心為30時,改進FCM算法的檢出均高于另外3種算法,最高為94.51%,且運行時間均低于其他算法,說明改進的FCM算法具有較好的去噪效果,算法性能更佳。 綜上,本文提出的數(shù)據(jù)融合方法具備可行性和有效性,可實現(xiàn)對多源異構(gòu)數(shù)據(jù)的有效處理,數(shù)據(jù)可靠性和穩(wěn)定性顯著提升,且采用的改進FCM去噪算法和CGA和CMCM填補方法均能取得較好的數(shù)據(jù)處理效果。實驗結(jié)果表明:本文提出的缺失值數(shù)據(jù)填補方法對多源異構(gòu)數(shù)據(jù)的填補效果較好,參數(shù)估計誤差較小;改進的FCM算法在BCW數(shù)據(jù)集中的檢出率最高為94.51%,算法性能優(yōu)越。綜上,以上方法可實現(xiàn)多源異構(gòu)數(shù)據(jù)的有效處理。3 實驗驗證與分析
3.1 數(shù)據(jù)填補實驗
3.2 數(shù)據(jù)去噪驗證
4 總結(jié)