白雨佳,李靖,高升
(1.國網(wǎng)內(nèi)蒙古東部電力有限公司信息通信分公司,呼和浩特 010020;2.中國科學院沈陽計算技術研究所有限公司,沈陽 110000)
由于因特網(wǎng)技術的飛速發(fā)展,網(wǎng)絡中共享的資源越來越多,資源的種類越來越多,各種資源被廣泛引用,如何有效地傳輸多源數(shù)據(jù)成為相關學者亟待解決的重要問題,傳統(tǒng)的多源大數(shù)據(jù)在進行預取時,往往會出現(xiàn)多個節(jié)點輸出相同結果的情況,從而導致資源競爭現(xiàn)象的發(fā)生[1]。為避免出現(xiàn)上述問題,迫切需要研究多源大數(shù)據(jù)均衡調度的新方法??缭促Y源調度方法是一種有效的調度方法[2-3]得到了人們的廣泛關注。
為此,王慧等人[4]提出了基于小波分析的大數(shù)據(jù)調度方法,該方法通過小波分析對電力大數(shù)據(jù)去噪后,以去噪數(shù)據(jù)完成優(yōu)先級列表控制模型構建,并完成負載均衡傳輸信道模型的建立,通過自適應加權控制方法和時隙分配獲取最佳目標函數(shù),完成數(shù)據(jù)調度,但是該方法的時間開銷較大;周生奇等人[5]研究了基于灰色模糊預測的大數(shù)據(jù)調度方法。該方法采用灰色模糊預測方法完成多服務器中的流動數(shù)據(jù)的調度,但是該方法在調度過程中,負荷大數(shù)據(jù)的均衡度不夠理想。
為確保電力負荷大數(shù)據(jù)的準確調用,需進一步明確數(shù)據(jù)的類別和數(shù)據(jù)信息,因此需劃分電力負荷數(shù)據(jù)。K 均值聚類算法為迭代求解聚類分析算法的一種,并且是應用廣泛的劃分聚類算法,其應用過程簡潔且效率較高。因此本文選擇K 均值聚類算法對電力負荷大數(shù)據(jù)實行分類。基于此,本文研究基于最優(yōu)K 均值聚類的電力負荷大數(shù)據(jù)跨源調度方法,以期實現(xiàn)較小開銷下的電力負荷大數(shù)據(jù)調度。
1.1.1 K 均值聚類算法
K 均值聚類算法的核心為:設數(shù)據(jù)對象數(shù)量為n,對其實行劃分處理,共分為k個類,使全部數(shù)據(jù)對象距離該類的聚類中心點平方和為最小。
設算法的輸入數(shù)據(jù)集為F={x1,x2,...,xn},算法的輸出為k個類,即{F1,F2,...,Fk},且保證最小平方誤差準則。算法步驟如下所述:
1)設數(shù)據(jù)樣本為X,初始聚類中心cj為隨機選取的數(shù)據(jù)對象,其中j=1,2,...,k。
2)為獲取X中的各個對象xi至k個聚類中心cj的距離,計算歐式距離公式為
3)獲取cj(n+1)的值,并將其作為新聚類中心點[6]:計算公式為
式中,Nj為第j個類中心數(shù)據(jù)對象的數(shù)量。
4)判斷準則是否滿足,若滿足,則轉至步驟2),反之轉至步驟5)。根據(jù)判斷準則可知,兩次迭代獲取的聚類中心點相同,且聚類離散度不會再發(fā)生變化。由此可建立聚類離散度函數(shù)為
5)輸出聚類結果。
1.1.2 聚類中心優(yōu)化
上節(jié)中的K 均值聚類算法雖然可快速完成聚類,但是其聚類不是最優(yōu)結果。由于其初始聚類中心點是通過隨機選取K 個數(shù)據(jù)對象完成,通過迭代計算尋優(yōu),直至符合收斂條件[7]。因此,初始中心點的差別會導致聚類結果出現(xiàn)差異性,導致聚類效果不穩(wěn)定、結果不是全局最優(yōu)解,甚至還會降低算法的效率。
基于上述分析,K 均值聚類算法初始中心點的優(yōu)化尤為重要,實現(xiàn)依據(jù)聚類對象自動完成k值估計。K 均值聚類算法利用優(yōu)化后的最優(yōu)聚類中心完成電力負荷的分類[8],獲取合理、準確的分類結果。本文采用密度法優(yōu)化K 均值聚類算法初始中心點,其將初始聚類中心用k個位于高密度區(qū)域且相互距離最遠的點表示。優(yōu)化的算法可有效抑制噪聲點對聚類算法的影響。
該算法在優(yōu)化過程中,需計算每一個數(shù)據(jù)對象的密度參數(shù),并以其為標準,將選取k個值較高的對象作為初始聚類中心[9-11]。優(yōu)化后算法的計算步驟如下:
1)待處理樣本數(shù)據(jù)集合為F={x1,x2,...,xn},k個初始聚類中心點為z1,z2,...,zk。
2)通式(1)對任意對象xi到聚類中心之間的歐式距離求解。
求解計算對象之間的平均距離,其計算公式為
式中,n和分別為數(shù)據(jù)對象的數(shù)量和任意兩個對象組合的總數(shù)量。
MeanDist 作為計算對象密度參數(shù)的一個關鍵量,以式(4)為依據(jù),則任意兩個數(shù)據(jù)對象之間距離的平均值通常作為其值的選取,但在特殊條件下,可在一定范圍內(nèi)對其進行調整[12-13]。
3)為獲取各個對象的密度參數(shù)density(p,)MeanDist 采用式(5)完成。
4)尋找密度參數(shù)最大值所對應的數(shù)據(jù)對象,將其作為第1 個初始聚類中心,同時將該聚類中心之間距離小于MeanDist 的數(shù)據(jù)對象的密度參數(shù)從D中刪除[15]。
5)重復步驟3)和步驟4),停止條件為獲取到密度參數(shù)較大的k個數(shù)據(jù)對象為止,并將該對象作為初始聚類中心點[16-17]?;诿芏确椒▋?yōu)化初始中心點的計算流程圖見圖1。
圖1 優(yōu)化聚類初始中心點流程Fig.1 Initial center point flow process of optimization clustering
1.2.1 關聯(lián)特征提取
基于電力負荷大數(shù)據(jù)聚類結果,結合基于權重的跨源調度方法,對聚類后的電力負荷大數(shù)據(jù)實行跨源調度[18],獲取電力大數(shù)據(jù)跨域調度的輸出特征量為
資源調度負載均衡特征向量在支持向量機學習模式下可表示為
式中,Wu,i和Wu,j分別為分類得到的數(shù)據(jù)輸入集和數(shù)據(jù)聚類中心的電力負荷大數(shù)據(jù)評價矩陣[21],則電力負荷大數(shù)據(jù)分布集的優(yōu)化關聯(lián)特征為
1.2.2 大數(shù)據(jù)跨源調度輸出
在支持向量機學習模式下,利用自適應權重學習方法完成電力負荷大數(shù)據(jù)跨源調度的尋優(yōu)控制[22-23]。電力負荷大數(shù)據(jù)跨源調度的主特征決策樹用四元組(Ei,Ej,q,t)表示,其中,電力負荷大數(shù)據(jù)在有向圖中的分岔節(jié)點分別為Ei和Ej,獲取電力負荷大數(shù)據(jù)的差異化融合特征量,其公式為
式中:m為電力負荷大數(shù)據(jù)分布的有限數(shù)據(jù)集;(qik)為相似度分布映射[24]。電力負荷大數(shù)據(jù)的相似度分布映射計算公式為
對電力負荷大數(shù)據(jù)實行優(yōu)化調度和挖掘處理[25-32],則獲取電力負荷大數(shù)據(jù)調度均衡的輸出模型,其公式為
根據(jù)上述步驟,完成電力負荷大數(shù)據(jù)的跨源調度處理模型構建。
為測試本文方法的應用性能,選取某電網(wǎng)企業(yè)中1 000 個不同用戶,將這些用戶按照每天每時的用電負荷按照由低到高排列,具體數(shù)據(jù)見表1,數(shù)據(jù)單位為kW·h。
表1 用戶用電日負荷數(shù)據(jù)Table 1 Daily load data of power consumption of user kW·h
聚類的類別數(shù)k的取值對于負荷大數(shù)據(jù)分類的結果存在較大影響,因此需確定最佳k值,測試不同k值時,聚類結果見圖2。
圖2 測試結果Fig.2 Test result
根據(jù)圖2 的測試結果可知:當k值達到4 以后,聚類離散度平穩(wěn)不再發(fā)生變化,因此,為保證電力負荷大數(shù)據(jù)分類結果準確,k值取值為4,下述實驗中,該值均為4。
采用本文方法對表1 數(shù)據(jù)進行分類,分析本文方法的分類結果,見表2。
根據(jù)表2 的測試結果可知:第1 類用戶和第2 類用戶負荷波動均較小,波動范圍分別在0.14~0.25/kW·h和0.03~0.12/kW·h,其中負載較高的時間范圍在9~12 時和1~3 時;第3 類用戶負荷波動較大,波動范圍在1~10 時,說明該用戶夜間用電較多;第4 類用戶負荷波動也較小,并且相對平穩(wěn)。根據(jù)該結果可說明:本文方法可根據(jù)不同的電力負荷大數(shù)據(jù)特點,有效完成用戶電力負荷大數(shù)據(jù)分類,具備較好的分類效果。
表2 電力大數(shù)據(jù)分類結果Table 2 Classification result of power big data kW·h
將文獻[4]和文獻[5]的基于小波分析的大數(shù)據(jù)自適應延遲調度方法和基于灰色模糊預測的大數(shù)據(jù)調度方法作為本文方法的對比方法,統(tǒng)計3 種方法調度的負載均衡度,結果見圖3。
圖3 3種方法調度的負載均衡度對比結果Fig.3 Comparison of load balancing degree of three methods
根據(jù)圖3 測試結果可知:在相同迭代次數(shù)條件下,本文方法調度的負載均衡度優(yōu)于兩種對比方法;隨著迭代次數(shù)的增加,3 種方法調度的負載均衡度均呈現(xiàn)上升趨勢,但是,本文方法的調度后的負載均衡度結果依舊優(yōu)于兩種對比方法。說明本文方法調度后的負載均衡度較好,具備良好的大數(shù)據(jù)跨源調度均衡性。
采用均衡負載離差進一步衡量3 種方法的跨源調度性能,其計算公式為
式中:LBj和分別為處理器調度前負載和調度后負載;m為數(shù)據(jù)量。
利用式(15)獲取3 種方法在不同調度任務量條件下的負載均衡離差結果,見圖4。
圖4 3種方法的對比結果Fig.4 Comparison result of three methods
根據(jù)圖4 測試結果可知:在調度任務量相同的情況下,本文方法的電力負荷大數(shù)據(jù)跨源調度負載均衡離差均低于兩種對比方法;隨著調度任務量的增加,3 種方法的負載均衡離差均呈現(xiàn)上升趨勢,但是本文方法的上升趨勢相對平緩,并且依舊低于兩種對比方法,當調度任務量達到1 000 個時,負載均衡離差也低于0.15,說明本文方法的跨源調度負載均衡較好,調度性能較好。
調度開銷是衡量調度性能的主要指標,統(tǒng)計3種方法在不同大小數(shù)據(jù)調度情況下所需的調度時間開銷,結果見圖5。
根據(jù)圖5 的測試結果可知:3 種方法在調度數(shù)據(jù)量相同時,調度開銷結果中,本文方法的開銷最低,均低于0.95 s;隨著調度數(shù)據(jù)量的增加,兩種對比方法的調度開銷呈現(xiàn)明顯上升趨勢,本文方法則相對平穩(wěn),調度開銷沒有明顯增加。說明本文方法可有效降低調度延遲和時間開銷,適用性較高。
圖5 3種方法的調度開銷對比結果Fig.5 Comparison result of scheduling cost of three methods
隨著電力系統(tǒng)的發(fā)展,負荷數(shù)據(jù)日益復雜,且用戶類型多樣化,使得當前電力用戶的負荷調度成為一大難題。本文研究基于最優(yōu)K 均值聚類的電力負荷大數(shù)據(jù)跨源調度方法,滿足電力企業(yè)用電需求的同時保障電力負荷均衡度。經(jīng)實驗測試表明:本文方法在k值為4 時,可獲取最佳電力負荷大數(shù)據(jù)分類結果,并且調度均衡度較好,調度時的開銷較低,可有效完成電力負荷大數(shù)據(jù)的均衡調度。