金維剛,李 鋒,周良松
(1. 國家電網(wǎng)公司華中分部,湖北 武漢 430077;2. 華中科技大學電氣與電子工程學院,湖北 武漢 430074)
2015年國務院發(fā)布的第9號文件提出了關于進一步深化電力體制的改革,促進我國電力行業(yè)又好又快的發(fā)展的精神。努力解決電力行業(yè)的突出矛盾和深層次問題,并且要盡力推動結構轉型和產(chǎn)業(yè)升級[1]。隨著我國新一輪電力體制改革的實施,挖掘用戶用電數(shù)據(jù)和用電行為,掌握用戶用電規(guī)律,進行精準的負荷預測具有重要意義[2]。
水泥行業(yè)是一類電力高耗能產(chǎn)業(yè),其負荷總量大,波動性強,具有一定的沖擊負荷,對電力系統(tǒng)具有較大影響,威脅著電力系統(tǒng)安全穩(wěn)定和電能質(zhì)量。因此,要科學的對影響水泥行業(yè)電力負荷的因素進行分析,達到提高負荷預測的準確性的目的,并以此為依據(jù)對生產(chǎn)方式進行調(diào)整,保證電力系統(tǒng)的穩(wěn)定運行。
目前,針對高耗能的工業(yè)用戶負荷預測主要集中在中長期負荷預測上,文獻[3]提出了針對高耗能工業(yè)用戶的負荷波動特點用分類建模的思想進行負荷預測模型的構建,但是其分類原則依靠主觀判斷。文獻[4]使用粒子群算法優(yōu)化后的最小二乘支持向量機預測模型對某工業(yè)用戶進行了中長期負荷預測。文獻[5]、文獻[6]均中使用了FCM聚類法,研究工業(yè)用戶的負荷特性,但是FCM聚類算法容易陷入局部鞍點,所以預測精度不高。文獻[7]采用的遺傳膜優(yōu)化BP神經(jīng)網(wǎng)絡預測模型存在較大主觀性,且預測精度不高。
針對以上問題,本文針對以水泥工業(yè)為例的高耗能工業(yè)用戶提出了一種基于密度峰值聚類的GRNN神經(jīng)網(wǎng)絡的超短期負荷預測的方法,區(qū)別于其它預測方法的是,本文中使用聚類效果更佳的密度峰值聚類算法對負荷數(shù)據(jù)進行聚類分析,再對聚類所得類簇分別建立預測模型,預測精度更高,對于指導用戶合理購電更具指導意義。
本文中采用的負荷數(shù)據(jù)來源是某市某水泥公司,通過關口表采集到的數(shù)據(jù)。時間跨度是2018年5月1日到2018年12月31日,共計245天,每15分鐘進行一次數(shù)據(jù)采集,每日共計96個點。刪除含有異常值的26天的數(shù)據(jù),并將數(shù)據(jù)歸一化到區(qū)間[0,1]中。
圖1 原始負荷曲線
對數(shù)據(jù)進行時間序列分析如圖1將原始數(shù)據(jù)分為長期趨勢和短期趨勢進行分析,可以看出水泥行業(yè)的負荷特點是日負荷曲線波動很大,每日曲線的形狀也有一定的差異,有時負荷還會接近0。但就每天的總體趨勢來看,日間負荷會出現(xiàn)低谷,高峰出現(xiàn)在夜間,原因是用戶根據(jù)分時電價制定生產(chǎn)計劃。在保證正常生產(chǎn)狀況的情況下,峰時電價時間段盡可能減少用電,谷時電價時可以滿負荷運作,以達到減小生產(chǎn)成本的目的?;谶@種情況??紤]對用戶的負荷曲線進行聚類研究,然后進行負荷預測。
2014年,亞歷克斯·羅德里格斯(Alex Rodriguez)和亞歷山德羅·萊奧(Alessandro Laio)在Science上發(fā)表文章,提出了一種新的聚類算法,稱為“密度峰值聚類”。該算法通過計算數(shù)據(jù)點之間的距離識別非球狀類簇,與FCM聚類方法相比,該算法可以自動確定聚類中心和聚類數(shù),并快速搜索并找到數(shù)據(jù)點的密度峰值[8]。可以得到更精準的類簇,用以分析用戶用電行為。
密度峰值聚類算法的核心是對聚類中心的定義,聚類中心有兩個重要的特征:
1)聚類中心具有較大的自身密度,即聚類中心的密度大于包圍聚類中心的“鄰居”的局部密度[8]。
2)聚類中心和局部密度比它更大的數(shù)據(jù)點之間的距離相對來說會更大。
假設待聚類的數(shù)據(jù)集為X={xi}N,其對應的指標集為IX={1,2,…,N},用dij表示數(shù)據(jù)點xi與xj之間距離,對于數(shù)據(jù)集X中的任一數(shù)據(jù)點xi,定義兩個重要的參數(shù):局部密度ρi和距離δi。
局部密度ρi通常采用截止核函數(shù)(Cut-off kernel)或者高斯核函數(shù)(Gaussian kernel)進行計算,但Cut-off kernel為離散值,而Gaussian kernel為連續(xù)值??紤]到本文中原始數(shù)據(jù)為連續(xù)值,故采用高斯核函數(shù)來計算局部密度。
(1)
式中,dij表示數(shù)據(jù)點xi與xj之間的距離,dc表示截斷距離,ρi表示數(shù)據(jù)集X中與數(shù)據(jù)點xi的距離小于dc的點的個數(shù)。其中dc需要人為指定,對于大型數(shù)據(jù)集,密度峰值聚類算法對于dc的選取具有魯棒性[12]。
ρq1≥ρq2≥…≥ρqN
(2)
定義距離δi為
(3)
運用式(1)(3)計算可以得到各數(shù)據(jù)點xi∈X的(ρi,δi),然后在二維坐標圖中將所有數(shù)據(jù)點表示出來得到?jīng)Q策圖。選擇聚類中心的原則是該數(shù)據(jù)點的ρ值和δ值均比較大。而剩余的數(shù)據(jù)點會在確定聚類中心之后被分派到距離最近的自身密度更高的數(shù)據(jù)點所在類簇中。
對于在決策圖中難以用肉眼判斷出聚類中心的情況,定義一個綜合考慮ρ值和δ值的指標γi
γi=ρiδi,i=IX
(4)
3.2.1距離dij的選取
距離dij用于評價不同樣本之間的差異度[9],由于已經(jīng)對原始數(shù)據(jù)進行歸一化處理,因此,只需要考慮不同樣本之間在空間距離上的數(shù)值差異,在此引入歐式距離,其表達式為
(5)
式中,xik和xjk為樣本xi和xj的第k維元素。
3.2.2截斷距離dc的選取
首先計算樣本之間的歐氏距離得到N個距離值,然后將距離值升序排列為d1≤d2≤…≤dN。截斷距離dc=dn,其下標n=[0.02N]([ ]為取整函數(shù))。
將第一節(jié)中歸一化后的數(shù)據(jù),共計219天,每天96個點構成的219×96維的負荷特征向量進行平滑處理然后進行聚類,得到如圖2的結果。圖(a)中同時具有較大ρ值和δ值的點共有4個,圖(b)中顯示這4個點與其它點在γ≈0.13處有明顯躍變。所以聚類中心共有4個,聚類數(shù)為4。
圖2 聚類結果
各類簇反映的日負荷波動情況如圖3所示,由于已對數(shù)據(jù)歸一化到區(qū)間[0,1],所以縱軸刻度為[0,1]。
圖3中的四種波動情況基本涵蓋了水泥行業(yè)的在各種生產(chǎn)狀況下的負荷波動情況。類簇1反映了減產(chǎn)甚至停產(chǎn)的負荷情況,類簇2和類簇4反映了正常生產(chǎn)情況下采用避峰的手段降低用電成本的負荷特性,類簇3反映了企業(yè)全天候滿負荷生產(chǎn)時的負荷特性。
圖3 類簇圖
廣義回歸神經(jīng)網(wǎng)絡是一種非線性映射能力更強,容錯性更好,魯棒性更高的改進型徑向基函數(shù)[12]。而且在樣本數(shù)較少的情況下依然能有較高的預測精度。鑒于本文中的負荷數(shù)據(jù)較少,所以選用廣義回歸神經(jīng)網(wǎng)絡進行預測。
本文中所使用的廣義回歸神經(jīng)網(wǎng)絡結構共四層,分別是輸入層、輸出層、模式層和輸出層。輸入層和輸出層均設96個神經(jīng)元。
5.2.1 K折交叉驗證
由于部分類簇的樣本數(shù)量較少,所以本文采用交叉驗證的方法進行神經(jīng)網(wǎng)絡的訓練[13]。根據(jù)每一類簇的具體樣本數(shù)進行K折交叉驗證,將樣本分割成K個子樣本,輪流將一個子樣本作為測試集,剩余的K-1個子樣本作為訓練集,重復K次。再針對每一類簇建立神經(jīng)網(wǎng)絡預測模型,求得最優(yōu)輸入輸出。
5.2.2 最優(yōu)SPREAD值的選擇
SPREAD值是調(diào)節(jié)廣義回歸神經(jīng)網(wǎng)絡的重要參數(shù)[10],其合理的選值是否合理直接影響著預測結果的精度。SPREAD值越大,就越能保證神經(jīng)元能對輸入向量所覆蓋的區(qū)域都能產(chǎn)生對應,但是SPREAD值如果太大,數(shù)值計算就會變得較為困難,同時太大的SPREAD值會使神經(jīng)網(wǎng)絡在數(shù)據(jù)樣本的逼近結果出變得光滑,導致誤差的變大。所以本文為了對數(shù)據(jù)進行更為嚴格的擬合,通過循環(huán)選取SPREAD值的方法,選擇最優(yōu)SPREAD值。
以比較有代表性的類簇2為例,共有48個樣本,進行4折交叉驗證,設置SPREAD值的取值范圍為[0.1,2],步長為0.1,以均方誤差MSE作為輸出結果的評價指標。交叉驗證結果見表1
表1 類簇2交叉驗證結果
由表1得交叉驗證在第4次交叉驗證,SPREAD值取1.5時MSE的值最小。所以對于類簇2采用第5次驗證時所用的訓練集,SPREAD值取1.5,構建的GRNN神經(jīng)網(wǎng)絡模型的預測效果最好。針對其它3個類簇構建GRNN神經(jīng)網(wǎng)絡預測預測模型時也遵照此方法選取最優(yōu)訓練集和最優(yōu)SPREAD值。
本文選用某市某水泥企業(yè)2018年5月1日至12月31日的負荷數(shù)據(jù)為基礎,對未來全天每15分鐘一個點進行負荷預測。分別與密度峰值聚類+BP和FCM+GRNN的預測模型進行對比。
本文中所采用的評價預測精度的指標為平均絕對誤差百分比(MAPE)和均方根誤差(RMSE)。
(6)
(7)
式中,PP(i)表示企業(yè)負荷預測值,PR(i)表示企業(yè)負荷實際值。N=96,表示一天的預測點個數(shù)。
從4個類簇中分別隨機選取2018年12月4日(類簇1)、2018年12月30日(類簇2)、2018年3月19日(類簇3)和2018年6月1日(類簇4),作為實測曲線與預測曲線進行對比,見圖4,預測誤差統(tǒng)計結果見表2??梢钥闯觯疚奶岢龅念A測方法在各個類簇中均表現(xiàn)較好,預測精度較高。但是對于2018年3月19日14時前后的時刻和2018年6月1日8時左右的時刻的預測,精度較低。且均是未能將突然出現(xiàn)的負荷波動預測出來,但是對于類簇1中的劇烈波動卻能有較好的預測結果。原因是類簇1的樣本數(shù)量較多,而類簇3和類簇4的樣本相較偏少。對于類似水泥行業(yè)的大型工業(yè)用戶來說,在生產(chǎn)過程中,由于人為因素,或者市場,政治因素導致的用電負荷出現(xiàn)劇烈波動的情況時有發(fā)生,那么對于在小樣本下如何提升對產(chǎn)生劇烈波動的負荷特征的提取與預測是下一步要研究的重點。
表2 預測效果評價
圖4 負荷預測結果
將2018年12月30日作為預測日,用相同的數(shù)據(jù)集,再分別使用密度峰值聚類+BP神經(jīng)網(wǎng)絡預測方法和FCM+GRNN預測方法進行預測,同樣使用MAPE和RMES作為評價指標。預測效果指標模型對比結果見表3,各模型預測結果對比圖見圖5,為保證圖片清晰度,僅選擇每日24個點進行繪圖。從對比結果中可以看出,使用本文提出的方法可以更好地提高預測精度。
表3 預測模型對比結果
圖5 2017年12月30日各模型預測曲線
本文針對水泥行業(yè)提出了一種超短期負荷預測的方法,采用密度峰值聚類方法對負荷數(shù)據(jù)進行聚類,再針對不同類簇分別建立GRNN負荷預測模型,使用Matlab軟件得到仿真結果,預測精度可以達到9.27%,現(xiàn)有以下結論。
1)密度峰值聚類相較于傳統(tǒng)聚類方法可以更準確的對原始負荷數(shù)據(jù)進行聚類,且不需要人為指定聚類中心和聚類數(shù),在對大用戶進行負荷預測之前對原始數(shù)據(jù)進行聚類方面具有較好的適用性。
2)構建GRNN神經(jīng)網(wǎng)絡負荷預測模型時,根據(jù)不同類簇樣本數(shù)的不同,選擇K折交叉驗證訓練模型,循環(huán)選取SPREAD值,然后去的最優(yōu)值構建GRNN神經(jīng)網(wǎng)絡。預測精度較高,能夠更好地指導用戶合理購電。