張 敏 錢霜秋 吳仲麒 王資遠(yuǎn)
(1. 國網(wǎng)江蘇省電力公司南通供電公司,江蘇 南通 226000; 2. 天津天電清源科技有限公司,天津 300000)
電力負(fù)荷的中長期預(yù)測可以幫助電力部門做年度規(guī)劃、調(diào)度計劃及檢修計劃,對變電站選擇建址、制定規(guī)劃也有著重要的指導(dǎo)意義[1]。但經(jīng)濟(jì)社會、產(chǎn)業(yè)結(jié)構(gòu)、相關(guān)政策、氣候條件、電價水平等多種因素互相交織影響、關(guān)系復(fù)雜,難以區(qū)分出各類因素對中長期負(fù)荷的影響水平[2]。針對中長期負(fù)荷預(yù)測國內(nèi)外學(xué)者已進(jìn)行了大量研究,主要研究方法是構(gòu)建電力負(fù)荷歷史時序數(shù)據(jù)與各類影響因素的相關(guān)性數(shù)學(xué)模型,然后通過時序外推法實現(xiàn)預(yù)測,但是這類方法預(yù)測精度不高,非線性擬合能力差[3]。
近年來,基于智能技術(shù)的負(fù)荷預(yù)測方法主要應(yīng)用在中長期負(fù)荷預(yù)測中。文獻(xiàn)[4]采用改進(jìn)的進(jìn)化算法——基因表達(dá)式編程算法解決了傳統(tǒng)算法容易陷入局部最優(yōu)的問題,但存在過擬合的問題。文獻(xiàn)[5]采用長短期記憶(long-short term memory, LSTM)神經(jīng)網(wǎng)絡(luò),將歷史負(fù)荷數(shù)據(jù)、氣候、經(jīng)濟(jì)等影響因素數(shù)據(jù)整合到模型中,有效解決了過擬合的問題,但是LSTM神經(jīng)網(wǎng)絡(luò)用于短期負(fù)荷預(yù)測較多,在中長期預(yù)測中精度不高。文獻(xiàn)[6]利用主成分分析法對負(fù)荷的影響因素進(jìn)行特征提取,降低數(shù)據(jù)維度,然后與BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,有效克服了收斂速度慢和容易陷入局部最優(yōu)的缺陷,雖然主成分分析法可以消除變量值間的相互影響,但是降維不可避免地會使變量意義不明確。文獻(xiàn)[7]先使用關(guān)聯(lián)矩陣篩選出強(qiáng)相關(guān)因素,然后使用時間序列法X12-ARIMA(autoregressive integrated moving average model)模型對負(fù)荷和影響因素進(jìn)行分解,但是非線性擬合度較差。最近幾年,科研人員又提出一種新的思路,即先使用聚類分析,將海量的負(fù)荷數(shù)據(jù)聚類,然后再對這些簇類分別進(jìn)行預(yù)測,最后每類負(fù)荷的預(yù)測值之和就是整個負(fù)荷數(shù)據(jù)的預(yù)測值。文獻(xiàn)[8]基于K-均值(K-means)算法對農(nóng)村發(fā)展模式進(jìn)行聚類,針對不同農(nóng)村發(fā)展模式進(jìn)行預(yù)測,最終驗證了方法的可行性,但是K-means是一種硬劃分聚類算法,一些饋線負(fù)荷可能屬于不同的行業(yè),但是卻具有相似的用電特性。文獻(xiàn)[9]采用模糊C均值(fuzzy C-means, FCM)聚類法改善了聚類算法用于負(fù)荷分類時不夠精確的缺陷,但是其在考慮影響因素時預(yù)先建立了影響因素關(guān)聯(lián)度矩陣,并未達(dá)到精細(xì)化探究影響因素相關(guān)關(guān)系的目的。
綜上所述,本文在考慮負(fù)荷預(yù)測時,先采用模糊C均值聚類分析方法使饋線負(fù)荷數(shù)據(jù)按照彼此相近的負(fù)荷特性劃分為同一簇類,隨后使用相關(guān)性分析和灰色關(guān)聯(lián)分析挖掘出不同饋線簇類的差異化影響因素中對各類饋線影響較大的因素;徑向基(radial basis function, RBF)神經(jīng)網(wǎng)絡(luò)具有模型結(jié)構(gòu)簡單、預(yù)測精度高且適用于大數(shù)據(jù)大樣本的優(yōu)點,因此最后選用RBF神經(jīng)網(wǎng)絡(luò)對各簇類饋線負(fù)荷進(jìn)行電力需求預(yù)測。圖1為本研究的技術(shù)路線。
圖1 技術(shù)路線
聚類算法是數(shù)據(jù)挖掘中常用的一種算法,按照一定的計算規(guī)則把一些未知類型的數(shù)據(jù)分為具有相似特性的若干簇類[10]。聚類分析算法可以作為其他數(shù)據(jù)挖掘算法的數(shù)據(jù)預(yù)處理步驟,也可以作為一個獨立的數(shù)據(jù)挖掘算法進(jìn)行信息挖掘,從而進(jìn)行數(shù)據(jù)特性研究。我國現(xiàn)行的傳統(tǒng)負(fù)荷分為:農(nóng)業(yè)負(fù)荷、工業(yè)負(fù)荷、商業(yè)負(fù)荷、城鎮(zhèn)居民及其他負(fù)荷四大 類[11]。在電力負(fù)荷預(yù)測中,可通過聚類分析算法把海量的負(fù)荷數(shù)據(jù)聚類,對用戶負(fù)荷進(jìn)行更為細(xì)致的分類。本文采用FCM算法對饋線日負(fù)荷特性數(shù)據(jù)進(jìn) 行聚類分析[12]。
相較于傳統(tǒng)的“硬劃分法”——“非此即彼”,F(xiàn)CM算法是一種“軟劃分”的方法,即通過模糊聚類得到樣本屬于各個類別的隸屬程度,突破了樣本僅屬于一個分類的界限,表達(dá)了樣本的“中間性”[13]。FCM聚類方法屬于基于目標(biāo)函數(shù)的模糊劃分法[14]。FCM算法引入隸屬度的概念,以一種模糊的形式劃分表示樣本屬于各聚類中心的隸屬程度。對于給定的 數(shù)據(jù)集合,X劃分為c(2≤cn≤ )類,聚類中心向量為,令表示jx屬于第i類的隸屬度,隸屬度矩陣為,且有。
FCM算法的目標(biāo)函數(shù)是基于歐式距離判定樣本隸屬程度,目標(biāo)是使目標(biāo)函數(shù)值達(dá)到最小。其目標(biāo)函數(shù)為
式中:dij為樣本ijx到聚類中心vi之間的歐氏距離;m為模糊加權(quán)指數(shù)(m>1)。算法步驟如下:
1)設(shè)置目標(biāo)函數(shù)精度 0ε>。
2)初始化模糊聚類中心。
3)計算隸屬度。
4)計算聚類中心。
5)若式(4)滿足范數(shù)矩陣式,則停止迭代;若不滿足,則設(shè)置 1kk= +,轉(zhuǎn)向步驟3)。
相關(guān)性分析可以定量地衡量兩組數(shù)據(jù)之間的相關(guān)程度,因此做相關(guān)性分析的數(shù)據(jù)都應(yīng)該是成對出現(xiàn)的[15]。本文采用Pearson相關(guān)系數(shù)作為度量指標(biāo),Pearson相關(guān)系數(shù)計算式為[16]根據(jù)表1確定變量間的相關(guān)強(qiáng)度。
表1 相關(guān)強(qiáng)度明細(xì)
本文對采集到的信息先采用相關(guān)性分析,剔除相關(guān)性較弱的影響因素,對剩下的影響因素進(jìn)行灰色關(guān)聯(lián)分析,分析出電力需求與其他影響因素的關(guān)聯(lián)程度,從而使對電力需求的預(yù)測更加精確?;疑P(guān)聯(lián)分析的主要技術(shù)路線如下[17]:
2)數(shù)據(jù)變換。對原始數(shù)據(jù)進(jìn)行處理變換,保證灰色關(guān)聯(lián)分析在同一量綱下進(jìn)行。本文采用極差最大化變換方法,即
3)計算關(guān)聯(lián)度。采用典型的關(guān)聯(lián)度模型——鄧氏關(guān)聯(lián)度模型,Xi與 0X的關(guān)聯(lián)度為
式中:X0(k)為參考序列數(shù)據(jù)變換后的序列,即饋線數(shù)據(jù);Xi(k)為比較序列,即經(jīng)相關(guān)性分析篩選后的影響因素序列;ξ(X0(k),Xi(k))為關(guān)聯(lián)系數(shù),有
一般灰色關(guān)聯(lián)分析不評價關(guān)聯(lián)強(qiáng)度,而是關(guān)注于比較序列的關(guān)聯(lián)度排序,評價哪種因素與參考序列關(guān)聯(lián)度最高。本文選擇關(guān)聯(lián)度最高的前兩個因子作為影響因素集合。
神經(jīng)網(wǎng)絡(luò)模型是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,可以自行根據(jù)環(huán)境變化總結(jié)規(guī)律完成識別與控制的模型,其基本工作原理如圖2所示。一個神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元構(gòu)成,一般包括三個層級——輸入層、隱藏層、輸出層[18]。輸入層用于接收外界輸入信息,輸入層的神經(jīng)元數(shù)量與輸入變量有關(guān),每個輸入變量都應(yīng)有一個對應(yīng)的輸入節(jié)點,外加一個偏置節(jié)點構(gòu)成輸入層;輸出層則是為了輸出最終的預(yù)測結(jié)果;隱藏層介于輸入層和輸出層之間,實現(xiàn)輸入層到輸出層的線性變換[19]。
圖2 神經(jīng)網(wǎng)絡(luò)基本工作原理
本文所使用的RBF神經(jīng)網(wǎng)絡(luò)從輸入層到隱藏層為非線性變換,將輸入直接映射到隱藏層,而不再需要權(quán)重鏈接,從隱藏層到輸出層為有權(quán)鏈接。
RBF神經(jīng)網(wǎng)絡(luò)的基本思想是用徑向基構(gòu)成隱藏層,本文的隱藏層激活函數(shù)使用高斯函數(shù),即
式中:ci為第i個基函數(shù)的中心值,與輸入向量同維數(shù);σi為基函數(shù)第i個中心點寬度的標(biāo)準(zhǔn)化常數(shù);為x和ci的距離。
本文選取江蘇省南通市2019年7月最大負(fù)荷發(fā)生日4 299條饋線的96點日負(fù)荷曲線數(shù)據(jù),利用FCM聚類算法對這些用戶進(jìn)行聚類,綜合比較下,可分為18類聚類,隨機(jī)選取其中8類饋線簇進(jìn)行舉例,分析用電特征。圖3為經(jīng)歸一化處理的聚類中心饋線負(fù)荷曲線,圖3(a)為用電水平較低的饋線,圖3(b)為用電水平較高的饋線。圖中,縱軸表示用電水平,橫軸表示一天內(nèi)從00:00—23:45時段內(nèi)96個時間點。可以總結(jié)出這8種聚類的用電特征:聚類1的饋線全天處于較高的負(fù)荷水平,具有三個用電高峰期,可能為三班倒工作制,屬于需要全天高負(fù)荷工作的重工業(yè);聚類5的饋線整體負(fù)荷水平不是很高,且表現(xiàn)出白天休息晚上工作的特征,應(yīng)為以公共照明為主的公共服務(wù)業(yè);聚類6的饋線在11:00—12:00迎來第一個用電高峰期,在晚上18:00—22:00迎來用電最高峰,其中20:00達(dá)到最高負(fù)荷,應(yīng)屬于以餐飲業(yè)為主導(dǎo)的服務(wù)業(yè);聚類8的負(fù)荷用電高峰在10:00—21:00,且中間用電水平未出現(xiàn)過明顯低谷,應(yīng)為商業(yè)或金融業(yè)用戶;聚類11的總體用電較為穩(wěn)定,應(yīng)為兩班制的輕工業(yè)負(fù)荷;聚類14整體用電水平不高,且表現(xiàn)出白天休息晚上工作的特征,應(yīng)為夜班制的輕工業(yè)用戶;聚類16的用戶全天都有較高的用電水平,且在20:00—22:00有一個用電高峰,應(yīng)為全天工作的工業(yè)主導(dǎo)的用戶,且會在白天避開其他負(fù)荷用電高峰,在晚上投入更多的負(fù)荷;聚類17整體用電水平較低,具有三個用電高峰,應(yīng)為公共服務(wù)業(yè)[20]。
圖3 經(jīng)歸一化處理的聚類中心饋線負(fù)荷曲線
對得到的負(fù)荷特征曲線進(jìn)行相關(guān)性分析和灰色關(guān)聯(lián)分析,分別考慮外部因素對這八類用戶特征的影響。本文采用南通市2016~2019年電力消費數(shù)據(jù) 和GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、規(guī)模以上工業(yè)增加值增長率、人均GDP、城鎮(zhèn)化率、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民人均住房建筑面積、居民消費價格總指數(shù)等數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行相關(guān)性分析和灰色關(guān)聯(lián)分析,數(shù)據(jù)來源于江蘇省年鑒及南通市政府工作報告。表2為電力需求數(shù)據(jù)與其他外部因素的皮爾遜相關(guān)分析數(shù)據(jù)。在經(jīng)過相關(guān)性分析后,提取出各聚類結(jié)果中相關(guān)性為強(qiáng)的因素,進(jìn)一步做灰色關(guān)聯(lián)分析,得出關(guān)聯(lián)性更強(qiáng)的影響因素,以聚類1和聚類6為例進(jìn)行實例說明。
表2 相關(guān)分析結(jié)果
由上述用電特征分析可知,聚類1應(yīng)為重工業(yè)饋線,其受到經(jīng)濟(jì)類因素影響較強(qiáng),受規(guī)模以上工業(yè)增加值增長率影響也比較強(qiáng),這與相關(guān)分析結(jié)果是一致的,聚類6應(yīng)為餐飲服務(wù)業(yè)為主的饋線聚類,受經(jīng)濟(jì)類和社會發(fā)展因素影響比較大,受第三產(chǎn)業(yè)影響比較大,這兩種聚類對于氣候因素的影響都不敏感,接下來做灰色關(guān)聯(lián)分析。表3和表4分別為聚類1、6的灰色關(guān)聯(lián)分析結(jié)果。
表3 聚類1灰色關(guān)聯(lián)分析結(jié)果(保留四位有效數(shù)字)
表4 聚類6灰色關(guān)聯(lián)分析結(jié)果(保留四位有效數(shù)字)
分析表3和表4結(jié)果,與聚類1關(guān)聯(lián)度最高的為GDP和第二產(chǎn)業(yè)增加值,與聚類6關(guān)聯(lián)度最高的是GDP和城鎮(zhèn)居民人均可支配收入。
使用SPSS Modeler數(shù)據(jù)挖掘軟件做神經(jīng)網(wǎng)絡(luò)預(yù)測,以最大負(fù)荷發(fā)生時刻每類聚類的負(fù)荷作為歷史數(shù)據(jù),然后將關(guān)聯(lián)性較強(qiáng)的作為影響因子與歷史數(shù)據(jù)一起作為輸入,組成神經(jīng)網(wǎng)絡(luò)原始數(shù)據(jù),進(jìn)行負(fù)荷預(yù)測。
以聚類1和聚類6負(fù)荷預(yù)測過程為例,其中聚類1的輸入層為2016~2019年時間序列負(fù)荷值與同時期GDP和第二產(chǎn)業(yè)增加值,輸出層為2020年最大負(fù)荷時刻負(fù)荷值;聚類6的輸入層為2016~2019年時間序列負(fù)荷值與同時期GDP和人均可支配收入,輸出層為2020年最大負(fù)荷時刻負(fù)荷值。
應(yīng)用SPSS Modeler數(shù)據(jù)挖掘軟件,選用RBF神經(jīng)網(wǎng)絡(luò)-增強(qiáng)模型準(zhǔn)確度模塊,構(gòu)建負(fù)荷預(yù)測模型,設(shè)定訓(xùn)練分區(qū)比例為80%,測試分區(qū)比例為20%,預(yù)測結(jié)果見表5。
表5 神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果
各聚類的預(yù)測值之和即為總饋線負(fù)荷預(yù)測結(jié)果。為驗證本方法的有效性,與線性回歸模型、不考慮聚類的RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型(輸入層為2001~2019年年最大負(fù)荷時刻負(fù)荷值,輸出為2020年年最大負(fù)荷時刻負(fù)荷值)對比,結(jié)果見表6。
表6 結(jié)果對比
傳統(tǒng)的線性回歸法面對海量復(fù)雜的數(shù)據(jù)時無法建立準(zhǔn)確模型,不能很好地擬合非線性數(shù)據(jù),而本研究基于數(shù)據(jù)挖掘技術(shù),能對海量電力數(shù)據(jù)進(jìn)行有效挖掘處理,因此預(yù)測精度明顯提高,而電力負(fù)荷之間由于用電行為不同,用電規(guī)律也有所不同,使用聚類算法將饋線分類后再分別進(jìn)行神經(jīng)網(wǎng)絡(luò)預(yù)測有效提高了預(yù)測精度。
本文經(jīng)過研究多篇文獻(xiàn),對模糊算法進(jìn)行了分析對比,最終選用模糊C均值算法對負(fù)荷數(shù)據(jù)進(jìn)行聚類。案例數(shù)據(jù)選自南通市2019年7月最大負(fù)荷發(fā)生日的日負(fù)荷曲線,對各饋線進(jìn)行匯總聚類,得出八個不同用電特征的聚類結(jié)果。對具有不同特征的負(fù)荷分別進(jìn)行相關(guān)性分析,找出對電力消費起到強(qiáng)作用的影響因素。以聚類1負(fù)荷為例,GDP、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、人均GDP、城鎮(zhèn)居民人均可支配收入等因素對聚類1的用戶具有強(qiáng)關(guān)聯(lián)的影響作用,將這些影響因素與電力數(shù)據(jù)一起用神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,最終得出聚類1的預(yù)測結(jié)果。
本文采用聚類、相關(guān)性分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù)使電力數(shù)據(jù)得到有效利用,并且使預(yù)測結(jié)果比傳統(tǒng)方法預(yù)測結(jié)果更加精確。本文提出的基于數(shù)據(jù)挖掘的方法可為負(fù)荷預(yù)測、負(fù)荷控制甚至電價的制定提供指導(dǎo)。