甘景福, 晏 坤, 馬明晗, 賀鵬康, 田新成
(1.國(guó)網(wǎng)冀北電力有限公司唐山供電公司, 河北 唐山 063000; 2.華北電力大學(xué)電力工程系, 河北 保定 071000)
變壓器負(fù)荷預(yù)測(cè)是繞組熱點(diǎn)溫度預(yù)測(cè)和日方式制定的關(guān)鍵環(huán)節(jié),傳統(tǒng)負(fù)荷預(yù)測(cè)一般基于相似日或簡(jiǎn)化的負(fù)荷模型,但區(qū)域負(fù)荷和當(dāng)?shù)亟?jīng)濟(jì)、氣候、產(chǎn)業(yè)構(gòu)成以及用電習(xí)慣有很大關(guān)系,不同地區(qū)的用電規(guī)律不同,不存在普遍適用的負(fù)荷預(yù)測(cè)模型,傳統(tǒng)方法針對(duì)性和預(yù)測(cè)精度均不足[1-3]。隨著計(jì)算機(jī)科學(xué)技術(shù)的迅猛發(fā)展,通過(guò)機(jī)器學(xué)習(xí)算法對(duì)歷史負(fù)荷、氣象等數(shù)據(jù)進(jìn)行學(xué)習(xí)和建模,針對(duì)性地建立輸入、輸出量之間的非線性映射關(guān)系,極大提高了各種場(chǎng)合下的負(fù)荷預(yù)測(cè)精度,許多專家學(xué)者在該領(lǐng)域進(jìn)行大量相關(guān)研究[4]。
文獻(xiàn)[5]提出一種基于遺傳算法的灰色神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測(cè)方法,利用灰色模型弱化數(shù)據(jù)的隨機(jī)性,并采用遺傳算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,提高了預(yù)測(cè)的精度,但該方法并未研究歷史數(shù)據(jù)的優(yōu)化問(wèn)題。文獻(xiàn)[6]研究了一種基于前饋人工神經(jīng)網(wǎng)絡(luò)(Back Propagation Artificial Neural Networks, BP-ANN)與多層聚類歷史數(shù)據(jù)處理的短期負(fù)荷預(yù)測(cè)方法,相比傳統(tǒng)方法在預(yù)測(cè)精度上有一定的提升,但數(shù)據(jù)處理僅采用聚類算法篩除了異常負(fù)荷樣本,沒(méi)有對(duì)樣本進(jìn)行分類選擇,也未考慮負(fù)荷本身存在的沖擊及噪聲數(shù)據(jù)。文獻(xiàn)[7]采用小波分析對(duì)歷史數(shù)據(jù)進(jìn)行平滑處理并基于BP-ANN進(jìn)行負(fù)荷預(yù)測(cè),但小波去噪只能去掉歷史數(shù)據(jù)中的沖擊及噪聲干擾,對(duì)于檢修、停電等異常數(shù)據(jù)無(wú)法甄別并剔除。
訓(xùn)練樣本對(duì)神經(jīng)網(wǎng)絡(luò)的影響作用甚至超過(guò)神經(jīng)網(wǎng)絡(luò)自身結(jié)構(gòu),因此提供準(zhǔn)確的樣本對(duì)提高預(yù)測(cè)精度十分重要。對(duì)于大量原始樣本,若全部選用,會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度過(guò)慢;若隨機(jī)抽取,數(shù)量較少但有用的樣本可能會(huì)遺漏,導(dǎo)致得到預(yù)測(cè)模型穩(wěn)定性差。且由于原始樣本中負(fù)荷沖擊、噪聲和異常數(shù)據(jù)的影響,不進(jìn)行有效處理會(huì)導(dǎo)致訓(xùn)練得到的網(wǎng)絡(luò)預(yù)測(cè)誤差偏大[8]。為了解決上述問(wèn)題,本文提出了一種采用小波分析結(jié)合改進(jìn)聚類算法對(duì)樣本進(jìn)行優(yōu)化選擇的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法,并通過(guò)仿真與原方法進(jìn)行了比較。
工業(yè)負(fù)荷較多的地區(qū),負(fù)荷曲線往往含有較多的瞬時(shí)沖擊數(shù)據(jù),可采用小波閾值去噪進(jìn)行平滑處理。原理是基于某一小波基對(duì)負(fù)荷曲線進(jìn)行多尺度分解,并對(duì)不同尺度下分解得到的小波系數(shù)設(shè)定閾值,當(dāng)小波系數(shù)大于閾值時(shí),作為信號(hào)的有用分量得以保留,當(dāng)小波系數(shù)小于閾值時(shí)則認(rèn)為主要由噪聲組成而被濾除[9,10]。與傅里葉頻域?yàn)V波去噪相比,小波閾值去噪能在濾除噪聲的前提下盡可能多地保留波形的形態(tài)和局部細(xì)節(jié),減少數(shù)據(jù)的失真,并且其運(yùn)算速度更快。
各層閾值λN可依據(jù)公式設(shè)定:
(1)
式中,M為首層小波分解系數(shù)絕對(duì)值的中位數(shù);KG為高斯噪聲標(biāo)準(zhǔn)方差的調(diào)整系數(shù);N為信號(hào)尺度。
對(duì)于連續(xù)的Doppler信號(hào),sym8小波去噪效果更好,小波分解尺度的選取對(duì)于去噪性能有較大影響,分解尺度較小時(shí),重構(gòu)后的信號(hào)不易失真但仍保留較多噪聲,分解尺度較大時(shí),去噪效果更明顯,但可能會(huì)濾除較多的有用細(xì)節(jié)導(dǎo)致處理后的數(shù)據(jù)失真[10-12]。基于sym8小波在5尺度下對(duì)負(fù)荷曲線濾波如圖1所示,由圖1可知經(jīng)小波閾值去噪處理后,原始負(fù)荷曲線中的尖峰被濾除,波形更加平滑,但形態(tài)并未發(fā)生變化。
圖1 負(fù)荷曲線小波去噪平滑處理Fig.1 Smoothing of load curves by wavelet denoising
當(dāng)無(wú)停電、檢修及臨時(shí)方式調(diào)整等偶然因素作用時(shí),負(fù)荷變化具有較強(qiáng)的規(guī)律性,因此可利用聚類分析進(jìn)行篩選分類,依據(jù)類別選取樣本用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。相比隨機(jī)選取,聚類分析優(yōu)勢(shì)是防止樣本數(shù)較少的類別被遺漏或選取的數(shù)量過(guò)少,從而提升訓(xùn)練樣本特征的完整性,同時(shí)減少訓(xùn)練樣本的數(shù)量,降低異常樣本干擾,在提升訓(xùn)練速度的同時(shí)提高了預(yù)測(cè)精度。
負(fù)荷曲線的k-means聚類原理是通過(guò)比較各樣本與聚類中心歐式距離,將樣本歸類到距離最小的聚類中心,并更新聚類中心,不斷重復(fù)迭代直到所有聚類中心都收斂為止。將類內(nèi)距離和類間距離指數(shù)度量方法與k-means聚類相結(jié)合,稱為基于有效指數(shù)的k-means聚類算法[13]。該方法可動(dòng)態(tài)調(diào)整參數(shù)k并計(jì)算有效指數(shù),使各分類在類內(nèi)有較高的聚集性,而類間則有較高的分散性,使聚類結(jié)果達(dá)到最優(yōu),當(dāng)聚類數(shù)為k時(shí)有效指數(shù)Kc(k)可表示為:
(2)
式中,Sj、Cj分別為第j個(gè)分類的曲線和對(duì)應(yīng)的聚類中心;Ck1、Ck2為當(dāng)分類數(shù)為k個(gè)時(shí)的兩個(gè)不同聚類中心;Ns為數(shù)據(jù)集中數(shù)據(jù)的個(gè)數(shù)。
曲線的聚類是一種基于形態(tài)差異的分類方法,基于這一特性可對(duì)具有非典型形態(tài)的曲線進(jìn)行識(shí)別。傳統(tǒng)有效指數(shù)k-means聚類方法未考慮異常曲線對(duì)分類數(shù)的占用問(wèn)題,導(dǎo)致有用數(shù)據(jù)未被準(zhǔn)確分類。基于有效指數(shù)聚類的特點(diǎn),本文在已有算法的基礎(chǔ)上引入對(duì)異常曲線的識(shí)別和過(guò)濾流程,將樣本數(shù)量過(guò)少的分類過(guò)濾并重新聚類,確保聚類結(jié)果可靠,其流程圖如圖2所示。
圖2 改進(jìn)的k-means聚類算法流程Fig.2 Process of improved k-means clustering algorithm
BP神經(jīng)網(wǎng)絡(luò)是眾多機(jī)器學(xué)習(xí)算法中比較基礎(chǔ)的一種,由于良好的非線性擬合能力,成為負(fù)荷預(yù)測(cè)常用的手段之一。其原理是將預(yù)測(cè)誤差反向傳遞,通過(guò)求誤差對(duì)各層權(quán)值或閾值的導(dǎo)數(shù),沿導(dǎo)數(shù)的負(fù)梯度方向不斷對(duì)權(quán)值或閾值進(jìn)行調(diào)整,直到預(yù)測(cè)誤差在允許范圍內(nèi)[14]。BP神經(jīng)網(wǎng)絡(luò)通常由輸入層、隱含層以及輸出層三層網(wǎng)絡(luò)構(gòu)成,其隱含層可以有多層,但一般系統(tǒng)采用一層隱含層即可,隱含層節(jié)點(diǎn)數(shù)m可依據(jù)經(jīng)驗(yàn)公式確定:
(3)
式中,n為輸入節(jié)點(diǎn)數(shù);l為輸出節(jié)點(diǎn)數(shù);α為1~10之間的整數(shù)。
根據(jù)負(fù)荷變化規(guī)律可知,預(yù)測(cè)日溫度和天氣對(duì)負(fù)荷影響較大,節(jié)假日、雙休日負(fù)荷曲線與工作日亦有明顯差異,且預(yù)測(cè)日負(fù)荷是在前一日負(fù)荷基礎(chǔ)上隨著預(yù)測(cè)日的天氣、氣溫以及日類型而相應(yīng)變化,因此神經(jīng)網(wǎng)絡(luò)輸入設(shè)置為28×1維向量,包括預(yù)測(cè)日前日整點(diǎn)24×1維負(fù)荷值,另4個(gè)輸入分別為預(yù)測(cè)日最高、最低溫度、預(yù)測(cè)當(dāng)日天氣及類型,輸出為預(yù)測(cè)日整點(diǎn)24×1維負(fù)荷值。實(shí)際預(yù)測(cè)時(shí),模型的輸入通過(guò)在線進(jìn)行實(shí)時(shí)更新,預(yù)測(cè)模型如圖3所示,該模型可根據(jù)前24 h負(fù)荷和預(yù)測(cè)時(shí)段的天氣、氣溫預(yù)報(bào)對(duì)未來(lái)24 h的整點(diǎn)負(fù)荷進(jìn)行在線預(yù)測(cè)。
圖3 神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測(cè)模型Fig.3 Neural network short term load forecasting model
預(yù)測(cè)日類型和預(yù)測(cè)日天氣為非數(shù)值量,作為輸入需要分別進(jìn)行量化處理。預(yù)測(cè)日類型主要包含法定節(jié)假日、雙休日和工作日三類,可分別量化為0、0.5、1;預(yù)測(cè)日天氣量化方法見(jiàn)表1。
表1 天氣情況量化表Tab.1 Weather quantification table
神經(jīng)網(wǎng)絡(luò)輸入層權(quán)值wia和輸出層權(quán)值vab的更新公式為:
(4)
式中,xi為神經(jīng)網(wǎng)絡(luò)輸入層第i個(gè)輸入;ha為隱含層第a個(gè)節(jié)點(diǎn)的輸出;yb和yd_b分別為輸出層第b個(gè)節(jié)點(diǎn)的輸出和期望輸出;f′為隱含層激勵(lì)函數(shù)對(duì)隱含層輸入量的導(dǎo)數(shù);F′為輸出層激勵(lì)函數(shù)對(duì)輸出層輸入量的導(dǎo)數(shù);η為學(xué)習(xí)率,η∈(0,1)。
不同類數(shù)據(jù)的量綱和數(shù)據(jù)尺度不同,為避免影響權(quán)重的差異,需對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使所有數(shù)據(jù)范圍壓縮到[0,1]之間,min-max歸一化公式為:
(5)
式中,xmin和xmax分別為輸入樣本的最小值及最大值。
隱含層激勵(lì)函數(shù)采用sigmoid函數(shù):
(6)
輸出層激勵(lì)函數(shù)為:
F(x)=x
(7)
第s個(gè)預(yù)測(cè)值yp(s)與對(duì)應(yīng)的真實(shí)值yr(s)的絕對(duì)誤差為:
Ep=yp(s)-yr(s)
(8)
多個(gè)預(yù)測(cè)值的平均誤差為:
(9)
式中,Nc為誤差值的數(shù)量。
平均相對(duì)誤差反映多個(gè)預(yù)測(cè)值的整體誤差:
(10)
均方根誤差PRMSE反映多個(gè)預(yù)測(cè)值偏離真實(shí)值的程度,其值越小說(shuō)明預(yù)測(cè)結(jié)果越穩(wěn)定,均方根誤差為:
(11)
引入相關(guān)系數(shù)R對(duì)神經(jīng)網(wǎng)絡(luò)多日負(fù)荷整體預(yù)測(cè)性能進(jìn)行評(píng)價(jià),R越趨近于1則代表模型的性能越好。
(12)
以某地區(qū)一臺(tái)容量為50 MW的變壓器2020年365條日負(fù)荷曲線為原始樣本,進(jìn)行小波閾值去噪處理得到的平滑曲線如圖4所示。
圖4 去噪平滑后的負(fù)荷曲線Fig.4 Load curves after denoising and smoothing
對(duì)上述負(fù)荷樣本進(jìn)行歸一化和聚類,當(dāng)聚類上限kmax設(shè)置過(guò)小時(shí),不同形態(tài)的曲線可能被歸為同一類,過(guò)大時(shí)又會(huì)導(dǎo)致聚類速度太慢。為得到準(zhǔn)確的類別并提高聚類速度,可根據(jù)去噪后的曲線簇形態(tài)估計(jì)一個(gè)大概的分類上限值,根據(jù)圖4估計(jì)kmax=6。聚類結(jié)果見(jiàn)表2和圖5,經(jīng)改進(jìn)k-means聚類后樣本被劃分為4類。圖5(a)~圖5(c)分別為三類負(fù)荷曲線,其中粗線為該分類的聚類中心,圖5(d)為篩除的異常曲線。由聚類結(jié)果可見(jiàn),該主變的日負(fù)荷曲線有三類典型形態(tài),其中第一類樣本數(shù)量較少,第二類、第三類數(shù)量較多,且有11個(gè)異常樣本被篩除。訓(xùn)練所用樣本僅從聚類得到的典型樣本中選取,除負(fù)荷數(shù)據(jù)外還包括對(duì)應(yīng)的日類型和天氣、氣溫等其他輸入?yún)?shù)。訓(xùn)練樣本選取的原則是當(dāng)各類樣本數(shù)量都足夠多時(shí),每類取相同數(shù)量,若某類數(shù)量過(guò)少則可全部選用。
表2 負(fù)荷樣本聚類結(jié)果Tab.2 Clustering results of load samples
圖5 改進(jìn)的k-means負(fù)荷聚類結(jié)果Fig.5 Load clustering by improved k-means algorithm
為進(jìn)行對(duì)比分析,用三種不同方法得到的樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),并采用相同的樣本測(cè)試其預(yù)測(cè)性能。測(cè)試集樣本分別從聚類后的三類負(fù)荷樣本中各選取10個(gè)組成。訓(xùn)練集樣本選取方法為:
方法1:除測(cè)試集樣本外,余下的335個(gè)樣本均納入訓(xùn)練集;方法2:除測(cè)試集樣本外,從余下的335個(gè)樣本中隨機(jī)抽取60個(gè)納入訓(xùn)練集;方法3:除測(cè)試集樣本外,從本文所提方法獲得的三類樣本中各隨機(jī)抽取20個(gè)納入訓(xùn)練集。
將全部負(fù)荷曲線進(jìn)行降維處理,變換為整點(diǎn)負(fù)荷曲線,利用Matlab建立圖3所示結(jié)構(gòu)的網(wǎng)絡(luò),其隱含層神經(jīng)元在8~17個(gè)之間,經(jīng)試驗(yàn)對(duì)比確定最佳隱含層神經(jīng)元個(gè)數(shù)[15],學(xué)習(xí)率為0.01,分別采用上述三種方法得到的樣本對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。以測(cè)試集三類樣本的負(fù)荷預(yù)測(cè)結(jié)果為例,圖6(a)~圖6(c)為其中三天的負(fù)荷預(yù)測(cè)結(jié)果,預(yù)測(cè)誤差統(tǒng)計(jì)見(jiàn)表3。
圖6 預(yù)測(cè)值與實(shí)際值對(duì)比Fig.6 Comparison between prediction value and real value
表3 不同樣本選取方法預(yù)測(cè)誤差對(duì)比Tab.3 Prediction error comparison of different samples selection methods
對(duì)比可以看出,方法1中三類負(fù)荷預(yù)測(cè)精度均不高,但彼此間差距較??;方法2中預(yù)測(cè)精度較低,尤其是占比少的類別預(yù)測(cè)誤差很大,原因是樣本個(gè)數(shù)少的分類在訓(xùn)練樣本中占比較低,訓(xùn)練不充分;方法3的平均誤差和均方根誤差較前兩種更小,且各類預(yù)測(cè)誤差比較接近,說(shuō)明采用本文所提樣本優(yōu)化方法后,各點(diǎn)負(fù)荷預(yù)測(cè)精度和穩(wěn)定性均得以提高。
為了進(jìn)一步對(duì)比分析模型的整體預(yù)測(cè)性能,以天為單位,統(tǒng)計(jì)平均誤差、平均相對(duì)誤差、均方根誤差以及相關(guān)系數(shù),對(duì)測(cè)試集中30個(gè)預(yù)測(cè)日負(fù)荷進(jìn)行預(yù)測(cè),三種方法所建模型各項(xiàng)性能指標(biāo)對(duì)比見(jiàn)表4,可見(jiàn)方法3的平均誤差EM、平均相對(duì)誤差PM、均方根誤差PRMSE以及相關(guān)系數(shù)R均明顯更小,模型訓(xùn)練時(shí)間Ttrain更短,因此綜合分析上述算例結(jié)果可知,訓(xùn)練樣本經(jīng)小波閾值去噪平滑和改進(jìn)的k-means聚類篩選處理后,不同情況下的負(fù)荷預(yù)測(cè)精度、穩(wěn)定性以及速度改善均較為明顯,整體預(yù)測(cè)性能有了較大提升。
表4 不同樣本選取方法整體預(yù)測(cè)性能對(duì)比Tab.4 Comparison of overall prediction performance of different samples selection methods
BP神經(jīng)網(wǎng)絡(luò)常用于電網(wǎng)短期負(fù)荷預(yù)測(cè),其預(yù)測(cè)精度與所選用的訓(xùn)練樣本有直接關(guān)系。由于電網(wǎng)的停電、檢修、方式調(diào)整以及沖擊負(fù)荷的存在使得負(fù)荷樣本中常包含尖峰、噪聲及異常數(shù)據(jù),導(dǎo)致無(wú)法建立準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)模型。同時(shí),訓(xùn)練樣本隨機(jī)選取容易遺漏數(shù)量較少的類別,影響神經(jīng)網(wǎng)絡(luò)模型的泛化性能,致使無(wú)法對(duì)不同情況下的負(fù)荷均作出準(zhǔn)確預(yù)測(cè)。通過(guò)采用小波閾值去噪以及聚類分析對(duì)樣本進(jìn)行處理,濾除尖峰和噪聲數(shù)據(jù)并篩選出各類典型曲線,通過(guò)按類別選取訓(xùn)練樣本,可實(shí)現(xiàn)對(duì)訓(xùn)練樣本的優(yōu)化處理,據(jù)此建立的神經(jīng)網(wǎng)絡(luò)負(fù)荷預(yù)測(cè)模型相比全部選用或隨機(jī)選取訓(xùn)練樣本,其訓(xùn)練速度、預(yù)測(cè)精度和穩(wěn)定性得以明顯提升。