向星宇,劉敬之,曲全磊,夏得青,羅 政,黎朝暉
(1.湖南工業(yè)大學(xué)電氣與信息工程學(xué)院,湖南株洲 412007;2.國網(wǎng)青海省電力公司電力科學(xué)研究院,青海西寧 810001;3.湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412007)
隨著我國國民經(jīng)濟(jì)和現(xiàn)代工業(yè)的高速發(fā)展,區(qū)域電網(wǎng)中的設(shè)備和負(fù)荷也日益趨向復(fù)雜化和多樣化,使得區(qū)域電網(wǎng)電能質(zhì)量問題出現(xiàn)了新的特征,也給其治理帶來了新的挑戰(zhàn)[1]。電能質(zhì)量指標(biāo)預(yù)測作為盡早發(fā)現(xiàn)潛在電能質(zhì)量問題的前提條件,對潛在電能質(zhì)量問題的高效治理以及電網(wǎng)的穩(wěn)定運(yùn)行有著重要的意義。
目前,對于電能質(zhì)量指標(biāo)預(yù)測的研究主要有回歸模型、時間序列、灰色模型以及神經(jīng)網(wǎng)絡(luò)等方法[2]?;貧w模型注重于數(shù)據(jù)的擬合,對于非線性關(guān)系的準(zhǔn)確性差[3]。時間序列對受未來因素影響大的指標(biāo)進(jìn)行預(yù)測時,準(zhǔn)確性不佳[4-6]。灰色模型只適用于中短期、指數(shù)增長的預(yù)測[7-8]。神經(jīng)網(wǎng)絡(luò)能夠很好地解決多特征、非線性的復(fù)雜關(guān)系擬合,但由于初始的權(quán)值與閾值是隨機(jī)的,算法容易陷入局部最優(yōu),且對于多特征輸入時運(yùn)行速度慢,準(zhǔn)確性不高[9-10]。
因此,針對影響電能穩(wěn)態(tài)指標(biāo)特征復(fù)雜以及BP神經(jīng)網(wǎng)絡(luò)收斂速度慢、易形成局部極小等不足,提出了RF-PSO-BP 電能質(zhì)量穩(wěn)態(tài)指標(biāo)預(yù)測方法。
隨機(jī)森林(RF)是一種功能強(qiáng)大、用途廣泛的監(jiān)督機(jī)器學(xué)習(xí)算法,其由多個決策樹組成,每個決策樹的數(shù)據(jù)集都對應(yīng)著不同的特征和樣本。決策樹算法根據(jù)給定的數(shù)據(jù)集歸納出分類規(guī)則[11],并采用自頂向下的遞歸劃分方式,以樹的形式展現(xiàn)出來。其中,信息熵作為決策樹方法中分支產(chǎn)生的衡量標(biāo)準(zhǔn),其大小由信息決定,信息的定義如式(1)所示:
其中,xi表示第i個分類,p(xi)表示第i個分類的概率函數(shù),l(xi)表示為信息。因此信息熵H(X)就可以表示為式(2):
通過信息熵可以精確地度量信息量的大小,算法會根據(jù)所有樣本信息熵的變化來選擇最佳分類,最后隨機(jī)森林將單個決策樹的輸出整合起來,生成最后的輸出結(jié)果。
RF 模型由于隨機(jī)進(jìn)行樣本和特征選取,因此不容易出現(xiàn)過擬合的問題,在處理高維數(shù)據(jù)、特征遺失數(shù)據(jù)與不平衡數(shù)據(jù)時依然有很好的魯棒性。
BP 神經(jīng)網(wǎng)絡(luò)是一種通過反向傳播誤差來訓(xùn)練的多層前饋網(wǎng)絡(luò)算法[12]。網(wǎng)絡(luò)結(jié)構(gòu)由三部分組成,其中輸入層與輸出層分別對應(yīng)信息的輸入與輸出,隱含層作為中間層用于信息的分析處理。BP 神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)如圖1 所示。
根據(jù)Strauss和Corbin的觀點(diǎn),扎根理論利用三個階段的編碼方式用以裂解原始資料、概念化,并重新產(chǎn)生新的形式,此三個階段編碼包括開放編碼、主軸編碼與選擇編碼。[21]三個階段編碼通常也被稱為三級編碼。為了更有效率地進(jìn)行編碼分析,本研究借助了質(zhì)性分析軟件NVivo11.0。
圖1 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
由于獨(dú)特的結(jié)構(gòu),BP 神經(jīng)網(wǎng)絡(luò)具有任意復(fù)雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力[13],但隨著應(yīng)用研究的深入,其局限性也暴露出來。如神經(jīng)網(wǎng)絡(luò)的初始權(quán)值與閾值是隨機(jī)的,導(dǎo)致算法容易陷入局部極??;當(dāng)網(wǎng)絡(luò)參數(shù)過多時,每次更新都需要操作過多權(quán)值,導(dǎo)致收斂速度變慢。因此,對于神經(jīng)網(wǎng)絡(luò)初始參數(shù)的優(yōu)化以及算法收斂速度的提升是BP神經(jīng)網(wǎng)絡(luò)的重要研究內(nèi)容。
粒子群優(yōu)化(PSO)算法的基本概念源于對鳥群捕食行為的研究,它利用了種群的群體智慧進(jìn)行協(xié)同搜索,從而在解空間內(nèi)找到最優(yōu)解[14]。其算法簡單易于實(shí)現(xiàn)、精度高,且對比遺傳算法收斂速度更快。粒子群算法流程圖如圖2 所示。
圖2 粒子群算法流程圖
速度與位置更新公式如下:
式中,xi和vi分別表示粒子的位置和速度;rand()為均勻分布的偽隨機(jī)數(shù);pbesti和gbesti分別代表粒子的個體和全局最優(yōu)位置[15];c1、c2分別為粒子個體、全局的學(xué)習(xí)因子,w為慣性因子。
由于PSO 擁有較強(qiáng)的全局探測和局部開采能力,因此將BP 神經(jīng)網(wǎng)絡(luò)誤差作為目標(biāo)函數(shù),通過粒子不斷迭代更新尋找最優(yōu)位置,進(jìn)而最大程度優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的權(quán)值與閾值,從而提高神經(jīng)網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性。
智能電表采集到的電能質(zhì)量數(shù)據(jù)特征以及環(huán)境因素特征的量綱以及數(shù)量級存在著差別,如有功功率單位為kW,電壓諧波畸變率為百分?jǐn)?shù)等。不同特征的量綱不同,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的擬合偏向于量綱較大的特征,從而導(dǎo)致預(yù)測效果不理想,因此需要對特征數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化公式如式(5)所示。在BP 神經(jīng)網(wǎng)絡(luò)輸出后,必須將輸出數(shù)據(jù)進(jìn)行反標(biāo)準(zhǔn)化,才能得到其原本量綱上的預(yù)測值。反標(biāo)準(zhǔn)化公式如式(6)所示:
式中,X為標(biāo)準(zhǔn)化后的數(shù)據(jù),Xi為某特征對應(yīng)的原始數(shù)據(jù),為數(shù)據(jù)樣本均值,σ(X)為標(biāo)準(zhǔn)差。
對于復(fù)雜多樣的特征數(shù)據(jù),完全利用數(shù)據(jù)中的信息會導(dǎo)致預(yù)測準(zhǔn)確性差,盲目減少特征同樣也會損失很多有用的信息,從而導(dǎo)致預(yù)測結(jié)果不理想。因此,在充分考慮預(yù)測指標(biāo)的影響因素下進(jìn)行重要特征提取,是提高算法預(yù)測準(zhǔn)確性的關(guān)鍵。為了保留有效的特征數(shù)據(jù),隨機(jī)森林算法將收集到的動態(tài)電能歷史數(shù)據(jù)與環(huán)境因素特征作為神經(jīng)網(wǎng)絡(luò)輸入,將某一預(yù)測指標(biāo)作為輸出,通過比較各輸入特征預(yù)測其指標(biāo)的重要性,過濾掉低或負(fù)重要性的特征。
均方根誤差(RMSE)和平均絕對百分誤差(MAPE)是對于連續(xù)變量的兩個最普遍的度量標(biāo)準(zhǔn),將其作為驗(yàn)證預(yù)測準(zhǔn)確性的方法,如式(7)、(8)所示。兩者值越小,則預(yù)測精度越高。
整體預(yù)測流程可分為四個步驟:
步驟1:對智能電表采集到的動態(tài)電能歷史數(shù)據(jù)以及監(jiān)測點(diǎn)的溫濕度等數(shù)據(jù)進(jìn)行預(yù)處理,將處理后多維特征作為隨機(jī)森林輸入,將某一預(yù)測指標(biāo)作為輸出,通過重要性分析后確定初始輸入變量集合。
步驟2:將步驟1 提取出的特征數(shù)據(jù)作為BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集輸入樣本,通過輸入輸出特征個數(shù)與經(jīng)驗(yàn)公式來確定合適的隱含層節(jié)點(diǎn)數(shù)。經(jīng)驗(yàn)公式如式(9)所示:
式中,h為隱含層節(jié)點(diǎn)的數(shù)目,m和n分別是輸入層和輸出層節(jié)點(diǎn)的數(shù)目,a為1~10 之間的調(diào)節(jié)常數(shù)[16]。
步驟3:利用PSO 算法優(yōu)化每一項(xiàng)預(yù)測指標(biāo)相應(yīng)的BP 神經(jīng)網(wǎng)絡(luò)初始參數(shù)。計(jì)算BP 神經(jīng)網(wǎng)絡(luò)的誤差,將其作為粒子更新過程的輸入,通過設(shè)定PSO 的迭代次數(shù)、權(quán)重以及學(xué)習(xí)因子等參數(shù)進(jìn)行優(yōu)化,將最優(yōu)權(quán)值和閾值賦給網(wǎng)絡(luò)。
步驟4:以梯度下降為訓(xùn)練算法,設(shè)定一系列訓(xùn)練參數(shù)后,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練并預(yù)測,最后通過預(yù)測結(jié)果的誤差評價算法的性能,并進(jìn)行檢驗(yàn)評估。
實(shí)例數(shù)據(jù)由湖南省某低電壓臺區(qū)監(jiān)測點(diǎn)每15 min采集一次得到,9 月份共采集共計(jì)2 880 組樣本數(shù)據(jù)。樣本數(shù)據(jù)由動態(tài)電能數(shù)據(jù)與環(huán)境因素?cái)?shù)據(jù)兩部分組成。其中動態(tài)電能數(shù)據(jù)包括各時間段的電壓、電流、有功功率、無功功率、視在功率、總功率因數(shù)、頻率、電壓畸變率、電流畸變率等;另收集了該地區(qū)的溫度、濕度、風(fēng)速及氣壓等同時刻數(shù)據(jù)作為環(huán)境因素?cái)?shù)據(jù)。由于電表采集到的數(shù)據(jù)集含有缺失項(xiàng)和不完整數(shù)據(jù),為了得到更加準(zhǔn)確的預(yù)測結(jié)果,數(shù)據(jù)集在使用前均進(jìn)行缺失值補(bǔ)充、異常值修正等預(yù)處理操作[16]。以電壓偏差和三相電壓不平衡度作為預(yù)測指標(biāo),將標(biāo)準(zhǔn)化后得到的數(shù)據(jù)集按照6:2:2 進(jìn)行數(shù)據(jù)劃分,其中占比為6 的數(shù)據(jù)集為訓(xùn)練集作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本,占比為2 的數(shù)據(jù)集為驗(yàn)證集用于超參數(shù)的調(diào)整與設(shè)定,另外占比為2 的數(shù)據(jù)集作為測試集,用于對預(yù)測方法的準(zhǔn)確性進(jìn)行驗(yàn)證。
剔除無關(guān)特征與冗余特征后,選擇出能夠有效提升算法效果的特征,試驗(yàn)基于Matlab 2020b 將數(shù)據(jù)集樣本的動態(tài)電能質(zhì)量歷史數(shù)據(jù)以及環(huán)境因素共13 個輸入特征與待預(yù)測的某一電能質(zhì)量指標(biāo)進(jìn)行重要性分析。以電壓偏差為例,其特征重要性分析圖如圖3 所示。
圖3 電壓偏差的特征重要性分析圖
圖3 中橫坐標(biāo)分別對應(yīng)上述各特征,縱坐標(biāo)代表各特征所對應(yīng)的重要性,數(shù)值越大,則重要性越高。由圖3 可知,特征13(氣壓)呈負(fù)重要性,特征10(頻率)的重要性為0,均予以剔除。余下特征經(jīng)過多次試驗(yàn)分析,當(dāng)加入重要性排名第6 的特征時,預(yù)測算法性能降低,因此取排名前5 的特征作為神經(jīng)網(wǎng)絡(luò)的特征輸入。
合適的參數(shù)設(shè)定可以在提高算法預(yù)測精度的同時縮短算法運(yùn)行時間,從而提升算法預(yù)測性能。將3.1 提取出的特征作為神經(jīng)網(wǎng)絡(luò)輸入,進(jìn)行PSO 以及神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)定。為了得到更好的預(yù)測效果,經(jīng)多次試驗(yàn)分析,最終確定各超參數(shù)如下:設(shè)定PSO的學(xué)習(xí)因子c1、c2為1.494 45,慣性權(quán)重為0.8,限制速度范圍為(-1,1),迭代次數(shù)為1 000;設(shè)定BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練次數(shù)為1 000,學(xué)習(xí)速率為0.01,目標(biāo)誤差為0.000 001,訓(xùn)練算法為TRAINLM。
為了更加直觀地體現(xiàn)所提方法在目標(biāo)預(yù)測上的優(yōu)越性,將該方法與傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)以及PSO-BP在Matlab 平臺上進(jìn)行仿真試驗(yàn)并得出預(yù)測結(jié)果。在保持?jǐn)?shù)據(jù)條件相同的前提下,選取各預(yù)測指標(biāo)的前100 個測試集樣本的預(yù)測值與實(shí)際值進(jìn)行對比。三種預(yù)測方法對于電壓偏差ΔU、三相電壓不平衡度εu的預(yù)測結(jié)果如圖4-5 所示。
圖4 電壓偏差預(yù)測對比圖
圖5 電壓三相不平衡度預(yù)測對比圖
由圖4-5 可知,傳統(tǒng)BP 預(yù)測在部分樣本試驗(yàn)中存在明顯偏差,在電壓偏差指標(biāo)預(yù)測中于樣本數(shù)50到75 之間呈現(xiàn)了相反預(yù)測趨勢;PSO-BP 方法在少數(shù)樣本試驗(yàn)中也存在明顯偏差;而所提方法的預(yù)測值整體上會更加趨近于實(shí)際值。為了更加客觀地對預(yù)測結(jié)果進(jìn)行評估,試驗(yàn)程序通過式(7)、(8)計(jì)算出各預(yù)測方法的εRMSE、εMAPE進(jìn)行對比,并計(jì)算各算法平均運(yùn)行時間,如表1-2 所示。
表1 預(yù)測指標(biāo)誤差分析表
根據(jù)表1 預(yù)測結(jié)果可知,RF-PSO-BP 預(yù)測的準(zhǔn)確度在兩個指標(biāo)預(yù)測中均高于其他方法。但兩種預(yù)測指標(biāo)的誤差在精度上有所差異,其原因是不同的預(yù)測指標(biāo)所構(gòu)建的輸入特征及神經(jīng)網(wǎng)絡(luò)參數(shù)的設(shè)定不同。相對于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò),所提方法的εRMSE降低了0.081 67,εMAPE降低了3.301%;相對于PSO-BP,所提方法的εRMSE降低了0.038 7,εMAPE降低了1.262%。由表2 可知,由于利用了優(yōu)化算法對神經(jīng)網(wǎng)絡(luò)初始參數(shù)進(jìn)行尋優(yōu),PSO-BP 對比BP 運(yùn)行時間增長。而所提方法利用RF 進(jìn)行了特征選擇與降維,對比PSO-BP 運(yùn)行速度提升了274%。
表2 算法運(yùn)行時間對比表
文中針對于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)的不足,提出一種基于RF-PSO-BP 的電能質(zhì)量穩(wěn)態(tài)指標(biāo)預(yù)測方法,對監(jiān)測點(diǎn)采集到的多維動態(tài)電能歷史數(shù)據(jù)以及環(huán)境因素?cái)?shù)據(jù)利用RF 算法進(jìn)行特征優(yōu)選,使用粒子群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的初始參數(shù),并在實(shí)例分析中以電能質(zhì)量的重要指標(biāo)(電壓偏差和電壓三相不平衡度)作為預(yù)測指標(biāo),對比傳統(tǒng)BP 以及PSO-BP 進(jìn)行預(yù)測分析,得到各個指標(biāo)的預(yù)測結(jié)果。通過對各方法預(yù)測結(jié)果進(jìn)行分析評價,證明了所提預(yù)測方法有一定的優(yōu)越性。該方法未來可與其他深度學(xué)習(xí)算法相結(jié)合,進(jìn)一步提高預(yù)測的準(zhǔn)確性,并運(yùn)用在電能預(yù)警系統(tǒng)中。