中國礦業(yè)大學(xué) 吳東劍 張龍港 朱大君 高鵬超
隨著科技的進(jìn)步,社會(huì)的發(fā)展,對電力的需求會(huì)越來越大,工廠、家庭等方方面面都需要電力的供應(yīng),對電力的需求是一沉不變的么?顯然不是的,像家庭用電,在每天的波動(dòng)中,晚上是絕對的用電高峰期,而白天和夜里則相對較少。如果按照每月負(fù)荷來考慮,某些地方在夏天會(huì)達(dá)到用電高峰期,但是在另一些地方,冬天所帶來的燈具照明時(shí)間的增加,會(huì)使用電量高于夏天的用電量。工廠用電則與家庭用電完全不同。根據(jù)實(shí)際工廠的生產(chǎn)制度不同,三班倒、二班倒和全天不停工生產(chǎn)的日負(fù)荷波動(dòng)是不相同的。同樣的,月負(fù)荷會(huì)根據(jù)生產(chǎn)不同的產(chǎn)品、不同的經(jīng)營策略都有所不同。既然所需要的電力供應(yīng)在不同的時(shí)間段是不同的,那么我們就需要對電網(wǎng)內(nèi)所提供的電力供應(yīng)進(jìn)行調(diào)整,使其滿足實(shí)時(shí)電力需求?;鹆Πl(fā)電作為現(xiàn)階段我國的主要供電手段,其發(fā)電量無法快速根據(jù)需求進(jìn)行調(diào)整。因此,調(diào)節(jié)的重任就落在了可再生能源的頭上,可再生能源又叫做清潔能源,主要生產(chǎn)是靠著風(fēng)機(jī)(風(fēng)能)、和輪機(jī)(水電站)來實(shí)現(xiàn)的。
2015 年上半年能源局統(tǒng)計(jì)數(shù)據(jù):2015 年上半年風(fēng)力發(fā)電后無用電量為 175 億千瓦時(shí),電能無用率為15.2%,其中甘肅(無用電量為 31億千瓦時(shí)、電能無用率達(dá)到 31%)、新疆(無用電量達(dá)到了29.7 億千瓦時(shí)、電能無用率為 28.82%)、蒙西(無用電量 33 億千瓦時(shí)、電能無用率 20%)、吉林(無用電量 22.9億千瓦時(shí)、電能無用率 43%)等地區(qū)。因此需要一種切實(shí)有效的方法來防止可再生能源發(fā)電的浪費(fèi),實(shí)現(xiàn)與電力需求的匹配。
在國外也是相同的情況,早在19世紀(jì)末,丹麥人就首先研制了風(fēng)力發(fā)電機(jī)。而在1891年,丹麥就建成了世界第一座風(fēng)力發(fā)電站?,F(xiàn)在丹麥已擁有風(fēng)力發(fā)電機(jī)3000多座,年發(fā)電100億度。但是風(fēng)力發(fā)電量與負(fù)荷量不匹配問題依然大量存在。
發(fā)電量大帶來的不僅僅是能源充足,更多的是機(jī)械損耗和浪費(fèi)能源地區(qū)不匹配帶來的能源浪費(fèi)。中國棄風(fēng)率最大的吉林省,半年棄風(fēng)達(dá)22.9億千瓦時(shí),這些能源如果輸送到電力缺乏的地區(qū)將帶來巨大的收益。同時(shí),生產(chǎn)這些電力所造成的風(fēng)機(jī)老化、磨損導(dǎo)致的經(jīng)濟(jì)損失,我們不能忽略不計(jì)。因此,必須使用一種方法來預(yù)測接下來的地區(qū)負(fù)荷情況,若負(fù)荷降低。在基礎(chǔ)發(fā)電(火力發(fā)電)基本不變的情況下,使可再生能源(風(fēng)能,海洋能)發(fā)電設(shè)備停運(yùn),這可以降低設(shè)備運(yùn)轉(zhuǎn)所產(chǎn)生的磨損,減少維護(hù)費(fèi)用,同時(shí)減少能源浪費(fèi)。當(dāng)負(fù)荷過大,或者與本地區(qū)的電網(wǎng)相連的其他區(qū)域發(fā)生電力供應(yīng)不足的情況下,我們可以使更多的可再生能源發(fā)電設(shè)備運(yùn)行,甚至滿負(fù)荷運(yùn)行,在電力系統(tǒng)能承受的負(fù)荷下,最大程度的滿足地區(qū)電力需要和實(shí)現(xiàn)電力的區(qū)域性匹配。
我們所采用的方法就是負(fù)荷預(yù)測。負(fù)荷預(yù)測是根據(jù)系統(tǒng)的運(yùn)行方式、決策方式、本身?xiàng)l件與對社會(huì)的影響等諸多因數(shù),在滿足一定精度要求的條件下,確定未來某特定時(shí)刻的負(fù)荷數(shù)據(jù),其中負(fù)荷是指電力需求量或用電量。由于電力負(fù)荷是一個(gè)非周期,規(guī)律不明顯的變化數(shù)值,因此,傳統(tǒng)的預(yù)測方法對負(fù)荷預(yù)測效果不佳。目前短期負(fù)荷預(yù)測理論已趨于成熟,可分為經(jīng)典預(yù)測方法、傳統(tǒng)預(yù)測方法與智能預(yù)測方法三類。傳統(tǒng)預(yù)測方法對于波動(dòng)性大,規(guī)律不明顯干擾大的地區(qū)不適用。但其結(jié)構(gòu)原理簡單,易于實(shí)現(xiàn)。在智能預(yù)測方法里,人工神經(jīng)網(wǎng)絡(luò)算得上是一大熱門,它具有很強(qiáng)的自主學(xué)習(xí)能力,能模仿人的思考方式,對于非結(jié)構(gòu)、非精確性具有極強(qiáng)的適應(yīng)能力,能夠擬合非線性曲線,得出接近于實(shí)際情況的模型結(jié)構(gòu)。但是基礎(chǔ)的數(shù)學(xué)模型依賴于主觀經(jīng)驗(yàn),泛化誤差大,由于它需要不斷的學(xué)習(xí),它的收斂速度很慢,要達(dá)到實(shí)際可用的狀態(tài)需要進(jìn)行大量的計(jì)算和學(xué)習(xí)。
本文將基于隨機(jī)森林回歸算法對某個(gè)區(qū)域的負(fù)荷進(jìn)行預(yù)測,從而對可再生能源的出力情況給出建議。隨機(jī)森林回歸算法具有精度高、收斂速度快、調(diào)節(jié)參數(shù)少和不會(huì)產(chǎn)生過度擬合的問題。最后實(shí)驗(yàn)結(jié)果表明,該方法可有效的預(yù)測地區(qū)負(fù)荷波動(dòng)情況,準(zhǔn)確度較高。
為什么要集中對風(fēng)力發(fā)電進(jìn)行預(yù)測。眾所周知,風(fēng)電作為清潔能源中最大的出力部分,在電網(wǎng)供電系統(tǒng)中具有重要作用。風(fēng)力發(fā)電有他獨(dú)特的有利因素:首先是政策支持,我國現(xiàn)如今需要將傳統(tǒng)的火力發(fā)電等污染型發(fā)電方式轉(zhuǎn)換為清潔的發(fā)電方式,風(fēng)力發(fā)電是最成熟、可靠的一種,國家會(huì)對風(fēng)力發(fā)電進(jìn)行大量扶持和幫助,在未來風(fēng)力發(fā)電裝機(jī)容量會(huì)大幅度上升。其次是發(fā)展?jié)摿Υ?,風(fēng)在自然界中廣泛存在,不會(huì)消失和停止,經(jīng)過建造的風(fēng)力發(fā)電設(shè)施可以出力很長時(shí)間,實(shí)際的產(chǎn)生價(jià)值遠(yuǎn)大于本身建造成本。最后就是互聯(lián)網(wǎng)+,隨著科技和社會(huì)的發(fā)展,通過網(wǎng)絡(luò)實(shí)現(xiàn)對設(shè)備的控制變得越來越流行,由于風(fēng)力發(fā)電常常位于偏遠(yuǎn)或者人煙稀少的地區(qū),以往對于發(fā)電機(jī)組的控制是很復(fù)雜的,從最近互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展以來,對風(fēng)力發(fā)電的控制變得很容易和精確。如果電力供應(yīng)不足,可以使更多的風(fēng)機(jī)轉(zhuǎn)動(dòng),當(dāng)供應(yīng)富余時(shí),可以使部分風(fēng)機(jī)停止轉(zhuǎn)動(dòng),減少發(fā)電量同時(shí)減少機(jī)械磨損。要想實(shí)現(xiàn)精準(zhǔn)、可靠、高效的發(fā)電-用電匹配,就要進(jìn)行負(fù)荷的預(yù)測。
隨機(jī)森林算法是Leo Breiman結(jié)合bagging集成學(xué)習(xí)和隨機(jī)屬性子空間理論提出的監(jiān)督學(xué)習(xí)算法。算法通過bootsrap重采樣方法對原始樣本進(jìn)行采樣,每個(gè)樣本大小與原始樣本相同;為每個(gè)bootsrap樣本建立CATR決策樹模型;最后,將多個(gè)CATR決策樹組合為隨機(jī)森林,森林中每個(gè)決策樹的投票結(jié)果是最終的預(yù)測結(jié)果。
1970年末到1980年初,Quinlan提出了ID3決策樹算法,后來改進(jìn)了ID3決策樹算法,提出了C4.5決策樹算法。1984年,Breiman和其他統(tǒng)計(jì)學(xué)家提出了CATR決策樹算法。CATR是一種二元遞歸分割技術(shù),每個(gè)非葉節(jié)點(diǎn)被劃分為兩個(gè)葉節(jié)點(diǎn)。三種算法都使用自頂向下的貪心方法來構(gòu)造決策樹,但不同的是屬性選擇度量。在每個(gè)決策樹的生長過程中,選擇某一屬性作為分裂節(jié)點(diǎn),根據(jù)屬性選擇度量選擇最優(yōu)屬性,這就決定了節(jié)點(diǎn)屬性分裂的條件。其中,ID3決策樹算法采用信息增益作為屬性選擇度量,C4.5決策樹算法選擇增益率作為屬性選擇度量,CATR決策樹算法使用gini index作為屬性選擇度量,CATR決策樹算法使用gini index作為屬性選擇度量。采用最小二乘偏差作為回歸樹的屬性度量。
隨機(jī)森林回歸是由很多回歸決策樹模型組成的組合分類模型,且參數(shù)集是獨(dú)立同分布的隨機(jī)向量,在給定自變量 X 下,每個(gè)決策樹回歸模型都會(huì)有一個(gè)預(yù)測結(jié)果。它的基本思想與流程如圖1所示:
圖1
首先,利用 Bootstrap 抽樣從原始訓(xùn)練集抽取 k 個(gè)樣本,這 k 個(gè)樣本的樣本容量都與原始訓(xùn)練集一樣,如上圖1所示。然后,對這些樣本分別建立 k 個(gè)決策樹模型,得到 k 個(gè)回歸結(jié)果;最后,對這 k 個(gè)結(jié)果取均值,得到最終預(yù)測結(jié)果,具體的結(jié)構(gòu)圖如圖2所示:
圖2
隨機(jī)森林算法的基本數(shù)學(xué)流程如下:
(1)首先利用bootstrap 重抽樣的方法采取訓(xùn)練集并隨機(jī)產(chǎn)生k 個(gè)訓(xùn)練集θ1,θ2,…,θk這每個(gè)訓(xùn)練集可以生成對應(yīng)的決策樹也即是隨機(jī)森林中樹的個(gè)數(shù)。
(2)已知樣本的維數(shù)為M,在節(jié)點(diǎn)分裂的過程中,就從M 維特征中隨機(jī)抽取 m 個(gè)特征作為此節(jié)點(diǎn)的分裂特征集,m 值根據(jù)樣本量的大小設(shè)定,在不進(jìn)行其他改進(jìn)方法下,一般 m 的值在整個(gè)隨機(jī)森林形成過程中維持不變,在 R 語言中的 Random forest 包中就是M 的大小確定。
(3)對每個(gè)決策樹都不進(jìn)行剪枝處理,使其得到最大程度的生長。
(4)當(dāng)有一個(gè)新的數(shù)據(jù)X=x,單棵決策樹T()的預(yù)測可以通過葉節(jié)點(diǎn)的觀測值取平均獲得。假如一個(gè)觀測值Xi屬于葉節(jié)點(diǎn)且不為0,則權(quán)重向量為:
(5)在給定自變量 X=x下,單棵決策樹的預(yù)測值就通過因變量預(yù)測值加權(quán)平均得到。單棵決策樹的預(yù)測值由下式得到:
因此,在給定X=x的條件下,所有因變量觀測值的加權(quán)和就是所得的預(yù)測均值。權(quán)重隨自變量X=x的變化而變化,且當(dāng)給定下 Y的條件分布與X=x下Y的條件分布越相似,其權(quán)重越大。
在電力系統(tǒng)中,進(jìn)行負(fù)荷預(yù)測時(shí),我們主要是根據(jù)已經(jīng)有的一些數(shù)據(jù),去建立相應(yīng)的模型,進(jìn)而對負(fù)荷進(jìn)行預(yù)測,從而進(jìn)一步描述其發(fā)展規(guī)律。作為現(xiàn)代社會(huì)中的一種新型算法,隨機(jī)森林回歸算法在于支持向量機(jī)等算法在各方面進(jìn)行比較時(shí),對于不同的研究者來說,每個(gè)人的觀點(diǎn)都是不一樣的,一般在用這兩種算法進(jìn)行負(fù)荷預(yù)測時(shí),主要是從精度與性能兩方面進(jìn)行比較。從算法的性質(zhì)上來說,這兩種算法都是智能的,所以,在對二者的結(jié)果進(jìn)行分析時(shí),除了對應(yīng)選擇的特征量不同進(jìn)行比較是,還應(yīng)對所選取的樣本量大小進(jìn)行一定的分析,較大或較小時(shí),對預(yù)測的準(zhǔn)確程度進(jìn)行分析。在本篇文章中,所用數(shù)據(jù)為2016年1月到2017年12月的樣本集。
本篇文章中,所用的數(shù)據(jù)全部來源于山東省某地區(qū)所提供的電力負(fù)荷信息,電力負(fù)荷數(shù)據(jù)包括發(fā)電類型,同時(shí)還有每個(gè)月的具體發(fā)電量,以及各種不同的負(fù)荷的用電比例。
(1)平均絕對誤差
回歸預(yù)測所預(yù)測的是負(fù)荷的具體值,當(dāng)我們對一個(gè)模型的效果進(jìn)行評估時(shí),一般來說,我們常常通過與實(shí)際值之間的差值來評判好壞。在預(yù)測類的文章中,常用平均絕對誤差(MAPE)進(jìn)行分析與評估。平均絕對誤差是所有單個(gè)觀測值與算術(shù)平均值的偏差的絕對值的平均。與平均誤差相比,平均絕對誤差由于離差被絕對值化,不會(huì)出現(xiàn)正負(fù)相抵消的情況,因而,平均絕對誤差能更好地反映預(yù)測值誤差的實(shí)際情況。
在對具體的模型進(jìn)行分析時(shí),平均絕對誤差越小,說明我們所使用的算法及模型的準(zhǔn)確率越高,預(yù)測的結(jié)果也就越好。其中:Ri是實(shí)際的負(fù)荷值,Xi是利用模型得到的預(yù)測值,n是預(yù)測的數(shù)量。
(2)單個(gè)變量分析
在本篇文章中,對單個(gè)變量進(jìn)行分析,來判定在單個(gè)變量的情況下,預(yù)測效果的不同,根據(jù)p的值,其實(shí)并不能說明預(yù)測結(jié)果究竟是怎樣的, 只是可以從統(tǒng)計(jì)學(xué)的角度上來說明結(jié)果差距的大小。
P值的大小對于二者之間的預(yù)測差異率有著很大的指導(dǎo)意義,一般來說,P 值越大,說明存在的差異就越小,相反的,P值越小,差異越大。而當(dāng)P小于某一個(gè)確定值時(shí),二者間就可以看成是完全不同的,這個(gè)值一般取0.05。
從前文中,通過對變量以及一些相關(guān)性的分析,我們可以得到,對于電力負(fù)荷來講,很多因素對于負(fù)荷的預(yù)測都有著很大的影響,最典型的就是溫度、濕度以及季節(jié)的不同。本部分將在這些因素的基礎(chǔ)上,進(jìn)行電力負(fù)荷的預(yù)測,另外處于嚴(yán)謹(jǐn)以及全面性的考慮,我們選取的數(shù)據(jù)橫跨四個(gè)季節(jié)兩年,基本上可以滿足預(yù)測的要求。
在進(jìn)行預(yù)測時(shí),我們根據(jù)隨機(jī)森林回歸算法進(jìn)行了模型的建立,并且進(jìn)行了仿真程序的編寫,并在調(diào)試后進(jìn)行檢驗(yàn),在誤差允許的范圍內(nèi),我們發(fā)現(xiàn),該仿真程序基本可以正常預(yù)測電力負(fù)荷,具體程序如下:
在將我們所取得的兩年的真實(shí)數(shù)據(jù)代入到程序中進(jìn)行運(yùn)行以后,我們變可以得到具體的預(yù)測結(jié)果。如圖3所示:
圖3
對預(yù)測所得圖形進(jìn)行分析,我們可以得出,樣本中采集了24個(gè)月的風(fēng)力發(fā)電數(shù)據(jù),并且數(shù)據(jù)分為訓(xùn)練集和測試集,比例為0.7:0.3。建立回歸隨機(jī)森林模型后,通過上圖我們可以發(fā)現(xiàn),樹木數(shù)量對于隨機(jī)訓(xùn)練結(jié)果存在影響,隨著樹木數(shù)量增加,正確率有所上升,但是當(dāng)樹木數(shù)量超過40時(shí),正確率就基本保持不變了。并且通過最終的分析計(jì)算,我們可以得出該模型用于預(yù)測本文中的電力負(fù)荷時(shí),回歸正確率為0.81。
由上述分析可以得知,采用隨機(jī)森林的預(yù)測模型可以對某地區(qū)短期負(fù)荷進(jìn)行比較準(zhǔn)確和有效的預(yù)測,得出的結(jié)果可以幫助當(dāng)?shù)毓╇娬緦︼L(fēng)力發(fā)電機(jī)組的運(yùn)行狀態(tài)進(jìn)行調(diào)整,以便于實(shí)現(xiàn)更精確的電力供需匹配和降低機(jī)械損耗。