蔡玲,畢克剛,梁卜元,王晗
(昆明市節(jié)能監(jiān)察支隊,云南,昆明 650031)
可再生能源的利用效率評價是當前全球經(jīng)濟發(fā)展過程中面臨的重大挑戰(zhàn),可再生能源的發(fā)展不僅要滿足當前社會的發(fā)展需求,同時還要及時解決其帶來的一系列環(huán)境污染問題[1],全面加強能源的可利用效率和經(jīng)濟效益,最終達到提升經(jīng)濟總體競爭力的目的。所以,合理利用可再生能源同時對其進行高精確的利用效率評估是確保各個國家可持續(xù)發(fā)展的重要途徑[2]。
現(xiàn)階段,國內(nèi)外相關(guān)專家針對該方面的內(nèi)容展開了大量的研究,例如聞旻等[3]分別從經(jīng)濟性以及可靠性等角度出發(fā),綜合分析電網(wǎng)的特性,組建了一個能源利用率評價體系。通過模糊綜合評價法對各個評價指標進行模糊變換,根據(jù)反熵權(quán)法確定不同的指標權(quán)重,進而通過評價矩陣進行綜合評價。
以上方法雖然現(xiàn)階段取得了較為滿意的研究成果,但是由于未能采用隨機森林算法對可再生資源進行分類,導致可再生資源利用評估結(jié)果準確性偏低。為此,提出了一種基于隨機森林的可再生能源利用效率評價方法。
隨機森林是一種集成算法,主要通過Bagging抽樣和特征子集劃分2個步驟實現(xiàn)[4]。設定隨機森林中的集成分類器通過一組相對基礎的決策樹分類器構(gòu)成{h(X,θk)},則各個隨機向量系列θk均是隨機分布,k代表基礎決策樹的總數(shù)。當給出自變量X情況下,各個基分類器根據(jù)投票的方式獲取最終的分類結(jié)果,經(jīng)過k輪的迭代訓練后,獲取如下的分類模型序列:
{h(X)}={h1(X),h2(X),…,hk(X)}
(1)
通過分類模型序列構(gòu)建分類模型系統(tǒng),而系統(tǒng)獲取的分類結(jié)果是以投票結(jié)果為準,其中票數(shù)最多的即為最終的分類結(jié)果,其中隨機森林分類決策結(jié)果為
(2)
式中,H(x)代表隨機森林的最終分類結(jié)果,hi(x)代表各個基礎決策樹的預測結(jié)果,Y代表實際分類目標,I(·)代表線性函數(shù)。
在隨機森林算法中主要通過以下的概念進行定義。
(1) 泛化誤差值越小證明模型的預測能力越好,也就是分類器的性能越好;反之越差,具體的表達式為
PE*=PX,Y(mg(X,Y)<0)
(3)
式中,mg(X,Y)代表分類器集合將樣本分對的平均票數(shù)和其分錯為其他類平均票數(shù)之差。
(2) 假設單一分類樹的分類強度越大,則最終獲取的整體隨機森林模型的分類性能就越好,以下給出具體的表達式:
s=EX,Y(mg(X,Y))
(4)
隨機森林模型是一種集成算法,主要將決策樹作為基分類器,通過多個基分類器合成一個強大的分類器,其中隨機森林模型的集成投票過程如圖1所示。
圖1 隨機森林的集成投票
進行可利用資源特征篩選前期需要進行相關(guān)特征的相關(guān)性度量,通過特征的相關(guān)性度量篩選不相關(guān)的特征[5]。關(guān)鍵是獲取一個衡量特征相關(guān)性的度量指標,對比信息熵主要是刻畫特征和特征之間相關(guān)性程度的常用度量,即:
(5)
式中,IG(x,y)代表信息增益,具體的表達式為
IG(x,y)=H(x)-H(x|y)
(6)
式中,H(y)代表信息熵,H(x|y)代表條件熵,對應的計算式為:
(7)
基于特征重要性的特征選取主要是通過特征對分類的重要性程度選取合適的特征子集[6],確定各個特征的重要性,具體的操作流程如下。
通過特征重要性度量將特征重要性按照從高到低的順序進行排列,然后對特征從后向前開始搜索,在每次迭代的過程中在特征集中剔除一個重要性較低的特征,逐次進行迭代,并且計算每次迭代的分類精度,選取分類精度最高迭代次數(shù)對應的特征作為最終的特征選取結(jié)果[7]。針對可再生能源,優(yōu)先采取欠采樣方法對其再次進行特征選擇,通常情況下根據(jù)對負類樣本多輪抽樣處理,然后和正類樣本組建多個全新的樣本子集,進而獲取多個特征子集,通過這些子集篩選出全新的特征子集,具體的操作流程如圖2所示。
圖2 可再生資源特征選擇流程圖
優(yōu)先通過有放回的Bagging抽樣方式在負類樣本中抽取負類樣本子集和正類樣本組建多個全新的樣本子集,針對新形成的多個樣本子集分別通過相關(guān)度特征集合以及重要性特征選擇獲取多個特征子集,將選取的特征子集組合形成一個分類效果較好的特征子集[8]。在數(shù)據(jù)集中隨機選取一個樣本為T的測試樣本,根據(jù)決策樹的預測結(jié)果能夠獲取一個T×(M+2)的矩陣,設定第M+2列代表測試樣本的真實分類結(jié)果,則通過第i棵決策樹的可信度計算式為
AccEnsemble
(8)
在上述分析的基礎上,結(jié)合隨機森林分類模型進行加權(quán)重組,進而實現(xiàn)可再生能源分類:
(9)
式中,RC表示輸入屬性的隨機線性組合,TC表示隨機輸入選擇形成的隨機森林。
針對可再生能源利用系統(tǒng)而言,設定輸入系統(tǒng)部分主要通過能量進行計算,輸出系統(tǒng)部分不僅可以通過熱力學進行定義,也可以根據(jù)經(jīng)濟意義[9-10]。其中,可再生能源利用系統(tǒng)的效率主要通過式(10)進行計算:
(10)
式中,φ代表可再生能源利用系統(tǒng)的效率,Ex代表輸入系統(tǒng)的可用能量,P代表系統(tǒng)的輸出[11-12]。設定qi代表第i個系統(tǒng)所消耗的能源量占整個系統(tǒng)的比重,同時將式(10)轉(zhuǎn)換為以下的形式:
(11)
由式(11)設定φ0代表系統(tǒng)基期的可再生能源利用效率,φn代表系統(tǒng)第n期可再生資源的利用效率,則有:
(12)
結(jié)合因素分解思想可知,可再生能源利用效率變化Δφ主要是由2個部分組成,分別為效率影響份額φφeff和結(jié)構(gòu)影響份額φqeff,則對應的計算式為
(13)
效率因素以及結(jié)構(gòu)因素變化對可再生能源利用效率變化的相對影響率能夠表示為
(14)
由于研究對象是一般化的可再生能源利用系統(tǒng),所以能夠適用于任何系統(tǒng)。因此,以下結(jié)合火用分析方法組建可再生能源利用效率評價模型:
(15)
通過式(15)組建的評價模型能夠有效實現(xiàn)可再生能源利用效率評價。
為了驗證所提基于隨機森林的可再生能源利用效率評價方法的綜合有效性,在Windows 7,Intel Core i7處理器,主頻3環(huán)境下進行實驗測試。由于可再生能源利用效率具有一定的動態(tài)性,需要在設定的周期內(nèi)對其變化趨勢進行研究。
表1 不同可再生能源發(fā)電工程詳情
為了確保數(shù)據(jù)的完整性和可靠性,以下采取3種不同的方法對可再生能源利用效率進行評價,具體實驗數(shù)據(jù)如圖3所示。
(a) 本文所提方法的可再生能源利用效率評價結(jié)果
分析圖3中的實驗數(shù)據(jù)可知,由于可再生能源利用效率的真實值是固定的,但是由于采取的評價方法不同,導致各個方法獲取的可再生能源利用效率評價結(jié)果也存在一定的差異性。但是相比另外2種方法,所提方法的評價結(jié)果更準確,主要是因為其引入隨機森林算法對可再生資源進行分類,在分類的基礎上進行可再生資源利用效率評價,能夠有效提高評價結(jié)果的準確性。
分析表2中的實驗數(shù)據(jù)可知,在不同層級的因素中,相比另外2種方法,本文所提方法能夠獲取更高精度的評價結(jié)果。主要原因在于本文方法通過特征選擇算法對可再生資源進行數(shù)據(jù)欠采樣,將特征的重要性程度和相關(guān)度作為標準對特征進行篩選,刪除冗余特征,形成全新的特征子空間,同時經(jīng)過具體的實驗數(shù)據(jù)分析,全面驗證本文所提方法進行可再生資源分類的重要性。
表2 不同方法在各個測試指標下的可再生能源利用效率評價結(jié)果
進行可再生能源利用效率評價是當前研究的熱點話題,提出一種基于隨機森林的可再生能源利用效率評價方法。仿真實驗結(jié)果表明,本文所提方法能夠獲取更加精準的評價結(jié)果,同時通過評價結(jié)果可有效給出各個區(qū)域的可持續(xù)發(fā)展建議。后續(xù)將進一步對所提方法進行完善,并且全面分析可再生能源可持續(xù)發(fā)展的重要性以及作用。