劉俊宇,陳 輝,張福峰,曲永強,趙鐵英
(國網(wǎng)撫順供電公司,遼寧 撫順 113008)
電力行業(yè)是國民經(jīng)濟發(fā)展的基礎,確保電力企業(yè)的健康發(fā)展對促進國民經(jīng)濟快速發(fā)展具有至關重要的意義[1]。電力企業(yè)數(shù)量的快速增加使得電力企業(yè)之間的競爭越來越激烈,通過建立電力企業(yè)市場競爭力預測模型可以更加科學地了解影響電力企業(yè)市場競爭力的因素,對電力企業(yè)的市場競爭力做出客觀的評價。高曉紅等[2]采用時序人工神經(jīng)網(wǎng)絡和因果人工神經(jīng)網(wǎng)絡建立了企業(yè)競爭力的預測模型,決策者可以根據(jù)技術創(chuàng)新、管理創(chuàng)新、營銷創(chuàng)新、知識創(chuàng)新等各項指標,借助所搭建的預測模型來預測企業(yè)的競爭力。鄧蓉暉等[3]基于神經(jīng)網(wǎng)絡對建筑企業(yè)競爭力評估方法進行了研究,所搭建的神經(jīng)網(wǎng)絡可以實現(xiàn)二級指標和綜合指標的非線性映射,避免了指標權重確定的人為因素和隨機因素干擾,采用所搭建的神經(jīng)網(wǎng)絡模型可以預測建筑企業(yè)的競爭力。電力企業(yè)市場競爭力預測是一件十分復雜的事情,隨機森林算法是利用多棵樹對樣本進行訓練并預測的分類器,在解決復雜問題方面具有十分廣泛的應用。基于此,本文在對隨機森林算法分析的基礎上給出了改進的隨機森林算法,并將其應用于電力企業(yè)市場競爭力預測中。
隨機森林算法是采用隨機方法構建一個森林,所構建的森林由無關聯(lián)的多顆決策樹所組成,其主要被應用于分類和回歸問題的分析中[4]。采用重采樣技術從原始數(shù)據(jù)中抽取一定數(shù)量的樣本,對抽取的樣本進行決策樹建模,生成多棵決策樹,最終得到回歸預測值。圖1為隨機森林回歸預測模型圖。
圖1 隨機森林回歸預測模型
設X為原始輸入數(shù)據(jù),Y為原始輸出數(shù)據(jù),由原始輸入數(shù)據(jù)X和原始輸出數(shù)據(jù)Y構成原始數(shù)據(jù)集合S=(X,Y)。由圖1可知,隨機森林回歸預測是從原始數(shù)據(jù)集合S中隨機抽樣,取k個數(shù)據(jù)組成訓練樣本集合,通過訓練樣本集合產(chǎn)生k棵決策樹。每一棵決策樹都會產(chǎn)生一個預測值,對k個預測值求平均值最終得到回歸預測結果。在隨機森林中,每一棵樹均為二叉樹。二叉樹的生成遵循自上向下的遞歸分裂原則[4]。在隨機森林的根節(jié)點中包含有全部的訓練數(shù)據(jù),其被分裂為左節(jié)點與右節(jié)點。分裂按照節(jié)點不純度最小原則進行,直到滿足停止規(guī)則。在隨機森林算法中常常采用基尼指數(shù)來衡量不純度,基尼指數(shù)GH的計算公式為[5]:
(1)
式中:m為數(shù)據(jù)集H中包含的類別數(shù);pj為j類元素出現(xiàn)的頻率。
采用隨機森林算法對電力企業(yè)市場競爭力進行預測,隨機森林樹的數(shù)量ntree和葉節(jié)點mtry對預測的結果影響比較大[6]。一般而言,隨機森林樹的數(shù)量ntree比較大時,才能夠確保模型的誤差趨于穩(wěn)定,但是樹的數(shù)量ntree不能夠過大,因為過大會導致過擬合,反而使得誤差比較大。葉節(jié)點mtry是從所有的特征集中隨機選擇幾個特征作為分裂的變量個數(shù),一般取特征變量總數(shù)的1/3或者通過計算袋外數(shù)據(jù)(OOB)誤差來確定。
(2)
(3)
定義果蠅種群氣味濃度變化率R為[8]:
(4)
由氣味濃度變化率R來更新算法尋優(yōu)步長的權重α,權重α和氣味濃度變化率R之間的關系由試驗得到,具體為:
(5)
依據(jù)尋優(yōu)步長的權重α來不斷地更新果蠅個體的尋優(yōu)路徑,最終達到優(yōu)化參數(shù)的目的,果蠅個體尋優(yōu)路徑更新的公式為[9]:
(6)
式中:RV為隨機值;(Xaxis,Yaxis)為果蠅群體初始化坐標;(Xi,Yi)為果蠅群體更新后坐標。
基于果蠅優(yōu)化算法的隨機森林模型通過五折交叉驗證來對隨機森林參數(shù)進行動態(tài)調整,從而達到對隨機森林算法進行改進的目的。圖2給出了改進的隨機森林預測模型。
圖2 改進隨機森林預測模型
為了更好地驗證改進隨機森林算法對電力企業(yè)市場競爭力預測的效果,本文選擇50家電力企業(yè)作為研究對象,分別定量描述影響企業(yè)市場競爭力的各因素和市場競爭力狀況,將其作為原始數(shù)據(jù)。影響電力企業(yè)市場競爭力的因素是多方面的,本文從財務維度、客戶維度、內部運營維度以及外部競爭維度4個方面來對電力企業(yè)市場競爭力進行評價[10],評價指標體系如圖3所示。
由圖3可知,反映電力企業(yè)市場競爭力的評價指標共包含11個,這11個指標反映了不同的屬性,為了更好地采用改進的隨機森林算法對電力企業(yè)市場競爭力進行預測,對11個指標統(tǒng)計數(shù)據(jù)進行歸一化處理。本文采用極差化方法對數(shù)據(jù)進行歸一化處理,使得各個指標數(shù)據(jù)均在區(qū)間[0,1]內,歸一化處理公式為:
圖3 電力企業(yè)市場競爭力評價指標體系
(7)
將歸一化處理后的11個指標作為輸入數(shù)據(jù),通過專家評價系統(tǒng)得到的電力企業(yè)市場競爭力得分作為輸出數(shù)據(jù),11個指標和專家評分作為原始數(shù)據(jù)。將原始數(shù)據(jù)劃分為兩類,一類為訓練集合數(shù)據(jù),一類為測試集合數(shù)據(jù)。分別采用隨機森林算法和改進隨機森林算法進行電力企業(yè)市場競爭力預測。
為了對比隨機森林算法和改進隨機森林算法在電力企業(yè)市場競爭力預測中的性能,采用分類精度、精準率、召回率進行評價,其計算公式為:
(8)
式中:TP為真正類;TN為真負類;FN為假負類;FP為假正類。
分類精度反映的是電力企業(yè)市場競爭力預測的總體分類精度,精準率反映的是被正確預測為正類樣本和所有被預測為正類樣本的比值,召回率是被正確預測為正類樣本和實際為正類樣本的比值。圖4為隨機森林算法和改進隨機森林算法模型預測結果比較。
由圖4可知,相對于傳統(tǒng)的隨機森林預測模型,基于果蠅算法的隨機森林預測模型在分類精度、精準率和召回率指標上均有所提升。由此可見,采用果蠅優(yōu)化算法對隨機森林預測模型的參數(shù)進行優(yōu)化可以取得更好的預測效果。為了進一步評估隨機森林算法和改進隨機森林算法的性能,結合兩個預測模型的分類結果繪制ROC曲線,如圖5所示。ROC曲線可以反映敏感度和特異度綜合指標。
圖4 模型預測結果比較
圖5 ROC曲線結果對比
AUC(area under curve)為ROC曲線下的面積,常常作為衡量預測模型優(yōu)劣的指標。由圖5可知,改進的隨機森林算法AUC值大于傳統(tǒng)的隨機森林算法,即改進的隨機森林算法可以更好地對電力企業(yè)市場競爭力進行預測。
本文對電力企業(yè)市場競爭力預測進行研究,在對傳統(tǒng)隨機森林算法分析的基礎上指出森林樹數(shù)量和葉節(jié)點數(shù)量對企業(yè)市場競爭力預測精度影響比較大,采用果蠅優(yōu)化算法對森林樹數(shù)量和葉節(jié)點數(shù)量進行優(yōu)化,得到了改進的電力企業(yè)市場競爭力預測模型,并將該模型應用于實際的電力企業(yè)市場競爭力預測中,預測精度得到大大提升。本文的研究對其他企業(yè)市場競爭力預測有一定的參考價值。