宋曉華,汪 鵬,張 露,寇英芳
(1. 華北電力大學經(jīng)濟與管理學院,北京 102206;2. 華北電力大學新能源電力與低碳發(fā)展研究北京市重點實驗室,北京 102206;3. 國網(wǎng)北京市電力公司,北京 100031)
近年來,電網(wǎng)輸電工程建設的規(guī)模和強度持續(xù)增加,對工程造價提出了更為嚴格的要求[1]。高效、精確地預測輸電工程造價,對電網(wǎng)造價精細化控制、基建投資效益提升具有重要意義[2]。國內針對輸電工程造價預測仍然存在一些不足。文獻[3]從人力運輸?shù)慕嵌确治銎鋵υ靸r以及各部分工程造價比例的影響。文獻[4]將地質劃分與輸電工程定額對應,并開展了地質劃分對造價影響分析。文獻[5]從風速、覆冰等角度對架空輸電工程造價敏感因素進行了理論分析,但并未考慮不同工程參數(shù)下工程量之間的差異。文獻[6]對甘肅地區(qū)±800千伏特高壓線路造價影響因素指標進行相關性分析,篩選影響造價的關鍵指標,但并未對指標非線性關系進行深入研究。文獻[7]提出討論K-Means聚類、層次聚類、模糊聚類3種聚類方法,所提出的方法針對非線性相關性指標聚類效果不佳。文獻[8]構建輸電工程造價指數(shù),采用灰色預測模型開展預測,考慮人材機價格動態(tài)變化,但并未兼顧施工水平對造價的影響。文獻[9]提出采用灰關聯(lián)分析與粒子群優(yōu)化的支持向量回歸模型,對工程造價進行預測。綜上所述,目前的研究關注單一參數(shù)的影響分析,并未考慮構建綜合的預測指標體系。針對指標體系重疊信息的處理,多考慮線性指標的降維,而未充分考慮如何同時處理線性、非線性工程量指標信息重疊問題。利用灰色關聯(lián)算法進行優(yōu)選時,多采用算數(shù)均值進行關聯(lián)度計算,未考慮指標之間的信息差異及設備材料價格隨時間的動態(tài)變化。因此,本文提出基于TSNE及改進灰色關聯(lián)的輸電工程造價預測模型。首先,從多元工程參數(shù)、工程量指標體系構建影響工程造價的指標體系。其次,提出TSNE流行可視化降維方法,將高維工程量指標數(shù)據(jù)分布映射到低維流行結構。在此基礎之上,建立改進灰色關聯(lián)度的量價雙維時空相似特征優(yōu)選模型:在空間維度上,考慮工程參數(shù)及工程量指標的相似程度;在時間維度上,考慮人材機及設備價格隨時間的動態(tài)變化。此外,考慮到我國輸電工程造價構成主要基于定額體系,兼顧施工生產力水平差異,基于造價統(tǒng)計分布特性,采用abm方法對優(yōu)選后的樣本工程造價進行均值特性強化,使之能更好體現(xiàn)平均造價水平。最后,進行仿真,驗證模型的有效性。
輸電工程本體造價由基礎工程、桿塔工程、接地工程、架線工程、附件工程、輔助工程六個單位工程構成[10]。工程參數(shù)、工程量指標共同影響輸電工程造價。其中,接地工程、輔助工程只占本體工程造價的2%-4%,費用占比較小,對工程量指標進行初步篩選,剔除接地土方、排水溝等對本體工程造價影響不大的工程量指標,形成輸電工程造價預測指標體系,如圖1。
圖1 輸電工程造價預測指標體系
對110kV輸電工程造價指標進行相關性分析,結果如圖2。
圖2 樣本數(shù)據(jù)變量散點圖矩陣圖
從圖2分析,基礎鋼材(V1)、基礎混凝土(V2)、基礎開方(V3)、桿塔鋼材(V4)等指標之間存在一定程度的線性相關,其它指標存在非線性相關。因此,需要對指標進行降維處理,消除指標數(shù)據(jù)的重疊信息。主成分分析(PCA)是一種常見的指標降維處理方法,可以解決指標之間的共線性問題,但PCA屬于線性降維的方法,對非線性指標處理效果不佳。流行可視化降維算法能夠較好地在低維空間采用可視化的方式表達高維指標數(shù)據(jù)的內部結構關系。典型的流可視化降維方法有隨機鄰域嵌入(SNE)、T分布隨機鄰域嵌入(TSNE)等。SNE存在樣本數(shù)部分布擁擠問題,TSNE采用聯(lián)合概率表示點對應的相似度,通過優(yōu)化兩個分布之間的距離散度,得到低維空間的樣本分布,能夠有效解決數(shù)據(jù)擁擠問題。由此,本文提出基于TSNE的工程量指標降維處理算法。
2.2.1 TSNE降維算法的基本原理
1)SNE算法的基本原理
設工程量指標的高維數(shù)據(jù)點為X=(x1,x2…,xn),低維映射Y=(y1,y2…,yn)。
高維空間、低維空間的概率可以表示為pi|j、qj|i,計算公式如(1)、(2)所示。
(1)
(2)
為衡量高維工程量指標空間和低維工程量指標空間的相似程度,引入代價函數(shù)KL散度,計算公式為:
(3)
將代價函數(shù)對低維氣象點進行求導得:
(4)
2)TSNE算法的基本原理
TSNE將低維指標數(shù)據(jù)Y和原始高維指標數(shù)據(jù)X的條件概率改進為對稱的聯(lián)合概率密度,即
pi|j=pj|i,qj|i=qi|j
(5)
計算高維之間的聯(lián)合概率密度
(6)
低維樣本的聯(lián)合概率密度
(7)
建立新的代價函數(shù)為
(8)
對代價函數(shù)C進行尋優(yōu),更新規(guī)則為
(9)
式中,Y(t)是低維空間的樣本數(shù)據(jù),t是迭代次數(shù),η表示學習率,α(t)為動量因子。
2.2.2 PCA、TSNE仿真
為了驗證TSNE對工程量指標的降維效果。對工程量指標分別采用PCA、TSNE算法進行降維計算。
圖3 PCA和TSNE算法仿真對比
對比分析圖3,與PCA降維效果相比,TSNE算法對四個電壓等級的樣本工程實現(xiàn)了較好的分類,各個電壓等級的樣本邊界明晰,算法降維效果較好。
基于工程參數(shù)指標以及工程量指標(不降維、PCA降維、TSNE降維)形成新的預測體系,新的預測指標體系為
F=(F1,F(xiàn)2,…,F(xiàn)j) (j=1,2,…,p)
(10)
令F=Gi=(gi(1),gi(2),…gi(j)),其中,i=0,1,…n,j=1,2…p。計算灰色關聯(lián)系數(shù),如式(11)所示
(11)
其中
Δqj=|g0(j)-gq(j)|
Δmin=minqminjΔqj,Δmax=maxqmaxjΔqj
式(11)中,ρ為分辨系數(shù)。利用熵值法及權重計算公式如式(12)、(13)所示。
(12)
(13)
熵權修正的灰色關聯(lián)度計算公式為
(14)
時間因子權重系數(shù)計算方法為
(15)
式(15)中,tq為待預測工程施工日期與第q個樣本工程施工日期之間的天數(shù);int為取整運算符;α1、α2、α3分別為日衰減、周衰減和年衰減系數(shù);N1、N2、N3為常數(shù)。經(jīng)過時間因子修正以后的灰色關聯(lián)度為
R0q=r0qf0q
(16)
將灰色關聯(lián)度模型優(yōu)選后的樣本造價進行算數(shù)平均處理是常見的一種均值處理方法,考慮到我國輸電工程安裝費用計算基于定額體系,定額消耗量反映的是社會平均施工生產力水平[10],為兼顧先進施工生產力水平與落后施工生產力水平差異,本文提出基于統(tǒng)計分布的造價均值強化算法。
2.4.1 輸電工程本體投資統(tǒng)計分布分析
對110kV輸電工程造價進行研究,繪制造價散點圖及高斯分布,如圖4所示。
圖4 110kV輸電工程造價散點圖及高斯分布
由圖4,可以判別其大致屬于正態(tài)分布。為了進一步驗證正態(tài)分布假設,本文采用夏皮羅-威爾克進行檢驗。檢驗統(tǒng)計量為0.9803、P值為0.0797,統(tǒng)計量接近于1,P值顯著大于0.05,無法拒絕其符合正態(tài)分布。同理,對220kV、330kV、500kV輸電工程本體造價進行檢驗,結果也表明其服從正態(tài)分布規(guī)律。
2.4.2 abm均值強化算法
將改進灰色關聯(lián)算法優(yōu)選后的工程造價數(shù)據(jù)按大小順序排列,求出該組數(shù)據(jù)的算術平均值,此即一般值m,表示樣本集所代表的平均造價水平。根據(jù)二次平均法的原理,再對該組數(shù)據(jù)中小于m的值求算數(shù)平均得到x3,對該組數(shù)據(jù)中大于m的值求平均得到x4。定義先進值a為一般值m和平均值x3的算術平均值,先進值表示輸電工程造價水平較低者的平均水平;同理,保守值b為一般值m和x4和平均值的算術平均值,表示輸電工程造價水平較高者的平均水平。
(17)
根據(jù)正態(tài)分布的規(guī)律來分析,先進值、一般值、保守值占全部數(shù)據(jù)的比例大致接近1:4:1,均值計算方法如式(18)所示。
(18)
收集我國各省區(qū)已經(jīng)完成結算的204項110kV-500kV輸電工程造價作為數(shù)據(jù)樣本。從三個方面進行仿真分析:1)分析灰色關聯(lián)與改進灰色關聯(lián)模型預測誤差,驗證改進灰色關聯(lián)模型的預測效果。2)分析TSNE、PCA與灰色關聯(lián)、改進灰色關聯(lián)結合下的預測誤差,驗證TSNE降維算法對預測效果提升作用。3)分析不同電壓等級輸電工程預測誤差,驗證預測方法針對不同對象的預測效果。
1)灰色關聯(lián)與改進灰色關聯(lián)模型對比仿真
將傳統(tǒng)灰色關聯(lián)模型+算數(shù)均值預測模型和本文提出的改進灰色關聯(lián)模型+算數(shù)均值、改進灰色關聯(lián)+abm均值模型的預測效果進行對比分析,研究對象為110kV輸電工程,改進灰色關聯(lián)輸入的工程量指標不作降維處理。由圖5,改進灰色關聯(lián)+abm均值的預測模型數(shù)據(jù)對真實值擬合程度更好。
圖5 灰色關聯(lián)模型與改進灰色關聯(lián)模型預測仿真
計算平均絕對百分比誤差(tMAPE),計算結果如表1所示。
表1 灰色關聯(lián)與改進灰色關聯(lián)模型仿真誤差結果
改進灰色關聯(lián)模型+算數(shù)均值誤差較傳統(tǒng)灰色關聯(lián)模型+算數(shù)均值降低2.81%,表明改進灰色關聯(lián)方法能夠有效提升預測精度,這得益于改進灰色關聯(lián)方法在工程參數(shù)及工程量相似特征篩選的基礎上,進一步挖掘了不同工程之間人工、材料、機械以及設備價格隨時間的動態(tài)變化。
改進灰色關聯(lián)模型+abm均值較改進灰色關聯(lián)模型+算數(shù)均值誤差降低0.82%,表明abm均值較算數(shù)均值能夠提高一定的預測精度,這是因為abm均值方法基于統(tǒng)計分布規(guī)律,兼顧了施工生產力水平差異,更符合輸電工程造價實際情況。
在工程量指標不降維的情況下,改進灰色關聯(lián)+abm均值模型誤差較另外兩種方法最低,預測效果相對較好,但部分樣本點的預測值與結算實際值偏差較大,且不滿足輸電工程造價5%-8%的誤差要求,預測精度仍有提升空間。
2)不同降維方法下的模型對比仿真
本節(jié)將PCA、TSNE降維算法與灰色關聯(lián)模型+算數(shù)均值、改進灰色關聯(lián)模型+算數(shù)均值、改進灰色關聯(lián)+abm均值模型結合,并進行仿真分析,結果如圖6所示。
圖6 融合降維算法的灰色關聯(lián)、改進灰色關聯(lián)預測仿真
計算各預測模型的平均絕對百分比誤差,計算結果如表2、表3所示。
表2 PCA+灰色關聯(lián)、改進灰色關聯(lián)模型仿真誤差結果
表3 TSNE+灰色關聯(lián)、改進灰色關聯(lián)模型仿真誤差結果
對比分析表1、2、3,采用PCA、TSNE降維算法均能提升預測精度,這是因為降維能夠有效降低工程量指標中的信息重疊,提升灰色關聯(lián)或改進灰色關聯(lián)對多維指標向量的適應性。同時,由于TSNE對非線性數(shù)據(jù)的處理效果較佳,降維效果比PCA的更好。
本文提出的TSNE+改進灰色關聯(lián)+abm均值模型預測誤差為3.19%,且多數(shù)樣本的預測值與結算實際值誤差小于5%,誤差較為集中,模型預測效果最為理想。
3)220kV、330kV、500kV輸電工程造價預測對比仿真
計算得到三個電壓等級輸電工程造價預測平均絕對百分比誤差分別為2.91%、2.74%、2.56%。結果表明,本文提出的方法針對不同電壓等級的輸電工程也具有較好的預測效果。
本文構建了輸電工程造價預測指標體系,設計了基于TSNE的工程量指標降維算法,建立了基于改進灰色關聯(lián)度的量價雙維時空相似特征優(yōu)選模型,提出了基于abm的均值強化算法。仿真結果表明,110kV、220kV、330kV、500kV輸電工程造價預測值與結算實際值的誤差分別為3.19%、2.91%、2.74%、2.56%,具有較好的預測效果。