耿鵬云+安磊+王鑫
摘 要: 針對目前輸電工程造價技術(shù)指標過多,影響因素比較復(fù)雜,導(dǎo)致輸電工程造價估算困難,設(shè)計概算審查難以達到理想效果的問題。建立基于數(shù)據(jù)挖掘技術(shù)的輸變電工程造價預(yù)測模型,其采用數(shù)據(jù)挖掘技術(shù)來判斷不同工程技術(shù)指標對工程造價所造成的影響級別,同時能夠自動查詢錯誤、異常或者不合理的數(shù)據(jù),降低了人為因素的影響,并通過支持向量機來對樣本數(shù)據(jù)進行樣本學習,從而建立輸變電工程造價預(yù)測模型。測試結(jié)果表明,該模型預(yù)測結(jié)果相對誤差低,其能夠準確預(yù)測輸變電工程的造價,且對于造價預(yù)算具有一定的參考價值。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 輸電工程; 造價預(yù)測模型; 支持向量機; 樣本學習; 概算審查
中圖分類號: TN913?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2018)04?0157?04
Abstract: As there are too many cost technical indicators and complicated influencing factors in the current power transmission project, it is difficult to evaluate the cost of power transmission project and achieve the desired effect of budget review. Therefore, a cost forecast model for power transmission and transformation project based on data mining technology is established. The data mining technology is used in the model to judge the impact level of different engineering technical indicators on project cost, with which the wrong, abnormal or unreasonable data can be automatically queried, the impact of human factors can be reduced, and the sample learning of the sample data can be performed by means of support vector machine. The test results show that the forecasting results of the model have low relative error, and the model can accurately predict the cost of power transmission and transformation project, which have a certain reference value for other cost budgets.
Keywords: data mining; power transmission project; cost forecast model; support vector machine; sample learning; budget review
由于通過輸變電工程概算定額來建立造價指標方案有限,同時實際執(zhí)行中又會因技術(shù)和工藝的更新?lián)Q代而不斷發(fā)展,設(shè)計概算審查難以達到理想效果[1?4]。因此,建立一個科學有效的輸變電工程造價預(yù)測模型來對輸變電工程的造價進行預(yù)測非常重要。
本文建立了基于數(shù)據(jù)挖掘技術(shù)的輸變電工程造價預(yù)測模型,采用數(shù)據(jù)挖掘技術(shù)來判斷不同工程技術(shù)指標對工程造價所造成的影響級別。同時能夠自動查詢錯誤、異?;蛘卟缓侠淼臄?shù)據(jù),降低了人為因素的影響。通過支持向量機來對樣本數(shù)據(jù)進行樣本學習,從而建立輸變電工程造價預(yù)測模型。
1 輸電線工程造價技術(shù)指標體系建立
通過主成分以及偏相關(guān)的分析方法,并利用SPSS軟件對某輸電線工程的歷史數(shù)據(jù)進行分析[5],尋找出對輸變電工程造價影響較大的技術(shù)指標,從而構(gòu)建出其預(yù)測模型的技術(shù)指標。
1.1 主成分分析法
主成分分析法指在保證低數(shù)據(jù)損失情況下,將高維變量空間維數(shù)降低的一種方法。首先,需要對數(shù)據(jù)進行預(yù)處理以保證數(shù)據(jù)挖掘的執(zhí)行及結(jié)果的正確性??上韧ㄟ^屬性選擇方法對數(shù)據(jù)集進行壓縮,將電力部門所收集到的原始數(shù)據(jù)中屬性與數(shù)據(jù)挖掘任務(wù)無關(guān)的數(shù)據(jù)剔除掉,并通過屬性轉(zhuǎn)換和量化處理等進一步壓縮數(shù)據(jù)。處理后得出最后的數(shù)據(jù)集有27個屬性,144條記錄;其次是對數(shù)據(jù)做標準化處理,這里主要采用均值標準方差法,即先求出各個指標的標準差,然后將標準差作為新的樣本數(shù)據(jù),如式(1)~式(3)所示:
式中:[Xij]表示數(shù)據(jù)中第i個工程所相對的第j項屬性的值;[Zij]表示第i個工程所相對的第j項屬性的標準值。經(jīng)過標準化處理后得到新的數(shù)據(jù)集維數(shù)為27×144。
利用SPSSI軟件對數(shù)據(jù)集進行主成分分析,得出12個能夠代表原始數(shù)據(jù)結(jié)構(gòu)的屬性,包括基材、桿塔數(shù)、桿塔鋼材、混凝土、土石方、線路長度、鐵塔數(shù)、單回長度、接地鋼材、汽車、人力運輸距離以及導(dǎo)線數(shù)等。
1.2 偏相關(guān)分析法
偏相關(guān)分析是在除去其他變量的影響后來探究兩個變量之間的關(guān)系,通過SPSS軟件對以上屬性做偏相關(guān)分析,以0.4作為偏相關(guān)系數(shù)的界限,篩選出9個屬性,如表1所示。將篩選出的屬性作為輸電線工程造價預(yù)測的基本屬性,得到一個9×144的數(shù)據(jù)集。
2 基于支持向量機的造價預(yù)測模型endprint
2.1 支持向量機理論
支持向量機是Vapnik等人提出的一種機器學習方法,其在小樣本學習、非線性以及高維模式識別上具有較大的優(yōu)勢,適用于數(shù)據(jù)挖掘[6?8]。支持向量機的主要工作原理為升高維數(shù)及線性化處理,假設(shè)本訓練集D:
2.2 輸變電造價模型建立
在所有相似的144個工程中選取其中20個工程的數(shù)據(jù)作為樣本來進行訓練,并選取8個指標作為支持向量機的輸入,輸出為單位靜態(tài)投資(萬元/km),如表2所示。另外,選取5個工程的數(shù)據(jù)作為測試數(shù)據(jù)以檢測本文樣本數(shù)據(jù)訓練得到模型的準確性。
在Matlab軟件中打開支持向量機軟件工具包,編制基于支持向量機的輸變電工程預(yù)測程序,并將訓練樣本數(shù)據(jù)輸入到支持向量機中進行訓練學習。同時將測試樣本數(shù)據(jù)作為輸入進行測試得到預(yù)測結(jié)果,如表3所示[10]。
由表3可以看出,前4個工程造價預(yù)期結(jié)果誤差較小,均在3%以內(nèi)。而第5個工程由于土方石量較大,且汽車與人力運輸距離遠,造成誤差大。因此,該預(yù)測模型基本滿足輸變電工程預(yù)測要求。
為了對本模型的合理性進行驗證,本文在相同的數(shù)據(jù)樣本以及測試樣本下采用人工神經(jīng)網(wǎng)絡(luò)進行仿真。上述8個指標作為輸入神經(jīng)元,輸出為單位長度輸電線投資金額。在Matlab軟件中采用基于BP算法的神經(jīng)網(wǎng)絡(luò)對樣本數(shù)據(jù)進行訓練學習,樣本誤差分析輸出結(jié)果如圖1所示。從圖1可以看出,樣本數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)模型訓練后,輸出值與實際值較為接近。緊接著對測試樣本進行測試,輸出結(jié)果見表4。從表4中可看出,采用人工神經(jīng)網(wǎng)絡(luò)的預(yù)測模型所得到的預(yù)測值與實際值相對誤差較大,除了第三個工程預(yù)測值與實際值相對誤差在4%以內(nèi),其他工程均高達10%以上,相對誤差最高達18.34%。
由此可得,本文采用基于支持向量機的預(yù)測模型預(yù)測相對誤差較低,其能夠準確預(yù)測輸變電工程的造價,且對輸變電工程的造價預(yù)算有一定的參考價值。
3 結(jié) 語
針對目前輸電工程造價技術(shù)指標過多,影響因素比較復(fù)雜,導(dǎo)致輸電工程造價估算困難,設(shè)計概算審查難以達到理想效果的問題。本文建立基于數(shù)據(jù)挖掘技術(shù)的輸變電工程造價預(yù)測模型,其采用數(shù)據(jù)挖掘技術(shù)來判斷不同工程技術(shù)指標對工程造價所造成的影響級別,同時能夠自動查詢錯誤、異常或者不合理的數(shù)據(jù),降低了人為因素的影響。并通過支持向量機來對樣本數(shù)據(jù)進行樣本學習,從而建立輸變電工程造價預(yù)測模型。測試結(jié)果表明,該模型預(yù)測結(jié)果相對誤差低,其能夠準確預(yù)測輸變電工程的造價,對輸變電工程的造價預(yù)算有一定的參考價值。
參考文獻
[1] 楊永明,王燕,范秀君,等.基于灰關(guān)聯(lián)?神經(jīng)網(wǎng)絡(luò)的電力工程造價估算[J].重慶大學學報,2013,36(11):15?20.
YANG Yongming, WANG Yan, FAN Xiujun, et al. Cost estimation of power engineering based on grey relational neural network [J]. Journal of Chongqing University, 2013, 36(11): 15?20.
[2] 張吉剛,梁娜.基于改進BP模型的我國社會物流總成本預(yù)測[J].統(tǒng)計與決策,2014(6):61?63.
ZHANG Jigang, LIANG Na. The total cost prediction of China′s social logistics based on the improved BP model [J]. Statistics & decision, 2014(6): 61?63.
[3] 周成杰.基于BP神經(jīng)網(wǎng)絡(luò)的工程投資估算方法探討[J].鐵路工程造價管理,2015,30(5):6?9.
ZHOU Chengjie. Discussion of project investment estimation method based on BP neural network [J]. Railway engineering cost management, 2015, 30(5): 6?9.
[4] 郝勝蘭.基于模糊神經(jīng)網(wǎng)絡(luò)的房產(chǎn)軟件項目成本估算研究[D].大連:大連海事大學,2012.
HAO Shenglan. Research on the cost estimation of real estate software project based on fuzzy neural network [D]. Dalian: Dalian Maritime University, 2012.
[5] 王蘇斌,鄭海濤,邵謙謙,等.SPSS統(tǒng)計分析[M].北京:機械工業(yè)出版社,2003.
WANG Subin, ZHENG Haitao, SHAO Qianqian, et al. SPSS statistical analysis [M]. Beijing: China Machine Press, 2003.
[6] 郭濤,馬林東,葛智平.基于EMD和神經(jīng)網(wǎng)絡(luò)的短期電力負荷預(yù)測[J].電子設(shè)計工程,2013, 21(21):105?106.
GUO Tao, MA Lindong, GE Zhiping. Forecasting of short?term power load based on EMD and neural network [J]. Electronic design engineering, 2013, 21(21): 105?106.
[7] 馬立新,鄭曉棟,尹晶晶.基于粗糙特征量的短期電力負荷預(yù)測[J].電子科技,2016,29(1):40?43.
MA Lixin, ZHENG Xiaodong, YIN Jingjing. Short?term load forecasting based on rough characteristic?component algorithm [J]. Electronic science and technology, 2016, 29(1): 40?43.
[8] 杜軍崗,魏汝祥,劉寶平.基于PSO優(yōu)化LS?SVM的小樣本非線性協(xié)整檢驗與建模研究[J].系統(tǒng)工程理論與實踐,2014,34(9):2322?2331.
DU Jungang, WEI Ruxiang, LIU Baoping. Nonlinear cointegration test and error correction modeling based on LS?SVM optimized by PSO in small sample [J]. Systems engineering?theory & practice, 2014, 34(9): 2322?2331.
[9] ACHIMUGU P, SELAMAT A. A hybridized approach for prioritizing software requirements based on K?means and evolutionary algorithms [J]. Computational intelligence applications in modeling and control, 2015, 575: 73?79.
[10] CHEN S, XU Z, TANG Y. A hybrid clustering algorithm based on fuzzy C?means and improved particle swarm optimization [J]. Arabian journal for science and engineering, 2014, 39(12): 8875?8887.endprint