[摘 要]本文應用支持向量機算法,基于以往輸電線路典型工程量和造價之間的映射樣本數(shù)據(jù),利用SVM自動選擇最優(yōu)復雜度模型的能力,建立起分析影響輸電線路造價指標體系的模型。
[關鍵詞] SVM;輸電線路;造價指標
doi:10.3969/j.issn.1673 - 0194.2015.10.103
[中圖分類號]TM752;F426.61 [文獻標識碼]A [文章編號]1673-0194(2015)10-0-03
本文利用數(shù)據(jù)挖掘中的支持向量機算法,完全排除人為的干預因素,通過機器學習在高維空間中找到一個最優(yōu)分類面,生成一個最優(yōu)復雜度模型,得到影響輸電線路造價的主要指標因素并通過以往的經驗數(shù)據(jù)對模型進行自主學習和訓練,模型為今后電網(wǎng)建設全壽命造價管理和控制以及輔助決策提供一個理論指導和依據(jù)。
1 數(shù)據(jù)挖掘機器學習——支持向量機算法
支持向量機(Support Vector Machine,SVM)是Vapnik等人根據(jù)統(tǒng)計學習理論提出的一種針對小樣本的機器學習理論。與傳統(tǒng)的以神經網(wǎng)絡為代表的機器學習方法相比,通過實踐證明如果過于追求訓練誤差最小,會導致模型的泛化能力下降出現(xiàn)過擬合問題。Vapnik等人通過研究指出,需要同時控制經驗風險和學習機容量,才能使模型獲得良好的泛化能力,該理論的核心思想是通過引入結構風險最小化準則來控制學習機的容量。
SVM的算法很好的實踐了上述思想,通過引入核函數(shù),甚至不需要知道非線性變換的具體形式,只需將核函數(shù)引入計算即可實現(xiàn)某種非線性變換,將低維空間映射到高維特征空間,再在高維特征空間中構造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別函數(shù)。問題就轉化為如何在新的映射高維空間中求取最優(yōu)分類面。最優(yōu)分類面就是存在這樣的分類超平面,它不但能夠將所有訓練樣本正確分類,而且使訓練樣本中離分類面最近的點到分類面的距離(定義為間隔)最大。通過使間隔最大化來控制分類器的復雜度,實現(xiàn)較好的推廣能力,擺脫高維數(shù)的冗余,使其算法復雜度與樣本維數(shù)無關,這正是SVM的優(yōu)勢所在。
支持向量機最關鍵的步驟是核函數(shù)的選取,也是影響模型擬合最重要的部分,常用的核函數(shù)有。
在實際應用中,關于核函數(shù)參數(shù)選擇的問題還沒有很好的解決,如多項式學習機器的階數(shù)問題,徑向基學習機器中的函數(shù)寬度問題,以及Sigmoid機器中函數(shù)的寬度和偏移問題等,統(tǒng)計學理論目前對這些問題只是給出了一些建議和解釋。
目前,SVM方法被越來越多地用于包括模式識別、回歸估計和密度估計等多個研究領域中。本文創(chuàng)造性的將該方法引入輸電線路工程造價指標影響因素的分析和輸電線路工程項目造價預測的研究中,由于其所具有的推廣能力強、解的唯一性與全局最優(yōu)性等優(yōu)點,使得以此方法為基礎的輸電線路造價模型具有較好的應用效果。針對本文所涉及的應用,其算法流程如圖1所示。
2 輸電線路工程造價指標的建立
2.1 110kV輸電線路造價指標體系
利用原始的國家電網(wǎng)公司110kV輸電線路典型方案工程量指標和造價的關聯(lián)建立造價指標體系。
圖2 輸電線路工程造價指標體系
其共有19個影響輸電線路工程項目造價的因素,其中地線型號基本一致,對于110 kV電壓等級的常規(guī)線路來說,基面開方、護坡、??伯a生的工程量很少,也很少用到間隔棒,除非大容量多分裂導線,從技術經濟的角度分析與其如此,不如新建更高一級電壓等級的線路,導、地線可歸一為線材,塔材、基礎鋼、接地鋼可歸一為鋼材,基坑、接地開方也可以合并,塔基數(shù)屬于后評價指標,對造價形成沒有影響。特別地,回路數(shù)、氣象條件、導線型號共有2×4×2=16種情況,可以將其三者合并用1~16的數(shù)據(jù)表示。
2.2 輸電線路工程造價的主成分分析和工程特性的選取
電網(wǎng)工程特性是決定工程造價的決定性因素,因此所選的工程因素首先要全面,如若考慮不全面,造價的特殊性和差異性就體現(xiàn)不出來。實踐證明,工程的任何一個特征都會影響到總的工程造價,如果將所有的因素都考慮進去,所建模型就沒有實際意義。因此,只能挑選那些對工程造價有較大影響的工程特性。因此,工程特性只有結合工程實際的客觀規(guī)律來挑選,它的選取要“全”而“精”,盡量選取獨立的因素,因素之間沒有任何相關度。本論文采用主成分分析法篩選決定電網(wǎng)工程造價的工程特性。
主成分分析(Principal Component Analysis,PCA)是一種數(shù)據(jù)壓縮和特征提取的多變量統(tǒng)計分析技術,能夠有效去除數(shù)據(jù)間的相關性。它的基本思路是降維,即保證數(shù)據(jù)損失盡可能最小的前提下,經過線性變換和舍棄一小部分信息,以少數(shù)新的綜合變量(稱為主成分)取代原始采用的多維變量,即對原來提出的p個指標綜合成盡可能少的m個綜合性指標,且要求這m個指標既能充分反映原來的p個變量反映的信息,又能使這m個綜合變量之間互不相關,運用這m個綜合變量進行樣本的綜合評價。在經濟研究中,主成分分析法在預測領域、評定綜合指標問題等領域都有廣泛的應用。下面就詳細展開介紹。
由于原始指標之間不可避免地存在信息量的重復,而且指標數(shù)量過多不利于直接計算,所以利用主成分分析的方法對原始指標進行篩選。設經過預處理的數(shù)據(jù)為n*m維矩陣,n為樣本數(shù),m為評價指標數(shù)。
(1)首先對數(shù)據(jù)進行標準化
(4)
式中 , (5)
(2)計算樣本相關矩陣R=(rjk)n×m (6)
式中, (7)
(3)計算特征值和特征向量
由R的特征方程|R-λi|=0求相關矩陣R的m個特征值λ1,λ2,…,λm(λi≥0)及相應的特征向量C1,C2,…,Cm。
(4)計算主成分的貢獻率,每個主成分的貢獻率代表了原數(shù)據(jù)占總信息量的百分比
(8)
(5)篩選主成分
將各主成分貢獻率由高到低排列,當前s個主成分貢獻率的和(累計貢獻率)達到信息反映精度(一般累計貢獻率達到85%即可)的要求時,取這s個主成分Z1,Z2,…,Zs作為下一階段模型的評價指標。
(6)構造新的樣本矩陣
根據(jù)Zi=X*Ci(i=1,2,3,…,n),計算每一個主成分的各樣本值,構成新的n×s維樣本矩陣,其中,n為樣本數(shù),s為指標數(shù),即
根據(jù)介紹的主成分分析法,首先對原始數(shù)據(jù)矩陣進行標準化,再利用Matlab工具的princomp函數(shù)對標準化后的數(shù)據(jù)進行主成分分析,得出各成分的貢獻率以及各成分的累積貢獻率。
經過上述的處理,依據(jù)各成分的累積貢獻率由高到低排序,可以將支持向量機的輸入信號個數(shù)由19個減少到8個,分別是:線路綜合情況、導地線(t/km)、桿塔基礎接地鋼材(t/km)、基面基坑接地開方(m3/km)、混凝土(m3/km)、絕緣子片數(shù)(片/km)、防震錘(個/km)、掛線金具(t/km),輸出則是電力線路工程的單位路徑長度造價(萬元/km)。
2.3 指標數(shù)據(jù)的收集及標準化處理
由于選取的指標數(shù)據(jù)之間的量綱不同,數(shù)據(jù)差別較大,為使小的數(shù)據(jù)不被大的數(shù)據(jù)所淹沒,在對其進行樣本學習時,必須消除這些差別所帶來的影響。樣本數(shù)據(jù)的標準化處理利用線形插值,把輸入節(jié)點和輸出節(jié)點的信號控制在[0.1,1]之間。
取a=max{Xi}賦予相應的權值1,取b=min{Xi}賦予相應的權值0.1,對任意樣本xi的線形插值計算公式為:
(9)
表1是國家電網(wǎng)公司110kV典型方案工程造價樣本經過線性插值標準化后的數(shù)據(jù)。
3 數(shù)據(jù)仿真分析及預測
仿真數(shù)據(jù)來源于國家電網(wǎng)公司110kV典型方案工程,如表1所示,依據(jù)上文所預處理的樣本數(shù)據(jù),在Matlab軟件平臺上利用工具箱的圖形用戶界面實現(xiàn)了SVM數(shù)據(jù)挖掘模型的建立。本文在輸電線路造價影響因素分析的基礎之上,把影響輸電線路造價的指標因素X1i,X2i,…,X8i作為SVM的輸入,把輸電線路的造價yi作為SVM的期望輸出,用SVM方法進行機器學習。選取前28組樣本數(shù)據(jù)作為訓練樣本,其余11組為預測檢驗樣本,核函數(shù)K(xi,yi)采用徑向基(Radial Basis)核函數(shù)。
(10)
具體的參數(shù)設置為:C=1 000、ε=0.001、σ=2,在Matlab軟件環(huán)境下用SVM進行仿真擬合,訓練結果見表2,擬合比較見圖3。
從以上仿真結果可看出,用檢驗樣本仿真評價的輸出結果和專家評價的結果基本一致,最大相對誤差為19.26%,最小相對誤差為9.58%。模型輸出值與實際的數(shù)值其平均誤差百分比(Mean Absolute Percentage Error)是13.886 36%,在檢驗集上預測誤差平方和(Prediction Error Sun Of Squares)是0.085 37,表明基于SVM的該模型有著良好的函數(shù)逼近能力,而且整體的推廣、泛化能力也很好。
主要參考文獻
[1]謝穎,高犁難,石振武.基于最小二乘支持向量機的公路工程造價預測模型[J].中外公路,2007(27):242-245.
[2]劉振亞.國家電網(wǎng)公司輸變電工程典型造價:110kV輸電線路分冊[M].北京:中國電力出版社,2006.
[3]陶樹人.技術經濟學[M].北京:經濟管理出版社,1998.
[4]顏七笙,徐輝.基于支持向量機的企業(yè)自我實現(xiàn)能力綜合評價方法[J].中國管理信息化,2007(10):55-56.