唐碧秋, 韓 佳, 郭國峰, 張 賽
(1. 桂林電子科技大學 建筑與交通工程學院, 廣西 桂林 541004;2. 中國公路工程咨詢集團有限公司, 北京 100097)
公路、橋梁、城市地標性建筑等大型工程項目投資數額大、建設周期長,建造過程中存在較多不可預估的風險因素,投資方由于沒有及時進行風險評估或者采用不恰當的方式進行風險評估而在項目建設過程中遭受了巨大的經濟損失。為有效管控投資風險,運用科學合理的方法評估投資風險因素顯得至關重要。
目前相關研究主要借鑒數學、運籌學、經濟學、計算機科學等方法對風險進行分析和評價,如套利定價理論、數理統(tǒng)計、蒙特卡洛法、模糊數學[1]、灰色系統(tǒng)理論[2,3]等方法。此外Jin[4]基于敏感性分析對建筑工程投資決策進行風險評價;Grabovy 等[5]對俄羅斯投資建設的大型項目進行總體風險評估和管理,提出了一種實用的整體風險管理程序;Demong等[6]提出一種新的基于多維數據模型和數據挖掘技術的風險因素不確定性度量方法;Das等[7]在靈敏度指數與投資者利潤之間建立了一種新型關系,以評估項目投資風險;熊靜文[8]明確了粗糙集理論在風險評價中的優(yōu)勢;王作功等[9]采用神經網絡對高速公路項目進行投資風險評價。
但神經網絡等多數評價方法采用經驗風險最小化替代期望風險最小化,且需要較大的樣本支撐,不適用于投資風險評價中數據較少的情況。近年來,最小二乘支持向量機(least Squares Support Vector Machine,LSSVM)在回歸與分類領域得到較為廣泛的應用,LSSVM基于結構風險最小化理論,克服對大樣本的依賴性,在模型的復雜程度與學習能力兩者之間尋求平衡點,較好地解決了小樣本、高維度等問題,適用于目前投資風險樣本普遍較少的情況。此外粒子群算法(Particle Swarm Optimization,PSO)以其在解決隨機優(yōu)化問題方面所具有的良好性能,受到學者普遍的關注。本文基于LSSVM較好的機器學習能力和PSO良好的尋優(yōu)能力,構建投資風險評價模型,以期為工程投資風險控制提供決策參考。
LSSVM是支持向量機(Support Vector Machine,SVM)的擴展,其待選參數相對較少,將SVM中的不等式約束轉換為等式約束,簡化SVM的求解過程。LSSVM基于數學方法和優(yōu)化理論,在VC(Vapnik Chervonenkis)維理論的基礎上通過機器學習提升模型的泛化能力,降低計算的復雜程度,提高求解的速度,避免了神經網絡“過學習”“欠學習”和“維數災難”等局限性問題。
LSSVM中核函數參數和正則化參數對機器學習的性能有較大的影響。其中,核函數參數反映支持向量的相關程度,如果取值過小,支持向量的聯(lián)系較松弛,機器學習過程相對復雜,不能保證有較好的推廣能力;如果取值過大,支持向量相互的影響將增強,但精度難以滿足規(guī)定要求。此外,正則化參數控制對誤差的懲罰程度,如果取值過小,對超出誤差的懲罰將變小,導致模型訓練的誤差增大,但推廣能力增強;如果取值過大,對應的懲罰較大,機器學習的訓練誤差減小,但推廣能力減弱。
為了保證LSSVM回歸模型具有較高的精度,應根據具體情況確定核函數參數和正則化參數的最佳取值。PSO是一種經典的群體智能進化算法,該算法結構簡單、可操作性強、收斂速度快、求解精度高,通過引導粒子在給定的解空間內進行最優(yōu)解搜索,以平均誤差作為判斷條件,對核函數參數和正則化參數的最優(yōu)值進行自動搜索。PSO改進LSSVM模型,結合了群體智能優(yōu)化和機器學習理論兩者的優(yōu)勢,使得該模型即使在投資風險樣本數量較少的情況下,相比傳統(tǒng)算法仍然具有較高的預測精度,適用于工程投資風險的評價問題。
LSSVM的基本原理為,給定一組訓練樣本集:S={(xi,yi)},i=1,2,…,l,其中xi∈Rd為LSSVM輸入數據,yi∈R為輸出數據,l為訓練樣本個數。在d維空間內的線性回歸函數為:
y=ωx+b
(1)
式中:ω為權向量;b為偏差量。在高維特征空間內的回歸函數為:
f(x)=ωφ(x)+b
(2)
式中:φ(x)是輸入空間到高維特征空間的非線性映射[10]。依據結構風險最小化理論,LSSVM的優(yōu)化目標函數為:
(3)
s.t.ωTφ(xi)+b+ei=yi,i=1,2,…,l
(4)
式中:ei為誤差變量,e∈Rl×1為誤差向量;c為正則化參數,控制對誤差的懲罰程度[11]。為了求解優(yōu)化問題,通過引入Lagrange乘子,將約束優(yōu)化轉換成無約束優(yōu)化問題:
(5)
式中:λ為Lagrange乘子,λ∈rl×1。依據KKT優(yōu)化條件得到最優(yōu)值為:
(6)
式(6)消去ω和e,將二次優(yōu)化問題轉換成求解線性方程組,求解得到:
(7)
式中:λ=[λ1,λ2,…,λl]T,Q=[1,1,…,1]T,I為單位矩陣,y=[y1,y2,…,yl]T,Ω∈Rl×l,且Ωij=φ(xi)Tφ(xj)=K(xi,xj),K(·)為滿足Mercer條件的核函數,主要用原空間內的核函數代替高維特征空間中的點積運算[12],得到LSSVM的回歸函數表達式為:
(8)
LSSVM常用的核函數有徑向基、多項式、Sigmoid等,引入核函數的目的是代替高維特征空間的內積運算,避免出現維數災難。徑向基函數形式簡單、徑向對稱、光滑性好,在處理非線性數據方面具有良好的性能[13],其表達式為:
(9)
式中:x為m維輸入向量;xi為第i個徑向基函數的中心,與x具有相同的維數;σ為核函數參數,決定函數圍繞中心點的寬度;‖x-xi‖為向量x-xi的范數,表示x與xi之間的距離[14]。
為了提高LSSVM的學習能力和泛化能力,需要對c和σ兩個參數進行優(yōu)化。傳統(tǒng)方法多數依靠經驗法、試湊法或者交叉驗證法進行參數取值,無法避免主觀思維和隨機因素的干擾,且對實際應用經驗和算法分析能力要求較高,而PSO具有實現容易、精度高、收斂快等優(yōu)越性,適用于LSSVM參數尋優(yōu)問題。
LSSVM進行工程投資風險評價的主要步驟為:
(1)輸入投資風險數據的樣本S={(xi,yi)},i=1,2,…,l;
(2)通過PSO算法搜索得到最優(yōu)的正則化參數c和核函數參數σ;
(3)選擇適當的核函數K(x,xi);
(6)用決策函數進行模型評價。
粒子群算法源于對群鳥覓食行為的觀察,初始化為一群隨機的粒子,通過個體之間的信息傳遞和共享進行全局搜索。在迭代過程中,每一個粒子通過追蹤自身搜索到的最優(yōu)解(個體極值pibest)和種群搜索到的最優(yōu)解(全局極值gbest)以實現自身的速度以及下一次迭代的位置更新[15]。
假設在一個d維的搜索空間內,有m個粒子組成一個種群,其中第i個粒子在d維空間中的位置為xi、速度為vi、搜索到的最優(yōu)位置為pi,定義向量為xi=(xi1,xi2,…,xid),vi=(vi1,vi2,…,vid),pi=(pi1,pi2,…,pid),i=1,2,…,m,整個種群搜索到的最優(yōu)位置為pg=(pg1,pg2,…,pgd)。PSO算法粒子的速度與位置更新公式為:
(10)
(11)
PSO算法優(yōu)化LSSVM參數c和σ的步驟如下:
(1)對投資風險評價數據進行歸一化預處理;
(2)設定種群粒子數m,c,σ的搜索范圍,最大迭代次數Tmax,粒子個體的維數n,慣性權重系數ω,加速常數c1,c2等參數的取值;
(3)運行PSO算法,初始化粒子群;
(5)按照粒子速度和位置更新式(10) 和(11),產生新種群;
(6)再次計算新種群中各個粒子的適應度值f;
(7)分別與種群歷史最優(yōu)位置和最優(yōu)速度比較,若更優(yōu)則替換,否則不變;
(8)最后檢驗是否滿足尋優(yōu)結束條件,若不滿足則令迭代次數t=t+1,重復步驟(4),繼續(xù)迭代尋優(yōu);
(9)若滿足則得到最優(yōu)解,將正則化參數c和核函數參數σ的最優(yōu)值賦值給LSSVM,結束搜索[16]。
投資風險評價體系的建立是風險管理過程的關鍵步驟,能否科學合理地確定工程項目面臨的投資風險因素,將影響評價結果的正確性與客觀性。為了區(qū)別投資風險與其他風險的差異,通過WBS (Work Breakdown Structure)對工程投資構成[17]進行結構分解,如圖1所示,由于各項投資構成存在不同程度的風險,因此對圖1各項投資構成存在的主要風險因素進行分析,得出工程投資風險的內在因素,投資構成與主要風險因素的對應關系如表1所示。
圖1 工程投資構成
通過工程投資構成分析得到項目面臨的內在風險因素,對于工程投資面臨的外部環(huán)境風險因素采用元分析法作為補充,如政策法律、市場經濟、不可抗力等。元分析法是對統(tǒng)計資料的再次統(tǒng)計,因此對相關投資風險的期刊文獻[18~22]進行分析整理,完善投資風險層級結構,如表2所示。
表1 投資構成與主要風險因素的對應關系
表2 投資風險層級結構
通過調研選取某市17個已完工且已有風險評價值的項目和4個新開工且缺乏風險評價值的項目。邀請全程參與項目且經驗豐富的專家,根據表2中包含的23項投資風險因素分別對21個項目進行風險打分,設定打分區(qū)間為0~10,其中區(qū)間0~2代表很低風險,2~4代表較低風險,4~6代表中等風險,6~8代表較高風險,8~10代表很高風險。為了簡化計算,設置打分值和評價值保留到整數位,其風險因素打分值及評價值如表3所示。
為了消除不同量綱的影響,提升PSO改進LSSVM模型訓練的精度和收斂的速度,首先對表3中的數據進行歸一化處理,公式為:φ=(φij-φjmin)/(φjmax-φjmin),其中,i=1,2,…,n,j=1,2,…,m,φ為歸一化后的標準值,φij為原始風險打分值,φjmin,φjmax分別代表φ1j,φ2j,…,φnj中的最小值和最大值。
表3 21個項目風險因素打分值及評價值
設定PSO算法的搜索范圍為c∈[0.1,150],σ∈[0.1,10],種群粒子數m為20,最大迭代次數Tmax為100,粒子個體維數為2,慣性權重系數ω的取值范圍為[0.4,0.9],加速常數c1=c2=2。將21個項目的風險因素得分值和17個已完工項目的風險評價值作為LSSVM的輸入向量,4個新開工項目的風險評價值作為輸出向量,其中編號1~12的項目作為模型的訓練集,編號13~17的項目作為模型的測試集,預測編號18~21的新開工項目的風險評價值。
基于Matlab 2014平臺進行仿真分析,通過PSO算法搜索尋優(yōu)得到LSSVM中正則化參數c的最優(yōu)值為94.1908,核函數參數σ的最優(yōu)值為7.8673,測試集預測的評價值及誤差如表4所示,輸出新開工項目的評價值及對應的風險評價等級如表5所示。
表4 LSSVM測試集誤差
表5 新開工項目的評價值及對應風險等級
通過計算得到,LSSVM測試集的平均誤差為2.48%,表明改進PSO優(yōu)化LSSVM模型具有較高的預測精度,能夠用于新開工項目風險值的預測。輸出結果顯示新開工項目19,21位于6~8區(qū)間內,表明其面臨較高的風險,應立即采取相應的措施,如分散籌資、多樣化經營等策略進行風險響應,避免造成投資失控,給項目帶來不可預估的損失;項目18位于4~6區(qū)間內,表明其面臨中等風險,可在項目參與方內部進行合理的風險分配,使其風險共擔,利益共享,減輕風險帶來的損失;項目20位于2~4區(qū)間內,表明其面臨較低風險,應實時對風險源進行監(jiān)控,避免風險有擴大的趨勢。
為了檢驗PSO改進LSSVM模型的有效性和先進性,通過與改進前的LSSVM、神經網絡進行對比分析,分別計算三種算法的平均誤差,如表6所示。
表6 算法平均誤差對比分析
通過對比,驗證得到PSO改進LSSVM模型的預測精度相對較高,較好地解決了投資風險數據中的小樣本問題,而目前投資風險評價普遍是小樣本的情況,因此該模型具有較強的適用性。此外,該方法較好地指導了工程項目進行投資風險評價,有利于投資方提前制定風險應對策略,降低項目的投資風險,同時提升經濟效益和社會效益。
(1)本文充分考慮了工程投資的內部和外部風險環(huán)境,基于WBS對投資構成進行結構分解,分析投資面臨的內部風險,采用元分析法作為投資外部風險因素的補充,確保構建的風險評價體系客觀、科學和全面。
(2)通過與其他算法對比,PSO改進LSSVM模型預測的精度相對較高,采用PSO算法較好地搜索LSSVM中超參數的最優(yōu)解,避免了LSSVM參數選擇的經驗化和隨機性,有利于提高投資風險評價的準確性。
(3)LSSVM克服了對大樣本的依賴性,在投資風險數據較少的情況下仍然具有良好的適用性,可推廣應用到其他工程項目中,為投資風險預警控制提供借鑒思路。