溫廷新,孔祥博
遼寧工程技術(shù)大學 系統(tǒng)工程研究所,遼寧 葫蘆島125105
近年來,經(jīng)濟全球化發(fā)展和互聯(lián)網(wǎng)金融的普及使中國正置身于高速駛進的金融列車之上,中國金融市場走向有越來越強的趨勢。金融理財產(chǎn)品更加多樣化,諸多產(chǎn)品的創(chuàng)新為傳統(tǒng)金融市場開啟了新大門,市場結(jié)構(gòu)也在不斷發(fā)生著改變。短期融資券的發(fā)行、債券市場結(jié)構(gòu)變化和股票市場融資功能使得直接融資規(guī)模得以提高。市場交易者結(jié)構(gòu)、管制措施、定價機制、交易品種類等也都發(fā)生了變化,給金融市場帶來潛移默化影響的同時也帶來更多的風險。從整體上來講,我國金融市場較其他發(fā)達國家而言成立時間尚短且存在許多隱患問題,經(jīng)歷數(shù)次金融市場的動蕩起伏考驗更加暴露出了其體系不完善及抗風險性弱等問題。
金融市場風險是金融市場變量變動或波動引起的金融資產(chǎn)未來價值的不確定性。而極端金融風險(extremely financial risk)會給生產(chǎn)生活帶來嚴重損失,將導致金融市場的劇烈動蕩并引起資產(chǎn)的暴漲暴跌。金融風險廣泛蘊含于各種金融交易和商品交換的信用支付過程中,屬于系統(tǒng)性風險,并且其易成為其他類型金融風險的引發(fā)因素。金融風險的類型主要涵蓋價格風險、匯率風險、利率風險和通脹風險。
為了應對金融風險災害,眾多學者提出了不同算法并構(gòu)建預警模型來預測金融市場極端風險的發(fā)生。Ahn 等運用SVM 對金融市場風險進行建模,結(jié)果表明其能夠有效預測金融市場風險[1]。林宇、黃迅等人起初運用隨機欠采樣(RU)和少數(shù)類過采樣(SMOTE)算法結(jié)合支持向量機對金融市場極端風險進行預測[2],后通過改進利用自適應合成抽樣法和逐級優(yōu)化遞減欠采樣方法對SVM進行了改進,使得模型能夠克服SMOTE的過擬合問題[3]。肖斌卿、楊旸等人利用遺傳算法(GA)優(yōu)化人工神經(jīng)網(wǎng)絡(luò)(ANN)模型對2013年我國金融安全狀況進行了預測[4]。李夢雨用K-means 算法對金融系統(tǒng)風險進行分類,然后利用BP 神經(jīng)網(wǎng)絡(luò)建立金融系統(tǒng)風險預警模型[5]。衣柏衡、朱建軍等人對SMOTE 算法進行了改進,并將其應用于小額貸款公司客戶信用風險評估[6]。蔣先玲、張慶波將SMOTE 算法和隨機森林結(jié)合的模型應用于供應鏈金融信用風險中并建立信用風險評估指標體系以獲得更準確的結(jié)論[7]。徐國祥和楊振建利用主成分分析和遺傳算法結(jié)合支持向量機模型[8]構(gòu)建了PCA-GA-SVM 模型,分析了影響滬深300 指數(shù)的特征指標,并對金融風險進行了預測。以上學者對于金融風險模型的構(gòu)建及論證已經(jīng)有了一定的成果,為我國金融風險預測做出了貢獻,但模型求解效率與準確度仍有改進余地。
極端金融風險出現(xiàn)的事件概率較小,因此數(shù)據(jù)樣本存在明顯的樣本不均衡情況,此情況將導致模型訓練時易出現(xiàn)過擬合問題。SMOTE方法是眾多學者公認的平衡樣本的方法,而支持向量機也是一種高維度區(qū)分能力顯著且泛化能力較強的算法。在本文中SMOTE用于對不平衡數(shù)據(jù)樣本進行過采樣,然后使用因子分析來提取特征,后通過粒子群優(yōu)化算法全局搜索支持向量機的最優(yōu)參數(shù),利用最小二乘支持向量機LSSVM 降低計算復雜度并提升效率,構(gòu)造了SMOTE-PSO-LSSVM的風險識別預測模型,提高了識別金融風險能力和風險預控水平。
粒子群優(yōu)化(Particle Swarm Optimization,PSO)是Eberhart 和Kennedy 在1995 年提出的一種全局搜索算法,結(jié)合了動物仿生中鳥類覓食和群聚的行為。它將每個優(yōu)化問題視為搜索空間中的鳥或粒子,并且每個粒子具有由適應度函數(shù)所調(diào)整的值。每個粒子還具有飛行速度和方向特征,之后粒子會在迭代尋優(yōu)中被優(yōu)化。
在每個迭代尋優(yōu)過程中,粒子通過個體極值和種群極值進行自我更新:粒子本身所發(fā)現(xiàn)的最優(yōu)解(個體極值pbest)和當前由整個種群發(fā)現(xiàn)的最優(yōu)解(全局極值gbest),即:
式中,t 是迭代次數(shù);vi(t)是第i 個粒子在t 次迭代的速度;ω 是慣性權(quán)重參數(shù);c1,c2是認知系數(shù);R1,R2是均勻分布隨機數(shù);Rbi(t)是粒子i 個體歷史最優(yōu)位置;Rbg(t)是群體歷史最優(yōu)位置;xi(t)是粒子在t 次迭代的位置;φ 是一個收縮因子,用來保持速度在一定范圍內(nèi)。
PSO算法是一種隨機搜索和并行優(yōu)化算法,其優(yōu)勢在于簡單、魯棒性好、易于實現(xiàn)、速度快,易找到問題的全局最優(yōu)解,故本文選擇PSO算法對最小二乘支持向量機進行尋優(yōu)來建立金融風險預測模型。
Suykens等人[9]修改了SVM進而得到了最小二乘支持向量機,它以最小平方誤差作為損失函數(shù),并使約束中的不等式約束化為等式約束。
對于給定的數(shù)據(jù)集(xi,yi),x ∈Rl,y ∈R,i=1,2,…,n,其中,xi是輸入數(shù)據(jù),維度是l ;yi為對應的輸出數(shù)據(jù)。針對LSSVM,求解最優(yōu)化問題的目標函數(shù):
式中,φ(?)是非線性函數(shù),w 是權(quán)值,b 是偏置項,ei是誤差,C 是懲罰系數(shù)。
通過拉格朗日乘子將式(1)中的約束優(yōu)化問題變?yōu)闊o約束優(yōu)化問題,對應的拉格朗日函數(shù)表達式為:
式中,αi是拉格朗日乘子。
對式(2)中的變量求偏導,采用徑向基核函數(shù)(Radial Basis Function,RBF):的分類函數(shù)表達式如下:
懲罰參數(shù)C 和核參數(shù)σ 對LSSVM 模型的訓練學習能力以及泛化能力起到?jīng)Q定性作用,LSSVM 的分類效果也是由C 和參數(shù)σ 的值共同決定的。
極端金融風險的主流鑒定方法目前有兩種,其一是以金融危機發(fā)生時間段作為危機樣本劃分依據(jù)來劃分危機樣本,其二是使用EVT 值作為門檻約束來過濾出危機樣本,如果樣本值低于門檻值則界定為危機樣本,反之若高于門檻值則為非危機樣本。以上兩種方法都有其各自優(yōu)勢,目前沒有最優(yōu)的標準。本文將通過把金融危機時期和EVT 兩種界定方法結(jié)合的方式確定指標,共同界定極端風險樣本。將既發(fā)生在危機時間段內(nèi)又低于EVT 門檻值的樣本界定為極端風險樣本,其余樣本認定為非極端樣本。
表1 CSI 300與其余收益率之間的下尾相依系數(shù)
表2 不同方法求解門檻值
常見的EVT門檻值確定方法有:Hill圖法[10]、MEF圖法[11]、峰度法、1.65σ 估計法[12]、10%估計法[13]。本文將計算上述5種求門檻值的方法,并最終求平均值μˉ作為界定值。
特征指標變量的選擇直接影響模型構(gòu)建的好壞和預測性能,因此對于指標變量的選取已經(jīng)有學者提出適合的指標[2]。所提出的8項股指基本指標內(nèi)部特征指標分別為開盤價、收盤價、最高價、最低價、成交量、成交額、漲跌額、漲跌幅。本文另外加入兩項特征指標前收盤價和換手率。收益率能更好地反映市場綜合信息,從而選取8 個外部風險特征指標收益率來反映國際金融市場對國內(nèi)金融市場的影響,外部風險特征指標為:恒生指數(shù)日收益率(HSI)、韓國股指日收益率(KOSPI)、臺灣加權(quán)指數(shù)日收益率(TWII)、標準普爾指數(shù)日收益率(GSPC)、納斯達克指數(shù)日收益率(NASDAQ)、日經(jīng)225指數(shù)日收益率(Nikkei225)、道瓊斯工業(yè)平均指數(shù)日收益率(DJIA)、英國金融時報指數(shù)(FTSE100)。
利用下尾相關(guān)系數(shù)檢驗兩個市場同步的概率,刻畫國外股指對中國股指的影響程度[14]。由Clayton Copula計算的滬深300與國外股票指數(shù)下尾相依系數(shù)如表1所示。
觀察表中數(shù)據(jù)發(fā)現(xiàn)下尾相依系數(shù)大于0.1的有HSI、KOSPI 和TWII,小于0.1 的有Nikkei225 和FTSE100,趨近于0 的有GSPC、NASDAQ 和DJIA。因此本文選取HSI、KOSPI和TWII作為外部特征指標,參考文獻[2]中已經(jīng)對指標進行卡方檢驗并通過擬合優(yōu)度檢驗證實了其有效性,這里不再論證。
模型訓練樣本數(shù)據(jù)為2014年12月10日—2015年9月10日滬深300指數(shù)共計185條樣本,查閱相關(guān)資料得出極端危機發(fā)生時間段為2015 年6 月15 日—2015 年9月10日共計61條數(shù)據(jù)。
利用上述的五種計算門檻值的方法確定各自門檻值并求平均,結(jié)果如表2所示。
根據(jù)門檻值均值進行樣本篩選,將發(fā)生在極端危機時間段內(nèi)且低于門檻值的樣本歸為金融極端風險樣本,共計26條。
觀察樣本數(shù)據(jù)發(fā)現(xiàn)極端風險樣本與正常樣本在數(shù)據(jù)量上有較大差異屬于不平衡樣本集,因此需要利用過采樣算法將少數(shù)類樣本進行擴充合成新樣本。
SMOTE 算法過程:少數(shù)類樣本集設(shè)為T ,則最終少數(shù)樣本將被合成NT 個新樣本。聲明N 必須是正整數(shù),當給定N 為小于1的數(shù)時算法將N 視為1。
過程如下,取一個少數(shù)類樣本i,它的特征向量xi,i ∈{1,2,…,T}:
(1)找到少數(shù)類樣本xi的k 個近鄰樣本,利用歐氏距離計算得出,記作xi(near),near ∈{1,2,…,k}。
(2)從這k 個近鄰樣本中隨機選擇一個樣本xi(nn),通過生成一個0至1之間的隨機數(shù)?1,合成新樣本xi1:。
(3)重復步驟(2)執(zhí)行N 次,得到N 個新樣本:xinew,new ∈1,2,…,N 。對全部T 個樣本進行如上操作得到NT 個新樣本。
通過上述方法共合成風險樣本總計130條,使風險樣本與正常樣本數(shù)據(jù)量基本平衡。在模型運算之前需要對數(shù)據(jù)進行歸一化操作消除量綱影響。
使用因子分析法對歸一化后的數(shù)據(jù)進行因子分析提取主要影響因子[15],將X1收盤價、X2最高價、X3最低價、X4開盤價、X5前收盤價、X6漲跌額、X7成交量、X8成交金額、X9 漲跌幅、X10 換手率利用SPSS 軟件首先進行KMO 樣本測度及巴特萊特(Bartlett)檢驗,得到結(jié)果如表3。由表3可得,KMO值為0.811,說明這10個變量適合作因子分析,且Bartlett 球體檢驗統(tǒng)計值顯著性概率Sig.值為0小于0.05,因此再次說明了這10個相關(guān)性較強的變量適合作因子分析。
表3 KMO樣本檢驗與巴特萊特球體檢驗
使用SPSS 對這10 個變量進行因子分析得到方差解釋如表4,從表4 中看出這10 個特征中可以提取2 個公共因子F1和F2,特征值均大于1,總貢獻率為89.791%,即這兩個因子包含了原始10個指標中89.791%的信息量,碎石圖(見圖1)同樣顯示拐點接近于第二個特征值位置。
表4 總方差解釋
圖1 碎石圖
利用SPSS 得到兩個因子F1和F2與原始10 個特征的因子載荷矩陣,如表5所示。從表5中可以發(fā)現(xiàn),所提取的兩個因子中F1由收盤價、最高價、最低價、開盤價、前收盤、成交量、成交金額構(gòu)成,而F2由漲跌額、漲跌幅及換手率構(gòu)成,F(xiàn)1及F2部分取值見表6。
表5 因子載荷矩陣
表6 F1 與F2 取值
將提取的主成分F1、F2作為PSO-LSSVM 的輸入向量,將分類結(jié)果(極端風險樣本、正常樣本)作為輸出向量建立模型。通過使用Matlab2014a 進行編程,設(shè)置粒子群種群規(guī)模為30,進化300次,得到圖2所示適應度變化曲線,從曲線可以看出迭代70 次時適應度趨于平緩不再發(fā)生改變,此時得到LSSVM的最優(yōu)參數(shù)。
圖2 適應度變化曲線
為了對比SMOTE-PSO-LSSVM與其他模型在精度和效率方面的性能優(yōu)劣,選擇了LSSVM、GA-SVM、PSO-SVM、BPNN、PSO-LSSVM進行對比實驗。
實驗測試數(shù)據(jù)選取了我國2007 年—2010 年滬深300指數(shù)并進行了數(shù)據(jù)預處理,樣本中含極端風險樣本193條,將遺傳算法的迭代次數(shù)設(shè)置為300,種群大小設(shè)置為40,交叉概率設(shè)置為0.8,變異概率為0.1,經(jīng)過反復試算確定SVM 模型參數(shù)為:krnel_type=“RBF_kernel”,cost=1,eps=0.0020,degree=4;粒子群算將迭代次數(shù)設(shè)置為300,種群大小也是30,最大粒子速度設(shè)置為0.01,最小值為-0.01,粒子大小介于0和1之間,加速常數(shù)設(shè)置為2,最大權(quán)重系數(shù)ωmax=0.9,最小權(quán)重系數(shù)ωmin=0.1。BP 神經(jīng)網(wǎng)絡(luò)將輸入層設(shè)置為2 個節(jié)點,隱藏層節(jié)點數(shù)為9,輸出層節(jié)點為2(1 表示為[10],2 表示為[01],選擇其中120個樣本進行訓練,用30個樣本進行測試,采用5折交叉驗證共實驗30次,并將最終結(jié)果取平均值,對比結(jié)果如表7所示。
表7 不同模型預測結(jié)果比較
從表7 中可以得出SMOTE-PSO-LSSVM 算法在預測金融風險樣本上的效果提升明顯,準確率高于其他模型,在運行速度上相較于遺傳算法和粒子群優(yōu)化的支持向量機也有了明顯的提升,原因是采用最小二乘支持向量機降低了運算復雜度提高了效率。
將不同模型作用在滬深300 指數(shù)數(shù)據(jù)上并預測20條樣本測試數(shù)據(jù)(分類1為風險樣本,2為正常樣本),預測結(jié)果如圖3 所示。從圖3 中可以看出SMOTE-PSOLSSVM 模型預測精度很高僅錯判了一個樣本,誤判率低于其余四種模型,其作用在不平衡數(shù)據(jù)樣本集上效果尤為明顯。
圖3 各模型效果對比
本文利用滬深300 數(shù)據(jù)對中國金融市場極端風險進行預警研究,通過用SMOTE、PSO與最小二乘支持向量機LSSVM 組合以構(gòu)建SMOTE-PSO-LSSVM 模型。與LSSVM、GA-SVM、PSO-SVM、BPNN、PSO-LSSVM對比發(fā)現(xiàn)SMOTE-PSO-LSSVM模型具有優(yōu)秀的金融風險識別能力,在精度與準確率上均優(yōu)于其他模型。
通過研究證實了SMOTE-PSO-LSSVM模型能夠較為準確預測我國金融市場極端風險的發(fā)生,對金融市場的風險把控起到了一定的作用。同時可以使投資者更加警惕危機的來臨,對投資決策金融理財產(chǎn)品以及把握買賣時機等起到了關(guān)鍵作用。