鄔建平
(嶺南師范學院 商學院,廣東 湛江 524048)
基于主成分分析與最小二乘支持向量機的電子商務信用風險綜合評分
鄔建平
(嶺南師范學院商學院,廣東湛江524048)
在國內(nèi)外文獻研究的基礎上,建立電子商務信用風險綜合評分指標體系,運用主成分分析法(PCA)對電子商務信用風險的核心指標進行提取,從19個指標中提取8個主成分作為電子商務信用風險的綜合評分指標,采用粒子群算法(PSO),選擇合適的最小二乘支持向量機(LSSVM)的懲罰因子C和RBF核函數(shù)參數(shù)σ,接著利用PCA-PSO-LSSVM組合模型對電子商務信用風險的8個主成分13家電子商務企業(yè)的訓練集進行訓練,再用測試集對信用風險指標進行預測,通過對5家電子商務企業(yè)的信用風險進行測試和驗證,可得到較為滿意的效果。實驗結果證明:通過對LSSVM、PSO-LSSVM和PCA-PSO-LSSVM預測的精度進行比較,PCA-PSO-LSSVM預測精度高,模型的組合是合理的、有效的。
主成分分析;粒子群算法;最小二乘支持向量機;電子商務;信用風險;綜合評分
Key wors: PCA; PSO; LSSVM; e-commerce; credit risk; comprehensive evaluation
近年來,我國電子商務行業(yè)發(fā)展迅猛,2015年我國電子商務交易額達7.63萬億元,比2014年增長30.4%。與此同時,電子商務欺詐現(xiàn)象嚴重,人均損失超過5 000元。隨著我國電子商務行業(yè)的進一步發(fā)展,這種損失仍將上升,這將在一定程度上限制電子商務企業(yè)健康持續(xù)發(fā)展。因此,對電子商務企業(yè)的信用風險準確評分成為當前理論和學術界關注的焦點之一。
目前,對于電子商務信用風險評分的相關文獻還沒有,都是借用其它評分說明電子商務信用風險的評分問題。姜明輝[1]等用BP神經(jīng)網(wǎng)絡對個人信用評分進行分析,經(jīng)logistic回歸、BP神經(jīng)網(wǎng)絡、優(yōu)化CBR進行比較研究,CBR模型對個人信用評分效果最好;王磊等[2]用數(shù)據(jù)挖掘方法,采用10種模型對小企業(yè)主信用評分進行應用比較,收到了良好的效果;董曉林[3]等采用多元線性回歸模型對江蘇縣域小微企業(yè)信貨融資進行信用評分,收到了較好的效果;陸愛國等[4]用改進的SVM學習方法,對學習庫中的數(shù)據(jù)集進行信用評分,與其它模型比較,準確率最高。從電子商務信用風險評分的角度分析,還存在兩個主要的缺陷:第一,電子商務信用風險評分所選用的指標體系維度過高,存在大量信息冗余;第二,現(xiàn)有評分方法多以線性方法為主,易造成多元線性問題,并對電子商務信用風險評分的非線性特征刻畫不夠。
為了解決以上兩個問題,采用組合評分方法,可有效地提高評分的精度,對于缺陷1,用主成分析法(PCA)可去掉奇異點的干擾,從原始數(shù)據(jù)空間開始,通過構造一組新的潛隱變量以降低原始數(shù)據(jù)空間的維數(shù),提取主成分,減少電子商務信用風險的數(shù)據(jù)冗余;對于缺陷2,用最小二乘支持向量機(LSSVM)計算,可對電子商務信用風險的非線性特征進行刻畫,用粒子群算法(PSO),選擇合適的最小二乘支持向量機(LSSVM)的懲罰因子C和RBF核函數(shù)參數(shù)σ,構建PCA-PSO-LSSVM組合模型,對電子商務信用風險的綜合評分進行研究。
2.1PCA原理
1901年,Pearson率先引入主成分析析法(Principle Component Analysis,PCA),1933年,由Hotelling作了進一步的發(fā)展。主成分析析法是利用降維的思想,從多個數(shù)值變量(指標)之間的相互關系入手,得到少數(shù)幾個不相關的綜合變量(指標)的統(tǒng)計方法。在電子商務信用風險評估中,為了全面客觀地分析問題,常常要記錄多個觀察指標并考慮更多的影響因素,這樣的數(shù)據(jù)雖然可以提供豐富的信息,但有時也使得數(shù)據(jù)分析工作更趨復雜化。怎樣利用這類指標的多指標數(shù)據(jù)對電子商務信用風險進行評分呢?采用所有指標進行評價,然后再綜合各指標的評價結論,這樣可能會出現(xiàn)各指標評價的結論不一致,甚至會相互沖突;用單一指標評價,其結果顯然是片面的,最好的辦法是從給定指標的關系入手,尋找少數(shù)綜合指標以概括原始指標信息的多元統(tǒng)計方法[5]。
設電子商務信用風險有m個指標X1,X2,···,Xm,欲尋找可以概括這m個指標主要信息的綜合指標為Z1,Z2,···,Zm。從數(shù)學上講,就是尋找一組常數(shù)αi1,αi2,···,αim,其中i=1,2,···,m,是這m個指標的線性組合,應用主成分分析法的操作步驟如下:
(1)對原始指標數(shù)據(jù)進行標準化,先按式(1)計算。
式(1)中,sj代表某個指標的和代表某個指標的平均值,用標準化后的數(shù)據(jù)計算主成分。為方便起見,仍用X表示標準化后的數(shù)據(jù)矩陣,則有:
式(2)中,X為標準化后的矩陣,xij為矩陣中的元素。
(2)求出X的相關矩陣R。標準化后,X的相關矩陣即為協(xié)方差矩陣Cov(x)。
式(3)中,R為相關矩陣,Cov(x)為協(xié)方差矩陣。
(3)求出相關矩陣的特征值所對應的特征向量。由于R為半正定矩陣,則R的特征方程為||R-λI=0,求得m個非負特征值,將這些特征值按從大到小的順序排列為λ1≥λ2≥…≥0,則有:
式(4)中,求解得到每一個特征值λi對應的單位特征向量從而求得各主成分:
式(5)中,Zi為主成分為特征向量。
(4)計算相關系數(shù)矩陣
式(6)中,各主成分互不相關,即Zi與Zj的相關系數(shù)為0,于是,各主成分間的相關系數(shù)矩陣為單位矩陣。
(5)求主成分的貢獻率和累積貢獻率
從式(7)可以看出,各原始指標Xi,X2,···,Xm的方差和與各主成分Z1,Z2,···,Zm的方差和相等。
第i個主成分的貢獻率為:
式(8)中,λi為特征值為主成分的方差和,i=1,2,···,m。
前k個主成分的累積貢獻率為:
(6)主成分個數(shù)的選取。選取主成分時,一般不需要全部的主成分,只用其中的前幾個,一般來說保留個數(shù)按以下原則來確定。①以累計貢獻率來確定,當前k個主成分的累積貢獻率達到某一特定值時(一般以85%為宜),則保留前k個主成分。②以特征值大小來確定,即若主成分Zi的特征值λi≥1,則保留Zi,否則就去掉該主成分。
(7)求因子載荷。為了解各主成分與各原始指標之間的關系,用第i個主成分Zi的特征值的平方根與第 j個原始指標Xj的系數(shù)αij的乘積,可得∶
式(10)中,αij稱為因子載荷,由因子載荷所構成的矩陣為:
式(11)中,Q為因子載荷矩陣,因子載荷qij就是第i主成分Zi與第 j原始指標Xj之間的相關系數(shù),它反映了主成分Zi與原始指標Xj之間聯(lián)系的密切程度與作用的方向[6]。
2.2PSO原理
粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)是一種新的基于群體智能的全局優(yōu)化算法,它源于對鳥捕食的模擬。該算法在1995年由Eberbart博士和kemedg博士提出。對于PSO來說,每個優(yōu)化問題的解決都是搜索空間的一只鳥,稱之為“粒子”。PSO算法最終通過迭代找到最優(yōu)解,起初要初始化為一群隨機粒子,則所有粒子都有一個被優(yōu)化函數(shù)決定的飛行方向與飛行距離的速度和適應度值。在優(yōu)化過程中,在解空間中進行有效搜索,且每個粒子追隨、記憶當前的最優(yōu)粒子[7]。粒子群算法的數(shù)學描述為:假設在一個m維的搜索空間中,由n個粒子組成的種群x=(x1,x2,···,xn)T,其中第 i個粒子位置為 xi=(xi,1,xi,2,···,xi,n)T,其速度為vi=(vi,1,vi,2,···,vi,n)T。其中,它的個體極值為 pi=(pi,1,pi,2,···,pi,n)T,種群的全局極值為 pg=(pg,1,pg,2,···,pg,n)T,粒子在找到上述值后,就根據(jù)下面兩個公式來更新自己的速度與位置:
式(12)、(13)中,c1和c2為學習因子或加速數(shù),通常設表示第k次迭代中第d維的速度和位置,rand()為介于[0,1]的隨機數(shù)為粒子i在第d維的全局值的位置為粒子i在第d維的個體極值的位置。
粒子根據(jù)三條原則來更新自身狀態(tài),其一是,保持自身的慣性,其二是按自身的最優(yōu)位置改變自身的狀態(tài),其三是按群體的最優(yōu)位置改變狀態(tài)。
PSO算法的步驟為:
步驟1:每個粒子代表解空間的一個候選解。
步驟2:由適應度函數(shù)決定解是優(yōu)解或劣解。
步驟3:在算法的每次迭代中,粒子總是跟蹤自身當前找到的最優(yōu)解。
步驟4:粒子群找到當前的全局最優(yōu)解進行搜索,直到得到最后的最優(yōu)解[8]。
2.3LSSVM原理
支持向量機的復雜度與輸入空間維數(shù)無關,并依賴于樣本數(shù)據(jù)數(shù)量,且當樣本較多時,訓練時間就相當長。針對以上缺陷,Suykens等提出了LSSVM算法,把不等式約束改成等式約束,將支持向量機的損失函數(shù)設定成誤差平方和,加快了訓練時間,待優(yōu)化參數(shù)減少,降低問題的計算復雜度。用最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)模型對電子商務信用風險指標進行綜合評分。
式(14)中,非線性函數(shù)φ(·)的作用是將輸入的非線性樣本映射到高維特征空間的線性輸出,f(x)為描述函數(shù),內(nèi)積為描述函數(shù)的復雜度,它表示原低維空間到F空間的非線性映射;b表示常數(shù),其中b∈R,ω表示權向量,根據(jù)風險最小化原理,可得到LSSVM的最優(yōu)化回歸模型為:
式(14)、(15)中,εi為松馳變量,γ為懲罰因子,ω∈Rn為權向量,φ(·)為非線收斂空間的映射函數(shù)。
為求解優(yōu)化函數(shù)的最小值,當常數(shù)λ>0時,構造如下拉格朗日函數(shù)為∶
式(16)中,αi為拉格朗日乘子,αi∈R。
根據(jù)KKT(Karush-Kuhn-Tucker)最優(yōu)條件,令L對ω、b、ε、α的偏導數(shù)等于0,則有:
式(17)中,對于i=1,2,···,n,消除ω和εi后,得到線性方程組為:
式(18)中,α=[α1,α2,···,αn]T,1v=[1,1,···,1]T,y=[y1,y2,···,yl]T,Ω為l×l為非負正定矩陣,I為1階單位矩陣,滿足Mercer條件:Ωij=K(xi,xj)=φ(xi)Tφ(xj),i,j=1,2,···,l,K(·)為支持向量機的核函數(shù),對于任一個函數(shù),可以確定一個Ω,并由以上線性方程組求解α,b,可得LSSVM的預測函數(shù)為:
式(19)中,本文LSSVM的核函數(shù)采用徑向基核函數(shù),徑向基核函數(shù)定義如下:
式(20)中,σ表示徑向基核寬度。其中,K(xi,xj)為滿足Mercer條件的支持向量機的核函數(shù)RBF,它可以解決在未知非線性變換具體條件下實現(xiàn)算法的非線性化,這就是支持向量機算法的一個非常明顯的特點,它能較好地捕捉時間序列的非線性特征[9]。
2.4組合模型
根據(jù)電子商務信用風險評分的特點,構建PCAPSO-LSSVM組合模型,對電子商務信用風險進行綜合評分,其組合模型流程圖如圖1所示。
圖1 PCA-PSO-LSSVM組合模型流程圖
組合模型操作步驟:
(1)數(shù)據(jù)準備和預處理。將電子商務信用風險的各指標數(shù)據(jù)進行標準化,構建標準化后的矩陣。
(2)數(shù)據(jù)標準化后,將電子商務信用風險數(shù)據(jù)進行主元分析,計算協(xié)方差的特征值。
(3)特征向量的選取。采用PCA方法,對輸入的特征向量進行線性降維,降維的標準是選取包含85%以上信息的主元特征向量,即累計貢獻率占85%。
(4)選取支持最小二乘法的參數(shù)。對于最小二乘近似支持向量回歸模型的核函數(shù)設為RBF函數(shù),懲罰因子c和RBF核函數(shù)參數(shù)σ采用PSO算法的適應度函數(shù)來選擇。
(5)利用最佳參數(shù)訓練LSSVM(訓練集)。用PSO選取后的懲罰參數(shù)C和σ訓練LSSVM訓練集。
(6)驗證測試集。用以上決策函數(shù)對測試集進行評分,將電子商務企業(yè)的數(shù)據(jù)一部分用于訓練,一部分用于預測,對前面訓練的結果進行測試,檢驗選擇的懲罰因子c和RBF核函數(shù)參數(shù)σ是否合理。
(7)誤差檢驗。用LSSVM、PSO-LSSVM和PCAPSO-LSSVM模型比較平均絕對相對誤差(Mean Absolute Percent Error,MAPE)和均方根誤差(Root Mean Squre Error,RMSE),檢查模型的合理性。
本文采用文獻[10]的數(shù)據(jù)來進行電子商務信用風險綜合評分的實證研究,首先要構建電子商務信用風險綜合評分的指標體系,然后,利用PCA-PSO-LSSVM組合模型進行綜合評分。
3.1指標體系構建
電子商務信用風險綜合評分指標體系的建立,要遵循代表性、全面性和可驗證性原則,指標確定的研究對象為電子商務企業(yè),對企業(yè)的資金、人才、技術、品牌、市場的能力要通過相關指標反映出來,構建綜合評分指標體系要符合電子商務企業(yè)的實際情況。建立電子商務信用風險綜合評分指標體系,見表1。
表1 電子商務信用風險綜合評分指標體系
3.2模型評分預測
根據(jù)表1的指標,通過專家論證、數(shù)據(jù)獲取的難易,剔除掉不易計算和數(shù)據(jù)不易獲取的部分指標,確定19個指標為電子商務信用風險的綜合評分指標體系,其指標為:銷售利潤率X1、總資產(chǎn)報酬率X2、凈資產(chǎn)收益率X3、成本費用利潤率X4、總資產(chǎn)周轉(zhuǎn)率X5、流動資產(chǎn)周轉(zhuǎn)率X6、存貨周轉(zhuǎn)率X7、應收賬款周轉(zhuǎn)率X8、數(shù)字證書的等級X9、已獲利息倍數(shù)X10、流動比率X11、速動比率X12、平臺服務商信用X13、資本積累率X14、總資產(chǎn)增長率X15、固定資產(chǎn)更新率X16、貨款逾期率X17、毀約率X18、貿(mào)易額增長率X19,以上19個指標為電子商務信用風險的綜合評分指標。用以上18家電子商務企業(yè)的信用風險綜合評分指標的原始數(shù)據(jù)進行歸一化處理,求出指標體系的相關系數(shù)矩陣,確定主成分累積貢獻率為85%以上具有代表性的指標,見表2。
表2 特征值與累積貢獻率
從表2可以看出,累積貢獻率在85%以上的指標為8個指標,實際貢獻率為87.879%,指標分別為X1、X2、X3、X4、X5、X6、X7、X8,這些指標能代表所有的指標,進行電子商務信用風險的綜合評分。
為了利用PCA-PSO-LSSVM組合模型對電子商務信用風險進行綜合評分,將18家企業(yè)的前13家設為訓練樣本,后5家設為測試樣本,驗證PCA-PSO-LSSVM組合模型的可靠性,將8個主成分作為自變量,作為最小二乘近似支持向量回歸模型的輸入,將模型得分作為最小二乘近似支持向量回歸模型的輸出,利用最小二乘向量機回歸的主要目的是尋找綜合評分與13個評分指標之間的非線性關系,從而進行外推評分。一般情況下,最小二乘近似支持向量回歸模型的核函數(shù)為RBF函數(shù),懲罰因子子為c,RBF核函數(shù)的參數(shù)為σ,利用PSO方法來優(yōu)化確定其參數(shù)的大小,再利用Matlab12.0語言進行編程,可以對樣本進行訓練和測試,運用PCAPSO-LSSVM組合模型進行訓練,選用前13家企業(yè)的指標數(shù)據(jù)來做為模型的訓練樣本,其對應的模型評分見表3。
表3 最小二乘支持向量模型評分表(訓練集)
從表3可以看出,模型評分與實際評分進行比較,是匹配的,證明模型具有較好的擬合效果,為了測試模型對上市電子商務企業(yè)信用風險評分的預測能力,本文在已有訓練樣本之外,選取了剩余5家電子商務企業(yè)測試樣本進行檢測和驗證,預測的結果見表4。
表4 最小二乘支持向量模型評分測試表(測試集)
從表4可以看出,5家電子商務企業(yè)的模型預測結果比較吻合實際評分結果,說明PCA-PSO-LSSVM組合模型對電子商務信用風險的評分有較強的預測能力。
3.3模型組合的擬合性檢測
為了檢驗PCA-PSO-LSSVM模型的優(yōu)越性,選擇LSSVM、PSO-LSSVM和PCA-PSO-LSSVM進行比較,模型性能評價標準為:平均絕對誤差(Mean Absolute Percent Error,MAPE)和均方根誤差(Root Mean Squre Error,RMSE)[8],它們的定義如下:
對于式(21)、(22),xi為電子商務信用風險指標的實測值為某指標的預測值,i為測試期數(shù),i=1,2,···,n,MAPE、RMSE的值越小,模型的預測精度越高,模型的擬合效果越好。各種方法的預測效果見表5。
表5 三種預測方法誤差比較
從表4可以看出,PCA-PSO-LSSVM模型的RMSE、MAPE值最小,說明PCA-PSO-LSSVM模型比單個的模型預測評分精度要高,PSO-LSSVM比LSSVM的評分精度要高,PCA-PSO-LSSVM的評分精度最高,說明PCAPSO-LSSVM的擬合度最好,同時也說明本文提出的PCA-PSO-LSSVM模型是科學合理的。
為了提高電子商務信用風險的綜合評分能力,本文提出了PCA-PSO-LSSVM組合模型對電子商務信用風險進行綜合評分,并利用18家電子商務企業(yè)的19個指標的相關樣本數(shù)據(jù)進行了實證分析。實證結果顯示:PCA-PSO-LSSVM組合模型對電子商務信用風險的綜合評分有較強的預測評分能力,與其他電子商務信用風險綜合評分模型相比,基于PCA-PSO-LSSVM組合模型的電子商務信用風險綜合評分模型具有參數(shù)少、計算速度快、預測準確等優(yōu)點,然而,由于樣本收集較為因難。建議評分在60以下的企業(yè)要加強信用風險的防范,改進工作,提高抗風險能力;評分在60分以上的企業(yè),說明該電子商務企業(yè)風險小,有抗風險的能力要優(yōu)化風險調(diào)控結構,提高風險防范意識。
[1]姜明輝,許佩,韓旖桐,等.基于優(yōu)化CBR的個人信用評分研究[J].中國軟科學,2014,(12)∶148-156.
[2]王磊,范超,解明明.數(shù)據(jù)挖掘型在小企業(yè)主信用評分領域的應用[J].統(tǒng)計研究,2014,31(10)∶89-97.
[3]董曉林,陶月琴,程超.信用評分技術在縣域小微企業(yè)信貨融資中的應用[J].農(nóng)業(yè)技術經(jīng)濟,2015,(10)∶107-116.
[4]陸愛國,王玨,劉紅衛(wèi).基于改進的SVM學習算法及其在信用評分中的應用[J].系統(tǒng)工程理論與實踐,2012,32(3)∶515-522.
[5]Wei-Li Qin,Wen-Jin Zhang,Chen Lu.A Method for Aileron Actuator Fault Diagnosis Based on PCA and PGC-SVM[J]. Journal of Economics and Business,2016,25∶254-261.
[6]孫振球,徐勇勇.醫(yī)學統(tǒng)計學[M].北京∶人民衛(wèi)生出版社,2002.
[7]龍文,梁昔明,龍祖強,等.PSO-LSSVM灰色組合模型在地下水埋深預測中的應用[J].系統(tǒng)工程理論與實踐,2013,33(1)∶243-248.
[8]朱幫助,魏一鳴.基于GMDH-PSO-LSSVM的國際碳市場價格預測[J].系統(tǒng)工程理論與實踐,2011,31(12)∶2 264-2 271.
[9]余樂安.基于最小二乘法近似支持向量回歸模型的電子商務信用風險預警[J].系統(tǒng)工程理論與實踐,2012,32(3)∶508-514.
[10]王新輝.基于BP神經(jīng)網(wǎng)絡的國際電子商務信用風險預警模型研究[D].沈陽∶沈陽工業(yè)大學,2006.
Evaluation of E-commerce Credit Risks Based on Kernel PCA and Neural Network
Wu Jianping
(School of Business, Lingnan Normal University, Zhanjiang 524048, China)
In this paper, in order to reinforce the classification of the e- commerce credit risks and reduce the complexity of the ecommercecategorization, we established the e- commerce credit risk classification model using the kernel PCA, PSO and neural networkalgorithm. More specifically, we pre- treated the data, had its eigenvalue and eigenvector extracted using the kernel PCA to reduce thedimensionality of the data, next, using the modified PSO, searched and determined the inertial weight and threshold value of the BP neuralnetwork, using the BP neural network to train the data of 13 enterprises and then tested and forecast the data of another five, and finallyclassified the results of the 18 enterprises. Through the application, we verified the merit of the KPCA-MPSO-ANN based model in thisrespect.
F713.36;F224
A
1005-152X(2016)03-0087-07
10.3969/j.issn.1005-152X.2016.03.020
2016-02-15
國家級星火計劃項目(2013GA780086);湛江市第一批財政資金科技專項備用經(jīng)費項目(湛科[2013]120號);南海絲綢之路協(xié)同創(chuàng)新中心資助
鄔建平(1962-),男,湖北仙桃人,博士,高級實驗師,研究方向:電子商務智能管理、電子商務綜合評價。