黃 超,韓婷婷,吳 芃,仲偉俊
(東南大學 經(jīng)濟管理學院,南京 210096)
財務危機預警是以財務信息為基礎(chǔ),對企業(yè)在經(jīng)營管理活動中的潛在財務危機風險進行診斷與預測。Fitzpatrick[1]最早利用單變量模型對公司財務危機進行預警研究,隨后,許多學者運用logistic回歸以及Probit模型等方法對財務危機預警研究進行改進[2-3]。近年來,隨著人工智能技術(shù)的發(fā)展,以神經(jīng)網(wǎng)絡(luò)為代表的非參數(shù)方法開始被應用到財務危機預警研究領(lǐng)域[4]。支持向量機(SVM)是一種基于統(tǒng)計學習理論的機器學習算法[5],由于其在解決非線性逼近、局部最優(yōu)解方面具有比神經(jīng)網(wǎng)絡(luò)更優(yōu)良的性能,近年來在財務危機預警領(lǐng)域得到了關(guān)注,Shin[6]和丁德臣[7]的研究都表明,SVM方法較多元判別分析、Logistic回歸以及神經(jīng)網(wǎng)絡(luò)方法具有更高的精度。
研究表明,核函數(shù)對于SVM的學習性能和預測精度具有重要影響,宋新平[5]基于線性核、RBF核以及多項式核等SVM模型對企業(yè)財務危機預警進行比較研究,結(jié)果表明,不同核函數(shù)對于預警精度具有顯著影響[8],因此,核函數(shù)成為近年來SVM領(lǐng)域的研究熱點。由于小波在信號處理方面所具有的良好性質(zhì),如何構(gòu)造小波核函數(shù)及小波SVM得到了廣泛關(guān)注[9],但相關(guān)研究大多集中在非正交小波和正交小波領(lǐng)域。研究還表明,雙正交小波具有構(gòu)造的靈活性、線性相位性質(zhì)以及較高的消失矩,因此具有更好的非線性信號逼近能力[10]。為了充分利用不同核函數(shù)的特征映射能力,學者們開始研究組合多個核函數(shù)構(gòu)造混合核函數(shù)。Lu[11]將多項式核和高斯核進行線性組合,程硯秋[12]則將高斯核函數(shù)和Morlet小波核進行線性組合,試驗結(jié)果均表明,混合核SVM比單核SVM具有更高的學習性能和預測精度。
在財務危機預警中,財務指標的特征子集選擇對預警的準確性具有重要影響[7]。由于企業(yè)財務指標之間存在復雜的線性和非線性相關(guān)性,學者們基于多種方法對預警指標進行特征選擇[7,13]。核主成分分析(KPCA)方法通過將核方法引入到主成份分析方法中,具有比主成分分析、獨立主成分分析等方法更好的特征選擇能力[14]。Zhou等[15]運用KPCA方法和小波核SVM進行財務危機預警研究,結(jié)果表明,KPCA方法能夠有效處理具有非線性特征的財務指標數(shù)據(jù)。由于KPCA方法是通過核函數(shù)將數(shù)據(jù)映射到高維特征空間進行特征提取,故核函數(shù)的選擇會直接影響KPCA方法對財務指標特征提取的結(jié)果,進而影響預警模型精度。
由于KPCA方法以及SVM的性能均與核函數(shù)緊密相關(guān),研究具有更優(yōu)非線性數(shù)據(jù)處理性能的核函數(shù)對于提高財務危機預警精度具有重要意義。本文首先基于小波多分辨分析理論以及雙正交小波基下的函數(shù)分解特性,構(gòu)造了一類新的雙正交小波核函數(shù)并證明其滿足正定核的容許性條件。隨后將其與線性核組合構(gòu)造了新的雙正交小波混合核函數(shù),在此基礎(chǔ)上,提出了基于雙正交小波混合核函數(shù)的KPCA-SVM財務危機預警模型。最后,以我國上市公司為對象進行財務危機預警的實證研究。
設(shè)x是n維實數(shù)空間Rn中的一個子集,如果存在從x到某個Hilbert空間H的映射Φ:x→Φ(x),x∈x,Φ(x)∈H,使得K(x,x′)=〈Φ(x),Φ(x′)〉,其中〈·,·〉表示H的內(nèi)積,則稱定義在x×x上的函數(shù)K(x,x′)是核函數(shù)。核函數(shù)的基本思想是對輸入空間中的非線性問題,選擇一個適當?shù)挠成洇担簒?Φ(x),將輸入空間的樣本點x映射到一個高維特征空間H中,從而轉(zhuǎn)化成該特征空間H中的線性問題。
設(shè)ψ(t)∈L2(R),如果函數(shù)ψ(t)的平移和伸縮{ψm,n∈Z}構(gòu)成R上平方可積空間L2(R)的一個Riesz基,則稱ψ(t)是一個Riesz函數(shù)。對于一個Riesz函數(shù)ψd(t),如果存在函數(shù)ψd(t)∈L2(R),滿 足〈ψm,n,〉=δmj·δnk,?m,n,j,k∈Z,其中,
則稱ψ(t)和ψd(t)互為對偶雙正交小波。
對于雙正交小波ψ(t)和ψd(t),由于{ψm,n(t)}m,n∈Z和{(t)}j,k∈Z構(gòu)成L2(R)的雙正交Riesz基,故L2(R)中的任意函數(shù)f(t)可以通過雙正交小波函數(shù)進行展開。因此,對任意f(t)∈L2(R),有
若f(t)按基展開,則有
其中:
設(shè){Vj}和是L2(R)的2個多分辨率分析,其中,空間Vj由{φj,n}n∈Z生成,空間由生成,如果滿足〈φ(t-m),φd(t-n)〉=δmn,?m,n∈Z,則φ(t)和φd(t)為雙正交對偶尺度函數(shù)。若hn和分別為對偶尺度函數(shù)φ(t)和φd(t)的尺度系數(shù),則雙尺度系數(shù)滿足如下雙正交條件:
由此根據(jù)雙正交性質(zhì),對于?f(t)∈Vj,可得按基{φj,n}n∈Z的展開式
對于緊支撐函數(shù)而言,該展式為一個有限和。
基于上述分析,對某個j∈Z,可以構(gòu)造雙正交小波核函數(shù):
式中,x,x′∈X?Rn。
目前主要有兩種方法判斷函數(shù)K(x,x′)是否為有效的核函數(shù),即基于Mercer定理和基于正定核的容許性條件。本文基于正定核的容許性條件,即滿足
?αi∈R,xi∈X?Rn,i=1,2,…,n的對稱函數(shù)K(x,x′)為核函數(shù),證明式(2)中所構(gòu)造的雙正交小波核函數(shù)的有效性。
設(shè)φ(x)∈L2(R),φd(x)∈L2(R)是一對對偶尺度函數(shù),對于任意的f(x)∈Vj∩,其中,空間Vj由{φj,n}n∈Z生成,空間由生成,由于有
顯然式(2)所構(gòu)造的核函數(shù)K(x,x′)是對稱函數(shù)。
接下來證明K(x,x′)的正定性,對于?ai∈R,可得
顯然K(x,x′)也是正定的。因此,式(2)所構(gòu)造的雙正交小波核函數(shù)K(x,x′)是有效的。
由于雙正交小波函數(shù)是一族函數(shù),式(2)事實上給出了任意滿足雙正交條件的小波函數(shù)構(gòu)造相應核函數(shù)的方法。本文選擇一類常見的Cdf 9/7雙正交小波來構(gòu)造雙正交小波核函數(shù),并進一步構(gòu)造混合核函數(shù)。Cdf 9/7雙正交小波在時域中的尺度函數(shù)為:
根據(jù)式(2)可構(gòu)造Cdf 9/7雙正交小波核函數(shù):
由于混合核函數(shù)能夠集成各成員核函數(shù)的優(yōu)點從而具有更加優(yōu)越的性能,將上述Cdf 9/7雙正交小波核函數(shù)與線性核函數(shù)進行組合,構(gòu)造如下雙正交小波混合核函數(shù):
式中:K2(x,x′)=xx′為線性核函數(shù);ρ∈[0,1]為權(quán)重系數(shù),用于調(diào)節(jié)兩種核函數(shù)影響作用的大小。代入式(5),可得混合核函數(shù):
根據(jù)文獻[16],由于Cdf 9/7雙正交小波核函數(shù)與線性核函數(shù)均滿足正定核的容許性條件,故所構(gòu)造的雙正交小波混合核函數(shù)KBHW(x,x′)是有效的核函數(shù)。
財務危機預警本質(zhì)上是一個兩分類問題,即通過建立相應的分類模型,利用企業(yè)財務指標數(shù)據(jù)將企業(yè)分為財務正常和財務危機兩類?;谏鲜龌旌虾撕瘮?shù),可以構(gòu)造相應的混合核SVM分類模型。假設(shè)訓練樣本,其中:xi∈Rn為輸入向量;yi∈{-1,+1}為類別標簽;l為訓練樣本數(shù)。通過求解如下的凸二次規(guī)劃問題,來構(gòu)造其最優(yōu)超平面。
其中:ξi為允許錯分的松弛變量;C為懲罰參數(shù)。
求解上述優(yōu)化問題,從而確定最優(yōu)分類面f(x)=sgn[(Wφ(xi))+b],即可將樣本進行分類。引入拉格朗日乘子α,將上述優(yōu)化問題轉(zhuǎn)化求解其對偶問題,形式如下:
根據(jù) 核 函 數(shù) 的 定 義,令K(x,xi)=〈φ(xi),φ(xj)〉,可得線性不可分情況下的兩分類決策函數(shù):
將式(6)中所構(gòu)造的核函數(shù)KBHW(x,x′)代入上述模型和決策函數(shù),即可得到雙正交小波混合核支持向量分類機模型,相應的預警決策函數(shù)形式為
企業(yè)財務指標數(shù)量眾多并且存在復雜的非線性關(guān)系,特征子集的選擇直接關(guān)系到預警模型的有效性和準確性。KPCA方法基于核函數(shù)原理,通過非線性函數(shù)Φ將原始數(shù)據(jù)映射到一個高維特征空間,在特征空間中實現(xiàn)數(shù)據(jù)主成分的線性提取。本文應用基于雙正交小波混合核函數(shù)KBHW的KPCA方法,提取財務指標的特征子集并作為SVM模型的輸入,即基于雙正交小波混合核函數(shù)的KPCA-SVM模型改進財務危機預警的精度。
若有p家企業(yè)并且每家企業(yè)都包含q個財務指標,則原始輸入矩陣Y={yij}p×q,其中yij為第i個企業(yè)的第j個財務指標。為了避免各指標量綱及量級不同的影響需要對數(shù)據(jù)進行標準化處理,即
分別為第j個財務指標向量的均值和方差,由此得到標準化后的輸入矩陣X={xij}p×q。
令xk=(x1k,…,xpk)T為所有企業(yè)的第k個財務指標,KPCA方法就是將樣本數(shù)據(jù)X的協(xié)方差矩陣進行基變換并使其對角化,以特征向量為基的新坐標稱為主成分。通過非線性映射Φ,可以實現(xiàn)從樣本空間RN到高維特征空間F映射,映射后的樣本數(shù)據(jù)xk在F空間的像為Φ(xk),相應的樣本協(xié)方差矩陣為
求解如下方程:
即可得特征值λ(λ1≥λ2≥…≥λp≥0)及其特征向量V(V∈F),對式(9)進行內(nèi)積,可得
由于特征向量V表示原始樣本集在F空間中的主成分方向,并且V可用Φ(xk)線性表示,即存在系數(shù)α1,α2,…,αp,使得,代入式(10),可得
根據(jù)核函數(shù)的定義,內(nèi)積函數(shù)可用核函數(shù)表示,即K(xi,xj)=〈Φ(xi),Φ(xj)〉。由于不同的核函數(shù)對應著不同的核映射,對所提取的特征子集影響也不同相同,本文運用雙正交小波混合核函數(shù)實現(xiàn)核映射,即令KBHW(xi,xj)=〈Φ(xi),Φ(xj)〉,代入式(11),則有
式中,α=(α1,α2,…,αp)T,為KBHW的特征向量。求解式(12)即可得特征值λ(λ1≥λ2≥…≥λp≥0)及α,進而得到的特征向量V,即Φ(x)空間的主成分方向。
因此,輸入空間樣本數(shù)據(jù)xt的核主成分即為其在特征空間F中特征向量V上的投影。即
其中:i=1,2,…,p;St(i)即對應于Φ的第i個非線性主成分;αi(j)為特征向量αi的第j個元素。
限于數(shù)據(jù)的可獲得性,我國財務危機預警的實證研究大多選用上市公司的財務數(shù)據(jù),并以被“特別處理”(ST)作為上市公司陷入財務危機的標志[3-4]。本文同樣采取這種方法,在滬深兩市除金融及保險業(yè)的其他行業(yè)中,選取2007~2010年期間首次被特別處理的ST公司共105家作為財務危機公司,并按照1∶1的比例從未被ST的公司中隨機選取105家公司作為財務正常公司,樣本總數(shù)為210個。從中隨機選取140家公司作為訓練樣本,45家作為測試樣本。為避免高估本文模型預警能力,本文選用提前3年的數(shù)據(jù)進行預測,判斷其最終是否會陷入財務危機[17],所有樣本數(shù)據(jù)來自CCER中國經(jīng)濟金融數(shù)據(jù)庫。基于文獻[8,17]中的指標設(shè)計方法,從流動性狀況、償債能力、盈利能力狀況及市場價值分析等4個方面選取28個財務指標作為構(gòu)建預警模型的初始指標評價體系,如表1所示。
表1 財務危機預警指標
以總體預警精度(即正確判別的企業(yè)數(shù)占企業(yè)總數(shù)的比例)來衡量SVM模型的識別能力,同時以第1類錯誤率(即將財務正常企業(yè)判別為財務危機企業(yè)的比例)和第2類錯誤率(即將財務危機企業(yè)判別為財務正常企業(yè)的比例)作為輔助判別標準,由于第2類錯誤的代價遠高于第1類錯誤,在相同總體預警精度下應選擇第2類錯誤率較低的預警模型[7]。
本實證中由于在KPCA方法和SVM預警模型中都將使用雙正交小波混合核函數(shù)KBHW(x,x′),為了區(qū)別,令KPCA方法中的混合核的權(quán)重核系數(shù)為ρ1,SVM預警模型中為ρ2。由于特征子集對財務危機預警精度具有重要影響,首先分別針對提取效率E=80%,E=85%,E=90%和E=95%等4種情況,運用網(wǎng)格搜索法分析在達到相應提取效率時,權(quán)重系數(shù)ρ1對KPCA方法所提取特征子集中包含的主成分個數(shù)的影響。實驗中設(shè)定搜索步長為0.1,結(jié)果如表2所示。
表2 不同E及ρ1特征子集的主成分個數(shù)
由表2可知,當ρ1確定時,隨著提取效率E值的增加,KPCA方法所提取的主成分個數(shù)也隨之增加。當E確定時,隨著ρ1的逐漸增加,KPCA所提取的主成分個數(shù)也有增加的趨勢,并且當ρ1<0.5時,主成分個數(shù)增加的趨勢更加明顯;當ρ1>0.5時,增加相對平緩。這說明,對于相同的提取效率,隨著Cdf9/7雙正交小波核在混合核函數(shù)中權(quán)重的增加,KPCA方法需要提取的主成分個數(shù)逐漸增加,但是Cdf9/7雙正交小波核對混合核的影響程度在權(quán)重超過0.5以后開始減弱。
接下來研究權(quán)重系數(shù)ρ2對SVM預警精度的影響。由于權(quán)重系數(shù)ρ1會直接影響KPCA的特征子集提取結(jié)果進而影響預警精度,因此需要在確定ρ1的情況下研究ρ2對預警精度的影響。基于上述訓練樣本和測試樣本數(shù)據(jù),分別針對提取效率E=80%,85%,90%和95%等4種情況,以測試樣本的總體預測精度為目標函數(shù),對權(quán)重系數(shù)ρ1采取上述網(wǎng)格搜索法進行尋優(yōu),對SVM的懲罰參數(shù)C和混合核權(quán)重系數(shù)ρ2采用粒子群優(yōu)化算法(PSO)進行尋優(yōu)[18],最優(yōu)結(jié)果為當E=85%,ρ1=0.4,ρ2=0.682,C=0.067時,得到最高總體預警精度為84.4%,此時主成分個數(shù)為10。接下來,以ρ1=0.4為例,研究雙正交小波混合核SVM模型在不同E值的情況下,ρ2的變化對預警精度的影響,結(jié)果如表3所示,其中:ρ2=0表示SVM中的核函數(shù)為線性核;ρ2=1表示Cdf9/7雙正交小波核函數(shù)。
由表3可以看出,無論是針對訓練集還是測試集,在相同ρ2的情況下,模型的預警精度并不隨著提取效率E的增加而增加。從測試集的結(jié)果甚至可以發(fā)現(xiàn),對于絕大部分的ρ2值,E=95%都是4種情況下預警精度最低的,當E=85%時,預警精度都達到最高。這說明,當提取效率較低時,特征子集丟失了較多的原始數(shù)據(jù)信息從而影響預警精度,但是提取效率太高會造成特征子集包含大量冗余信息,同樣會對模型精度帶來影響。進一步觀測表3,可以看出,ρ2對于SVM模型的預警精度具有顯著影響。以測試集為例,在0.1<ρ2≤0.7的區(qū)間,隨著Cdf 9/7雙正交小波核在混合核函數(shù)中權(quán)重ρ2的增加,預警精度呈現(xiàn)出明顯提高的趨勢;但是當ρ2>0.7時,ρ2的增加降低了預警精度。
基于表3的結(jié)果,圖1、2進一步比較了雙正交小波混合核SVM與單核SVM在預警精度上的差別。對于確定的提取效率E,混合核最高精度是指雙正交小波混合核SVM模型取得的最高預警精度值,混合核平均精度則是ρ2從0.1變化到0.9的9種情況下雙正交小波混合核SVM預警精度的平均值??梢钥闯?,無論是針對訓練集還是測試集,雙正交小波混合核SVM的平均預警精度都高于線性核和Cdf 9/7雙正交小波核這2個單核SVM,混合核最高精度的優(yōu)勢則更加明顯,表明混合核函數(shù)相對于單核能夠有效提高財務危機預警精度。
為了檢驗本文提出的Cdf9/7雙正交小波核以及混合核函數(shù)KBHW的性能,將這兩種核函數(shù)與常見的Morlet小波核、Coif3小波核、徑向基(RBF)核、Sigmoid核以及多項式核進行對比研究。為了同時比較KPCA方法與傳統(tǒng)的PCA方法對預警精度的影響,對比研究分別基于KPCA-SVM模型(此時KPCA方法與SVM模型中采用同一種核函數(shù))和PCA-SVM模型(核函數(shù)僅應用在SVM模型)。在對比實驗中,KPCA及PCA方法的提取效率E均設(shè)定為85%,結(jié)果如表4所示??梢园l(fā)現(xiàn),無論是KPCA-SVM模型還是PCA-SVM模型,混合核的訓練集和測試集總體預警精度都是最高,并且其第1類和第2類錯誤率也都明顯低于其他核函數(shù)。還可以發(fā)現(xiàn),Cdf9/7雙正交小波核也具有較其他5種常見核函數(shù)更優(yōu)的預警精度,雖然Coif3小波核的訓練集預警精度略高于Cdf9/7雙正交小波核,但是從測試集來看,Cdf9/7雙正交小波核總體預警精度更高并且第2類錯誤率更低。結(jié)果表明,與常見的核函數(shù)相比本文構(gòu)造的Cdf9/7雙正交小波核函數(shù)具有更好的預警性能,在此基礎(chǔ)上構(gòu)造的雙正交小波核混合核函數(shù)在財務危機預警中,較單核函數(shù)具有更高的總體預警精度和更低的第1和第2類錯誤率,因此是有效的。進一步對比可以發(fā)現(xiàn),對于采用相同核函數(shù)的SVM模型,基于KPCA方法的預警精度均明顯高于基于PCA方法。這說明,采用KPCA方法進行特征提取對于改進財務危機預警精度的效果是明顯的。
表3 不同E及ρ2預警模型精度比較 %
圖1 訓練集單核與混合核精度比較
圖2 測試集單核與混合核精度比較
最后,為了比較核函數(shù)對KPCA方法性能及預警精度的影響,將SVM模型中的核函數(shù)固定為KBHW,變換KPCA方法中的核函數(shù)比較預警模型的精度,結(jié)果如表5所示??梢园l(fā)現(xiàn),在KPCA方法中使用不同核函數(shù)會直接影響特征提取的結(jié)果,同時也對預警精度具有顯著影響。基于KBHW核函數(shù)的總體預警精度不僅高于Cdf9/7雙正交小波核和線性核的精度,也高于其他單核函數(shù)的精度,并且具有更低的第1和第2類錯誤率,表明雙正交小波混合核函數(shù)有效改善了KPCA方法的特征提取性能,進而提高財務危機預警的準確性。
表4 不同核函數(shù)KPCA-SVM及PCA-SVM模型比較 %
表5 不同核函數(shù)KPCA方法對預警性能的影響 %
本文基于小波多分辨分析理論以及雙正交小波基下的函數(shù)分解特性,構(gòu)造了一類新的雙正交小波核函數(shù)并證明其滿足正定核的容許性條件。隨后將其與線性核組合構(gòu)造了新的雙正交小波混合核函數(shù),在此基礎(chǔ)上,提出了基于雙正交小波混合核函數(shù)的KPCA-SVM財務危機預警模型。對我國上市公司的實證研究表明,一方面,KPCA特征提取以及SVM模型的性能,與混合核函數(shù)中的權(quán)重系數(shù)具有緊密關(guān)系;另一方面,雙正交小波混合核函數(shù)在改進KPCA的特征提取性能并提高SVM模型的預測精度方面是有效的。未來的研究包括2個方面:①基于遺傳算法研究混合核函數(shù)的權(quán)重系數(shù)優(yōu)化問題;②進一步研究核函數(shù)之間的非線性組合方法及應用。