[摘要] 本文提出模糊支持矢量機的模糊規(guī)則提取方法,針對當(dāng)前SVM的常見模型參數(shù)選擇的方法的不足,引入遺傳算法的自動模型選擇優(yōu)化方法;考慮到信用評級數(shù)據(jù)的非線性特征,提出了新的信用評級核主成分(KPCA)的特征提取方法,減少指標間的相關(guān)性,提高模型的預(yù)測精度;使用上市公司數(shù)據(jù)進行了實證分析,實驗結(jié)果證明了該信用評級方法優(yōu)于神經(jīng)網(wǎng)絡(luò)的方法,證明了該方法適用性。
[關(guān)鍵詞] 信用評級 模糊支持矢量機 核主成分 神經(jīng)網(wǎng)絡(luò)
一、引言
近年來,隨著全球日益劇烈的經(jīng)濟波動和金融創(chuàng)新的發(fā)展,國際銀行業(yè)面臨的風(fēng)險日益復(fù)雜,而信用風(fēng)險是導(dǎo)致銀行資產(chǎn)質(zhì)量下降、出現(xiàn)流動性危機的主要根源,也是導(dǎo)致區(qū)域性及至全球性金融危機的根本原因之一?!缎掳腿麪栙Y本協(xié)議》要求各國銀行采取內(nèi)部評級法(Internal Ratings-Based Approach IRB)對客戶的信用狀況進行評估,并將結(jié)果轉(zhuǎn)換為對未來潛在損失量的估計值,以此構(gòu)成確定最低資本要求的基礎(chǔ)。我國作為巴塞爾委員會的成員國,只有運用先進信用評級方法和技術(shù),才能建立與國際接軌的信用評級體系,增強市場競爭力,持續(xù)、健康、穩(wěn)定地發(fā)展。
特征提取是數(shù)據(jù)降維技術(shù),目的是在保留盡可能多的信息的前提下,通過特征組合生成新的特征,盡可能的減少信息損失、減少冗余以降低特征集的維度。常用的特征提取方法包括主成分分析(PCA,Principal Component Analysis),Karhunen-Loeve變換、因子分析和粗糙集等,本文提出新的核主成分特征提取。
二、核函數(shù)主成分分析
對樣本集{x1,…,xn}主成分方向是矩陣的特征向量。對x進行非線性變換φ(x),且滿足則新樣本協(xié)方差為其特征向量v就是原樣本集的非線性主成分方向,滿足λv=Cv,將每個樣本與該式內(nèi)積,得
,特征向量。定義矩陣
可以得到:,其中a=[a1,a2,…,an]T設(shè)特征值大于0的特征向量為a1,a2,…,ap,將vr歸一化(r=1,…,p),向量x在變換空間中的主成分是φ(x)在vr上的投影;作為樣本的提取特征。實際中不一定滿足K用
代替,其中In是系數(shù)為的n維單位矩陣。滿足選擇P個最大特征值對應(yīng)的特征向量構(gòu)成P維特征子空間。KPCA特征提取算法的步驟可歸結(jié)為:(1)初始化輸入樣本x,計算核矩陣。(2)在特征空間計算其特征值并標準化特征值;(3)找出最大的特征值和對應(yīng)的特征向量;(4)對樣本特征指標參數(shù)進行綜合,提取樣本的分類特征,實現(xiàn)樣本特征提取。
三、基于遺傳算法的支持矢量機
1.支持矢量機原理
支持向量機是從線性可分最優(yōu)分類面發(fā)展的,最優(yōu)分類線要求分類線能將兩類樣本正確分開,使分類間隔最大,分類線為w·x+b=0,對它進行歸一化,使得對線性可分的樣本集(xi,yi),i=1,…,n,xi∈Rd滿足yi[(w·xi)+b]≥1,…,i=1,…,n,此時分類間隔等于使間隔最大等價于使最小,解上述問題后得到的最優(yōu)分類函數(shù)是:。
通過核函數(shù)的映射可以將SVM推廣為非線性模型,SVM中模型核函數(shù)和參數(shù)的選擇是SVM中模型泛化性能好壞的關(guān)鍵,常用的是交叉驗證法,其中較為有效的是“留一法”(leave-one-out,簡稱LOO),計算量非常龐大;Chapelle等應(yīng)用梯度下降算法,Keerthi采用擬牛頓法,此類基于梯度的數(shù)值方法可能會陷于局部最優(yōu)解。遺傳算法(genetic algorithm,簡稱GA)是一類借鑒生物界自然選擇和自然遺傳機制的隨機搜索算法,較以往傳統(tǒng)的搜索算法具有使用方便、魯棒性強、便于并行處理等特點。由于遺傳算法善于全局搜索,且能以較大的概率找到全局最優(yōu)解,本文引入GA選擇優(yōu)化模型參數(shù)。
2.實值遺傳SVM算法
實值遺傳SVM算法步驟:
(1)編碼:采用實值編碼策略,確定高斯核函數(shù)和模型的結(jié)構(gòu)參數(shù)C,對模型參數(shù)θ=(C,a)的進行編碼,C范圍為[1 10000], a范圍為(0,2);
(2)初始化種群:隨機產(chǎn)生n個參數(shù)值矩陣構(gòu)成初始種群,每個矩陣行向量代表一組待訓(xùn)練的SVM模型參數(shù);
(3)評價:對每個SVM學(xué)習(xí)訓(xùn)練,計算評價函數(shù)值,并保留最優(yōu)個體;
(4)遺傳操作:依次進行選擇、交換、變異、SVM學(xué)習(xí)訓(xùn)練,保留最優(yōu)個體,并計算評價函數(shù)值。若誤差達到指定的精度,則轉(zhuǎn)(5),否則,轉(zhuǎn)(4);
(5)根據(jù)C,a,建立SVM模型,求解二次規(guī)劃問題,解得Lagrange系數(shù),計算出b。
(6)從SVM決策函數(shù)中抽取模糊規(guī)則,得到?jīng)Q策規(guī)則
(7)用決策函數(shù)進行預(yù)測。
遺傳操作算子適應(yīng)度函數(shù):n是樣本個數(shù),yi是樣本目標值,oi是預(yù)測值,Chapelle等提出:其中R為包含樣本的半徑。
四、SVM模型在信用評級中的應(yīng)用
采用上市公司的財務(wù)報表數(shù)據(jù)進行信用評級(數(shù)據(jù)來源于中誠信國www.ccxi.com.cn),選用12個指標來衡量企業(yè)的財務(wù)狀況:主營業(yè)務(wù)毛利率;所有者權(quán)益收益率;EBITDA/主營業(yè)務(wù)收入;速動比率;經(jīng)營活動凈現(xiàn)金/總債務(wù);經(jīng)營活動凈現(xiàn)金/短期債務(wù);經(jīng)營活動凈現(xiàn)金/利息支出;EBITDA利息倍數(shù);總債務(wù)/ EBITDA;資產(chǎn)負債率;總債務(wù)/總資本;長期資本化比率。企業(yè)樣本數(shù)據(jù)被分為了兩類,第一類22個樣本代表受評對象償還債務(wù)的能力較強,違約風(fēng)險較低;第二類23個樣本代表受評對象違約風(fēng)險較高。隨機選取26個樣本作為訓(xùn)練樣本,其他19個作為模型測試測試樣本。對原始特征進行KPCA特征提取,根據(jù)樣本的取值范圍設(shè)置核參數(shù)為10的高斯核函數(shù),指標壓縮為10個特征組合,新特征集累計解釋了原始特征集95.29%的方差,因此特征提取后基本保留了所有信息。訓(xùn)練支持矢量機模型,遺傳算法取變異概率為0.1,交叉率為0.6,訓(xùn)練SVM模型的測試準確率可達到89.47%。
五、結(jié)論
為了說明SVM模型處理企業(yè)信用數(shù)據(jù)的能力,本文將SVM模型的處理結(jié)果與神經(jīng)網(wǎng)絡(luò)的處理結(jié)果進行對比。將GA用于多層前向神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值的優(yōu)化,隱層節(jié)點數(shù)5,訓(xùn)練10000次得到神經(jīng)網(wǎng)絡(luò)對測試樣本準確率僅為78.95%?;谛颖綬GA-SVM模型比神經(jīng)網(wǎng)絡(luò)模型具有更好的預(yù)測精度,在我國信用評級數(shù)據(jù)缺乏的背景下,驗證了模型在信用評級達到了較好的效果,對我國商業(yè)銀行信用評級體系的建立,具有實際應(yīng)用和指導(dǎo)意義。
參考文獻:
[1]宋余慶羅永剛:應(yīng)用主分量分析與粗糙集處理的特征提取[J].計算機上程與應(yīng)用,2004(22):48~50
[2]宣國榮鄭俊翔:巴氏距離和K-L變換結(jié)合的特征選擇[J].計算機上程與應(yīng)用,2004(36):90~92
[3]范金城梅長林:數(shù)據(jù)分析[M].科學(xué)出版社,2002
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。