亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)天牛群算法優(yōu)化SVM的個(gè)人信用評(píng)估

2021-07-06 02:15:00陳靜靜

計(jì)算機(jī)技術(shù)與發(fā)展 2021年6期

陳靜靜，劉升

(上海工程技術(shù)大學(xué) 管理學(xué)院，上海 201620)

0 引言

隨著P2P網(wǎng)貸——新型金融服務(wù)模式迅猛發(fā)展，風(fēng)險(xiǎn)也逐漸顯露，其中個(gè)人信用風(fēng)險(xiǎn)在眾多風(fēng)險(xiǎn)中占據(jù)主導(dǎo)地位。因此，個(gè)人信用評(píng)估是保證這一行業(yè)健康發(fā)展的關(guān)鍵。近年來(lái)，人工智能逐漸興起，基于機(jī)器學(xué)習(xí)的評(píng)估模型逐漸成為信用評(píng)估的趨勢(shì)[1]，常用的模型有貝葉斯網(wǎng)絡(luò)[2]、決策樹(decision trees，DT)[3]、神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)(support vector machine，SVM)[5]等。由于SVM在解決小樣本、非線性問題上具有獨(dú)特的優(yōu)勢(shì)，且能夠在樣本信息有限的情況下化解訓(xùn)練精度與泛化能力之間的矛盾，因此被廣泛應(yīng)用于信用評(píng)估領(lǐng)域。SVM的評(píng)估性能和泛化能力受參數(shù)的影響較大，到目前為止還沒有一套完備的理論去解決SVM參數(shù)優(yōu)化問題。

近年來(lái)，隨著智能算法的飛速發(fā)展，越來(lái)越多的學(xué)者開始將智能算法應(yīng)用到對(duì)SVM參數(shù)優(yōu)化問題上。文獻(xiàn)[6]提出了遺傳算法優(yōu)化SVM，但復(fù)雜的編碼解碼過程限制了該優(yōu)化算法的適用性。文獻(xiàn)[7]提出收斂速度快的粒子群(PSO)算法優(yōu)化SVM的參數(shù)，但算法存在易陷入局部極值的問題。文獻(xiàn)[8]利用能夠跳出局部極值的蟻群(ACO)算法對(duì)SVM的參數(shù)進(jìn)行尋優(yōu)，由于其龐大的計(jì)算量，在處理復(fù)雜問題時(shí)的效果并不佳。文獻(xiàn)[9-11]對(duì)上述基本算法進(jìn)行改進(jìn)，但是這些算法仍然存在容易陷入局部最優(yōu)、尋優(yōu)速度慢、對(duì)初始值敏感等問題。

天牛群算法[12](beetle swarm optimization，BSO)自提出以來(lái)，在眾多領(lǐng)域得到廣泛應(yīng)用，如文獻(xiàn)[13]用BSO算法來(lái)規(guī)劃三維路徑，文獻(xiàn)[14]利用BSO算法優(yōu)化對(duì)光伏最大功率點(diǎn)追蹤的速度和精確度。該文將天牛群算法用于對(duì)SVM參數(shù)優(yōu)化的問題。為了改善傳統(tǒng)BSO算法迭代速度慢、尋優(yōu)精度低等問題，該文對(duì)BSO算法進(jìn)行了改進(jìn)。為了協(xié)調(diào)尋優(yōu)速度與解精度，引入了正態(tài)函數(shù)對(duì)步長(zhǎng)進(jìn)行優(yōu)化；天牛速度更新時(shí)，不僅僅考慮了其向全局最優(yōu)和個(gè)體最優(yōu)學(xué)習(xí)的因素，還考慮到天牛通過自身判斷對(duì)速度更新產(chǎn)生的影響，并利用改進(jìn)的收縮算子對(duì)學(xué)習(xí)因子進(jìn)行了調(diào)整。最后將改進(jìn)的天牛群算法用于SVM的參數(shù)尋優(yōu)，將SVM訓(xùn)練集分類準(zhǔn)確率作為優(yōu)化目標(biāo)建立目標(biāo)函數(shù)，選擇最優(yōu)的SVM懲罰因子和核參數(shù)。利用UCI中的Wine、Iris、Ionosphere、Breast Cancer(BC)對(duì)改進(jìn)模型的有效性進(jìn)行了驗(yàn)證。最后利用隨機(jī)森林算法，在不影響評(píng)估結(jié)果精度的前提下，剔除干擾數(shù)據(jù)，選取關(guān)鍵特征，并將處理過的信用數(shù)據(jù)German作為IBSO-SVM模型的輸入數(shù)據(jù)進(jìn)行實(shí)例分析。

1 改進(jìn)的天牛群算法(improved beetle swarm optimization，IBSO)

天牛須算法(beetle swarm algorithm，BSA)是基于天牛覓食規(guī)律而開發(fā)的一種新的人工智能算法，天牛覓食時(shí)，通過它的兩根觸須感受的食物濃度不同來(lái)決定下一步的運(yùn)動(dòng)方向，若左須感受到食物氣味較右須強(qiáng)，則天牛向左須方向移動(dòng)。反之，則向右須方向移動(dòng)。

1.1 天牛群優(yōu)化算法

隨著研究的不斷深入，學(xué)者發(fā)現(xiàn)BSA算法處理高維函數(shù)時(shí)的性能并不強(qiáng)，且對(duì)初始位置敏感。受群體優(yōu)化算法的啟發(fā)，將粒子群的思想融入到BSA算法中，提出了天牛群算法。用粒子群的飛行速度來(lái)代替天牛的方向，產(chǎn)生天牛種群并加入了向個(gè)體極值和群體極值學(xué)習(xí)的思想。生成的n只天牛用X=(X1,X2,…,Xn)表示，在m維空間中的第i只天牛的速度可表示為vi=(vi1,vi2,…,vis)，第i只天牛的個(gè)體極值為pi=(pi1,pi2,…,pim)，全局極值為pg=(pg1,pg2,…,pgm)，第i只天牛的位置更新如公式(1)所示：

(1)

(2)

(3)

公式(2)中的c1和c2為學(xué)習(xí)因子，取值為2，r1和r2為[0,1]范圍內(nèi)的隨機(jī)數(shù)。w為慣性權(quán)重，更新公式如式(4)所示：

w=wmax-(wmax-wmin)*t/maxt

(4)

其中，wmax=0.9，wmin=0.4，maxt為最大迭代次數(shù)。

1.2 改進(jìn)的天牛群算法

傳統(tǒng)的天牛群算法在速度更新時(shí)只考慮個(gè)體向全局極值和局部極值學(xué)習(xí)的行為，而忽略了天牛個(gè)體對(duì)周圍環(huán)境所做出的判斷，該文在對(duì)天牛速度更新時(shí)綜合考慮了各種影響因素。為了更好地協(xié)調(diào)全局和局部搜索，引入了改進(jìn)的收縮因子對(duì)學(xué)習(xí)因子進(jìn)行調(diào)整，速度的更新表達(dá)式如公式(5)所示，收縮因子的表達(dá)式如公式(6)所示。

θ=1-1/(e-1)*(et/maxt-1)

(6)

為了兼顧尋優(yōu)速度與解精度，該文引入正態(tài)分布函數(shù)作為調(diào)整步長(zhǎng)的算子。該函數(shù)前期緩慢減少，有利于提高尋優(yōu)速度，后期高速下降，達(dá)到提高解精度的目的，函數(shù)表達(dá)式如公式(7)所示：

g(t/maxt)=e-π*t/maxt

(7)

改進(jìn)后的步長(zhǎng)調(diào)整公式可表示為：

δt+1=δt*e-π*t/maxt

(8)

2 IBSO-SVM及混合模型的建立

2.1 IBSO優(yōu)化SVM的參數(shù)

由于該文主要優(yōu)化的參數(shù)為懲罰因子(C)和核參數(shù)(g)，因此將IBSO種群放置到二維空間進(jìn)行尋優(yōu)，每個(gè)天牛的位置都代表著一對(duì)參數(shù)(C，g)，將分類正確率作為尋優(yōu)的目標(biāo)函數(shù)，利用IBSO算法優(yōu)化SVM的參數(shù)，選取最優(yōu)的(C，g)組合來(lái)訓(xùn)練SVM，使得訓(xùn)練后的模型在測(cè)試集上能取得較高的分類準(zhǔn)確率。

2.2 隨機(jī)森林特征選擇

隨機(jī)森林(random forest，RF)在以決策樹為基學(xué)器構(gòu)建Bagging集成的基礎(chǔ)上，進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。

利用隨機(jī)森林計(jì)算某個(gè)特征的重要性的具體步驟如下：

(1)計(jì)算每棵決策樹的袋外數(shù)據(jù)(out of bag，OOB)誤差，記為erro1。

(2)對(duì)所有OOB數(shù)據(jù)的特征X加入干擾信息，重新計(jì)算袋外數(shù)據(jù)誤差，記為erro2。

(3)特征X的重要性為∑(erro2-erro1)/k，k為袋外數(shù)據(jù)的個(gè)數(shù)。之所以這么表示特征重要性，是因?yàn)榧尤朐肼曋?，OOB的準(zhǔn)確率若出現(xiàn)大幅度減少，則說明該特征對(duì)預(yù)測(cè)結(jié)果有很大的影響，即該特征的重要性較大。

2.3 隨機(jī)森林融合IBSO-SVM

由于信用數(shù)據(jù)紛繁復(fù)雜，特征多且有連續(xù)與離散兩種類型，故從高維數(shù)據(jù)中挑選出有效的特征對(duì)最終的信用評(píng)估結(jié)果起著至關(guān)重要的作用。該文首先利用隨機(jī)森林對(duì)信用數(shù)據(jù)進(jìn)行預(yù)處理，剔除干擾特征，而后將處理過的數(shù)據(jù)作為IBSO-SVM模型的實(shí)驗(yàn)數(shù)據(jù)?；旌夏Ｐ瓦M(jìn)行信用評(píng)估的具體步驟如圖1所示。

圖1 隨機(jī)森林融合IBSO-SVM的流程

步驟1：獲取信用數(shù)據(jù)German，設(shè)置種群數(shù)量n、最大迭代次數(shù)maxt，設(shè)定C和g的取值范圍。

步驟2：數(shù)據(jù)預(yù)處理。預(yù)處理數(shù)據(jù)是為了消除量綱，規(guī)范化數(shù)據(jù)。

步驟3：利用隨機(jī)森林進(jìn)行特征篩選。

步驟4：數(shù)據(jù)集劃分。將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩部分。訓(xùn)練集用于選擇較優(yōu)性能的SVM模型；測(cè)試集用于檢驗(yàn)優(yōu)化后的SVM模型的分類性能。

步驟5：初始化天牛群位置。由于該文需要優(yōu)化的參數(shù)為SVM的懲罰參數(shù)(C)和核參數(shù)(g)，因此將天牛群搜索的空間設(shè)置為二維，每個(gè)天牛的位置代表一對(duì)參數(shù)(C，g)。

步驟6：由K折交叉驗(yàn)證法計(jì)算每個(gè)天牛個(gè)體的適應(yīng)度值，記錄當(dāng)前個(gè)體及種群最優(yōu)值。

步驟7：利用改進(jìn)后的IBSO對(duì)天牛位置進(jìn)行更新。

步驟8：計(jì)算位置更新后的適應(yīng)度值，通過適應(yīng)度值的比較，更新個(gè)體位置，并獲取新的種群。

步驟9：判斷算法是否滿足終止條件；若滿足，則轉(zhuǎn)到步驟10，否則，轉(zhuǎn)到步驟7。

步驟10：獲取最優(yōu)參數(shù)(C，g)。

步驟11：采用最優(yōu)參數(shù)對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練建模。

步驟12：采用建好的模型對(duì)測(cè)試樣本進(jìn)行檢測(cè)。

步驟13：輸出最優(yōu)參數(shù)(C，g)及分類準(zhǔn)確率。

3 仿真實(shí)驗(yàn)及分析

為了驗(yàn)證IBSO優(yōu)化SVM參數(shù)的有效性，與遺傳算法(GA)、粒子群算法(PSO)、烏鴉算法(CSA)、天牛群算法(BSO)的SVM參數(shù)尋優(yōu)性能進(jìn)行對(duì)比。利用UCI中公開的信貸數(shù)據(jù)對(duì)隨機(jī)森林融合IBSO-SVM的模型進(jìn)行實(shí)例分析，并將實(shí)驗(yàn)結(jié)果與基本算法及其他文獻(xiàn)算法進(jìn)行對(duì)比分析。

3.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于UCI庫(kù)中的公開數(shù)據(jù)。實(shí)驗(yàn)環(huán)境為Windows 10操作系統(tǒng)，CPU為 Intel 3.20 GHz，8 GB內(nèi)存，編程工具為Matlab 2018b。所有的實(shí)驗(yàn)都采用了5折交叉驗(yàn)證。數(shù)據(jù)集描述如表1，考慮樣本差距較大，對(duì)數(shù)據(jù)進(jìn)行歸一化處理。德國(guó)的信貸數(shù)據(jù)特征描述如表2所示。

表1 數(shù)據(jù)集描述

表2 德國(guó)信貸數(shù)據(jù)集描述

3.2 參數(shù)設(shè)置

種群數(shù)量的大小均為20，最大迭代次數(shù)為100。BSO初始步長(zhǎng)step=10，兩須間距d=2，速度范圍V=[5.12，-5.12]；GA算法的交叉率為0.8，變異率為0.05；PSO算法的慣性權(quán)重、學(xué)習(xí)因子與BSO算法的設(shè)置相同；CSA飛行長(zhǎng)度F=2.5，辨識(shí)率AP=0.1。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)IBSO-SVM模型的評(píng)價(jià)主要以分類正確率為依據(jù)，將混淆矩陣作為混合模型的評(píng)估工具，混淆矩陣見表3。依據(jù)混淆矩陣，該文選取整體正確率(Accuracy)、Recall值、特異度(Specificity)三個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的效果。指標(biāo)的計(jì)算方法如下：

表3 混淆矩陣

3.4 實(shí)驗(yàn)結(jié)果及分析

通過隨機(jī)森林挖掘出了German中的重要信用評(píng)估指標(biāo)，各個(gè)指標(biāo)的重要性排序如圖2所示，其中X軸表示占比值，Y軸表示變量。

圖2 隨機(jī)森林挑選出的German特征及其重要性排序

該文選取的特征為：A1(0.147 7)、A2(0.139 2)、A3(0.077 7)、A4(0.216 9)、A5(0.066 6)、A6(0.039 7)、A8(0.033 7)、A9(0.060 0)、A10(0.135 9)、A12(0.013 0)、A13(0.021 6)、A16(0.013 191 985)、A17(0.014 9)。

表4所示為GA-SVM、PSO-SVM、CSA-SVM、BSO-SVM、IBSO-SVM在UCI數(shù)據(jù)上的分類正確率。IBSO-SVM基于隨機(jī)森林處理過的German數(shù)據(jù)進(jìn)行信用評(píng)估，并選取SVM、KNN、樸素貝葉斯、決策樹、Bagging、AdaBoost、隨機(jī)森林、信用評(píng)分的多目標(biāo)粒子群優(yōu)化[15](multi-objective particle swarm optimization for credit scoring，MOPSO-CS)、BP神經(jīng)網(wǎng)絡(luò)與AdaBoost混合模型[16](hybrid model of AdaBoost and BP neural network，BP-AdaBoost)作對(duì)比實(shí)驗(yàn)，得到相應(yīng)的評(píng)價(jià)指標(biāo)數(shù)據(jù)如表5所示。

表4 各算法的測(cè)試集準(zhǔn)確率 %

由表4可知，文中算法IBSO-SVM對(duì)UCI庫(kù)中挑選的四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)的分類正確率最高，對(duì)數(shù)據(jù)Wine和Iris的分類正確率甚至達(dá)到了100%，可見該改進(jìn)算法的有效性。

如表5所示，使用上述不同的算法，得到德國(guó)信用數(shù)據(jù)集驗(yàn)證結(jié)果。文中提出混合模型的信用評(píng)估總精度優(yōu)于其他算法。在Specificity準(zhǔn)確率方面，與其他分類算法相比，提出的混合模型表現(xiàn)最好，即在對(duì)德國(guó)數(shù)據(jù)集預(yù)測(cè)“壞”客戶方面，提出的混合模型是最好的，具有令人滿意的準(zhǔn)確率。對(duì)比文中使用所有模型的Recall值和Specificity值，Recall精度明顯優(yōu)于Specificity精度，說明由于信用風(fēng)險(xiǎn)的復(fù)雜性，將信用狀況較差的客戶與信用評(píng)價(jià)模型良好的客戶進(jìn)行分類比較困難。

表5 各算法對(duì)信用數(shù)據(jù)的評(píng)估結(jié)果 %

4 結(jié)束語(yǔ)

由于參數(shù)選取對(duì)SVM的預(yù)測(cè)性能影響較大，提出改進(jìn)的天牛群算法(IBSO)優(yōu)化SVM的參數(shù)。速度更新時(shí)，增加了天牛的自身判斷，并加入改進(jìn)的收縮因子對(duì)學(xué)習(xí)因子進(jìn)行調(diào)整；利用正態(tài)分布函數(shù)自適應(yīng)地調(diào)整尋優(yōu)步長(zhǎng)，既保證了尋優(yōu)速度也提高了解的精度。最后將IBSO參數(shù)尋優(yōu)性能與基本的BSO、GA、PSO和CSA的參數(shù)尋優(yōu)性能進(jìn)行對(duì)比，結(jié)果表明IBSO算法具有較好的尋優(yōu)能力，IBSO-SVM的分類準(zhǔn)確率明顯高于其他算法。為解決信用風(fēng)險(xiǎn)評(píng)估問題，首先利用隨機(jī)森林對(duì)信用數(shù)據(jù)的特征進(jìn)行了篩選，并在此基礎(chǔ)上，運(yùn)用IBSO-SVM模型對(duì)復(fù)雜的信用數(shù)據(jù)進(jìn)行評(píng)估，實(shí)驗(yàn)結(jié)果證明了混合模型的有效性，為個(gè)人信用評(píng)估提供了一種新的可行方法。