亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于核SVM的銀行客戶分類研究

2021-06-15 15:13:04倪非凡趙黎麗謝立

中國市場 2021年13期

倪非凡趙黎麗謝立

[摘要]人工智能技術(shù)為金融行業(yè)的發(fā)展帶來更多的機遇。針對銀行客戶潛在價值的分析與發(fā)掘，幫助金融機構(gòu)制定合理的策略，處理客戶關(guān)系。文章面向真實銀行數(shù)據(jù)集，提出基于支持向量機（SVM）模型的客戶分類方法，并引入核函數(shù)來增強SVM的擬合能力，通過與K-means、隨機森林、決策樹等傳統(tǒng)機器學(xué)習分類算法進行實驗分析比較，結(jié)果表明，基于核函數(shù)的SVM算法具有良好的效果，能準確地實現(xiàn)客戶分類，更有助于加強對客戶的了解。

[關(guān)鍵詞]SVM;核函數(shù);銀行客戶分類

[DOI]10.13939/j.cnki.zgsc.2021.13.017

1 引言

隨著信息技術(shù)的發(fā)展，銀行等金融機構(gòu)對智能信息分析技術(shù)的依賴逐漸增加。客戶的分類分析有助于金融機構(gòu)對客戶進行資源整合、價值發(fā)掘以及關(guān)系管理，從而為金融機構(gòu)實現(xiàn)利益最大化提供幫助。但大部分金融機構(gòu)僅僅注重客戶資產(chǎn)等基本的屬性，不能發(fā)掘客戶的潛在特征，這是銀行發(fā)展現(xiàn)狀的短板，需加強與高新技術(shù)的結(jié)合，利用大數(shù)據(jù)、人工智能等新技術(shù)，為進一步探索客戶特征提供可能。

目前在銀行領(lǐng)域應(yīng)用SVM算法進行客戶分類的研究成果還不多見。為了使得金融行業(yè)能夠更加準確地把握客戶信息，增強客戶管理能力，實現(xiàn)客戶的精準分類，文章首先將銀行客戶真實數(shù)據(jù)進行清洗，并進行數(shù)據(jù)集劃分;其次，在SVM模型中引入核函數(shù)，增強SVM模型的泛化能力;最后，進行模型的性能測試。同時對分類結(jié)果進行分析，與幾個常用的機器學(xué)習算法在分類準確度上進行比較，并從健壯性和性能角度綜合評價了SVM模型，結(jié)果表明，引入核函數(shù)的SVM模型具有良好的分類能力。

2 基于核SVM的銀行客戶算法

文章采用SVM算法對銀行客戶進行分類分析研究，同時引入核函數(shù)加強SVM的分類能力。

SVM是一種二分類機器學(xué)習模型，其本質(zhì)上為定義在特征空間上的最大間隔分類器，當SVM算法增加核函數(shù)后，其實質(zhì)上變?yōu)榉蔷€性。SVM的目的是找到最大間隔的分類界限。

設(shè)樣本集合X={X1， X2， X3， …， Xn}中包含正樣本和負樣本兩類樣本，樣本Xi（i=1， 2， 3， …， n）對應(yīng)標簽yi（i= 1， 2， 3， …， n）， yi具有兩種取值，當yi=1時，表示yi屬于正樣本;當yi=-1時，表示yi屬于負樣本。樣本集合X可分為線性可分和線性不可分兩種類型，下面分別針對不同類型進行簡要說明。

2.1 樣本線性可分

直接對樣本集合X進行分類。超平面α為分類對間隔，表達式如下所示：

ω×a+b=0 （1）

其中，ω為超平面α的法向量。a為系數(shù)，b為任意常數(shù)。此時分類問題轉(zhuǎn)變?yōu)閷ふ易顑?yōu)的超平面α，即尋找最優(yōu)系數(shù)a和最優(yōu)常數(shù)b，使SVM具有最好的分類效果，該最優(yōu)問題可以歸結(jié)為下面公式：

min‖ω2‖2+ρnk=1ζk（2）

s.t.Yk（ω2·Xk+b）≥ζk， ζk≥0， k=1， 2， 3， …， n（3）

其中，ρnk=1ζk是損失項，ρ為損失系數(shù)。

根據(jù)式（2）和式（3）構(gòu)建拉格朗日函數(shù)，由于不容易直接求得原問題的解，但與其對偶問題有相同的最優(yōu)解，因此該問題的解可由其對偶問題求得：

max f（γ）=L（ω， b， γ）=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl（4）

s.t.nk=1γkYk=0， 0<γk<ρ（5）

假設(shè)拉格朗日乘子γ*k的最優(yōu)值根據(jù)式（4）和式（5）求得，那么原問題的最優(yōu)解由下式表示：

ω0=nk=1γ*kYkXk（6）

b0=1n1+n2n1k=1（1-ω0X（s1）k）+n2k=1（-1-ω0X（s2）k）（7）

其中，X（s1）k為正樣本中的第k個支持向量，n1為正樣本中支持向量的總個數(shù)，X（s2）k為負樣本中第k個支持向量，n2為負樣本中支持向量的總個數(shù)。

首先將SVM分類器進行樣本訓(xùn)練，然后將實時數(shù)據(jù)輸入到SVM中，根據(jù)下式可計算輸出樣本的類別：

L（ω0X（t）+b0）=1，X∈T-1，X∈F（8）

其中，X（t）為測試樣本，T表示該樣本屬于正樣本，F(xiàn)表示該樣本屬于負樣本。

2.2 樣本線性不可分

當分類樣本線性不可分時，需將每一個樣本的維度進行升高，在高維空間實現(xiàn)線性可分。

此時式（4）和式（5）變?yōu)槿缦滦问剑?/p>

max f（γ）=nk=1-12nk=1nl=1γkγlYkYlψ（Xk）Tψ（Xl）（9）

s.t.nk=1γkYk=0， 0<γk<ρ（10）

其中，ψ為線性空間變換，樣本Xk的映射結(jié)果為ψ（Xk）。令P（Xk， Yl）=ψ（Xk）Tψ（Yl）， Qk， l=YkYtP（Xk， Xl），代入式（9）和式（10）得到如下公式：

min（12γTQγ-eTγ）（11）

s.t.YTγ=0， 0≤γk≤ρ（12）

其中，Q稱為核函數(shù)。

文章選取了真實的銀行客戶數(shù)據(jù)，具有多維特征，屬于樣本線性不可分數(shù)據(jù)類型，因此需要引入核函數(shù)解決此問題。通過選取核函數(shù)，可實現(xiàn)樣本從低維向高維空間轉(zhuǎn)換，并求解式（11）和式（12）。

3 算法框圖

本研究主要采用SVM算法實現(xiàn)對銀行用戶的分類，首先對客戶數(shù)據(jù)進行預(yù)處理，然后輸入訓(xùn)練數(shù)據(jù)對SVM分類器進行模型訓(xùn)練，再將測試數(shù)據(jù)輸入分類器進行測試，最后對分類結(jié)果進行了分析。整體的框架如圖1所示。

4 實驗分析

4.1 數(shù)據(jù)集描述

文章的權(quán)威數(shù)據(jù)集來自某銀行的真實客戶信息[1]。包含年齡、工作類型、婚姻狀況、文化水平、是否有負債、年收入、有無房貸、有無個人貸款等信息。

原始數(shù)據(jù)中眾多特征是離散型的變量，同時存在缺失值，這些因素對實驗結(jié)果產(chǎn)生重大影響，因此對原始數(shù)據(jù)進行了預(yù)處理。首先去除數(shù)據(jù)集中的缺失值，其次對離散數(shù)據(jù)進行預(yù)熱處理。將整個數(shù)據(jù)劃分為訓(xùn)練集和測試集，分別存儲于不同的文件中，便于讀取。

4.2 數(shù)據(jù)預(yù)處理

對數(shù)據(jù)集中所有的特征均采用預(yù)熱處理，具體來說，將年齡分成4個類別，將年收入分成5個類別，將每年最后一次聯(lián)系的月份情況分為3個類別，將距離上一次聯(lián)系客戶的天數(shù)的相關(guān)情況分為5個類別，將在此活動之前和此客戶執(zhí)行的聯(lián)系人數(shù)的相關(guān)情況分為4個類別。

4.3 評價指標

本研究比較了SVM、K-means[2-4]、決策樹（Decision Tree）[5]、隨機森林（Random Forest）[6]四種常見機器學(xué)習分類模型的性能，涉及的實驗均使用python語言編譯，8核CPU下運行，編譯環(huán)境為jupyter notebook。

其中SVM采用了不同類型的核函數(shù)，具體情況如表1所示。

研究采用準確率（accuracy）、精確率（precision）、召回率（recall）評價各模型的預(yù)測性能，計算公式如下。

其中，TN表示將負類預(yù)測為負類的數(shù)量，F(xiàn)P表示將負類預(yù)測為正類的數(shù)量，F(xiàn)N表示將正類預(yù)測為負類的數(shù)量，TP表示將正類預(yù)測為正類的數(shù)量。

5 實驗結(jié)果

本小節(jié)主要從模型的分類準確度、模型效率以及模型健壯性角度對SVM以及各類常見分類算法進行了對比說明。

5.1 模型分類的準確度

SVM具有較高的準確率和較低的損失，其中引入poly核函數(shù)的SVM具有最高的準確率、精確率和召回率，具有最低的損失，因此具有最好的分類效果。引入poly核函數(shù)的SVM模型的準確率達到93%，精確率達到88%，召回率達到34%，損失僅為2.79，同時引入rbf核函數(shù)、sigmoid核函數(shù)和linear核函數(shù)的SVM模型的準確率依次為91%、89%和89%，精確率分別為70%、68%和66%，召回率依次為20%、28%和17%，分類損失依次為3.35、3.60和3.64，證明了SVM在二分類問題上具有很強的適應(yīng)能力，也很大程度上得益于選取的核函數(shù)。在本研究中，選取poly核函數(shù)的SVM分類器分類效果最佳。

5.2 魯棒性分析

數(shù)據(jù)采集的過程中受不可抗拒因素的影響，導(dǎo)致部分數(shù)據(jù)出現(xiàn)缺失或收集到無關(guān)數(shù)據(jù)的情況，實驗階段首先對數(shù)據(jù)進行了預(yù)處理，補全了缺失值，去除了無關(guān)數(shù)據(jù)，理論上更具理想化，與真實數(shù)據(jù)存在一定差異。為了說明模型對真實數(shù)據(jù)同樣具有較強的擬合能力，進行了健壯性分析，即隨機在訓(xùn)練集和測試集上加入不同比例的噪聲后進行預(yù)測，模型預(yù)測結(jié)果如表2所示。

結(jié)果表明，增加噪聲后，SVM-poly模型當分類準確率略微有所降低，從93%稍稍降低到85%，損失略微有所升高，從2.79稍稍升高到3.23，因此，SVM模型原始數(shù)據(jù)具有魯棒性。

5.3 模型性能分析

為了更加全面地評估各模型的分類能力，分別計算了各模型在訓(xùn)練和預(yù)測時所需的時間，如表3所示。

6 結(jié)論

文章采用SVM模型對銀行客戶進行了分類分析，引入核函數(shù)，并與常見機器學(xué)習分類算法K-means、決策樹和隨機森林進行了對比研究，從分類的準確度、健壯性以及性能方面進行了詳細的分析，充分證明了SVM分類算法在二分類問題上的優(yōu)越性，并得到如下結(jié)論。

（1）在分類準確度方面，準確率提升了2.20%～46.77%，精確度平均提升20.70%，召回率平均提升53.84%，分類的損失平均降低22.61%。

（2）在健壯性方面，SVM-poly模型在添加不同噪聲的數(shù)據(jù)集上依然能夠準確地分類，準確率僅僅稍微有些降低。

（3）在時間效率方面，SVM-poly稍微耗費時間，這可能是由于SVM模型本身的計算較為復(fù)雜，同時引入了核函數(shù)的緣故。

綜上，在二分類問題上，SVM模型具有較強的分類能力。加入合適的核函數(shù)會加強SVM模型的分類能力，但依然存在進步的空間。隨著經(jīng)濟的發(fā)展，金融行業(yè)與信息技術(shù)緊密結(jié)合，將機器學(xué)習算法應(yīng)用到實際中，可以為金融行業(yè)帶來更多的機遇。

參考文獻：

[1]https：//archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.

[2]謝修娟，李香菊，莫凌飛.基于改進K-means算法的微博輿情分析研究[J].計算機工程與科學(xué)，2018，40（1）：155-158.

[3]郭璘，周繼彪，董升，等.基于改進K-means算法的城市道路交通事故分析[J].中國公路學(xué)報，2018，31（4）：270-279.

[4]周本金，陶以政，紀斌，等.最小化誤差平方和k-means初始聚類中心優(yōu)化方法[J].計算機工程與應(yīng)用，2018，54（15）：48-52.

[5]KIM Y H，KIM M J，SHIN H J，ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology，2018.

[6]XIA J，GHAMISI P，YOKOVA N，ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing，2018（1）：1-15.

[作者簡介]倪非凡（1998—），女，漢族，浙江杭州人，研究方向：經(jīng)濟統(tǒng)計、數(shù)據(jù)分析等。

中國市場2021年13期

中國市場的其它文章: 精準扶貧背景下江蘇省對口幫扶陜西省的創(chuàng)新發(fā)展研究; 基于因子分析與聚類分析的我國公共圖書館發(fā)展水平研究; 贛州地區(qū)小微企業(yè)稅收優(yōu)惠政策實施情況的調(diào)查與思考; 能源消費背景下長三角地區(qū)二氧化碳排放影響因素分析; 菏澤內(nèi)河港口經(jīng)濟發(fā)展淺析; 5G背景下智慧養(yǎng)老服務(wù)發(fā)展SWOT分析及對策