倪非凡 趙黎麗 謝立
[摘 要]人工智能技術(shù)為金融行業(yè)的發(fā)展帶來更多的機遇。針對銀行客戶潛在價值的分析與發(fā)掘,幫助金融機構(gòu)制定合理的策略,處理客戶關(guān)系。文章面向真實銀行數(shù)據(jù)集,提出基于支持向量機(SVM)模型的客戶分類方法,并引入核函數(shù)來增強SVM的擬合能力,通過與K-means、隨機森林、決策樹等傳統(tǒng)機器學(xué)習分類算法進行實驗分析比較,結(jié)果表明,基于核函數(shù)的SVM算法具有良好的效果,能準確地實現(xiàn)客戶分類,更有助于加強對客戶的了解。
[關(guān)鍵詞]SVM;核函數(shù);銀行客戶分類
[DOI]10.13939/j.cnki.zgsc.2021.13.017
1 引言
隨著信息技術(shù)的發(fā)展,銀行等金融機構(gòu)對智能信息分析技術(shù)的依賴逐漸增加。客戶的分類分析有助于金融機構(gòu)對客戶進行資源整合、價值發(fā)掘以及關(guān)系管理,從而為金融機構(gòu)實現(xiàn)利益最大化提供幫助。但大部分金融機構(gòu)僅僅注重客戶資產(chǎn)等基本的屬性,不能發(fā)掘客戶的潛在特征,這是銀行發(fā)展現(xiàn)狀的短板,需加強與高新技術(shù)的結(jié)合,利用大數(shù)據(jù)、人工智能等新技術(shù),為進一步探索客戶特征提供可能。
目前在銀行領(lǐng)域應(yīng)用SVM算法進行客戶分類的研究成果還不多見。為了使得金融行業(yè)能夠更加準確地把握客戶信息,增強客戶管理能力,實現(xiàn)客戶的精準分類,文章首先將銀行客戶真實數(shù)據(jù)進行清洗,并進行數(shù)據(jù)集劃分;其次,在SVM模型中引入核函數(shù),增強SVM模型的泛化能力;最后,進行模型的性能測試。同時對分類結(jié)果進行分析,與幾個常用的機器學(xué)習算法在分類準確度上進行比較,并從健壯性和性能角度綜合評價了SVM模型,結(jié)果表明,引入核函數(shù)的SVM模型具有良好的分類能力。
2 基于核SVM的銀行客戶算法
文章采用SVM算法對銀行客戶進行分類分析研究,同時引入核函數(shù)加強SVM的分類能力。
SVM是一種二分類機器學(xué)習模型,其本質(zhì)上為定義在特征空間上的最大間隔分類器,當SVM算法增加核函數(shù)后,其實質(zhì)上變?yōu)榉蔷€性。SVM的目的是找到最大間隔的分類界限。
設(shè)樣本集合X={X1, X2, X3, …, Xn}中包含正樣本和負樣本兩類樣本,樣本Xi(i=1, 2, 3, …, n)對應(yīng)標簽yi(i= 1, 2, 3, …, n), yi具有兩種取值,當yi=1時,表示yi屬于正樣本;當yi=-1時,表示yi屬于負樣本。樣本集合X可分為線性可分和線性不可分兩種類型,下面分別針對不同類型進行簡要說明。
2.1 樣本線性可分
直接對樣本集合X進行分類。超平面α為分類對間隔,表達式如下所示:
ω×a+b=0 (1)
其中,ω為超平面α的法向量。a為系數(shù),b為任意常數(shù)。此時分類問題轉(zhuǎn)變?yōu)閷ふ易顑?yōu)的超平面α,即尋找最優(yōu)系數(shù)a和最優(yōu)常數(shù)b,使SVM具有最好的分類效果,該最優(yōu)問題可以歸結(jié)為下面公式:
min‖ω2‖2+ρnk=1ζk(2)
s.t.Yk(ω2·Xk+b)≥ζk, ζk≥0, k=1, 2, 3, …, n(3)
其中,ρnk=1ζk是損失項,ρ為損失系數(shù)。
根據(jù)式(2)和式(3)構(gòu)建拉格朗日函數(shù),由于不容易直接求得原問題的解,但與其對偶問題有相同的最優(yōu)解,因此該問題的解可由其對偶問題求得:
max f(γ)=L(ω, b, γ)=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl(4)
s.t.nk=1γkYk=0, 0<γk<ρ(5)
假設(shè)拉格朗日乘子γ*k的最優(yōu)值根據(jù)式(4)和式(5)求得,那么原問題的最優(yōu)解由下式表示:
ω0=nk=1γ*kYkXk(6)
b0=1n1+n2n1k=1(1-ω0X(s1)k)+n2k=1(-1-ω0X(s2)k)(7)
其中,X(s1)k為正樣本中的第k個支持向量,n1為正樣本中支持向量的總個數(shù),X(s2)k為負樣本中第k個支持向量,n2為負樣本中支持向量的總個數(shù)。
首先將SVM分類器進行樣本訓(xùn)練,然后將實時數(shù)據(jù)輸入到SVM中,根據(jù)下式可計算輸出樣本的類別:
L(ω0X(t)+b0)=1,X∈T-1,X∈F(8)
其中,X(t)為測試樣本,T表示該樣本屬于正樣本,F(xiàn)表示該樣本屬于負樣本。
2.2 樣本線性不可分
當分類樣本線性不可分時,需將每一個樣本的維度進行升高,在高維空間實現(xiàn)線性可分。
此時式(4)和式(5)變?yōu)槿缦滦问剑?/p>
max f(γ)=nk=1-12nk=1nl=1γkγlYkYlψ(Xk)Tψ(Xl)(9)
s.t.nk=1γkYk=0, 0<γk<ρ(10)
其中,ψ為線性空間變換,樣本Xk的映射結(jié)果為ψ(Xk)。 令P(Xk, Yl)=ψ(Xk)Tψ(Yl), Qk, l=YkYtP(Xk, Xl), 代入式(9)和式(10)得到如下公式:
min(12γTQγ-eTγ)(11)
s.t.YTγ=0, 0≤γk≤ρ(12)
其中,Q稱為核函數(shù)。
文章選取了真實的銀行客戶數(shù)據(jù),具有多維特征,屬于樣本線性不可分數(shù)據(jù)類型,因此需要引入核函數(shù)解決此問題。通過選取核函數(shù),可實現(xiàn)樣本從低維向高維空間轉(zhuǎn)換,并求解式(11)和式(12)。
3 算法框圖
本研究主要采用SVM算法實現(xiàn)對銀行用戶的分類,首先對客戶數(shù)據(jù)進行預(yù)處理,然后輸入訓(xùn)練數(shù)據(jù)對SVM分類器進行模型訓(xùn)練,再將測試數(shù)據(jù)輸入分類器進行測試,最后對分類結(jié)果進行了分析。整體的框架如圖1所示。
4 實驗分析
4.1 數(shù)據(jù)集描述
文章的權(quán)威數(shù)據(jù)集來自某銀行的真實客戶信息[1]。包含年齡、工作類型、婚姻狀況、文化水平、是否有負債、年收入、有無房貸、有無個人貸款等信息。
原始數(shù)據(jù)中眾多特征是離散型的變量,同時存在缺失值,這些因素對實驗結(jié)果產(chǎn)生重大影響,因此對原始數(shù)據(jù)進行了預(yù)處理。首先去除數(shù)據(jù)集中的缺失值,其次對離散數(shù)據(jù)進行預(yù)熱處理。將整個數(shù)據(jù)劃分為訓(xùn)練集和測試集,分別存儲于不同的文件中,便于讀取。
4.2 數(shù)據(jù)預(yù)處理
對數(shù)據(jù)集中所有的特征均采用預(yù)熱處理,具體來說,將年齡分成4個類別,將年收入分成5個類別,將每年最后一次聯(lián)系的月份情況分為3個類別,將距離上一次聯(lián)系客戶的天數(shù)的相關(guān)情況分為5個類別,將在此活動之前和此客戶執(zhí)行的聯(lián)系人數(shù)的相關(guān)情況分為4個類別。
4.3 評價指標
本研究比較了SVM、K-means[2-4]、決策樹(Decision Tree)[5]、隨機森林(Random Forest)[6]四種常見機器學(xué)習分類模型的性能,涉及的實驗均使用python語言編譯,8核CPU下運行,編譯環(huán)境為jupyter notebook。
其中SVM采用了不同類型的核函數(shù),具體情況如表1所示。
研究采用準確率(accuracy)、精確率(precision)、召回率(recall)評價各模型的預(yù)測性能,計算公式如下。
其中,TN表示將負類預(yù)測為負類的數(shù)量,F(xiàn)P表示將負類預(yù)測為正類的數(shù)量,F(xiàn)N表示將正類預(yù)測為負類的數(shù)量,TP表示將正類預(yù)測為正類的數(shù)量。
5 實驗結(jié)果
本小節(jié)主要從模型的分類準確度、模型效率以及模型健壯性角度對SVM以及各類常見分類算法進行了對比說明。
5.1 模型分類的準確度
SVM具有較高的準確率和較低的損失,其中引入poly核函數(shù)的SVM具有最高的準確率、精確率和召回率,具有最低的損失,因此具有最好的分類效果。引入poly核函數(shù)的SVM模型的準確率達到93%,精確率達到88%,召回率達到34%,損失僅為2.79,同時引入rbf核函數(shù)、sigmoid核函數(shù)和linear核函數(shù)的SVM模型的準確率依次為91%、89%和89%,精確率分別為70%、68%和66%,召回率依次為20%、28%和17%,分類損失依次為3.35、3.60和3.64,證明了SVM在二分類問題上具有很強的適應(yīng)能力,也很大程度上得益于選取的核函數(shù)。在本研究中,選取poly核函數(shù)的SVM分類器分類效果最佳。
5.2 魯棒性分析
數(shù)據(jù)采集的過程中受不可抗拒因素的影響,導(dǎo)致部分數(shù)據(jù)出現(xiàn)缺失或收集到無關(guān)數(shù)據(jù)的情況,實驗階段首先對數(shù)據(jù)進行了預(yù)處理,補全了缺失值,去除了無關(guān)數(shù)據(jù),理論上更具理想化,與真實數(shù)據(jù)存在一定差異。為了說明模型對真實數(shù)據(jù)同樣具有較強的擬合能力,進行了健壯性分析,即隨機在訓(xùn)練集和測試集上加入不同比例的噪聲后進行預(yù)測,模型預(yù)測結(jié)果如表2所示。
結(jié)果表明,增加噪聲后,SVM-poly模型當分類準確率略微有所降低,從93%稍稍降低到85%,損失略微有所升高,從2.79稍稍升高到3.23,因此,SVM模型原始數(shù)據(jù)具有魯棒性。
5.3 模型性能分析
為了更加全面地評估各模型的分類能力,分別計算了各模型在訓(xùn)練和預(yù)測時所需的時間,如表3所示。
6 結(jié)論
文章采用SVM模型對銀行客戶進行了分類分析,引入核函數(shù),并與常見機器學(xué)習分類算法K-means、決策樹和隨機森林進行了對比研究,從分類的準確度、健壯性以及性能方面進行了詳細的分析,充分證明了SVM分類算法在二分類問題上的優(yōu)越性,并得到如下結(jié)論。
(1)在分類準確度方面,準確率提升了2.20%~46.77%,精確度平均提升20.70%,召回率平均提升53.84%,分類的損失平均降低22.61%。
(2)在健壯性方面,SVM-poly模型在添加不同噪聲的數(shù)據(jù)集上依然能夠準確地分類,準確率僅僅稍微有些降低。
(3)在時間效率方面,SVM-poly稍微耗費時間,這可能是由于SVM模型本身的計算較為復(fù)雜,同時引入了核函數(shù)的緣故。
綜上,在二分類問題上,SVM模型具有較強的分類能力。加入合適的核函數(shù)會加強SVM模型的分類能力,但依然存在進步的空間。隨著經(jīng)濟的發(fā)展,金融行業(yè)與信息技術(shù)緊密結(jié)合,將機器學(xué)習算法應(yīng)用到實際中,可以為金融行業(yè)帶來更多的機遇。
參考文獻:
[1]https://archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.
[2]謝修娟,李香菊,莫凌飛.基于改進K-means算法的微博輿情分析研究[J].計算機工程與科學(xué),2018,40(1):155-158.
[3]郭璘,周繼彪,董升,等.基于改進K-means算法的城市道路交通事故分析[J].中國公路學(xué)報,2018,31(4):270-279.
[4]周本金,陶以政,紀斌,等.最小化誤差平方和k-means初始聚類中心優(yōu)化方法[J].計算機工程與應(yīng)用,2018,54(15):48-52.
[5]KIM Y H,KIM M J,SHIN H J,ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology,2018.
[6]XIA J,GHAMISI P,YOKOVA N,ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing,2018(1):1-15.
[作者簡介]倪非凡(1998—),女,漢族,浙江杭州人,研究方向:經(jīng)濟統(tǒng)計、數(shù)據(jù)分析等。