亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于核SVM的銀行客戶分類研究

        2021-06-15 15:13:04倪非凡趙黎麗謝立
        中國市場 2021年13期

        倪非凡 趙黎麗 謝立

        [摘 要]人工智能技術(shù)為金融行業(yè)的發(fā)展帶來更多的機遇。針對銀行客戶潛在價值的分析與發(fā)掘,幫助金融機構(gòu)制定合理的策略,處理客戶關(guān)系。文章面向真實銀行數(shù)據(jù)集,提出基于支持向量機(SVM)模型的客戶分類方法,并引入核函數(shù)來增強SVM的擬合能力,通過與K-means、隨機森林、決策樹等傳統(tǒng)機器學(xué)習分類算法進行實驗分析比較,結(jié)果表明,基于核函數(shù)的SVM算法具有良好的效果,能準確地實現(xiàn)客戶分類,更有助于加強對客戶的了解。

        [關(guān)鍵詞]SVM;核函數(shù);銀行客戶分類

        [DOI]10.13939/j.cnki.zgsc.2021.13.017

        1 引言

        隨著信息技術(shù)的發(fā)展,銀行等金融機構(gòu)對智能信息分析技術(shù)的依賴逐漸增加。客戶的分類分析有助于金融機構(gòu)對客戶進行資源整合、價值發(fā)掘以及關(guān)系管理,從而為金融機構(gòu)實現(xiàn)利益最大化提供幫助。但大部分金融機構(gòu)僅僅注重客戶資產(chǎn)等基本的屬性,不能發(fā)掘客戶的潛在特征,這是銀行發(fā)展現(xiàn)狀的短板,需加強與高新技術(shù)的結(jié)合,利用大數(shù)據(jù)、人工智能等新技術(shù),為進一步探索客戶特征提供可能。

        目前在銀行領(lǐng)域應(yīng)用SVM算法進行客戶分類的研究成果還不多見。為了使得金融行業(yè)能夠更加準確地把握客戶信息,增強客戶管理能力,實現(xiàn)客戶的精準分類,文章首先將銀行客戶真實數(shù)據(jù)進行清洗,并進行數(shù)據(jù)集劃分;其次,在SVM模型中引入核函數(shù),增強SVM模型的泛化能力;最后,進行模型的性能測試。同時對分類結(jié)果進行分析,與幾個常用的機器學(xué)習算法在分類準確度上進行比較,并從健壯性和性能角度綜合評價了SVM模型,結(jié)果表明,引入核函數(shù)的SVM模型具有良好的分類能力。

        2 基于核SVM的銀行客戶算法

        文章采用SVM算法對銀行客戶進行分類分析研究,同時引入核函數(shù)加強SVM的分類能力。

        SVM是一種二分類機器學(xué)習模型,其本質(zhì)上為定義在特征空間上的最大間隔分類器,當SVM算法增加核函數(shù)后,其實質(zhì)上變?yōu)榉蔷€性。SVM的目的是找到最大間隔的分類界限。

        設(shè)樣本集合X={X1, X2, X3, …, Xn}中包含正樣本和負樣本兩類樣本,樣本Xi(i=1, 2, 3, …, n)對應(yīng)標簽yi(i= 1, 2, 3, …, n), yi具有兩種取值,當yi=1時,表示yi屬于正樣本;當yi=-1時,表示yi屬于負樣本。樣本集合X可分為線性可分和線性不可分兩種類型,下面分別針對不同類型進行簡要說明。

        2.1 樣本線性可分

        直接對樣本集合X進行分類。超平面α為分類對間隔,表達式如下所示:

        ω×a+b=0 (1)

        其中,ω為超平面α的法向量。a為系數(shù),b為任意常數(shù)。此時分類問題轉(zhuǎn)變?yōu)閷ふ易顑?yōu)的超平面α,即尋找最優(yōu)系數(shù)a和最優(yōu)常數(shù)b,使SVM具有最好的分類效果,該最優(yōu)問題可以歸結(jié)為下面公式:

        min‖ω2‖2+ρnk=1ζk(2)

        s.t.Yk(ω2·Xk+b)≥ζk, ζk≥0, k=1, 2, 3, …, n(3)

        其中,ρnk=1ζk是損失項,ρ為損失系數(shù)。

        根據(jù)式(2)和式(3)構(gòu)建拉格朗日函數(shù),由于不容易直接求得原問題的解,但與其對偶問題有相同的最優(yōu)解,因此該問題的解可由其對偶問題求得:

        max f(γ)=L(ω, b, γ)=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl(4)

        s.t.nk=1γkYk=0, 0<γk<ρ(5)

        假設(shè)拉格朗日乘子γ*k的最優(yōu)值根據(jù)式(4)和式(5)求得,那么原問題的最優(yōu)解由下式表示:

        ω0=nk=1γ*kYkXk(6)

        b0=1n1+n2n1k=1(1-ω0X(s1)k)+n2k=1(-1-ω0X(s2)k)(7)

        其中,X(s1)k為正樣本中的第k個支持向量,n1為正樣本中支持向量的總個數(shù),X(s2)k為負樣本中第k個支持向量,n2為負樣本中支持向量的總個數(shù)。

        首先將SVM分類器進行樣本訓(xùn)練,然后將實時數(shù)據(jù)輸入到SVM中,根據(jù)下式可計算輸出樣本的類別:

        L(ω0X(t)+b0)=1,X∈T-1,X∈F(8)

        其中,X(t)為測試樣本,T表示該樣本屬于正樣本,F(xiàn)表示該樣本屬于負樣本。

        2.2 樣本線性不可分

        當分類樣本線性不可分時,需將每一個樣本的維度進行升高,在高維空間實現(xiàn)線性可分。

        此時式(4)和式(5)變?yōu)槿缦滦问剑?/p>

        max f(γ)=nk=1-12nk=1nl=1γkγlYkYlψ(Xk)Tψ(Xl)(9)

        s.t.nk=1γkYk=0, 0<γk<ρ(10)

        其中,ψ為線性空間變換,樣本Xk的映射結(jié)果為ψ(Xk)。 令P(Xk, Yl)=ψ(Xk)Tψ(Yl), Qk, l=YkYtP(Xk, Xl), 代入式(9)和式(10)得到如下公式:

        min(12γTQγ-eTγ)(11)

        s.t.YTγ=0, 0≤γk≤ρ(12)

        其中,Q稱為核函數(shù)。

        文章選取了真實的銀行客戶數(shù)據(jù),具有多維特征,屬于樣本線性不可分數(shù)據(jù)類型,因此需要引入核函數(shù)解決此問題。通過選取核函數(shù),可實現(xiàn)樣本從低維向高維空間轉(zhuǎn)換,并求解式(11)和式(12)。

        3 算法框圖

        本研究主要采用SVM算法實現(xiàn)對銀行用戶的分類,首先對客戶數(shù)據(jù)進行預(yù)處理,然后輸入訓(xùn)練數(shù)據(jù)對SVM分類器進行模型訓(xùn)練,再將測試數(shù)據(jù)輸入分類器進行測試,最后對分類結(jié)果進行了分析。整體的框架如圖1所示。

        4 實驗分析

        4.1 數(shù)據(jù)集描述

        文章的權(quán)威數(shù)據(jù)集來自某銀行的真實客戶信息[1]。包含年齡、工作類型、婚姻狀況、文化水平、是否有負債、年收入、有無房貸、有無個人貸款等信息。

        原始數(shù)據(jù)中眾多特征是離散型的變量,同時存在缺失值,這些因素對實驗結(jié)果產(chǎn)生重大影響,因此對原始數(shù)據(jù)進行了預(yù)處理。首先去除數(shù)據(jù)集中的缺失值,其次對離散數(shù)據(jù)進行預(yù)熱處理。將整個數(shù)據(jù)劃分為訓(xùn)練集和測試集,分別存儲于不同的文件中,便于讀取。

        4.2 數(shù)據(jù)預(yù)處理

        對數(shù)據(jù)集中所有的特征均采用預(yù)熱處理,具體來說,將年齡分成4個類別,將年收入分成5個類別,將每年最后一次聯(lián)系的月份情況分為3個類別,將距離上一次聯(lián)系客戶的天數(shù)的相關(guān)情況分為5個類別,將在此活動之前和此客戶執(zhí)行的聯(lián)系人數(shù)的相關(guān)情況分為4個類別。

        4.3 評價指標

        本研究比較了SVM、K-means[2-4]、決策樹(Decision Tree)[5]、隨機森林(Random Forest)[6]四種常見機器學(xué)習分類模型的性能,涉及的實驗均使用python語言編譯,8核CPU下運行,編譯環(huán)境為jupyter notebook。

        其中SVM采用了不同類型的核函數(shù),具體情況如表1所示。

        研究采用準確率(accuracy)、精確率(precision)、召回率(recall)評價各模型的預(yù)測性能,計算公式如下。

        其中,TN表示將負類預(yù)測為負類的數(shù)量,F(xiàn)P表示將負類預(yù)測為正類的數(shù)量,F(xiàn)N表示將正類預(yù)測為負類的數(shù)量,TP表示將正類預(yù)測為正類的數(shù)量。

        5 實驗結(jié)果

        本小節(jié)主要從模型的分類準確度、模型效率以及模型健壯性角度對SVM以及各類常見分類算法進行了對比說明。

        5.1 模型分類的準確度

        SVM具有較高的準確率和較低的損失,其中引入poly核函數(shù)的SVM具有最高的準確率、精確率和召回率,具有最低的損失,因此具有最好的分類效果。引入poly核函數(shù)的SVM模型的準確率達到93%,精確率達到88%,召回率達到34%,損失僅為2.79,同時引入rbf核函數(shù)、sigmoid核函數(shù)和linear核函數(shù)的SVM模型的準確率依次為91%、89%和89%,精確率分別為70%、68%和66%,召回率依次為20%、28%和17%,分類損失依次為3.35、3.60和3.64,證明了SVM在二分類問題上具有很強的適應(yīng)能力,也很大程度上得益于選取的核函數(shù)。在本研究中,選取poly核函數(shù)的SVM分類器分類效果最佳。

        5.2 魯棒性分析

        數(shù)據(jù)采集的過程中受不可抗拒因素的影響,導(dǎo)致部分數(shù)據(jù)出現(xiàn)缺失或收集到無關(guān)數(shù)據(jù)的情況,實驗階段首先對數(shù)據(jù)進行了預(yù)處理,補全了缺失值,去除了無關(guān)數(shù)據(jù),理論上更具理想化,與真實數(shù)據(jù)存在一定差異。為了說明模型對真實數(shù)據(jù)同樣具有較強的擬合能力,進行了健壯性分析,即隨機在訓(xùn)練集和測試集上加入不同比例的噪聲后進行預(yù)測,模型預(yù)測結(jié)果如表2所示。

        結(jié)果表明,增加噪聲后,SVM-poly模型當分類準確率略微有所降低,從93%稍稍降低到85%,損失略微有所升高,從2.79稍稍升高到3.23,因此,SVM模型原始數(shù)據(jù)具有魯棒性。

        5.3 模型性能分析

        為了更加全面地評估各模型的分類能力,分別計算了各模型在訓(xùn)練和預(yù)測時所需的時間,如表3所示。

        6 結(jié)論

        文章采用SVM模型對銀行客戶進行了分類分析,引入核函數(shù),并與常見機器學(xué)習分類算法K-means、決策樹和隨機森林進行了對比研究,從分類的準確度、健壯性以及性能方面進行了詳細的分析,充分證明了SVM分類算法在二分類問題上的優(yōu)越性,并得到如下結(jié)論。

        (1)在分類準確度方面,準確率提升了2.20%~46.77%,精確度平均提升20.70%,召回率平均提升53.84%,分類的損失平均降低22.61%。

        (2)在健壯性方面,SVM-poly模型在添加不同噪聲的數(shù)據(jù)集上依然能夠準確地分類,準確率僅僅稍微有些降低。

        (3)在時間效率方面,SVM-poly稍微耗費時間,這可能是由于SVM模型本身的計算較為復(fù)雜,同時引入了核函數(shù)的緣故。

        綜上,在二分類問題上,SVM模型具有較強的分類能力。加入合適的核函數(shù)會加強SVM模型的分類能力,但依然存在進步的空間。隨著經(jīng)濟的發(fā)展,金融行業(yè)與信息技術(shù)緊密結(jié)合,將機器學(xué)習算法應(yīng)用到實際中,可以為金融行業(yè)帶來更多的機遇。

        參考文獻:

        [1]https://archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.

        [2]謝修娟,李香菊,莫凌飛.基于改進K-means算法的微博輿情分析研究[J].計算機工程與科學(xué),2018,40(1):155-158.

        [3]郭璘,周繼彪,董升,等.基于改進K-means算法的城市道路交通事故分析[J].中國公路學(xué)報,2018,31(4):270-279.

        [4]周本金,陶以政,紀斌,等.最小化誤差平方和k-means初始聚類中心優(yōu)化方法[J].計算機工程與應(yīng)用,2018,54(15):48-52.

        [5]KIM Y H,KIM M J,SHIN H J,ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology,2018.

        [6]XIA J,GHAMISI P,YOKOVA N,ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing,2018(1):1-15.

        [作者簡介]倪非凡(1998—),女,漢族,浙江杭州人,研究方向:經(jīng)濟統(tǒng)計、數(shù)據(jù)分析等。

        日本大片免费观看视频| 黄片一级二级三级四级| 国产一区二区精品人妖系列在线| 国产精品久免费的黄网站| 男女啪啪免费体验区| 全免费a级毛片免费看| 五十路一区二区中文字幕| 久久久久人妻精品一区二区三区| 亚洲日韩精品无码专区网站| 亚洲男人的天堂精品一区二区| 亚洲一区二区三区一区| 亚洲综合极品美女av| 亚洲av国产精品色午夜洪2 | 中文精品久久久久中文| 国产精女同一区二区三区久| 亚洲一区二区三区四区五区黄| 精品久久亚洲中文无码| 亚洲一区二区精品久久岳| 美女免费观看一区二区三区| 国产免费艾彩sm调教视频| 六月婷婷国产精品综合| 风流少妇一区二区三区| 免费人成视频网站在线不卡| 激情第一区仑乱| 亚洲欧美日韩中文字幕网址| 在线观看一区二区三区视频| 成人国成人国产suv| 成人做爰69片免费看网站| 午夜视频免费观看一区二区| 91精品国产在热久久| 俺去俺来也在线www色官网| 亚洲国产精品线观看不卡| 中文字幕亚洲一区视频| 久久久久成人精品无码中文字幕 | 亚洲综合自拍偷拍一区| 国产女人水真多18毛片18精品| 久久99国产伦精品免费| 少妇高潮精品正在线播放| 欧洲熟妇色| 日韩亚洲中字无码一区二区三区| 国产精品污一区二区三区在线观看 |