亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于值差度量和聚類優(yōu)化的K最近鄰算法在銀行客戶行為預(yù)測(cè)中的應(yīng)用

        2019-10-31 09:21:33李博張曉顏靖藝李可威李恒凌玉龍張勇
        計(jì)算機(jī)應(yīng)用 2019年9期
        關(guān)鍵詞:金融危機(jī)數(shù)據(jù)挖掘

        李博 張曉 顏靖藝 李可威 李恒 凌玉龍 張勇

        摘 要:為提升貸款金融客戶行為預(yù)測(cè)的準(zhǔn)確性,針對(duì)傳統(tǒng)的K-最近鄰(KNN)算法在數(shù)據(jù)分析中處理非數(shù)值因素的不完備問(wèn)題,提出了一種采用值差度量(VDM)距離的對(duì)聚類結(jié)果迭代優(yōu)化的改進(jìn)KNN算法。首先對(duì)收集到的數(shù)據(jù)信息進(jìn)行基于VDM距離的KNN算法的聚類,再對(duì)聚類結(jié)果進(jìn)行迭代分析,最后通過(guò)聯(lián)合訓(xùn)練提高了預(yù)測(cè)精度?;谄咸蜒懒闶坫y行2008—2013年收集的客戶數(shù)據(jù)比較可知,改進(jìn)的KNN算法與傳統(tǒng)的KNN算法、基于屬性值相關(guān)距離的KNN改進(jìn)(FCD-KNN)算法、高斯貝葉斯算法、Gradient Boosting等現(xiàn)有算法相比具有更好的性能和穩(wěn)定性,在銀行數(shù)據(jù)預(yù)測(cè)客戶行為中具有很大的應(yīng)用價(jià)值。

        關(guān)鍵詞:K-最近鄰算法;值差異度量距離;金融危機(jī);行為預(yù)測(cè);數(shù)據(jù)挖掘

        中圖分類號(hào):TP311.13

        文獻(xiàn)標(biāo)志碼:A

        Application of KNN algorithm based on value difference metric and clustering optimization in bank customer behavior prediction

        LI Bo1,2*, ZHANG Xiao1,2, YAN Jingyi3, LI Kewei1, LI Heng1,2, LING Yulong1,2, ZHANG Yong1,2

        1.School of Computer Science, Northwestern Polytechnical University, Xian Shaanxi 710129, China;

        2.Ministry of Communications Key Laboratory of Big Data Storage and Management (Northwestern Polytechnical University), Xian Shaanxi 710129, China;

        3.School of Management, Northwestern Polytechnical University, Xian Shaanxi 710129, China

        Abstract:

        In order to improve the accuracy of loan financial customer behavior prediction, aiming at the incomplete problem of? dealing with non-numerical factors in data analysis of traditional K-Nearest Neighbors (KNN) algorithm, an improved KNN algorithm based on Value Difference Metric (VDM) distance and iterative optimization of clustering results was proposed. Firstly the collected data were clustered by KNN algorithm based on VDM distance, then the clustering results were analyzed iteratively, finally the prediction accuracy was improved through joint training. Based on the customer data collected by Portuguese retail banks from 2008 to 2013, it can be seen that compared with traditional KNN algorithm, FCD-KNN (Feature Correlation Difference KNN) algorithm, Gauss Naive Bayes algorithm, Gradient Boosting algorithm, the improved KNN algorithm has better performance and stability, and has great application value in the customer behavior prediction from bank data.

        Key words:

        K-Nearest Neighbors (KNN) algorithm; Value Difference Metric (VDM) distance; financial crisis; behavior prediction; data mining

        0 引言

        在貸款金融領(lǐng)域,銀行機(jī)構(gòu)營(yíng)銷需要對(duì)用戶進(jìn)行分析和分類,以降低營(yíng)銷成本。基于某目標(biāo)人群,從海量的其他人群中找出和目標(biāo)人群相似的人群,以拓展目標(biāo)人群規(guī)模。在現(xiàn)實(shí)生活中,通過(guò)海量數(shù)據(jù)集,并對(duì)數(shù)據(jù)劃分標(biāo)簽,然后對(duì)用戶行為進(jìn)行分析和分類,再進(jìn)行相應(yīng)的營(yíng)銷手段,可以降低成本,并取得較好的效果[1-3]。當(dāng)前的一些研究指出,銀行信息的數(shù)據(jù)挖掘不應(yīng)該僅僅局限于會(huì)計(jì)數(shù)據(jù),還需要考慮一些社會(huì)因素。

        基于數(shù)據(jù)挖掘和用戶行為預(yù)測(cè)的目的,本文采用數(shù)據(jù)挖掘方法對(duì)葡萄牙銀行業(yè)金融機(jī)構(gòu)直接營(yíng)銷活動(dòng)(電話)相關(guān)數(shù)據(jù)進(jìn)行分析,通過(guò)電話營(yíng)銷和電話銷售預(yù)測(cè)銀行長(zhǎng)期存款的可能性。該數(shù)據(jù)集由葡萄牙零售銀行于2008—2013年收集,受到當(dāng)時(shí)金融危機(jī)的影響,分類的目的是預(yù)測(cè)客戶是否會(huì)訂購(gòu)定期存款。對(duì)于該數(shù)據(jù)集來(lái)說(shuō),主要的困難在于其特征的選擇,數(shù)據(jù)集中存在無(wú)用的或有噪聲的特征,這些特征可能會(huì)降低預(yù)測(cè)結(jié)果。基于這個(gè)目的,本文采用了一種改進(jìn)的K-最近鄰(K-Nearest Neighbors, KNN)算法。KNN算法能夠更好地分析相似客戶的行為,更好地對(duì)客戶進(jìn)行分類。傳統(tǒng)的

        KNN算法存在一定的局限性。本文對(duì)距離計(jì)算和聚類分析方法進(jìn)行了改進(jìn),實(shí)驗(yàn)結(jié)果表明,改進(jìn)的KNN算法在銀行數(shù)據(jù)挖掘中具有良好的預(yù)測(cè)效果。

        1 研究現(xiàn)狀

        數(shù)據(jù)挖掘是指通過(guò)數(shù)據(jù)過(guò)濾,從大量現(xiàn)有數(shù)據(jù)中搜索有趣的、有價(jià)值的數(shù)據(jù)點(diǎn)或數(shù)據(jù)模塊的數(shù)據(jù)處理技術(shù)。數(shù)據(jù)挖掘在商業(yè)金融領(lǐng)域有著廣泛的應(yīng)用,根據(jù)商業(yè)分析的既定目標(biāo),可以通過(guò)企業(yè)內(nèi)部的財(cái)務(wù)數(shù)據(jù)系統(tǒng)進(jìn)行數(shù)據(jù)分析,以獲得所需的業(yè)務(wù)運(yùn)營(yíng)和市場(chǎng)發(fā)展規(guī)律,并可以通過(guò)成熟的數(shù)據(jù)挖掘模型和其他分析工具進(jìn)行支持,形成了商業(yè)化的數(shù)據(jù)挖掘與分析系統(tǒng)。

        2008—2013年,葡萄牙零售銀行業(yè)受到金融危機(jī)的影響,因此銀行需要分析數(shù)據(jù)挖掘,分析客戶是否可以繼續(xù)存款。根據(jù)社會(huì)心理學(xué)研究,當(dāng)人們處于壓力狀態(tài)下時(shí),往往有更多的本能表現(xiàn),數(shù)據(jù)分析的準(zhǔn)確性也會(huì)相應(yīng)提高[4-5]。在金融危機(jī)期間,人們對(duì)金融投資都會(huì)持謹(jǐn)慎態(tài)度。另一方面,葡萄牙零售銀行業(yè)有著成熟的數(shù)據(jù)倉(cāng)庫(kù),對(duì)銀行客戶的個(gè)人數(shù)據(jù)、賬戶信息、交易歷史、業(yè)務(wù)服務(wù)歷史、財(cái)務(wù)管理數(shù)據(jù)、個(gè)人財(cái)務(wù)風(fēng)險(xiǎn)評(píng)估等進(jìn)行了數(shù)據(jù)倉(cāng)儲(chǔ),可以對(duì)每個(gè)銀行客戶進(jìn)行多維度的財(cái)務(wù)分析。

        目前,對(duì)銀行客戶信息挖掘的研究較多,對(duì)銀行客戶信息挖掘的研究需求巨大。一些研究發(fā)現(xiàn):配給大量信息的信貸員并沒(méi)有比配給少量信息的信貸員預(yù)測(cè)更準(zhǔn)確,現(xiàn)有會(huì)計(jì)信息可能過(guò)量。因此當(dāng)前的研究應(yīng)該更多考慮考慮非數(shù)值指標(biāo),如:職業(yè)、學(xué)歷等?;趯傩灾迪嚓P(guān)距離的KNN(Feature Correlation Difference-KNN, FCD-KNN)改進(jìn)算法對(duì)非數(shù)值的因素進(jìn)行了考慮:比較樣本間的距離為屬性值的相關(guān)距離,從而度量樣本間的相似度[6-7]。KNN算法是一種非常常見(jiàn)的算法,簡(jiǎn)單易用,易懂,精度高,理論成熟;但也存在許多問(wèn)題,為此人們提出了許多改進(jìn)的K近鄰算法。為了解決銀行分類問(wèn)題,本文采用了一種改進(jìn)的KNN算法:用更適合銀行情況的搜索距離函數(shù)代替標(biāo)準(zhǔn)歐幾里得距離,用更精確的概率估計(jì)方法代替簡(jiǎn)單的投票機(jī)制。實(shí)驗(yàn)表明,本文提出的改進(jìn)的K最近鄰KNN算法精度得到了很大的提高,是一種有效的算法,具有很好的推廣前景。

        2 算法分析

        2.1 傳統(tǒng)的KNN算法

        K-最近鄰(KNN)分類算法在模式識(shí)別領(lǐng)域得到了廣泛的應(yīng)用。KNN算法基于類比學(xué)習(xí),所有訓(xùn)練基元都存儲(chǔ)在N維模式空間中。如果特征空間中k個(gè)最相似的樣本中的大多數(shù)屬于某個(gè)類別,那么這些樣本就屬于這個(gè)類別。KNN算法不僅可以用于分類,還可以用于回歸分析。通過(guò)尋找樣本的K最近鄰點(diǎn),并將這些相鄰點(diǎn)的屬性平均值賦給樣本,可以得到樣本的預(yù)測(cè)值。例如,在圖1中,當(dāng)一個(gè)新的樣本值添加到向量空間中時(shí),在樣本值附近對(duì)其進(jìn)行分析并進(jìn)行分類。傳統(tǒng)的KNN算法得到了廣泛的應(yīng)用,但鑒于銀行系統(tǒng)的特殊性,本文對(duì)距離選擇和判別法進(jìn)行了改進(jìn),使分析預(yù)測(cè)更加準(zhǔn)確,與傳統(tǒng)的KNN算法相比,其預(yù)測(cè)精度有了顯著的提高。

        2.2 本文采用的改進(jìn)KNN算法

        針對(duì)銀行的特殊情況,本文采用了一種改進(jìn)的KNN算法。改進(jìn)措施包括:用更適合銀行業(yè)情況的搜索距離函數(shù)代替標(biāo)準(zhǔn)歐幾里得距離,用更精確的概率估計(jì)方法代替簡(jiǎn)單的投票機(jī)制。

        1)采用VDM距離修正。

        距離計(jì)算是數(shù)據(jù)挖掘聚類的關(guān)鍵步驟。距離計(jì)算是計(jì)算采樣點(diǎn)與采樣點(diǎn)之間的距離,并根據(jù)計(jì)算結(jié)果判斷采樣點(diǎn)之間的關(guān)系。傳統(tǒng)的k-最近鄰KNN算法使用歐幾里得距離公式計(jì)算距離,例如:

        ρ=(x2-x1)2+(y2-y1)2(1)

        其中ρ為點(diǎn)(x1,x2)與點(diǎn)(y1,y2)之間的歐氏距離。

        歐氏距離通常被用來(lái)本表示樣本的有序?qū)傩?,在本?shù)據(jù)集中只有“年齡”符合這一條件。其他的條件如:婚姻狀況、工作類型等這樣的無(wú)序?qū)傩裕m合采用值差度量(Value Difference Metric, VDM)距離。VDM距離是指: 令Mu,a表示在屬性u(píng)上取值為a的樣本數(shù),Mu,a,i表示在第i個(gè)樣本簇中在屬性u(píng)上取值為a的樣本數(shù),則屬性u(píng)上兩個(gè)離散值a與b之間的VDM距離為:

        VDMp(a,b)=∑nii=1mu,a,imu,a-mu,b,imu,bp(2)

        將歐氏距離和VDM結(jié)合可處理混合屬性。為不失一般性,令有序?qū)傩耘帕性跓o(wú)序?qū)傩灾?,可得?/p>

        MinkowDMp(xi,xj)=(

        ∑ncu=1|xiu-xju|p+∑nu=nc+1VDMp(xiu,xju)

        )1/p(3)

        因?yàn)槭窃诙S分析,可以p=2。無(wú)序?qū)傩跃褪峭ㄟ^(guò)計(jì)算樣本簇中在屬性u(píng)上樣本點(diǎn)的多少來(lái)得到該樣本簇在該屬性上的“距離”。通過(guò)修正數(shù)據(jù)采集的距離,可以使得數(shù)據(jù)挖掘分析預(yù)測(cè)結(jié)果更為精確。

        本文也探討了馬氏距離(Mahalanobis distance)在該問(wèn)題下的應(yīng)用,馬氏距離是對(duì)有序的、數(shù)值型的屬性,考慮其內(nèi)在的關(guān)聯(lián)性,從而計(jì)算得出結(jié)果[8-9]。但是本文所提到的數(shù)據(jù)也有很多無(wú)序的屬性,使用馬氏距離處理會(huì)較為復(fù)雜,故未采用該處理方法。

        2)對(duì)數(shù)據(jù)處理修正。

        傳統(tǒng)的KNN方法對(duì)新增加的樣本點(diǎn)進(jìn)行分類,使其具有更高的相似性。本文同時(shí)設(shè)置了各采樣點(diǎn)的屬性,并設(shè)置了劃分區(qū)域的閾值(比如:70%)。如果超出此閾值,本算法將把采樣點(diǎn)添加到一個(gè)沒(méi)有爭(zhēng)議的區(qū)域。如果點(diǎn)與每個(gè)區(qū)域之間的距離不明顯,本算法將該點(diǎn)標(biāo)記為疑問(wèn)點(diǎn),在初步聚類結(jié)束后再考慮它。如圖2所示,如果點(diǎn)Xa與區(qū)域1(ω1)和區(qū)域2(ω2)之間的距離顯著不同,則將點(diǎn)Xa劃分為區(qū)域1。然而,在圖3中,例如,點(diǎn)Xb與區(qū)域1和區(qū)域2之間的距離沒(méi)有顯著差異。因此,點(diǎn)Xb暫時(shí)被標(biāo)記為疑問(wèn)點(diǎn)。

        根據(jù)這種方法,最終會(huì)發(fā)現(xiàn)兩種類型的點(diǎn):區(qū)域中心的無(wú)爭(zhēng)議點(diǎn)和區(qū)域邊緣的爭(zhēng)議點(diǎn),如圖4所示。

        在圖4中的情況,需要額外增加判斷過(guò)程,整體劃分,保留整個(gè)區(qū)域的最小離群值。甚至對(duì)于離群值邊緣太多,本算法可以將其劃分為新的區(qū)域或合并原始區(qū)域,即對(duì)分類結(jié)果又進(jìn)行了一次處理。而對(duì)于圖5,如果區(qū)域外的點(diǎn)內(nèi)部之間存在更多的相關(guān)性,即這一群爭(zhēng)議點(diǎn)彼此之間更為相似,如果用距離作標(biāo)準(zhǔn),即這一群爭(zhēng)議點(diǎn)內(nèi)部彼此之間的距離明顯小于它們與現(xiàn)有簇之間的距離(根據(jù)本文設(shè)置的閾值判斷)。首先可以通過(guò)在這些爭(zhēng)議點(diǎn)中隨機(jī)找到一個(gè)點(diǎn),計(jì)算該點(diǎn)與其他爭(zhēng)議點(diǎn)之間的距離。如果發(fā)現(xiàn)其內(nèi)部距離更小,則可以形成一個(gè)新的分類;甚至于其內(nèi)部可能還會(huì)進(jìn)一步的分裂,也可以進(jìn)一步的處理。在圖5,中間的三個(gè)點(diǎn)彼此之間的距離更為接近(超過(guò)本文設(shè)置的閾值),可以直接增加新的分類,結(jié)果如圖6所示,這樣就有了更合理的集群。

        3 實(shí)驗(yàn)分析

        為了驗(yàn)證改進(jìn)的K-最近鄰算法在銀行數(shù)據(jù)挖掘中的有效性,本文進(jìn)行了實(shí)驗(yàn)分析。選用的數(shù)據(jù)樣本是葡萄牙零售銀行在2008—2013年期間收集的數(shù)據(jù)樣本,將數(shù)據(jù)分為測(cè)試集和驗(yàn)證集。數(shù)據(jù)預(yù)處理會(huì)有三種情況,分別為:未對(duì)原始數(shù)據(jù)作處理,將原始數(shù)據(jù)整為了應(yīng)對(duì)實(shí)驗(yàn)數(shù)據(jù)的噪聲合為符合正態(tài)分布,將原始數(shù)據(jù)整合到歸一化分布。同時(shí)為了比較算法的有效性,將傳統(tǒng)的KNN算法、FCD-KNN算法,高斯貝葉斯(Gaussian Naive Bayes)算法、Gradient Boosting 4種方法作為對(duì)照組實(shí)驗(yàn)[10-11]。因此共進(jìn)行了15組實(shí)驗(yàn),然后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        3.1 實(shí)驗(yàn)數(shù)據(jù)處理

        為了更為全面地分析數(shù)據(jù),本文采用了3種數(shù)據(jù)預(yù)處理的方法,這三種方法各有利弊。本文會(huì)通過(guò)這5種算法的具體表現(xiàn),驗(yàn)證其穩(wěn)定性和有效性。

        3.1.1 未對(duì)原始數(shù)據(jù)作處理(只對(duì)數(shù)據(jù)標(biāo)簽數(shù)字化)

        在這種情況下,只對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,分析數(shù)據(jù)本來(lái)之間的關(guān)系。具體步驟是:將原始數(shù)據(jù)的標(biāo)簽進(jìn)行數(shù)字化,具體是按序1,2,3的進(jìn)行轉(zhuǎn)化,“no”是1,“yes”是2,null是3。不進(jìn)行其他轉(zhuǎn)換,然后進(jìn)行實(shí)驗(yàn)分析。這種情況下,保持了數(shù)據(jù)的基本特性,但數(shù)據(jù)中的奇異點(diǎn)可能會(huì)對(duì)實(shí)驗(yàn)精度有較大影響,從而降低一些依賴數(shù)值關(guān)系算法的精度,如:K-最近鄰算法。

        3.1.2 將數(shù)據(jù)標(biāo)準(zhǔn)化成符合正態(tài)分布

        大部分的數(shù)據(jù)分析都希望原始數(shù)據(jù)是滿足正態(tài)分布的定距變量,這樣數(shù)據(jù)分析更為精確,也會(huì)降低數(shù)據(jù)分析的復(fù)雜度。數(shù)據(jù)標(biāo)準(zhǔn)化調(diào)整是非常有用的。許多機(jī)器學(xué)習(xí)算法在具有不同范圍特征的數(shù)據(jù)中呈現(xiàn)不同的學(xué)習(xí)效果。例如,Gaussian Naive Bayes在沒(méi)有標(biāo)準(zhǔn)化調(diào)整過(guò)的數(shù)據(jù)中表現(xiàn)很差,因?yàn)榭赡芤粋€(gè)變量的范圍是0~10000,而另一個(gè)變量的范圍是0~1。因此,對(duì)數(shù)據(jù)預(yù)處理符合正態(tài)分布,是一種有效的分析手段。將數(shù)據(jù)處理為符合正態(tài)分布的公式為:

        z=(x-μ)/σ(4)

        其中: μ、σ分別為原始數(shù)據(jù)集的均值和方法。該種歸一化方式要求原始數(shù)據(jù)的分布近似為高斯分布,否則歸一化的效果會(huì)變得很糟糕。本文首先對(duì)原始數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)其大致符合高斯分布,符合將數(shù)據(jù)正態(tài)分布化的先決條件。通過(guò)這種方式,可以使數(shù)據(jù)規(guī)范化,同時(shí)使數(shù)據(jù)分析更為簡(jiǎn)單。

        3.1.3 將數(shù)據(jù)進(jìn)行歸一化到[0,1]

        對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)簽數(shù)字化后,再對(duì)數(shù)據(jù)進(jìn)行線性函數(shù)歸一化。利用線性函數(shù)將原始數(shù)據(jù)線性化的方法轉(zhuǎn)換到[0,1]的范圍,歸一化公式如下:

        Xnorm=(X-Xmin)/(Xmax-Xmin)(5)

        該方法實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的等比例縮放,其中Xnorm為歸一化后的數(shù)據(jù),X為原始數(shù)據(jù),Xmax、Xmin分別為原始數(shù)據(jù)集的最大值和最小值。通過(guò)這種方法可以避免奇異點(diǎn)對(duì)數(shù)據(jù)分析造成的影響,但是會(huì)對(duì)數(shù)據(jù)的完整性和對(duì)比度造成影響。

        3.2 實(shí)驗(yàn)流程

        本文使用Eclipse3+Python3+pydev的開(kāi)發(fā)環(huán)境,也可以使用Java開(kāi)發(fā)環(huán)境(JDK1.8以上),進(jìn)行仿真模擬實(shí)驗(yàn)。一共做12組實(shí)驗(yàn),隨機(jī)選取樣本集的70%為訓(xùn)練集,30%為測(cè)試集,先對(duì)處理后訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,然后再在測(cè)試集上進(jìn)行訓(xùn)練,最后根據(jù)預(yù)測(cè)的精度來(lái)驗(yàn)證實(shí)驗(yàn)。

        3.3 實(shí)驗(yàn)結(jié)果

        1)未對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的精度情況。

        當(dāng)未對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí)(僅對(duì)標(biāo)簽進(jìn)行數(shù)字化),Gaussian Naive Bayes和Gradient Boosting算法表現(xiàn)的并不是特別理想,相比之下3種KNN算法的準(zhǔn)確性更好,F(xiàn)CD-KNN算法作為一種較新穎的算法在這種情況下表現(xiàn)略優(yōu)于于本文提出的改進(jìn)KNN算法。未對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),實(shí)驗(yàn)結(jié)果如表1所示。

        2)對(duì)數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化成正態(tài)分布的精度情況。

        根據(jù)KNN算法的特性,KNN算法一般會(huì)很好地處理奇異點(diǎn)(比如:不歸類),而本文改進(jìn)的KNN算法會(huì)盡可能得將數(shù)據(jù)進(jìn)行合理的分類;相比于FCD-KNN算法,對(duì)數(shù)據(jù)分類進(jìn)行了進(jìn)一步的處理,從而在銀行數(shù)據(jù)分析預(yù)測(cè)中有更好的表現(xiàn)。對(duì)數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)化成正態(tài)分布時(shí),實(shí)驗(yàn)結(jié)果如表2所示。

        3)對(duì)數(shù)據(jù)預(yù)處理歸一化到[0,1]的精度情況。

        相比于對(duì)數(shù)據(jù)進(jìn)行正態(tài)化分布預(yù)處理的情形,對(duì)數(shù)據(jù)進(jìn)行歸一化處理得到的結(jié)果很相似。歸一化后加快了梯度下降求最優(yōu)解的速度。同時(shí),如果一個(gè)特征值域范圍非常大,那么距離計(jì)算就主要取決于這個(gè)特征,從而與實(shí)際情況相悖(比如這時(shí)實(shí)際情況是值域范圍小的特征更重要)。這種方法非常適用于采用距離判斷的K-最近鄰算法 ,通過(guò)這種方法,雖然此時(shí)5種預(yù)測(cè)算法的精度都有所下降,但是3種KNN算法還是明顯優(yōu)于其他2種算法,同時(shí)改進(jìn)的KNN算法略優(yōu)于其他兩種的KNN算法。對(duì)數(shù)據(jù)預(yù)處理歸一化到[0,1]時(shí),實(shí)驗(yàn)結(jié)果如表3所示。

        3.4 整體實(shí)驗(yàn)結(jié)論分析

        在整體結(jié)果中,本文提出的改進(jìn)的KNN方法和FCD-KNN算法表現(xiàn)更好,說(shuō)明本文提出的改進(jìn)的KNN算法有一定的研究?jī)r(jià)值。分析原因,銀行用戶數(shù)據(jù)集不適合進(jìn)行標(biāo)準(zhǔn)化,其噪聲可以通過(guò)SVM的RBF核函數(shù)的處理,RBF將數(shù)據(jù)集映射到高維上進(jìn)行分類,從而有效減少了噪聲的影響,在低維上進(jìn)行計(jì)算。進(jìn)一步的展望是先進(jìn)行聚類算法,假設(shè)噪聲都是一些離群點(diǎn),將識(shí)別出來(lái)的很小的集合劃為噪聲,從而將噪聲識(shí)別出來(lái)并剔除,進(jìn)一步提高精度。改進(jìn)的KNN方法采用了VDM距離法,而樣本集中很多無(wú)法數(shù)字化比較的標(biāo)簽(如婚姻狀態(tài)、工作狀態(tài)等)很難作為數(shù)字因素考慮。FCD-KNN算法也是對(duì)非數(shù)值的指標(biāo)進(jìn)行了考慮,但是本文提出的改進(jìn)的KNN算法在數(shù)據(jù)分類過(guò)程中有更多的考慮,對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生了一些有利的結(jié)果。

        而Naive Bayes方法相比于其他方法精度較低,原因可能是:1)樸素貝葉斯方法需要先知道先驗(yàn)分布和數(shù)據(jù)來(lái)決定后驗(yàn)的概率從而決定分類,所以分類決策存在一定的錯(cuò)誤率;2) 理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但實(shí)際上,因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果不好。

        分析原因,可能是數(shù)據(jù)集中樣本的屬性之間有聯(lián)系,分析銀行客戶資料,“工作類型”“教育”“住房”“貸款”等屬性之間都可能會(huì)有聯(lián)系,所以這也是Naive Bayes方法精度比其他三種方法更低的原因。

        3種KNN方法在三組實(shí)驗(yàn)中均有優(yōu)秀的實(shí)驗(yàn)結(jié)果,精度均在0.92左右或以上,預(yù)測(cè)精度都非常穩(wěn)定。整體實(shí)驗(yàn)結(jié)果為:在不同預(yù)處理方式的之間,不標(biāo)準(zhǔn)化(僅對(duì)標(biāo)簽數(shù)字化)>對(duì)數(shù)據(jù)預(yù)處理正態(tài)分布化>對(duì)數(shù)據(jù)預(yù)處理線性函數(shù)歸一化。因?yàn)樵诒敬螖?shù)據(jù)集,標(biāo)簽并沒(méi)有太多的數(shù)值關(guān)系,因此使用歐氏距離傳統(tǒng)的KNN方法精度會(huì)下降,而采用VDM距離的改進(jìn)的KNN方法和FCD-KNN方法均有突出的表現(xiàn)。而綜合三種情況分析,本文提出的改進(jìn)的KNN方法無(wú)疑是在銀行數(shù)據(jù)挖掘分析預(yù)測(cè)中表現(xiàn)作為優(yōu)秀和穩(wěn)定的算法,其對(duì)于距離計(jì)算和聚類方式的改變,非常適用于銀行情況,因此具有很大的潛力。

        4 結(jié)語(yǔ)

        在大數(shù)據(jù)的背景下,對(duì)數(shù)據(jù)進(jìn)行充分分析,可以減少實(shí)際工作中的成本。在金融行業(yè)對(duì)客戶的分析預(yù)測(cè)顯得尤為重要,數(shù)據(jù)分析聚類,可以給客戶提供相應(yīng)的個(gè)性化服務(wù)。本文所提出的改進(jìn)的K-最近鄰算法,對(duì)傳統(tǒng)的K-最近鄰算法進(jìn)行距離計(jì)算和聚類方式的改變,通過(guò)實(shí)驗(yàn)分析與數(shù)據(jù)驗(yàn)證,以2008—2013葡萄牙銀行數(shù)據(jù)作為樣本集和測(cè)試集,對(duì)該算法進(jìn)行驗(yàn)證,取得了非常理想的計(jì)算結(jié)果。與目前主流的其他算法相比,具有更好的穩(wěn)定性和精確性,該算法在金融數(shù)據(jù)分析方面有良好的效果,有樂(lè)觀的應(yīng)用前景。

        本文未來(lái)還會(huì)做以下工作:

        1)本文研究的是處于金融危機(jī)下的人群,從社會(huì)學(xué)角度,這一時(shí)期的人群處于敏感時(shí)期,理財(cái)行為更為謹(jǐn)慎,因此要考慮本文研究的價(jià)值。

        2)對(duì)數(shù)據(jù)的預(yù)處理是通常的數(shù)據(jù)挖掘中采用的手段,本文所提到數(shù)據(jù)預(yù)處理手段都較為簡(jiǎn)單,本文會(huì)未來(lái)嘗試更多的預(yù)處理手段,使預(yù)測(cè)度更為精確。

        參考文獻(xiàn)

        [1]GUO J Y, WANG X, LI Y. kNN based on probability density for fault detection in multimodal processes [J]. Journal of Chemometrics, 2018, 32(7): e3021.

        [2]FEKI-SAHNOUN W, NJAH H, HAMZA A, et al. Using general linear model, Bayesian networks and Naive Bayes classifier for prediction of Karenia selliformis occurrences and blooms [J]. Ecological Informatics, 2018,43: 12-23.

        [3]SAINI I, SINGH D, KHOSLA A. QRS detection using K-Nearest Neighbor algorithm (KNN) and evaluation on standard ECG databases [J]. Journal of Advanced Research, 2013, 4(4): 331-344.

        [4]職為梅,張婷,范明.基于影響函數(shù)的k-近鄰分類[J].電子與信息學(xué)報(bào),2015,37(7):1626-1632.(ZHI W M, ZHANG T, FAN M. k-nearest neighbor classification based on influence function [J]. Journal of Electronics and Information Technology, 2015,37(7): 1626-1632.)

        [5]宓文斌.數(shù)據(jù)挖掘在銀行信貸業(yè)務(wù)中的應(yīng)用[D]. 上海:上海交通大學(xué),2012.(MI W B. Application of data mining in the bank credit [D]. Shanghai: Shanghai Jiao Tong University, 2012.)

        [6]JIANG L, CAI Z, WANG D,et al. Survey of improving k-nearest-neighbor for classification [C]// Proceedings of the 4th International Conference on Fuzzy Systems and Knowledge Discovery. Piscataway, NJ: IEEE, 2007: 679-683.

        [7]肖輝輝,段艷明.基于屬性值相關(guān)距離的KNN算法的改進(jìn)研究[J].計(jì)算機(jī)科學(xué),2013,40(S2):157-159.(XIAO H H, DUAN Y M. Improved the KNN algorithm based on related to the distance of attribute value [J]. Computer Science, 2013, 40(S2): 157-159.)

        [8]周治平,苗敏敏.改進(jìn)的馬氏距離動(dòng)態(tài)時(shí)間規(guī)整手勢(shì)認(rèn)證方法[J]. 計(jì)算機(jī)應(yīng)用,2015, 35(5): 1467-1470.(ZHOU Z P, MIAO M M. Dynamic time warping gesture authentication algorithm based on improved Mahalanobis distance[J]. Journal of Computer Applications, 2015, 35(5): 1467-1470.)

        [9]de MAESSCHALCK R, JOUAN-RIMBAUD D, MASSART D L. The Mahalanobis distance [J]. Chemometrics and Intelligent Laboratory Systems, 2000, 50(1): 1-18.

        [10]TAHERI S, MAMMADOV M. Learning the naive Bayes classifier with optimization models [J]. International Journal of Applied Mathematics and Computer Science, 2013, 23(4): 787-795.

        [11]BIAU G, CADRE B, ROUVIRE L. Accelerated gradient boosting [J]. Machine Learning, 2019, 108(6): 971-992.

        [12]楊朔,陳麗芳,石瑀,等.基于深度生成式對(duì)抗網(wǎng)絡(luò)的藍(lán)藻語(yǔ)義分割[J].計(jì)算機(jī)應(yīng)用,2018,38(6):1554-1561.(YANG S, CHEN L F, SHI Y, et al. Semantic segmentation of blue-green algae based on deep generative adversarial net [J]. Journal of Computer Applications, 2018, 38(6): 1554-1561.)

        This work is partially supported by the National Key Research and Development Program of China (2018YFB1004401).

        LI Bo, born in 1994, M. S. candidate. His research interests include cloud storage, data mining.

        ZHANG Xiao, born in 1978, Ph. D., associate professor. His research interests include storage system.

        YAN Jingyi, born in 1993, M. S. Her research interests include technology innovation management.

        LI Kewei, born in 1993, M. S. candidate. His research interests include data mining.

        LI Heng, born in 1993, M. S. candidate. His research interests include data mining.

        LING Yulong, born in 1995, M. S. candidate. His research interests include data mining.

        ZHANG Yong, born in 1995, M. S. candidate. His research interests include data mining.

        猜你喜歡
        金融危機(jī)數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        金融危機(jī)走向信仰危機(jī)何以可能——對(duì)“后金融危機(jī)時(shí)代”資本主義財(cái)產(chǎn)權(quán)異化與信仰虛無(wú)的考察
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        如何認(rèn)識(shí)經(jīng)濟(jì)危機(jī)和金融危機(jī)
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        北歐金融危機(jī)對(duì)我國(guó)的啟示
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        民生建設(shè)在應(yīng)對(duì)金融危機(jī)中的作用
        熟妇人妻无码中文字幕老熟妇| 中文字幕一区二区三区在线视频| 亚洲一区二区三区精品久久| 亚洲精品国产第一综合色吧| 亚洲码国产精品高潮在线| 国产综合激情在线亚洲第一页| 无码三级国产三级在线电影| 亚洲熟女少妇一区二区三区青久久| 国产专区一线二线三线码| 永久免费无码av在线网站| 亚洲AV手机专区久久精品| av免费观看网站大全| 少妇性bbb搡bbb爽爽爽| 美女高潮无遮挡免费视频| 中国精品久久久久国产| 日本a级免费大片网站| 亚洲国产日韩精品一区二区三区| 亚洲成a人片在线| 亚洲区福利视频免费看| 视频在线观看免费一区二区| 日本高清h色视频在线观看| AV无码中文字幕不卡一二三区| 国产一区二区三区乱码在线| 国产精品亚洲第一区二区三区| 熟妇人妻无乱码中文字幕| 中文字幕一区二区三区人妻精品| 亚洲综合久久中文字幕专区一区| 少妇人妻中文字幕hd| 八区精品色欲人妻综合网| 一区二区三区国产精品| 日韩一区av二区三区| 精品无码日韩一区二区三区不卡| av色综合网站| 三级网站亚洲三级一区| 亚洲中文字幕无码天然素人在线| 乱中年女人伦av| 成人黄网站免费永久在线观看| 亚洲一区二区在线观看网址| 国产一区二区精品久久| 国产国拍亚洲精品福利| 亚洲精品中国国产嫩草影院美女|