亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means聚類與粗糙集的個(gè)人信用集成分類模型

        2023-03-08 10:57:22謝曉金
        軟件導(dǎo)刊 2023年2期
        關(guān)鍵詞:分類模型

        張 怡,謝曉金

        (上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620)

        0 引言

        隨著個(gè)人信貸業(yè)務(wù)的興起,個(gè)人信用風(fēng)險(xiǎn)的不確定性給金融機(jī)構(gòu)帶來了巨大損失。因此,針對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行分類成為當(dāng)今社會(huì)的一項(xiàng)重要任務(wù)。個(gè)人信用分類是金融風(fēng)險(xiǎn)預(yù)測在消費(fèi)貸款中的一項(xiàng)重要應(yīng)用,其目的是區(qū)分“好”和“壞”客戶。

        目前,已有不少學(xué)者對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行了相應(yīng)研究。陸健健等[1]通過集成隨機(jī)森林(RF)、GBDT 算法和XGBoost 三種算法后建立的個(gè)人信用評(píng)估模型,并依據(jù)所得相關(guān)多元評(píng)價(jià)指標(biāo)對(duì)個(gè)人信用評(píng)估進(jìn)行對(duì)比研究。張東梅等[2]基于主成分分析和單類K 近鄰對(duì)混合數(shù)據(jù)進(jìn)行預(yù)處理,并結(jié)合Bootstrap 方法找到最佳決策邊界,對(duì)個(gè)人信貸數(shù)據(jù)具有較好的分類效果。劉占峰等[3]基于模糊粗糙集提出的FRIS 算法在個(gè)人信用數(shù)據(jù)評(píng)估中優(yōu)于傳統(tǒng)的線性判別分析、邏輯回歸和K 近鄰算法。而個(gè)人信用數(shù)據(jù)中離散型和連續(xù)型數(shù)據(jù)并存的問題使得分類性能大幅降低[4]。

        針對(duì)個(gè)人信用數(shù)據(jù)屬性雜糅問題的研究,大多從聚類角度對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化。石凱等[4]給出多維高斯分布假設(shè)下MCMC 算法,具有高度精確的區(qū)分效果。李艷等[5]運(yùn)用K-means 聚類處理混合數(shù)據(jù),根據(jù)信息熵定義屬性重要性度量,建立了變精度正域的約簡方法,但基于歐式距離的傳統(tǒng)K-means 聚類忽略了空間要素。謝娟英等[6]基于樣本空間分布密度改進(jìn)傳統(tǒng)的K-means 聚類,充分解釋了其優(yōu)化算法的客觀性。張立軍等[7]基于K-means聚類和粗糙集構(gòu)建集成型分類模型,但無法規(guī)避初始點(diǎn)和聚類個(gè)數(shù)隨機(jī)選取的弊端。陳晉音等[8]針對(duì)混合數(shù)據(jù)問題,提出了一種自適應(yīng)選取的改進(jìn)聚類算法。鐘志峰等[9]提出一種自適應(yīng)改進(jìn)的K-means 聚類算法,規(guī)避了初始點(diǎn)選取的隨機(jī)性。郭婧等[10]采用菌群優(yōu)化算法增強(qiáng)Kmeans 聚類的有效性,得到更好的聚類性能。已有文獻(xiàn)大多采用K-means 聚類對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化,并與屬性約簡相結(jié)合,如采用聚類的思想,在不降低分類性能的前提下,降低求解約簡的時(shí)間消耗[11]。

        綜上,針對(duì)個(gè)人信用數(shù)據(jù)屬性雜糅的問題,本文旨在提出一種改進(jìn)的K-means 聚類和粗糙集的個(gè)人信用集成分類模型。

        1 預(yù)備知識(shí)

        1.1 基本概念

        定義1樣本空間密度

        其中,d(xi,xj)表示數(shù)據(jù)xi與xj之間的歐式距離。density(xi)越小,說明特定空間內(nèi)樣本密集程度越高;反之則越低[6]。

        定義2聚類誤差平方和

        其中,xi是第j個(gè)簇的第i個(gè)樣本點(diǎn),Cj表示第j個(gè)簇的樣本點(diǎn)集合,Nj是第j個(gè)簇中樣本點(diǎn)的個(gè)數(shù),μj是第j類的聚類中心。因此,Jej可以反映簇內(nèi)數(shù)據(jù)的密集程度,即Jej值越小說明第j個(gè)簇內(nèi)的聚類效果越好[9]。

        1.2 基于粗糙集理論的屬性約簡

        粗糙集理論[5,13]的主要思想是利用已知信息,對(duì)未知領(lǐng)域進(jìn)行近似描述。設(shè)目標(biāo)信息系統(tǒng)S是一個(gè)四元組S={U,A,V,f},其中U為論域,V是屬性值域,f是映射關(guān)系。A是一個(gè)非空有限的屬性集合,由兩個(gè)相互獨(dú)立的子集,即條件屬性集C和決策屬性集D組成。

        針對(duì)C中非空子集B的重要度計(jì)算公式為:

        其中,近似質(zhì)量函數(shù)γC(?)用于度量特征子集的貢獻(xiàn)度[14]。

        2 算法改進(jìn)

        2.1 改進(jìn)的K-means聚類

        本文針對(duì)K-means 聚類初始點(diǎn)和k值隨機(jī)選取的缺陷,結(jié)合肘部法則[15]和改進(jìn)的自適應(yīng)思想,提出一種基于樣本空間密度和自適應(yīng)的改進(jìn)K-means 聚類,解決個(gè)人信用數(shù)據(jù)中離散和連續(xù)型數(shù)據(jù)并存的問題。

        改進(jìn)的K-means 聚類步驟具體如下:

        輸入:數(shù)據(jù)集X=(x1,x2,...xN)、初始簇中心個(gè)數(shù)k、簇內(nèi)聚類評(píng)估閾值Jejmin、簇內(nèi)樣本點(diǎn)最小個(gè)數(shù)Nmin和鄰域半徑調(diào)節(jié)系數(shù)cR[16],簇中心集C=?,鄰域內(nèi)的數(shù)據(jù)集D=?。

        輸出:簇中心集C。

        (1)根據(jù)“肘部法則”劃分樣本點(diǎn),劃分遠(yuǎn)離群點(diǎn)集X1,得到優(yōu)化樣本集X2。

        (2)根據(jù)式(1)計(jì)算優(yōu)化樣本集X2中每個(gè)樣本點(diǎn)xi的密度值density(xi),取最小的density(xi)值所對(duì)應(yīng)的樣本點(diǎn)xi,利用式(4)計(jì)算該樣本的鄰域半徑R及其M鄰域內(nèi)的數(shù)據(jù)集D。

        (3)將樣本點(diǎn)xi加入到初始簇中心內(nèi),即C=C∪{xi},并從優(yōu)化樣本集X2中刪除數(shù)據(jù)集D。

        (4)若簇中心集中簇的個(gè)數(shù)與設(shè)置的k相等,即len(C)=k,則至步驟5,否則返回步驟2。

        (5)計(jì)算優(yōu)化后數(shù)據(jù)集X2內(nèi)每個(gè)樣本點(diǎn)xi到C中每個(gè)簇中心Cj的距離,并將其劃分到距離最小的相應(yīng)的簇內(nèi)。

        (6)計(jì)算k個(gè)簇集中的簇中心,若簇中心沒有發(fā)生變化,則至步驟7,否則返回步驟5。

        (7)根據(jù)式(2)計(jì)算各簇的聚類誤差平方和Jej,并計(jì)算各簇內(nèi)的數(shù)據(jù)樣本個(gè)數(shù)Nj。

        (8)根據(jù)下列情形條件更新簇中心個(gè)數(shù)和簇中心集:情形一:若NjNmin,Jej>Jejmin,則將距離中心點(diǎn)最近的樣本增加為新的簇中心點(diǎn),并令k=k+1;情形三:若上述情況都不滿足,則保持不變。

        若簇中心集不發(fā)生變化,則至步驟9,否則返回步驟5。

        (9)計(jì)算遠(yuǎn)離群點(diǎn)集X1中的每個(gè)樣本點(diǎn)到各簇中心的距離。若存在樣本點(diǎn)到第k個(gè)簇中心的距離小于該簇中樣本點(diǎn)到簇中心的最大距離,則將該樣本點(diǎn)分配到距離它最近的簇中,并從遠(yuǎn)離群點(diǎn)集X1中刪除該樣本點(diǎn),返回步驟6;否則,則至步驟10。

        (10)輸出最終的簇中心集C。

        本文改進(jìn)的K-means 聚類流程見圖1。圖中第一個(gè)條件判別邏輯為傳統(tǒng)的K-means 聚類迭代準(zhǔn)則,在此基礎(chǔ)上,設(shè)定簇內(nèi)聚類評(píng)估指標(biāo)閾值Jejmin和簇內(nèi)最小樣本點(diǎn)個(gè)數(shù)的閾值Nmin以實(shí)現(xiàn)自動(dòng)化更新簇中心點(diǎn)和個(gè)數(shù)。改進(jìn)的自適應(yīng)思想體現(xiàn)在第二個(gè)條件判別邏輯,即根據(jù)肘部準(zhǔn)則再次判別遠(yuǎn)離群點(diǎn)樣本集是否發(fā)現(xiàn)變化,以此進(jìn)行迭代更新,從而降低遠(yuǎn)離群點(diǎn)樣本對(duì)聚類結(jié)果的噪聲影響。

        Fig.1 Improved K-means clustering flow圖1 改進(jìn)的K-means聚類流程

        2.2 改進(jìn)的K-means聚類與粗糙集的個(gè)人信用分類模型

        基于改進(jìn)的K-mean 聚類和粗糙集的個(gè)人信用集成分類模型主要步驟如下:

        (1)獲取數(shù)據(jù)集,并將數(shù)據(jù)進(jìn)行預(yù)處理。首先,計(jì)算缺失比,小于5%者,予以刪除;反之,使用均值插補(bǔ)法予以填補(bǔ);其次,進(jìn)行標(biāo)準(zhǔn)化處理;最后,按照7:3 劃分訓(xùn)練集和測試集。

        (2)基于2.1 節(jié)改進(jìn)K-means 聚類對(duì)訓(xùn)練樣本中的連續(xù)型數(shù)據(jù)進(jìn)行離散化處理。

        (3)運(yùn)用粗糙集對(duì)離散化后的訓(xùn)練集進(jìn)行屬性約簡,得到特征子集。

        (4)為解決不平衡問題,將特征子集加入到基于代價(jià)敏感[12]的集成分類模型(以決策樹、支持向量機(jī)、邏輯回歸和神經(jīng)網(wǎng)絡(luò)為基模型)中,以Bagging[17]思想進(jìn)行集成,最終分類結(jié)果由動(dòng)態(tài)加權(quán)投票法[18]決定。即:

        其中,βi表示第i個(gè)弱分類器的G-means 得分,表示弱分類器的示性函數(shù),即:

        3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

        3.1 樣本選取與數(shù)據(jù)來源

        選取UCI 上常用的個(gè)人信用數(shù)據(jù)集,分別為Australian Data Set 和Credit Approval Data Set。由表1 可知,各數(shù)據(jù)集均有離散型和連續(xù)型數(shù)據(jù)并存的特點(diǎn)。

        Table 1 Data description表1 數(shù)據(jù)描述

        3.2 數(shù)據(jù)預(yù)處理與參數(shù)設(shè)置

        在數(shù)據(jù)預(yù)處理中,首先,計(jì)算各自變量的缺失比,小于5%者刪除對(duì)應(yīng)樣本點(diǎn),大于5%者使用均值插補(bǔ)法。其次,對(duì)數(shù)據(jù)進(jìn)行極大-極小標(biāo)準(zhǔn)化處理,即:

        最后,按照7:3 劃分訓(xùn)練集和測試集。具體參數(shù)設(shè)置如表2所示。

        Table 2 Cluster parameter setting表2 聚類參數(shù)設(shè)置

        其中,kt表示第t次迭代時(shí)簇中心個(gè)數(shù),N為樣本個(gè)數(shù)。

        由圖2 可知,根據(jù)“肘部準(zhǔn)則”可得最佳初始簇個(gè)數(shù)k的取值為4。

        Fig.2 Elbow criteria圖2 肘部準(zhǔn)則

        文獻(xiàn)[9]指出簇內(nèi)聚類評(píng)估b和簇內(nèi)樣本點(diǎn)最小個(gè)數(shù)N需根據(jù)經(jīng)驗(yàn)給出固定值,而本文采用自適應(yīng)參數(shù)選取的思想,即b由第t次迭代的樣本平均聚類誤差乘以適當(dāng)權(quán)重q(1

        式(4)中鄰域半徑cR要盡可能地反映樣本的空間分布,過大或過小都無法達(dá)到最優(yōu)的聚類效果[19],故結(jié)合肘部準(zhǔn)則所得初始簇個(gè)數(shù)k=4,鄰域半徑調(diào)節(jié)系數(shù)cR值取0.00005。

        3.3 基于改進(jìn)K-means聚類的數(shù)據(jù)離散化

        針對(duì)訓(xùn)練集中的連續(xù)型數(shù)據(jù),利用改進(jìn)K-means 聚類方法,可得離散化后的訓(xùn)練集和簇中心,表3 展示了基于Australian Data Set 的離散化結(jié)果和簇中心。

        Table 3 Australian Data Set’s discretization result and cluster centers表3 Australian Data Set的離散化結(jié)果和簇中心

        由表3 可知,從聚類離散化結(jié)果看,改進(jìn)的K-means 聚類離散化后的連續(xù)型數(shù)據(jù)更為稀疏,有利于提高后續(xù)模型訓(xùn)練和泛化能力;從簇中心結(jié)果可見,本文根據(jù)改進(jìn)的自適應(yīng)思想,將聚類所得簇中心剔除了兩個(gè)無效簇中心,有效降低了模型的復(fù)雜度。

        3.4 基于粗糙集的屬性約簡

        在數(shù)據(jù)標(biāo)準(zhǔn)化和聚類處理后,基于粗糙集原理,將訓(xùn)練集進(jìn)行屬性約簡,約簡后的特征子集如表4所示。

        3.5 性能評(píng)價(jià)指標(biāo)

        在個(gè)人信用分類研究中,金融機(jī)構(gòu)更多地關(guān)注少數(shù)類樣本(失信者)的預(yù)測準(zhǔn)確度。同時(shí),在不平衡數(shù)據(jù)問題中,對(duì)多數(shù)類和少數(shù)類的整體分類精度進(jìn)行考慮,是衡量模型優(yōu)劣的一個(gè)重要標(biāo)志。為此,利用混淆矩陣構(gòu)造少數(shù)類樣本召回率rrTP、多數(shù)類樣本召回率rrTN、G-means[20]和F-value并將其作為評(píng)估預(yù)測模型性能的指標(biāo)。其中Gmeans和F-value定義分別為:

        Table 4 Property reduction result表4 屬性約簡結(jié)果

        由式(8)、式(9)可知,G-means綜合衡量不平衡數(shù)據(jù)的分類性能,其值越大說明模型綜合分類的預(yù)測性越強(qiáng),可整體反映模型對(duì)不平衡數(shù)據(jù)的分類性能。而F-value則同時(shí)考慮了少數(shù)類樣本的召回率和查準(zhǔn)率,其值越大表明模型對(duì)于少數(shù)類樣本的識(shí)別能力越強(qiáng)。

        3.6 實(shí)驗(yàn)結(jié)果分析

        本文將文獻(xiàn)[5]和文獻(xiàn)[9]的方法作為對(duì)照組A 和對(duì)照組B。對(duì)照組A 和對(duì)照組B 分別采用傳統(tǒng)K-means 聚類和自適應(yīng)K-means 聚類對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化。而本文基于樣本空間密度和改進(jìn)的自適應(yīng)思想對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,再運(yùn)用粗糙集獲得最優(yōu)特征子集。為比較三者模型性能,基于上述數(shù)據(jù)預(yù)處理、屬性約簡和模型調(diào)參,得實(shí)驗(yàn)結(jié)果如表5所示。

        Table 5 Results of performance evaluation indicators表5 性能評(píng)價(jià)指標(biāo)結(jié)果(%)

        從模型預(yù)測性能提升的角度看,針對(duì)Australian Data Set,實(shí)驗(yàn)組加權(quán)得分后的G-means和F-value為79.08%和77.42%,較對(duì)照組A 分別提高了4.62%和4.74%,較對(duì)照組B 分別提高了5.35%和6.83%;針對(duì)Credit Approval Data Set數(shù)據(jù)集,實(shí)驗(yàn)組加權(quán)得分后的G-means和F-value為87.82% 和86.67%,較對(duì)照組A 分別提高了1.40% 和1.61%,較對(duì)照組B 分別提高了0.45%和0.48%。由此,可以直觀看出本文模型整體預(yù)測效果和精度更好。

        4 結(jié)語

        針對(duì)個(gè)人信用數(shù)據(jù)屬性雜糅問題,本文提出一種基于改進(jìn)的K-means 聚類與粗糙集相結(jié)合的個(gè)人信用集成分類模型,旨在綜合衡量離散型和連續(xù)型數(shù)據(jù)并存時(shí)對(duì)分類性能的影響,且在不降低分類性能的前提下,刪除冗余特征,以最大化提高模型效率,并驗(yàn)證其在個(gè)人信用數(shù)據(jù)集上的有效性。實(shí)驗(yàn)結(jié)果表明,本文模型較已有模型具有更優(yōu)的分類性能,分類策略也較以往研究有所補(bǔ)充完善。不足之處是鄰域半徑調(diào)節(jié)系數(shù)需要根據(jù)經(jīng)驗(yàn)設(shè)定。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        天天草夜夜草| 亚洲一区免费视频看看| 在线观看一区二区三区视频| 日韩精品视频久久一区二区| 久久婷婷人人澡人人爽人人爱| 亚洲av理论在线电影网| 3亚洲日韩在线精品区| 亚洲美女主播内射在线| 国产激情无码视频在线播放性色| 18禁美女裸身无遮挡免费网站| 国产精品一区二区三区精品| 一区二区三区在线乱码| 欧美丰满少妇xxxx性| 欧美成人一区二区三区| 国产精品久久久久免费a∨| 亚洲AV秘 无套一区二区三区| 国产一区二区三区免费av| 三年片免费观看影视大全视频| 丰满人妻熟妇乱又伦精品视| 国产在线91观看免费观看| 中文字幕成人精品久久不卡| 少妇免费av一区二区三区久久| 人人爽久久涩噜噜噜丁香| 美女在线国产| 无码伊人久久大蕉中文无码 | 香蕉免费一区二区三区| 亚洲精品久久久久高潮| 久久精品国产一区二区涩涩| 日本免费在线不卡一区二区| 无码无套少妇毛多18pxxxx| 99久久国产综合精品女图图等你 | 人妻人妇av一区二区三区四区| 一本色道久久爱88av| 国产va免费精品高清在线| 免费黄色福利| 亚洲成人av大片在线观看| 精品国产青草久久久久福利| 国产麻豆精品一区二区三区v视界| 日韩高清av一区二区| 偷拍韩国美女洗澡一区二区三区 | 国产在线观看视频一区二区三区 |