亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于邊界自適應(yīng)SMOTE和Focal Loss函數(shù)改進(jìn)LightGBM的信用風(fēng)險預(yù)測模型

        2022-07-29 08:08:46陳海龍楊暢杜梅張穎宇
        計(jì)算機(jī)應(yīng)用 2022年7期
        關(guān)鍵詞:分類方法模型

        陳海龍,楊暢,杜梅,張穎宇

        基于邊界自適應(yīng)SMOTE和Focal Loss函數(shù)改進(jìn)LightGBM的信用風(fēng)險預(yù)測模型

        陳海龍*,楊暢,杜梅,張穎宇

        (哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150080)( ? 通信作者電子郵箱hrbustchl@163.com)

        針對信用風(fēng)險評估中數(shù)據(jù)集不平衡影響模型預(yù)測效果的問題,提出一種基于邊界自適應(yīng)合成少數(shù)類過采樣方法(BA-SMOTE)和利用Focal Loss函數(shù)改進(jìn)LightGBM損失函數(shù)的算法(FLLightGBM)相結(jié)合的信用風(fēng)險預(yù)測模型。首先,在邊界合成少數(shù)類過采樣(Borderline-SMOTE)的基礎(chǔ)上,引入自適應(yīng)思想和新的插值方式,使每個處于邊界的少數(shù)類樣本生成不同數(shù)量的新樣本,并且新樣本的位置更靠近原少數(shù)類樣本,以此來平衡數(shù)據(jù)集;其次,利用Focal Loss函數(shù)來改進(jìn)LightGBM算法的損失函數(shù),并以改進(jìn)的算法訓(xùn)練新的數(shù)據(jù)集以得到最終結(jié)合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;最后,在Lending Club數(shù)據(jù)集上進(jìn)行信用風(fēng)險預(yù)測。實(shí)驗(yàn)結(jié)果表明,與其他不平衡分類算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost相比,所建立的模型在G-mean和AUC兩個指標(biāo)上都有明顯的提升,提升了9.0%~31.3%和5.0%~14.1%。以上結(jié)果驗(yàn)證了所提出的模型在信用風(fēng)險評估中具有更好的違約預(yù)測效果。

        信用風(fēng)險;不平衡數(shù)據(jù);過采樣;LightGBM;Focal Loss

        0 引言

        互聯(lián)網(wǎng)技術(shù)的快速發(fā)展給傳統(tǒng)金融行業(yè)帶來了巨大的影響,網(wǎng)絡(luò)借貸就是一項(xiàng)重要的創(chuàng)新成果。由于其靈活、便捷的融資方式,網(wǎng)絡(luò)借貸成為了越來越多的人選擇融資的渠道,但是另一方面,信用風(fēng)險問題也一直制約著網(wǎng)貸平臺的發(fā)展,較高的違約率帶來了極大的負(fù)面影響[1],因此,建立有效的信用風(fēng)險預(yù)測模型對借貸人的風(fēng)險控制以及網(wǎng)貸平臺的持續(xù)發(fā)展具有重大的意義[2]。

        近年來,許多基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法被應(yīng)用于信用風(fēng)險預(yù)測模型中,其中包括邏輯回歸[3]、神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)[5]等方法。國內(nèi)外很多學(xué)者的研究證實(shí)了這些方法的可行性,但是在研究信用風(fēng)險評估模型的實(shí)際問題中,由于發(fā)生貸款違約的樣本相對于正常還款的樣本來說數(shù)量很少,因此正負(fù)樣本比例極不平衡。利用不平衡的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,將嚴(yán)重影響模型的分類性能,得到較差的預(yù)測效果[6]。對于解決不平衡數(shù)據(jù)集的分類問題,可以從數(shù)據(jù)和算法兩個方面入手:一是利用采樣方法處理數(shù)據(jù),解決數(shù)據(jù)集本身分布不均的現(xiàn)象;二是對傳統(tǒng)分類算法進(jìn)行改進(jìn)。

        1) 數(shù)據(jù)層面。比較常見的處理數(shù)據(jù)集不平衡的方法有欠采樣和過采樣方法[7]。陳啟偉等[8]利用欠采樣方法平衡數(shù)據(jù)集并與引入?yún)?shù)擾動的集成學(xué)習(xí)方法相結(jié)合建立信用評分模型。該方法雖然改善了由于隨機(jī)欠采樣而導(dǎo)致的信息丟失問題,但是對于正負(fù)樣本比例失衡比較嚴(yán)重的數(shù)據(jù)集來說,分類效果仍有待提高。Chawla等[9]提出的SMOTE(Synthetic Minority Oversampling TEchnique)方法在一定程度上改善了過擬合的問題。Niu等[10]利用SMOTE方法處理不平衡數(shù)據(jù)集,驗(yàn)證了該方法在信用風(fēng)險評估模型中的有效性。Khemakhem等[11]利用隨機(jī)過采樣和合成少數(shù)類過采樣方法來解決數(shù)據(jù)集不平衡問題,結(jié)果表明過采樣方法可以提高模型分類的準(zhǔn)確率。但是SMOTE方法在生成新樣本的過程中沒有對少數(shù)類樣本進(jìn)行區(qū)別選擇,并且容易出現(xiàn)樣本重疊的問題[12]。對此Han等[13]提出了邊界合成少數(shù)類過采樣(Borderline Synthetic Minority Oversampling TEchnique, Borderline-SMOTE)算法,改善了樣本重疊的問題。該方法只對處于邊界的少數(shù)類樣本進(jìn)行過采樣,容易造成正負(fù)類邊界模糊的問題。Nakamura等[14]提出基于密度的SMOTE改進(jìn)算法,根據(jù)正類樣本的分類密度形成聚類簇來控制新樣本的合成。文獻(xiàn)[15-16]中提出帶多數(shù)類權(quán)重的少數(shù)類過采樣方法結(jié)合隨機(jī)森林的信用評估模型,與傳統(tǒng)隨機(jī)森林和樸素貝葉斯相比得到了更好的預(yù)測效果。除此之外,在SMOTE方法的基礎(chǔ)上進(jìn)行改進(jìn)的還有ADASYN(ADAptive SYNthetic sampling)[17]方法,該方法根據(jù)數(shù)據(jù)分布情況為每個少數(shù)類樣本生成不同數(shù)目的新樣本,雖然改進(jìn)了新樣本的分布情況,但是仍會出現(xiàn)樣本重疊的問題。

        2) 算法層面。傳統(tǒng)分類算法在解決不平衡數(shù)據(jù)的分類問題時存在局限性,為此可以在算法層面上做出改進(jìn),主要方法有代價敏感學(xué)習(xí)以及集成學(xué)習(xí)方法[18-19]。代價敏感學(xué)習(xí)解決數(shù)據(jù)不平衡的方法是增加少數(shù)類樣本錯分的懲罰代價,通過優(yōu)化目標(biāo)函數(shù)使分類模型更關(guān)注少數(shù)類樣本的分類準(zhǔn)確率。而集成學(xué)習(xí)方法是通過某種方式將多個基分類器集成起來,減少單個分類器對不平衡數(shù)據(jù)分類形成的誤差,從而提高分類器整體的預(yù)測效果。目前大多采用的方法是將集成學(xué)習(xí)與采樣方法或代價敏感學(xué)習(xí)方法相結(jié)合,陳白強(qiáng)等[20]將錯分損失函數(shù)用于集成分類算法中,極大地提高了少數(shù)類的分類性能。王俊紅等[21]提出將欠采樣方法和代價敏感相結(jié)合的分類算法,提高了在不平衡數(shù)據(jù)上的分類性能。

        基于上述分析,由于對數(shù)據(jù)過采樣中未考慮樣本分布差異的影響和樣本邊界模糊的問題,以及未考慮分類算法中損失函數(shù)對分類效果的影響等問題,本文提出一種基于邊界自適應(yīng)合成少數(shù)類過采樣方法(Borderline Adaptive Synthetic Minority Oversampling TEchnique, BA-SMOTE)和利用Focal Loss函數(shù)改進(jìn)LightGBM (Light Gradient Boosting Machine)損失函數(shù)的算法(Focal Loss-LightGBM, FLLightGBM) 相結(jié)合的信用風(fēng)險預(yù)測模型,來改善數(shù)據(jù)不平衡問題對分類效果的影響。該模型從數(shù)據(jù)和算法兩個方面進(jìn)行改進(jìn),來解決信用風(fēng)險預(yù)測中數(shù)據(jù)不平衡的問題。在數(shù)據(jù)方面,利用改進(jìn)的過采樣方法生成新樣本來平衡數(shù)據(jù)集;在算法方面利用Focal Loss來改進(jìn)LightGBM中的損失函數(shù)[22],并用改進(jìn)的分類算法訓(xùn)練新的數(shù)據(jù)集得到最終的預(yù)測模型。將本文提出的過采樣方法與經(jīng)典的過采樣方法對比,本文模型和處理不平衡數(shù)據(jù)的分類模型RUSBoost(Random Under-Sampling with adaBoost)[23]、CUSBoost(Cluster-based Under-Sampling with adaBoost[24]和KSMOTE-AdaBoost(-means clustering SMOTE with AdaBoost)[25]以及AK-SMOTE-Catboost(AllKnn-SMOTE with Catboost)[26]對比,實(shí)驗(yàn)結(jié)果表明本文提出的改進(jìn)模型在信用風(fēng)險預(yù)測中具有較好的分類效果。

        1 改進(jìn)的過采樣方法

        1.1 SMOTE算法

        SMOTE算法通過少數(shù)類樣本和其近鄰的少數(shù)類樣本之間進(jìn)行隨機(jī)線性插值來生成新樣本,達(dá)到平衡數(shù)據(jù)集的目的。算法的原理如下:

        1) 對于每一個少數(shù)類樣本X(=1,2,…,),根據(jù)歐氏距離計(jì)算出最近鄰的個少數(shù)類樣本(1,2,…,Y)。

        2) 從個最近鄰樣本中隨機(jī)選擇若干個樣本,在每一個選出的樣本Y和原樣本X之間進(jìn)行隨機(jī)線性插值,生成新樣本new。插值方法如式(1)所示:

        其中rand(0,1)表示為(0,1)區(qū)間的隨機(jī)數(shù)。

        3) 將新生成的樣本加入原數(shù)據(jù)集中。

        SMOTE算法是對隨機(jī)過采樣的一種改進(jìn)方法,它簡單有效,并且避免了過擬合的問題。但是SMOTE算法在生成新的少數(shù)類樣本時,只是單一地在同類近鄰樣本間插值,并沒有考慮到少數(shù)類樣本附近的多數(shù)類樣本分布情況。若新生成的少數(shù)類樣本周圍有多數(shù)類樣本,則很容易發(fā)生重疊的現(xiàn)象,使樣本分類時發(fā)生錯誤。

        1.2 Borderline-SMOTE算法

        Borderline-SMOTE算法是對SMOTE進(jìn)行改進(jìn)的一種過采樣方法,它只對處于邊界的少數(shù)類樣本利用隨機(jī)線性插值的方式生成新樣本。算法步驟如下:

        1) 計(jì)算每個少數(shù)類樣本的個最近鄰樣本。

        2) 根據(jù)近鄰樣本中多數(shù)類樣本的分布情況對少數(shù)類樣本進(jìn)行分類。若個近鄰中都是多數(shù)類樣本,則認(rèn)為該少數(shù)類樣本屬于噪聲樣本;若個近鄰中都是少數(shù)類樣本,則認(rèn)為該少數(shù)類樣本屬于安全樣本;若個近鄰中多數(shù)類樣本個數(shù)多于少數(shù)類樣本數(shù),則認(rèn)為該少數(shù)類樣本屬于邊界樣本。

        3) 對于邊界樣本中的每個少數(shù)類樣本,利用SMOTE方法生成新樣本。

        1.3 BA-SMOTE算法

        相較于SMOTE算法,Borderline-SMOTE算法雖然改善了樣本重疊的問題,但是生成新樣本的方式與SMOTE算法相同,對于每個少數(shù)類樣本合成的新樣本數(shù)是一樣的,并沒有考慮到樣本差異性帶來的影響;并且當(dāng)對處于邊界的少數(shù)類樣本過采樣時,新生成的樣本也會處于樣本邊界,這樣容易使多數(shù)類與少數(shù)類的樣本邊界越來越模糊,難以區(qū)分。

        因此,本文提出一種改進(jìn)的過采樣方法,將自適應(yīng)密度分布思想引入Borderline-SMOTE算法中,并且利用新的插值方式生成新樣本來解決上述問題。算法步驟如下:

        1) 計(jì)算每個少數(shù)類樣本的個最近鄰樣本。

        2) 若個最近鄰中多數(shù)類樣本個數(shù)多于少數(shù)類樣本數(shù),則將原少數(shù)類樣本加入邊界樣本集合中。

        4) 對于邊界樣本集合(1,2,…,X)中的每一個少數(shù)類樣本,記為X,計(jì)算出X的近鄰中多數(shù)類樣本的個數(shù),記為N。則近鄰中多數(shù)類樣本的占比R如式(2)所示,計(jì)算多數(shù)類樣本分布情況的總和,記為。

        5) 計(jì)算出邊界樣本集合中每個少數(shù)類樣本X需要合成的新樣本數(shù)g,其中r表示少數(shù)類樣本X周圍的多數(shù)類樣本占比情況。

        6) 對處于邊界的少數(shù)類樣本X,利用新的插值方式,生成g個少數(shù)類樣本。

        新的插值方式如下:

        1) 從少數(shù)類樣本X的近鄰中隨機(jī)選擇兩個樣本,記為1、2。若1、2都是多數(shù)類樣本,則首先在1、2之間進(jìn)行線性插值,生成臨時樣本X,再在XX之間進(jìn)行隨機(jī)插值,生成的新樣本new放入少數(shù)類樣本集中。

        2) 若1為少數(shù)類,2為多數(shù)類,則生成臨時樣本X和新樣本new的公式為:

        其中:用來限制合成區(qū)域的大小,0<<1。插值區(qū)域如圖2所示,可以看出插值區(qū)域仍然靠近少數(shù)類樣本。

        圖1 第一種插值方式

        圖2 第二種插值方式

        3) 若1,2都為少數(shù)類樣本,則根據(jù)式(6)和式(9)生成新樣本。

        2 基于Focal Loss改進(jìn)的LightGBM算法

        2.1 LightGBM算法

        LightGBM[27]是基于決策樹算法的梯度提升框架,相較于XGBoost(eXtreme Gradient Boosting)算法,速度更快,內(nèi)存占用率更低。LightGBM的一個優(yōu)化是利用基于Histogram的決策樹算法,將連續(xù)型的特征值離散成個值,并且形成一個寬度為的直方圖。遍歷樣本時,利用離散后的值作為索引在圖中累計(jì)統(tǒng)計(jì)量,然后通過遍歷直方圖中的離散值尋找最優(yōu)分割點(diǎn)。

        LightGBM的另一個優(yōu)化是采用帶深度限制的葉子生長方法(leaf-wise)。與按層生長(level-wise)的決策樹生長方法不同的是,leaf-wise方法每次從當(dāng)前所有葉子中找到分裂增益最大的葉子再進(jìn)行分裂,可以有效提高精度,同時加入最大深度限制防止過擬合。

        LightGBM算法的原理是利用最速下降法,把損失函數(shù)的負(fù)梯度在當(dāng)前模型的值當(dāng)作殘差的近似值,進(jìn)而擬合出一棵回歸樹;經(jīng)過多輪迭代,最后將所有回歸樹的結(jié)果累加得到最終結(jié)果。與GBDT(Gradient Boosting Decision Tree)和XGBoost的節(jié)點(diǎn)分裂方式不同的是,先將特征分桶構(gòu)建直方圖再進(jìn)行節(jié)點(diǎn)分裂計(jì)算。對于當(dāng)前模型的每個葉子節(jié)點(diǎn),需要遍歷所有的特征來找到增益最大的特征及其劃分值,以此來分裂該葉子節(jié)點(diǎn)。節(jié)點(diǎn)分裂步驟如下:

        1) 離散特征值,將全部樣本在該特征上的取值劃分到某一段bin中。

        2) 為每個特征構(gòu)建一個直方圖,直方圖中存儲每個bin中樣本的梯度之和以及樣本數(shù)量。

        2.2 FLLightGBM算法

        Focal Loss被提出是為了解決在目標(biāo)檢測中樣本不平衡影響分類效果的問題[28-29]。它在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)的基礎(chǔ)上進(jìn)行修改,在損失函數(shù)中調(diào)整類別權(quán)重和易分類樣本權(quán)重及難分類樣本權(quán)重來提升模型的分類準(zhǔn)確率。交叉熵?fù)p失函數(shù)如式(11)所示:

        其中:表示真實(shí)樣本的標(biāo)簽,表示預(yù)測值。

        Focal Loss損失函數(shù)引入類別權(quán)重因子來調(diào)節(jié)不同類別的樣本的權(quán)重大小,∈(0,1),通過增加少數(shù)類樣本權(quán)重來平衡正負(fù)樣本的重要性。引入權(quán)重因子后的損失函數(shù)變?yōu)椋?/p>

        FLLightGBM算法是在LightGBM算法的基礎(chǔ)上引用Focal Loss函數(shù)作為其損失函數(shù)。它通過調(diào)節(jié)和的值,更改樣本權(quán)重,使模型更關(guān)注少數(shù)類樣本和難分類樣本,在算法層面上改善樣本類別不平衡問題,進(jìn)一步提高分類模型的準(zhǔn)確率。

        3 基于BA-SMOTE和FLLightGBM的分類模型

        3.1 隨機(jī)森林特征選擇

        隨機(jī)森林算法[30]構(gòu)建決策樹時,每次有放回地從數(shù)據(jù)集中抽取個樣本,共抽取次,其中每次未被抽到的樣本稱為袋外數(shù)據(jù)(Out Of Bag, OOB)。利用隨機(jī)森林算法進(jìn)行特征選擇時,通過最小袋外數(shù)據(jù)誤差率準(zhǔn)則來度量每個特征的重要性程度?;舅枷胧菍σ粋€特征加入噪聲后,預(yù)測準(zhǔn)確率會降低,準(zhǔn)確率的變化決定了這個特征的重要性程度,并以此為依據(jù)對特征進(jìn)行排序。特征選擇算法如下:

        1) 根據(jù)組袋外數(shù)據(jù)計(jì)算每棵決策樹的誤差值,記為1(=1,2,…,)。

        2) 在其余特征分布不變的情況下,對第個特征添加噪聲干擾,再次計(jì)算每棵決策樹的誤差值2(=1,2,…,)。

        3) 特征的重要性與前后兩次誤差變化的平均值有關(guān),因此第個特征的重要性如式(14)所示:

        3.2 BA-SMOTE方法平衡數(shù)據(jù)集

        對經(jīng)過特征篩選的訓(xùn)練集數(shù)據(jù)利用BA-SMOTE過采樣方法進(jìn)行數(shù)據(jù)平衡處理,通過設(shè)置值來控制需要合成的少數(shù)類樣本總數(shù),根據(jù)處于邊界的少數(shù)類樣本周圍的多數(shù)類樣本分布情況,為每個處于邊界的少數(shù)類樣本計(jì)算出需要合成的樣本數(shù)量,使新樣本的分布更加合理。針對原有插值方式易造成樣本邊界模糊的問題,利用改進(jìn)的插值方法生成新樣本,通過設(shè)置值來調(diào)節(jié)插值區(qū)域大小,使新樣本更靠近原來的少數(shù)類樣本,達(dá)到區(qū)分邊界、易于分類的目的。

        算法1 BA-SMOTE算法。

        輸入 樣本集,控制合成樣本量的系數(shù),控制插值區(qū)域的系數(shù),近鄰值;

        輸出 新的樣本集new。

        1) 將樣本集分成多數(shù)類maj和少數(shù)類min

        2)=[ ]

        3)=[ ]

        4)new=[ ]

        5) Forinmin:

        5.1) 找到的近鄰

        5.2) 計(jì)算近鄰中多數(shù)類樣本數(shù)N

        5.3) if/2<=N<

        .append()

        .append(N/)

        =+R

        6)=(maj-min) *

        7)=sum()

        8) Forin:

        8.1)r=R/

        8.2)g=r*

        8.3) 找到的近鄰

        8.3.1)Foring

        1,2=random.choice(,2)

        if1∈majand2∈maj:

        按照式(6)和式(7)插值,并將樣本加入new中

        elif1∈minand2∈min:

        按照式(6)和式(9)插值,樣本加入new中

        else:

        按照式(8)和式(9)插值,樣本加入new中

        9)new=∪new

        10)Returnnew

        3.3 建立模型

        本文建立模型首先利用隨機(jī)森林算法篩選特征,然后通過BA-SMOTE方法生成新樣本,并加入到原訓(xùn)練集中來平衡數(shù)據(jù)集,再利用改進(jìn)的FLLightGBM分類算法在新的訓(xùn)練集上根據(jù)篩選得到的變量特征進(jìn)行訓(xùn)練,最終建立BA-SMOTE-FLLightGBM模型。建模流程如圖3所示,具體實(shí)現(xiàn)過程如下:

        1) 輸入數(shù)據(jù)集,對數(shù)據(jù)集進(jìn)行預(yù)處理,包括對缺失值和異常值的處理,構(gòu)成新的數(shù)據(jù)集1。

        2) 利用隨機(jī)森林算法,根據(jù)決策樹誤差值的變化選擇出新的特征集合,形成新數(shù)據(jù)集2。

        3) 在數(shù)據(jù)集2上應(yīng)用BA-SMOTE算法合成新的少數(shù)類樣本,并加入到原數(shù)據(jù)集中,構(gòu)成新數(shù)據(jù)集3。

        4) 利用FLLightGBM分類算法對新數(shù)據(jù)集3進(jìn)行訓(xùn)練,并通過網(wǎng)格搜索算法確定最佳的參數(shù)組合進(jìn)行模型優(yōu)化,得到最終的分類模型。

        5) 用測試集數(shù)據(jù)進(jìn)行測試,驗(yàn)證模型分類效果。

        圖3 建模流程

        4 實(shí)證分析

        4.1 數(shù)據(jù)來源及處理

        本文使用的數(shù)據(jù)來源于Lending Club網(wǎng)貸平臺上2018年第一季度的借貸人數(shù)據(jù),選擇前1萬條用戶樣本,其中每條樣本涉及145個字段信息。每一條用戶樣本中包含個人屬性變量和一個目標(biāo)變量。對于目標(biāo)變量,有7種狀態(tài),分別是Current(正常還款并且沒到最后一個還款日)、Fully Paid(到期還清)、In Grace Period(處于寬限期)、Late(16~30 d)(逾期了16~30 d)、Late(31~120 d)(逾期了31~120 d)、Charged Off(壞賬)和Default(違約)。定義Current和Fully Paid為“好”用戶,其余狀態(tài)為“壞”用戶,將目標(biāo)變量數(shù)值化,用0表示“好”用戶,1表示“壞”用戶。貸款狀態(tài)分布如圖4所示,從圖中可以看出數(shù)據(jù)集屬于不平衡數(shù)據(jù),比例約為17∶1,嚴(yán)重影響模型分類效果,因此需要對數(shù)據(jù)集進(jìn)行不平衡處理。

        圖 4 貸款狀態(tài)分布

        經(jīng)過對數(shù)據(jù)集的統(tǒng)計(jì)分析后發(fā)現(xiàn),由于P2P網(wǎng)貸平臺沒有收集和用戶未填寫等多種原因,原始數(shù)據(jù)集中存在部分?jǐn)?shù)據(jù)缺失嚴(yán)重的情況,其中部分特征全部缺失,部分連續(xù)型特征用離散型字符標(biāo)記。因此在訓(xùn)練模型前要先進(jìn)行數(shù)據(jù)預(yù)處理,本文刪除缺失比超過60%的特征,將原本是數(shù)值型的字符型特征轉(zhuǎn)化為數(shù)值型。對分類型變量采取特殊值填充法,將空值當(dāng)作一種特殊的屬性值來處理,所有的空值都用“Unknown”填充。對于數(shù)值型變量的缺失值處理采用均值填充法。然后對分類型數(shù)據(jù)進(jìn)行獨(dú)熱編碼。

        4.2 特征選擇

        利用隨機(jī)森林算法進(jìn)行特征選擇,經(jīng)過重要性排序,選取前18個特征進(jìn)行模型訓(xùn)練,特征及其重要性如表1所示。

        表1特征及其重要性

        Tab.1 Features and their importances

        4.3 模型評價指標(biāo)

        混淆矩陣也稱誤差矩陣,主要用于比較分類結(jié)果和實(shí)際測得值。二分類的混淆矩陣如表2所示。

        用0表示正類即按時還款,1表示負(fù)類即違約。其中(True Positive)表示真實(shí)值為0,預(yù)測值也為0的樣本數(shù);(False Negative)表示真實(shí)值為0,預(yù)測值為1的樣本數(shù);(False Positive)表示真實(shí)值為1,預(yù)測值為0的樣本數(shù);(True Negative)表示真實(shí)值為1,預(yù)測值也為1的樣本數(shù)。

        表2混淆矩陣

        Tab.2 Confusion matrix

        模型評價指標(biāo)如下。

        1) 精確率(Precision)和召回率(Recall)。精確率表示在模型預(yù)測為正類的所有結(jié)果中,模型預(yù)測正確的比例;召回率表示在實(shí)際為正類的所有結(jié)果中,模型預(yù)測正確的比例。

        2) 特異度(specificity)。特異度表示在所有負(fù)類中模型預(yù)測正確的比列:

        3) F1值(F1-score)??梢钥醋魇悄P途_率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。

        4) 幾何平均值(G-mean),可以衡量模型在兩個類別上的平均性能。

        5) ROC(Receiver Operating Characteristic)曲線和AUC(Area Under Curve)值。ROC曲線的橫坐標(biāo)表示假正率(False Positive Rate,),縱坐標(biāo)表示真正率(True Positive Rate,)。=/(+),=/(+),分別表示為錯當(dāng)成正實(shí)例的負(fù)實(shí)例占負(fù)實(shí)例總數(shù)的比值和預(yù)測正確的正實(shí)例占正實(shí)例總數(shù)的比值。但是用ROC曲線評價分類模型的預(yù)測效果不是很直觀,因此引入了AUC值。AUC值表示的是ROC曲線下方和軸上方所形成區(qū)域的面積大小,AUC值位于0.5~1。在大于0.5的情況下,AUC值越接近于1表示模型的預(yù)測效果越好。

        6) KS(Kolmogorov-Smirnov)值。KS值主要驗(yàn)證模型對違約用戶的區(qū)分能力,需要用到和兩個值。KS值在0~1,KS值如果小于0.2表示模型不可用,KS值大于0.3表明模型的區(qū)分能力較好。

        4.4 實(shí)驗(yàn)結(jié)果及分析

        4.4.1參數(shù)敏感性分析

        本文在數(shù)據(jù)層面提出的BA-SMOTE過采樣方法,需要設(shè)置值來控制需要生成的新樣本數(shù)量,設(shè)置值來調(diào)節(jié)生成新樣本的插值區(qū)域大小。為了評估和的取值對算法結(jié)果的影響,選擇LightGBM、XGBoost、GBDT、隨機(jī)森林(Random Forest, RF)和邏輯回歸(Logistics Regression, LR)5個分類器模型,利用Lending Club平臺的借貸人歷史數(shù)據(jù)進(jìn)行測試,并且用F1-score、G-mean、AUC值和KS值等評價指標(biāo)評估參數(shù)的影響。實(shí)驗(yàn)過程利用PyCharm 2018平臺實(shí)現(xiàn),采用五折交叉驗(yàn)證的方式,將數(shù)據(jù)集分成5份,每次選擇其中4份作為訓(xùn)練集,1份作為測試集,最后結(jié)果取平均值。

        的取值用來控制采樣倍率,本文設(shè)置=0.5和1這兩個取值;的取值控制插值區(qū)域,值越大生成的新樣本越容易靠近多數(shù)類樣本,造成邊界模糊;值越小生成的新樣本越靠近少數(shù)類樣本。雖然有效改善了邊界模糊問題,但更易發(fā)生樣本重疊現(xiàn)象。因此設(shè)置取值為0.3和0.5。和的取值進(jìn)行組合,將(,)組合為(0.5,0.3)、(0.5,0.5)、(1,0.3)和(1,0.5)等4組分別進(jìn)行實(shí)驗(yàn),近鄰取值為5,實(shí)驗(yàn)結(jié)果如表3所示,加粗部分為每組算法中效果最好的值。從表3中評價指標(biāo)的結(jié)果可以看出,當(dāng)(,)取值為(1,0.5)時,分類器的預(yù)測結(jié)果更好,也就是正負(fù)樣本比例平衡并且插值區(qū)域范圍限制在中間部分時,算法更易于區(qū)分正負(fù)類樣本。

        表3不同,下的分類效果對比

        Tab.3 Comparison of classification effect under different b, ε

        在算法層面提出的FLLightGBM算法中,引入系數(shù)和,分別用來調(diào)節(jié)樣本類別權(quán)重和樣本難度權(quán)重的大小,以提升模型分類準(zhǔn)確率。為了評估和取值對算法結(jié)果的影響,設(shè)置(,)取值為(0.75,0.2)、(0.5,0.5)、(0.25,1)、(0.25,2)和(0.25,5)幾種參數(shù)組合,同樣采用五折交叉驗(yàn)證的方式,利用G-mean和AUC值作為評價指標(biāo),其中橫軸表示(,)的取值情況,結(jié)果如圖5所示。從圖中可以看出當(dāng)(,)的取值為(0.25,2)時G-mean值和AUC值高于其他參數(shù)組合的值,表明此時的參數(shù)取值對FLLightGBM算法來說具有更好的分類效果。

        圖5 不同(α,γ)下FLLightGBM的G-mean值和AUC值

        4.4.2改進(jìn)方法的階段性實(shí)驗(yàn)對比

        為驗(yàn)證本文提出的模型在數(shù)據(jù)層面和算法層面的改進(jìn)效果,實(shí)驗(yàn)對原始的LightGBM模型,以及經(jīng)過采樣處理的BA-SMOTE-LightGBM模型和改進(jìn)完全的BA-SMOTE-FLLightGBM模型之間進(jìn)行比較分析。實(shí)驗(yàn)參數(shù)依據(jù)上述參數(shù)分析中的結(jié)果,(,)取值為(1,0.5),(,)的取值為(0.25,2),分類模型利用網(wǎng)格搜索算法優(yōu)化模型參數(shù)。各模型的F1-score、G-mean、AUC值和KS值如表4所示。

        從表4中的結(jié)果可以看出,與原始模型相比,經(jīng)過數(shù)據(jù)層面BA-SMOTE過采樣方法處理過的模型和最終改進(jìn)完全的模型的F1-score變化不大,而G-mean、AUC值和KS值都有明顯提升。其中改進(jìn)完全的模型的各項(xiàng)指標(biāo)最高,驗(yàn)證了本文提出的改進(jìn)方法的可行性。

        表4不同改進(jìn)方法的階段性實(shí)驗(yàn)對比結(jié)果

        Tab.4 Phase experimental comparison results of different improvement methods

        4.4.3與其他分類模型的實(shí)驗(yàn)對比

        為了驗(yàn)證基于BA-SMOTE和FLLightGBM的信用風(fēng)險預(yù)測模型的分類效果,本文首先與一些經(jīng)典的過采樣方法和分類算法相結(jié)合的模型作比較。其中包括SMOTE、Borderline-SMOTE和ADASYN等過采樣方法,和XGBoost、GBDT、隨機(jī)森林以及邏輯回歸等分類算法。在實(shí)驗(yàn)過程中BA-SMOTE方法的參數(shù)和設(shè)置為=1,=0.5,F(xiàn)LLightGBM算法中參數(shù)的取值為0.25,的取值為2,并為其他過采樣方法設(shè)置與之相同的采樣倍率,且近鄰值都取為5。模型優(yōu)化階段利用網(wǎng)格搜索算法優(yōu)化模型參數(shù)。各算法的實(shí)驗(yàn)結(jié)果如表5所示,不同過采樣方法的ROC曲線如圖6所示,表5中加粗部分為本文所提模型的評價指標(biāo)值。

        表5不同過采樣方法的實(shí)驗(yàn)結(jié)果比較

        Tab.5 Experimental results comparison of different oversampling methods

        從表5和圖6的結(jié)果可以看出,當(dāng)分類模型相同時,相較于SMOTE、Borderline-SMOTE和ADASYN等3種過采樣方法,本文提出的基于BA-SMOTE方法的分類模型的各項(xiàng)評價指標(biāo)值都有明顯提升,預(yù)測效果更好。說明BA-SMOTE過采樣方法中區(qū)別地為邊界少數(shù)類樣本生成不同數(shù)目的新樣本以及更靠近少數(shù)類樣本的插值方式,在一定程度上避免了生成新樣本的盲目性,有效地提高了樣本的分類準(zhǔn)確率。從表5還可以看出,采用同樣的過采樣方法處理不平衡數(shù)據(jù)時,相較于XGBoost算法、GBDT算法、隨機(jī)森林算法和邏輯回歸算法來說,基于FLLightGBM算法的分類模型的預(yù)測效果更好。其中本文提出的BA-SMOTE-FLLightGBM模型的各項(xiàng)評價指標(biāo)均取得了較高值,與其他過采樣方法和FLLightGBM算法相結(jié)合的模型相比,AUC值最高提升了7.2%,G-mean最高提升了22.1%,KS值最高提升了22.4%,證實(shí)了本文提出的基于BA-SMOTE和FLLightGBM的信用風(fēng)險預(yù)測模型的有效性。

        圖6 不同過采樣方法的ROC曲線

        為進(jìn)一步證明所提模型的有效性,將本文模型與針對不平衡數(shù)據(jù)分類的改進(jìn)算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost進(jìn)行比較。設(shè)置本文模型中BA-SMOTE方法的參數(shù)為=1,=0.5,F(xiàn)LLightGBM算法的參數(shù)為=0.25,=2。各算法的F1-score、G-mean、AUC值和KS值如表6所示,ROC曲線如圖7所示。

        表6所提模型與其他不平衡分類算法的結(jié)果比較

        Tab.6 Results comparison among the proposed model and other imbalanced classification algorithms

        從表6和圖7中的結(jié)果可以看出,相較于其他處理不平衡數(shù)據(jù)的分類算法,本文提出的改進(jìn)模型的準(zhǔn)確率更高,分類性能更好。與RUSBoost算法相比,本文算法的優(yōu)勢更加明顯,可能由于隨機(jī)欠采樣方法的不確定性影響了RUSBoost算法的分類性能。而與CUSBoost算法、KSMOTE-AdaBoost算法和AK-SMOTE-Catboost算法相比,本文算法在4個評價指標(biāo)值上均有提升,尤其在G-mean值、AUC值和KS值上提升明顯。這是由于CUSBoost算法是利用欠采樣方法處理不平衡數(shù)據(jù),而欠采樣方法對于正負(fù)樣本比例極不平衡的數(shù)據(jù)集來說,難以提升分類效果;而KSMOTE-AdaBoost算法和AK-SMOTE-Catboost算法中仍存在樣本邊界模糊的問題,影響了模型的分類效果。通過與上述算法的比較,可以證實(shí)本文模型在數(shù)據(jù)不平衡的信用風(fēng)險預(yù)測中具有較好的分類效果。

        圖7 不同不平衡分類算法的ROC曲線

        為了進(jìn)一步驗(yàn)證本文模型在其他數(shù)據(jù)集上的有效性,選擇UCI數(shù)據(jù)庫中的German數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含1 000個樣本,每個樣本有21個屬性特征,正負(fù)樣本比例為7∶3。利用German數(shù)據(jù)集,將本文模型與其他針對不平衡數(shù)據(jù)分類的算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost進(jìn)行比較分析。其中本文模型的BA-SMOTE方法的參數(shù)設(shè)置為=1,=0.5,F(xiàn)LLightGBM算法的參數(shù)設(shè)置為=0.25,=2。實(shí)驗(yàn)采用五折交叉驗(yàn)證的方式,各個算法的F1-score、G-mean、AUC值和KS值如表7所示。

        表7German數(shù)據(jù)集上的算法比較結(jié)果

        Tab.7 Comparison results of algorithms on German dataset

        從表7的結(jié)果可以看出,本文模型在4個評價指標(biāo)上都取得了最高值。這也可以證實(shí)在German數(shù)據(jù)集上,相較于其他處理不平衡數(shù)據(jù)的分類算法,本文模型具有更好的信用風(fēng)險預(yù)測效果。

        5 結(jié)語

        信用風(fēng)險問題一直制約著網(wǎng)貸平臺的發(fā)展,一個有效的信用風(fēng)險預(yù)測模型是研究的重點(diǎn)。在實(shí)際的研究中數(shù)據(jù)集不平衡問題嚴(yán)重影響著模型分類效果,為此本文從數(shù)據(jù)和算法兩個方面提出改進(jìn)方法。在數(shù)據(jù)方面,通過BA-SMOTE過采樣方法平衡數(shù)據(jù)集,考慮了樣本分布差異的影響并改善了樣本邊界模糊的問題;在算法方面,利用Focal Loss損失函數(shù)改進(jìn)LightGBM,提出FLLightGBM分類算法。通過與其他方法的對比實(shí)驗(yàn),證實(shí)了本文模型在信用風(fēng)險預(yù)測中具有更好的預(yù)測效果。但是本文提出的模型仍然需要進(jìn)一步改進(jìn),在未來應(yīng)更關(guān)注特征選擇對結(jié)果的影響,期望進(jìn)一步提高分類效果。

        [1] 馬曉君,沙靖嵐,牛雪琪. 基于LightGBM算法的P2P項(xiàng)目信用評級模型的設(shè)計(jì)及應(yīng)用[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2018, 35(5):144-160.(MA X J, SHA J L, NIU X Q. An empirical study on the credit rating of P2P projects based on LightGBM algorithm[J]. The Journal of Quantitative and Technical Economics, 2018, 35(5): 144-160.)

        [2] 謝陳昕. P2P網(wǎng)貸平臺借款人信用風(fēng)險評估模型適應(yīng)性研究[J]. 武漢金融, 2019(3):23-29.(XIE C X. Research on adaptability of credit risk assessment model for borrowers of P2P online lending platform[J]. Wuhan Finance, 2019(3): 23-29.)

        [3] COSTA E SILVA E, LOPES I C, CORREIA A, et al. A logistic regression model for consumer default risk[J]. Journal of Applied Statistics, 2020, 47(13/14/15): 2879-2894.

        [4] BEKHET H A, ELETTER S F K. Credit risk assessment model for Jordanian commercial banks: neural scoring approach[J]. Review of Development Finance, 2014, 4(1): 20-28.

        [5] WANG T, LI J C. An improved support vector machine and its application in P2P lending personal credit scoring[J]. IOP Conference Series: Materials Science and Engineering, 2019, 490(6): No.062041.

        [6] 邵良杉,周玉. 一種改進(jìn)過采樣算法在類別不平衡信用評分中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(6):1683-1687.(SHAO L S, ZHOU Y. Application of improved oversampling algorithm in class-imbalance credit scoring[J]. Application Research of Computers, 2019, 36(6): 1683-1687.)

        [7] GARCíA V, SáNCHEZ J S, MOLLINEDA R A. On the effectiveness of preprocessing methods when dealing with different levels of class imbalance[J]. Knowledge-Based Systems, 2012, 25(1): 13-21.

        [8] 陳啟偉,王偉,馬迪,等. 基于Ext-GBDT集成的類別不平衡信用評分模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(2):421-427.(CHEN Q W, WANG W, MA D, et al. Class-imbalance credit scoring using Ext-GBDT ensemble[J]. Application Research of Computers, 2018, 35(2): 421-427.)

        [9] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.

        [10] NIU A W, CAI B Q, CAI S S, et al. Big data analytics for complex credit risk assessment of network lending based on SMOTE algorithm[J] Complexity, 2020, 2020: No.8563030.

        [11] KHEMAKHEM S, BEN SAID F, BOUJELBENE Y. Credit risk assessment for unbalanced datasets based on data mining, artificial neural network and support vector machines[J]. Journal of Modelling in Management, 2018, 13(4): 932-951.

        [12] 王超學(xué),張濤,馬春森. 面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(6):727-734.(WANG C X, ZHANG T, MA C S. Improved SMOTE algorithm for imbalanced datasets[J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(6): 727-734.)

        [13] HAN H, WANG W Y, MAO B H. Border-line-SMOTE: a new over-sampling method in imbalanced data sets learning[C]// Proceedings of the 2005 International Conference on Intelligent Computing, LNCS 3644. Berlin: Springer, 2005: 878-887.

        [14] NAKAMURA M, KAJIWARA Y, OTSUKA A, et al. LVQ-SMOTE — learning vector quantization based synthetic minority over-sampling technique for biomedical data[J]. BioData Mining, 2013, 6: No.16.

        [15] 田臣,周麗娟. 基于帶多數(shù)類權(quán)重的少數(shù)類過采樣技術(shù)和隨機(jī)森林的信用評估方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(6):1707-1712.(TIAN C, ZHOU L J. Credit assessment method based on majority weight minority oversampling technique and random forest[J]. Journal of Computer Applications, 2019, 39(6): 1707-1712.)

        [16] BARUA S, ISLAM M M, YAO X, et al. MWMOTE — majority weighted minority oversampling technique for imbalanced data set learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):405-425.

        [17] HE H B, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]// Proceedings of the 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). Piscataway: IEEE, 2008: 1322-1328.

        [18] 趙楠,張小芳,張利軍. 不平衡數(shù)據(jù)分類研究綜述[J]. 計(jì)算機(jī)科學(xué), 2018, 45(6A):22-27, 57.(ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification[J]. Computer Science, 2018, 45(6A):22-27, 57.)

        [19] 吳雨茜,王俊麗,楊麗,等. 代價敏感深度學(xué)習(xí)方法研究綜述[J]. 計(jì)算機(jī)科學(xué), 2019, 46(5):1-12.(WU Y X, WANG J L, YANG L, et al. Survey on cost-sensitive deep learning methods[J]. Computer Science, 2019, 46(5):1-12.)

        [20] 陳白強(qiáng),盛靜文,江開忠. 基于損失函數(shù)的代價敏感集成算法[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(S2):60-65.(CHEN B Q, SHENG J W, JIANG K Z. Cost-sensitive ensemble algorithm based on loss function[J]. Journal of Computer Applications, 2020, 40(S2):60-65.)

        [21] 王俊紅,閆家榮. 基于欠采樣和代價敏感的不平衡數(shù)據(jù)分類算法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(1):48-52.(WANG J H, YAN J R. Classification algorithm based on undersampling and cost-sensitiveness for unbalanced data[J]. Journal of Computer Applications, 2021, 41(1):48-52.)

        [22] WANG C, DENG C Y, WANG S Z. Imbalance-XGBoost: leveraging weighted and focal losses for binary label-imbalanced classification with XGBoost[J]. Pattern Recognition Letters, 2020, 136: 190-197.

        [23] SEIFFERT C, KHOSHGOFTAAR T M, VAN HULSE J, et al. RUSBoost: a hybrid approach to alleviating class imbalance[J]. IEEE Transactions on Systems, Man, and Cybernetics — Part A: Systems and Humans, 2010, 40(1):185-197.

        [24] RAYHAN F, AHMED S, MAHBUB A, et al. CUSBoost: cluster-based under-sampling with boosting for imbalanced classification[C]// Proceedings of the 2nd International Conference on Computational Systems and Information Technology for Sustainable Solutions. Piscataway: IEEE, 2017: 1-5.

        [25] 王忠震,黃勃,方志軍,等. 改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(9):2591-2596.(WANG Z Z, HUANG B, FANG Z J, et al. Improved SMOTE unbalanced data integration classification algorithm[J]. Journal of Computer Applications, 2019, 39(9):2591-2596.)

        [26] 張德鑫,雒騰,曾志勇. 基于改進(jìn)的SMOTE采樣Catboost分類算法[J]. 信息通信, 2020(1):57-60.(ZHANG D X, LUO T, ZENG Z Y. Catboost classification algorithm based on improved SMOTE sampling[J]. Information & Communications, 2020(1):57-60.)

        [27] KE G L, MENG Q, FINLEY T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 3149-3157.

        [28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.

        [29] 宋玲玲,王時繪,楊超,等. 改進(jìn)的XGBoost在不平衡數(shù)據(jù)處理中的應(yīng)用研究[J]. 計(jì)算機(jī)科學(xué), 2020, 47(6):98-103.(SONG L L, WANG S H, YANG C, et al. Application research of improved XGBoost in unbalanced data processing[J]. Computer Science, 2020, 47(6):98-103.)

        [30] 姚登舉,楊靜,詹曉娟. 基于隨機(jī)森林的特征選擇算法[J]. 吉林大學(xué)學(xué)報(工學(xué)版), 2014, 44(1):137-141.(YAO D J, YANG J, ZHAN X J. Feature selection algorithm based on random forest[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(1): 137-141.)

        CHEN Hailong, born in 1975, Ph. D., professor. His research interests include recommendation algorithm, distributed artificial intelligence.

        YANG Chang,born in 1997, M. S. candidate. Her research interests include machine learning.

        DU Mei,born in 1996, M. S. candidate. Her research interests include machine learning.

        ZHANG Yingyu, born in 1996, M. S. candidate. Her research interests include machine learning.

        Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM

        CHEN Hailong*, YANG Chang, DU Mei, ZHANG Yingyu

        (,,150080,)

        Aiming at the problem that the imbalance of datasets in credit risk assessment affects the prediction effect of the model, a credit risk prediction model based on Borderline Adaptive Synthetic Minority Oversampling TEchnique (BA-SMOTE) and Focal Loss-Light Gradient Boosting Machine (FLLightGBM) was proposed. Firstly, on the basis of Borderline Synthetic Minority Oversampling TEchnique (Borderline-SMOTE), the adaptive idea and new interpolation method were introduced, so that different numbers of new samples were generated for each minority sample at the border, and the positions of the new samples were closer to the original minority sample, thereby balancing the dataset. Secondly, the Focal Loss function was used to improve the loss function of LightGBM (Light Gradient Boosting Machine) algorithm, and the improved algorithm was used to train a new dataset to obtain the final BA-SMOTE-FLLightGBM model constructed by BA-SMOTE method and FLLightGBM algorithm. Finally, on Lending Club dataset, the credit risk prediction was performed. Experimental results show that compared with other imbalanced classification algorithms RUSBoost (Random Under-Sampling with adaBoost), CUSBoost (Cluster-based Under-Sampling with adaBoost), KSMOTE-AdaBoost (-means clustering SMOTE with AdaBoost), and AK-SMOTE-Catboost (AllKnn-SMOTE-Catboost), the constructed model has a significant improvement on two evaluation indicators G-mean and AUC (Area Under Curve) with 9.0%-31.3% and 5.0%-14.1% respectively. The above results verify that the proposed model has a better default prediction effect in credit risk assessment.

        credit risk; imbalanced data; oversampling; LightGBM (Light Gradient Boosting Machine); Focal Loss

        This work is partially supported by National Natural Science Foundation of China (61772160), Special Research Program of Scientific and Technological Innovation for Young Scientists of Harbin (2017RAQXJ045).

        TP391.9

        A

        1001-9081(2022)07-2256-09

        10.11772/j.issn.1001-9081.2021050810

        2021?05?18;

        2021?09?29;

        2021?10?12。

        國家自然科學(xué)基金資助項(xiàng)目(61772160);哈爾濱市科技創(chuàng)新人才研究專項(xiàng)(2017RAQXJ045)。

        陳海龍(1975—),男,黑龍江寧安人,教授,博士,CCF會員,主要研究方向:推薦算法、分布式人工智能; 楊暢(1997—),女,黑龍江綏化人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí); 杜梅(1996—),女,山東濟(jì)南人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí); 張穎宇(1996—),女,河北唐山人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)。

        猜你喜歡
        分類方法模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        日日高潮夜夜爽高清视频| 国产精品一区二区日本| 国产成人精品日本亚洲专区61| 国产亚洲av无码专区a∨麻豆| 精品亚洲国产探花在线播放 | 国产精品久久无码一区二区三区网| 国产精品av在线一区二区三区| 最新国产精品国产三级国产av | 97人妻精品一区二区三区免费| av天堂午夜精品一区| 久久99精品国产麻豆| 中文字幕精品久久久久人妻红杏1| 免青青草免费观看视频在线| 99久久精品人妻一区二区三区| 国内精品久久久久影院优| 黑人巨大白妞出浆| 自慰高潮网站在线观看| 亚洲成人精品在线一区二区| 男女猛烈xx00免费视频试看| 男女男在线精品网站免费观看 | 久久亚洲中文字幕精品二区| 久久天天躁狠狠躁夜夜躁2014| 久久精品片| 黑人一区二区三区高清视频| 国产毛片黄片一区二区三区| 男男受被攻做哭娇喘声视频| 人妻少妇无码中文幕久久| 久久精品av在线视频| 乱码av麻豆丝袜熟女系列| 精品久久久久久久久午夜福利| 97人妻蜜臀中文字幕| 少妇无套裸按摩呻吟无呜| 18禁裸男晨勃露j毛免费观看| 亚洲人成人99网站| 久久精品国产自产对白一区| 尤物在线观看一区蜜桃| 一二三四在线观看免费视频| 国产69精品一区二区三区| 羞羞色院99精品全部免| 亚洲色欲色欲大片www无码| 国产激情在观看|