亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生成對抗網(wǎng)絡(luò)的個人信用風(fēng)險評估研究

        2022-06-26 07:02:00魏全
        科教創(chuàng)新與實踐 2022年14期
        關(guān)鍵詞:生成對抗網(wǎng)絡(luò)

        魏全

        摘要:數(shù)據(jù)不平衡條件下的信用風(fēng)險評估是一項重要但具有挑戰(zhàn)性的任務(wù),其表現(xiàn)為違約者類別的數(shù)量不夠。本文提出了一種基于多源異構(gòu)信用數(shù)據(jù)的不平衡生成對抗網(wǎng)絡(luò)來緩解當(dāng)前的類別不平衡信用評分問題。具體地說,本文設(shè)計了一個融合模塊,將來自多個來源的異構(gòu)信用數(shù)據(jù)整合到一個統(tǒng)一的潛在特征空間中。然后設(shè)計了一個基于生成對抗性網(wǎng)絡(luò)(GAN)的平衡模塊,為不平衡數(shù)據(jù)集的少數(shù)類生成新樣本的潛在表示。最后將GAN的性能與多種傳統(tǒng)的機器學(xué)習(xí)采樣算法進行了比較,實驗表明本文所提出的GAN在真實數(shù)據(jù)集上具有明顯優(yōu)于比較方法的性能。

        關(guān)鍵詞:信用風(fēng)險評估;數(shù)據(jù)不平衡;生成對抗網(wǎng)絡(luò)

        1.引言

        近年來,我國人民的收入和消費能力水平得到不斷提升,消費場景不斷豐富,人們的消費觀念逐步升級,信貸消費已經(jīng)成為消費的主要形式之一。越來越多的金融機構(gòu)大力發(fā)展信貸業(yè)務(wù),直接促進了我國個人信貸市場規(guī)模的持續(xù)擴大。日益增長的貸款需求及較高的不良貸款率促使著銀行業(yè)金融機構(gòu)在不斷簡化信貸審批流程的同時,要更加關(guān)注信貸資產(chǎn)風(fēng)險的控制。

        信用評分風(fēng)險評估旨在自動判斷是否應(yīng)該批準或拒絕信用申請,以降低信用風(fēng)險和減少不良貸款。由于其在銀行和其他金融機構(gòu)[1]的廣泛應(yīng)用,引起業(yè)界越來越多的關(guān)注。以往的大多數(shù)工作都采用了傳統(tǒng)的機器學(xué)習(xí)方法,如支持向量機、決策樹和邏輯回歸方法來建立信用風(fēng)險評估模型。受計算機視覺和自然語言處理領(lǐng)域深度學(xué)習(xí)成功的啟發(fā),最近的幾項研究采用了深度學(xué)習(xí)算法,如卷積神經(jīng)網(wǎng)絡(luò)[2]和深度信念網(wǎng)絡(luò)[3]的信用風(fēng)險評估。

        信用評分數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的混合數(shù)據(jù),稱為多源異構(gòu)數(shù)據(jù),如用戶檔案數(shù)據(jù)和基于時間的用戶行為數(shù)據(jù)。大多數(shù)研究只關(guān)注單一類型的數(shù)據(jù),但沒有融合這兩種類型的數(shù)據(jù)來提取高級隱藏特征。一些研究[4]平等地對待各種數(shù)據(jù),未能捕捉到用戶支付行為隨時間變化的動態(tài),而另一些研究[5]只關(guān)注用戶行為數(shù)據(jù),而不是對信用評分任務(wù)至關(guān)重要的用戶檔案數(shù)據(jù)。這些傳統(tǒng)的方法無法從這些多源異構(gòu)信用數(shù)據(jù)中挖掘和融合豐富的潛在信息。在這種情況下,多源的集成異構(gòu)數(shù)據(jù)被認為是信用評分的重要研究點之一。同時研究表明,普通采樣方法重疊區(qū)域的樣本在提高不平衡數(shù)據(jù)的分類性能方面發(fā)揮著更重要的作用。然而,如何有效地消除重疊區(qū)域中的多數(shù)類樣本,同時避免因丟失原始分布而導(dǎo)致分類性能下降,仍然是一個懸而未決的問題。

        2.文獻綜述

        不平衡學(xué)習(xí)對于傳統(tǒng)算法來說是一項具有挑戰(zhàn)性的任務(wù)。研究人員意識到類別的不平衡確實會影響信用評估的分類,通過設(shè)計了上采樣和下采樣的方法去關(guān)注信用風(fēng)險評估中的多數(shù)類和少數(shù)類,分析了采樣技術(shù)對信用評分中類別不平衡問題的適用性[6, 7]。數(shù)據(jù)采樣的方式有非常多種,值得一提的是,SMOTE算法[8]及在其基礎(chǔ)上一些改進的方法[9]在信用風(fēng)險評估中得到廣泛應(yīng)用并取得不錯的效果,有效緩解了數(shù)據(jù)不均衡帶來的偏差。

        Shen[10]等人對SMOTE采樣方法進行改進之后生成少數(shù)類樣本,利用這種采樣技術(shù)來處理不平衡的信用數(shù)據(jù)能夠有效克服了SMOTE合成噪聲樣本的問題,提高信用風(fēng)險評估模型在處理不平衡數(shù)據(jù)時的性能。Wang等[11]人改進并集成了過采樣、欠采樣和混合采樣等多種采樣方法以獲得平衡的信用數(shù)據(jù)集。然而,這些算法共同的缺點是創(chuàng)造的少數(shù)類樣本具有相同的特征性質(zhì),新樣本與原始數(shù)據(jù)具有很高的重疊性,并不一定能為模型提供有效信息。

        本研究考慮了上述所有的局限性,首先,整合來自多個來源的異構(gòu)數(shù)據(jù),其次提出了基于生成對抗網(wǎng)絡(luò),通過為少數(shù)類生成新的代表性樣本來恢復(fù)數(shù)據(jù)集的平衡,以緩解信用評分任務(wù)中的類別不平衡問題。

        3.數(shù)據(jù)來源及分析

        本研究的數(shù)據(jù)集選取了中國某商業(yè)銀行的個人信貸數(shù)據(jù),包含了用戶的基本信息和交易數(shù)據(jù)。數(shù)據(jù)集中正常樣本個數(shù)有25141個,違約樣本有6852個。其中個人基本信息數(shù)據(jù)中一些特征變量存在缺失嚴重的現(xiàn)象,必將導(dǎo)致特征信息損失嚴重,對其進行刪除。交易數(shù)據(jù)中不存在缺失值,主要對交易時間進行了一系列時間特征的提取,并將字符型的類別特征,如交易方式、交易特征、一級交易代碼進行獨熱編碼的處理,以便后續(xù)進行特征構(gòu)造。

        4.商業(yè)銀行客戶信用風(fēng)險評估

        針對多源異構(gòu)信用數(shù)據(jù),本文對交易數(shù)據(jù)構(gòu)造用戶的靜態(tài)和動態(tài)風(fēng)險特征,并與個人基本信息進行融合,然后加入數(shù)據(jù)不平衡處理模塊,提高模型預(yù)測的性能。具體的流程如圖1所示。

        4.1特征工程

        (一)基于RFM模型的客戶價值特征

        交易數(shù)據(jù)中用戶的每筆交易主要包含了三大維度特征:一是交易類型,如支出、收入、支付方式及交易對象等;二是交易時間,其中蘊含了用戶消費的行為習(xí)慣;三是交易金額,能夠反映了用戶的消費能力和財富情況。借鑒RFM模型對客戶價值衡量的思路,本文針對交易數(shù)據(jù)構(gòu)造個人的用戶價值特征。具體表示為:R反映個人最近的交易活躍度,如最近一次交易的時間;F代表一段時間內(nèi)用戶不同類型交易的次數(shù),如:支付的次數(shù)、收入的次數(shù),日均交易次等;M反映用戶在一定時間內(nèi)的不同交易類型的交易金額,如:日均收入、日均支出、周均支出等。

        (二)個人交易行為的序列特征

        單筆交易信息包含了時間、金額、交易方向等特征,由于特征的類型不同,無法采用相同的處理方式。針對不同類型的特征變量,本文將采用合適的方式進行處理。對于交易時間,我們提取每筆交易的時間特征,如年、月、周、日等,同時衍生為周末和工作日等特征;對于類別型特征,進行獨熱編碼處理為稀疏矩陣;對于金額等數(shù)值型變量,直接進行輸入。

        本文選取在一定的時間段內(nèi)擁有交易記錄的用戶樣本,但是由于不同用戶的交易筆數(shù)存在差異,假定用戶在該段時間內(nèi)的交易筆數(shù)為n,為了使得交易數(shù)據(jù)的序列向量表示能夠變成統(tǒng)一的結(jié)構(gòu)輸入到神經(jīng)網(wǎng)絡(luò)中,需要對用戶的交易記錄數(shù)量進行統(tǒng)一。如果某用戶交易記錄數(shù)超過n,將選取最后的n筆交易作為輸入.對于不足n筆交易的用戶,我們將其交易序列前面補充0使其滿足與其他樣本向量的維度相同。

        (三)交易數(shù)據(jù)的窗口聚合特征

        單一的交易信息并不足以揭露出個人的信用風(fēng)險,同時交易記錄之間的時間間隔非常不規(guī)則,從分鐘到天不等。這種時間間隔的不規(guī)則性導(dǎo)致很難提取交易時間序列的周期。因此我們考慮用戶交易行為的一種更有效的方法是使用交易數(shù)據(jù)的聚合函數(shù)構(gòu)造出一些特征。首先將用戶在一段時間內(nèi)的交易記錄按照每周進行分組,然后計算這一段時間段內(nèi)不同類型的交易數(shù)量、交易數(shù)量比例、交易金額、交易金額比例。為了在較長的過程中識別用戶的行為模式,本文通過把用戶的歷史交易數(shù)據(jù)中按照每周的窗口進行聚合得到矩陣特征,其目標(biāo)是根據(jù)用戶的交易歷史創(chuàng)建一個活動記錄,揭示當(dāng)前的交易行為與以往的不同程度。

        4.2數(shù)據(jù)不平衡處理

        生成式對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)是Goodfellow等人提出一種無監(jiān)督算法,從剛提出就引起了許多研究人員的關(guān)注,繼而在計算機視覺、自然語言處理、語音等領(lǐng)域取得了不俗的表現(xiàn),并向其它一些領(lǐng)域逐漸延伸。生成式對抗網(wǎng)絡(luò)不同于以往的生成模型預(yù)先假設(shè)生成樣本服從某種分布,而是基于隨機的噪聲生成原始樣本分布的新樣本。GAN網(wǎng)絡(luò)最大的創(chuàng)新是結(jié)合了生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分,生成網(wǎng)絡(luò)能夠根據(jù)輸入的隨機噪聲去構(gòu)建映射函數(shù)生成新的樣本,判別網(wǎng)絡(luò)的能夠?qū)⑸善鞯纳蓸颖九c真實樣本進行比較,然后將結(jié)果反饋給生成器,直到最終生成的新樣本近似服從真實樣本的分布,兩種網(wǎng)絡(luò)是一種相互對抗優(yōu)化的關(guān)系。

        5.實驗及分析

        5.1分類評估指標(biāo)

        單一評價指標(biāo)無法準確、全面、綜合衡量模型的預(yù)測性能??紤]到評價標(biāo)準在實際應(yīng)用領(lǐng)域中的特點和局限性,為了更準確和全面地評價個人信用風(fēng)險評估模型真實預(yù)測效果,本文采用了信用風(fēng)險評估領(lǐng)域中四個主要的評價指標(biāo)來綜合評價模型的性能:準確率(Accuracy)、AUC(Area Under Curve)、F1值和KS(Kolmogorov-Smirnov)曲線。

        5.2實驗結(jié)果分析

        針對基于多源異構(gòu)信用數(shù)據(jù)融合中的不平衡問題,本文提出的一種基于GAN的數(shù)據(jù)不平衡處理方法,其能夠最大限度地學(xué)習(xí)原始數(shù)據(jù)中少數(shù)類樣本地分布,從而生成接近真實分布地少數(shù)類樣本。同時與現(xiàn)有機器學(xué)習(xí)主流采樣方法,如SMOTE、ADASYN、Borderline-SMOTE、SVM-SMOTE、Random Over-Sampler、SMOTE-Tomek等進行對比,驗證本文所提出的方法的性能,結(jié)果如表1所示。

        從表1可以看出,在經(jīng)過不同數(shù)據(jù)采樣方法之后,傳統(tǒng)的數(shù)據(jù)不平衡處理方法在四個評價指標(biāo)上均低于本文的方法。Random Over-Sampler、SMOTE以及基于SMOTE的其它改進方法的評價指標(biāo)雖然總體評價不錯,但由于在信用風(fēng)險評估對違約用戶的錯誤分類要比預(yù)測正常用戶有害得多,我們更關(guān)注模型識別具有違約風(fēng)險用戶的能力。

        本文所提出的GAN模型優(yōu)于所測試的傳統(tǒng)采樣方法。從本質(zhì)看,基于GAN的數(shù)據(jù)生成方式主要是通過輸入隨機噪聲,讓生成器與判別器互相對抗優(yōu)化去獲得近似真實分布的數(shù)據(jù),這樣生成的數(shù)據(jù)因為與原始數(shù)據(jù)之間有著非常大的共性和顯著性特征,數(shù)據(jù)質(zhì)量更高。而對于傳統(tǒng)的采樣方法,都是在整體數(shù)據(jù)中的局部進行抽樣,這樣的結(jié)果就不如GAN穩(wěn)定。本文所提出的GAN模型通過生成樣本來平衡數(shù)據(jù)類可以學(xué)習(xí)到原始樣本少數(shù)類足夠的規(guī)律信息,更準確地識別具有違約風(fēng)險的用戶,這在信用風(fēng)險評估場景中是十分有意義的。

        參考文獻:

        [1] 顧洲一, 胡麗娟. 機器學(xué)習(xí)視角下商業(yè)銀行客戶信用風(fēng)險評估研究[J]. 金融發(fā)展研究, 2022(01).

        [2] Zhang X, Han Y, Xu W, et al. HOBA: A novel feature engineering methodology for credit card fraud detection with a deep learning architecture[J]. Information Sciences, 2021(03).

        [3] 熊志斌, 吳維燁. 基于深度信念網(wǎng)絡(luò)的信用評估研究[J]. 科研信息化技術(shù)與應(yīng)用, 2019(03).

        [4] Zhang Y, Wang D, Chen Y, et al. Credit risk assessment based on long short-term memory model[C].International conference on intelligent computing. 2017(02).

        [5] 陳煜, 周繼恩, 杜金泉. 基于交易數(shù)據(jù)的信用評估方法[J]. 計算機應(yīng)用與軟件, 2018(05)

        [6] Crone S F, Finlay S. Instance sampling in credit scoring: An empirical study of sample size and balancing[J]. International Journal of Forecasting, 2012(01).

        [7] Marqués A I, García V, Sánchez J S. On the suitability of resampling techniques for the class imbalance problem in credit scoring[J]. Journal of the Operational Research Society, 2013(07).

        [8] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002(06).

        [9] Wang L. Imbalanced credit risk prediction based on SMOTE and multi-kernel FCM improved by particle swarm optimization[J]. Applied Soft Computing, 2022(04).

        [10] Shen F, Zhao X, Kou G, et al. A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique[J]. Applied Soft Computing, 2021(01).

        [11] Wang D, Dong L, Wang R, et al. Targeted speech adversarial example generation with generative adversarial network[J]. IEEE Access, 2020(08).

        猜你喜歡
        生成對抗網(wǎng)絡(luò)
        用于知識表示學(xué)習(xí)的對抗式負樣本生成
        基于衰減式生成對抗網(wǎng)絡(luò)的單幅圖像陰影去除
        高噪聲環(huán)境下的生成對抗網(wǎng)絡(luò)人機語音增強技術(shù)
        移動通信(2019年8期)2019-10-18 09:43:57
        基于生成對抗網(wǎng)絡(luò)的圖像盲去運動模糊算法
        基于生成對抗網(wǎng)絡(luò)的地面新增建筑檢測
        基于注意力機制的行人軌跡預(yù)測生成模型
        基于GAN的圖像超分辨率方法研究
        基于生成對抗網(wǎng)絡(luò)的深度學(xué)習(xí)能耗預(yù)測算法
        基于深度卷積生成對抗網(wǎng)絡(luò)模型的超分辨數(shù)據(jù)重建
        基于生成對抗網(wǎng)絡(luò)的圖片風(fēng)格遷移
        国产精品乱码一区二区三区| 久久免费看视频少妇高潮| 亚洲本色精品一区二区久久| 亚洲国产精品日本无码网站| 亚洲精品第一国产综合亚av| 精品国产高清一区二区广区| 西西少妇一区二区三区精品| 久久精品国产亚洲av性瑜伽| 三级全黄的视频在线观看 | 成年美女黄网站色大免费视频| 俺去俺来也在线www色官网| 欧美a视频在线观看| 男女搞黄在线观看视频| 国产一区二区视频在线免费观看| 成人毛片无码一区二区三区| 日韩毛片基地一区二区三区| 激情人妻中出中文字幕一区| 亚洲男人综合久久综合天堂| 国产乱子伦农村xxxx| 国产精品亚洲综合久久婷婷| 中文字幕乱码亚洲美女精品一区| 亚洲久悠悠色悠在线播放| 正在播放东北夫妻内射| 亚洲aⅴ无码国精品中文字慕| 国内偷拍第一视频第一视频区| 国产黑丝美腿在线观看| 一本一道久久综合狠狠老| 日韩偷拍一区二区三区视频| 手机在线播放成人av| 欧美日韩精品久久久久| 日日摸夜夜添夜夜添无码免费视频 | 亚洲熟女一区二区三区不卡 | 日韩aⅴ人妻无码一区二区| 国产国拍亚洲精品mv在线观看| 在线播放中文字幕一区二区三区 | aaaaa级少妇高潮大片免费看| 日本嗯啊在线观看| 亚洲中文字幕久久在线| 久久99精品久久久久久秒播| 国内无遮码无码| 国产乱子伦农村xxxx|