朱 兵, 賀昌政, 李慧媛
(四川大學(xué) 商學(xué)院, 四川 成都 610064)
?
基于遷移學(xué)習(xí)的客戶信用評估模型研究
朱 兵, 賀昌政, 李慧媛
(四川大學(xué) 商學(xué)院, 四川 成都 610064)
客戶信用評估是銀行等金融企業(yè)日常經(jīng)營活動中的重要組成部分。一般違約樣本在客戶總體中只占少數(shù),而能按時還款客戶樣本占多數(shù),這就是客戶信用評估中常見的類別不平衡問題。目前,用于客戶信用評估的方法尚不能有效解決少數(shù)類樣本稀缺帶來的類別不平衡。本研究引入遷移學(xué)習(xí)技術(shù)整合系統(tǒng)內(nèi)外部信息,以解決少數(shù)類樣本稀缺帶來的類別不平衡問題。為了提高對來自系統(tǒng)外部少數(shù)類樣本信息的使用效率,構(gòu)建了一種新的遷移學(xué)習(xí)模型:以基于集成技術(shù)的遷移裝袋模型為基礎(chǔ),使用兩階段抽樣和數(shù)據(jù)分組處理技術(shù)分別對其基模型生成和集成策略進(jìn)行改進(jìn)。運用重慶某商業(yè)銀行信用卡客戶數(shù)據(jù)進(jìn)行的實證研究結(jié)果表明:與目前客戶信用評估的常用方法相比,新模型能更好地處理絕對稀缺條件下類別不平衡對客戶信用評估的影響,特別對占少數(shù)的違約客戶有更好的預(yù)測精度。
客戶信用評估;類別不平衡;遷移學(xué)習(xí);數(shù)據(jù)分組處理技術(shù)
客戶信用評估是銀行等金融企業(yè)日常經(jīng)營活動中的重要組成部分。一個好的客戶信用評估模型,能夠精確識別出違約客戶,使企業(yè)規(guī)避信用風(fēng)險,獲取更多利潤。因此,對客戶信用評估模型的研究具有重要的意義。
客戶信用評估模型的發(fā)展經(jīng)歷了三個階段:定性分析、統(tǒng)計分析和人工智能分析[1]。定性分析是最早用于信用評估的方法,其后統(tǒng)計方法被逐漸引入到客戶信用評估中,例如Orgler[2]最早使用回歸分析制定了一個用于信用卡客戶評估的評分卡。近年來,隨著數(shù)據(jù)挖掘和人工智能方法的發(fā)展,很多方法被陸續(xù)引入到信用評估之中。例如,劉京禮等為信用評估提出了自適應(yīng)最小二乘支持向量機[3],Chang和Yeh使用了一種人工免疫算法[4],肖智和李文娟提出了基于粗糙集和神經(jīng)網(wǎng)絡(luò)的客戶信用混合評估模型[5],West等使用了集成神經(jīng)網(wǎng)絡(luò)進(jìn)行信用評價[6]。
客戶信用評估本質(zhì)上是一個分類問題,即根據(jù)客戶數(shù)據(jù),將其分成能按時還款和違約兩類。在這一分類過程中,兩類信用狀況客戶比例分布常常是不均衡的,俗稱類別不平衡,一般違約客戶在總體中只占少數(shù),而能按時還款客戶占多數(shù)。以全球最大的萬事達(dá)信用卡發(fā)行商花旗銀行為例,其信用卡客戶違約率約為5.3%. 類別的不平衡給客戶信用評估帶來了極大挑戰(zhàn),例如,在一個按時還款和違約客戶比例為9:1的客戶信用評估問題中,一般模型很有可能將所有客戶都預(yù)測成為按時還款的客戶,這樣得到的模型總體精度可以到達(dá)90%[7],但是它卻將那些需重點關(guān)注的違約客戶全部預(yù)測錯誤,這樣的結(jié)果只會給企業(yè)帶來巨大信用風(fēng)險。
為了處理類別不平衡對客戶信用評估的影響,學(xué)者主要提出了兩條解決路徑[8]:一是數(shù)據(jù)層次解決方案,這類研究主要使用向下、向上或者混合抽樣等抽樣技術(shù)來平衡訓(xùn)練集類別分布,然后再建立客戶信用評估模型。其中比較有代表性的方法包括了隨機向下抽樣(Random under-sampling, RUS)和合成過采樣技術(shù)(Synthetic minority over-sampling technique, SMOTE)[9]。例如吳沖和夏晗[10]提出的基于支持向量機集成的客戶信用評估模型中,就采用了向下抽樣技術(shù)處理類別不平衡。二是算法層次解決方案,這種方案通過改變算法內(nèi)在分類過程偏置來實現(xiàn)對不同類別客戶分類的均衡。最典型的是代價敏感學(xué)習(xí),它通過給不同類別客戶賦予不同誤分代價來處理類別不平衡,如Yang等使用代價敏感核學(xué)習(xí)技術(shù)對客戶信用評估問題進(jìn)行了研究[11]。
不管是數(shù)據(jù)層次還是算法層次解決方案,它們使用的都是系統(tǒng)內(nèi)部客戶信息,對于相對稀缺帶來的不平衡,由于少數(shù)類樣本數(shù)量充足,使用系統(tǒng)內(nèi)部信息能有效地解決類別不平衡帶來的影響。但對于絕對稀缺情況,由于少數(shù)類客戶樣本數(shù)量不足,僅使用系統(tǒng)內(nèi)部信息往往難以解決類別不平衡的影響。絕對稀缺帶來的類別不平衡是客戶信用評估中的常見現(xiàn)象,一方面,企業(yè)可能因受到時間和資金等資源限制,只能收集到少量客戶樣本,特別是以問卷等形式來獲取客戶信息;另一方面,當(dāng)金融企業(yè)業(yè)務(wù)規(guī)模較小或是在其業(yè)務(wù)開展初期,由于本身的客戶數(shù)量較少也常遇見類似狀況。
鑒于此,本研究將系統(tǒng)外部相關(guān)領(lǐng)域的客戶信息引入到客戶信用評估研究中,并嘗試使用遷移學(xué)習(xí)技術(shù)整合系統(tǒng)內(nèi)外部信息,構(gòu)建一種平衡遷移學(xué)習(xí)模型,以幫助解決客戶信用評估中由絕對稀缺帶來的類別不平衡問題。
遷移學(xué)習(xí)的概念源于心理學(xué)[12],是指人類在學(xué)習(xí)過程中的一種能力,即能夠?qū)⒃谙嚓P(guān)領(lǐng)域?qū)W習(xí)中積累的經(jīng)驗和技能運用于新的學(xué)習(xí)任務(wù),比如會打乒乓球的人,就會更容易學(xué)會打網(wǎng)球。上世紀(jì)90年代Thrun[13]、Baxter[14]和Caruana[15]等部分學(xué)者將其引入到統(tǒng)計學(xué)習(xí)領(lǐng)域并發(fā)展出了一系列遷移學(xué)習(xí)建模方法。本世紀(jì)初,Ben-David和Schuller[16]對學(xué)習(xí)任務(wù)之間的相關(guān)性進(jìn)行了形式化的定義,Mahmud和Ray使用Kolmogorov[17]對遷移學(xué)習(xí)的上下界進(jìn)行了分析,這些理論性的探索為遷移學(xué)習(xí)奠定了理論基礎(chǔ)。經(jīng)過十多年發(fā)展,目前已有不少學(xué)者將其用于整合系統(tǒng)外部數(shù)據(jù),以解決目標(biāo)領(lǐng)域數(shù)據(jù)樣本不足的問題,并在文本挖掘,信息檢索以及圖像處理等眾多領(lǐng)域得到了成功應(yīng)用[18]。然而通過已有文獻(xiàn)分析發(fā)現(xiàn),現(xiàn)尚未有學(xué)者將遷移學(xué)習(xí)運用到客戶信用評估問題中,也尚未有研究將其用于解決類別不平衡問題。
作為一種建模方法,遷移學(xué)習(xí)的主要思想是利用相近領(lǐng)域中的知識及信息來輔助目標(biāo)領(lǐng)域中的建模。在眾多的遷移學(xué)習(xí)方法中,基于實例的遷移學(xué)習(xí)方法是最常用的一種。實例遷移方法假設(shè)來自相關(guān)領(lǐng)域的數(shù)據(jù)既包含了有用數(shù)據(jù)樣本,也包含了無用樣本。實例遷移方法將相關(guān)領(lǐng)域的有用數(shù)據(jù)樣本引入,通過抽樣或者加權(quán)的方法來處理其與目標(biāo)領(lǐng)域數(shù)據(jù)樣本的差異性,整合系統(tǒng)內(nèi)外部信息。例如Dai等學(xué)者提出一種基于boosting提升技術(shù)來利用相關(guān)領(lǐng)域的舊數(shù)據(jù)[19]。遷移裝袋模型(Transfer bagging, TrBagg)是由Kamishima等提出的一種以集成模型Bagging為基礎(chǔ)的實例遷移學(xué)習(xí)技術(shù)[20]。 TrBagg假設(shè)源數(shù)據(jù)集中既包含了對目標(biāo)領(lǐng)域建模有用的樣本,也含有無用的樣本,因此TrBagg從源數(shù)據(jù)和目標(biāo)數(shù)據(jù)組成的并集中多次抽樣,然后訓(xùn)練得到多個基模型,并計算這些基模型在目標(biāo)數(shù)據(jù)集上的精度。如果基模型精度較高,則認(rèn)為被用來訓(xùn)練基模型的源數(shù)據(jù)集樣本是有用的。如果精度不高,則包含的源數(shù)據(jù)集樣本是無用的。TrBagg通過啟發(fā)式方式將精度較高的基模型選出,再通過多數(shù)投票方法得到最后的集成模型。Kamishima等人將TrBagg方法用于文本挖掘領(lǐng)域,得到了比其它遷移學(xué)習(xí)方法更好的精度。TrBagg模型最大的特點是簡單易用,在建模過程不需要進(jìn)行大量模型參數(shù)調(diào)節(jié)工作,減少了對經(jīng)驗和專家知識的依賴,這使得其非常適合于解決客戶信用評估問題,而已有的研究表明作為TrBagg方法的基礎(chǔ)的Bagging模型能夠比其它集成方法更好地對客戶信用進(jìn)行預(yù)測[21]。
2.1 客戶信用評估問題分析
2.2 平衡遷移學(xué)習(xí)模型構(gòu)建
在2.1小節(jié)所分析的客戶信用評估問題中,為了解決絕對稀缺的類別不平衡帶來的影響,本研究擬引入系統(tǒng)外部源領(lǐng)域客戶信息。一般情況下由于目標(biāo)數(shù)據(jù)集中多數(shù)類樣本Tmaj比較充足,研究中只考慮將源數(shù)據(jù)集S中的少數(shù)類樣本Smin引入。由于源數(shù)據(jù)集S與目標(biāo)數(shù)據(jù)集T來自于不同領(lǐng)域,如何處理它們之間差異性成為了整個建模的關(guān)鍵,而遷移學(xué)習(xí)技術(shù),特別是集成遷移學(xué)習(xí)技術(shù)TrBagg為解決這一問題提供了一個有效框架。
然而,直接使用TrBagg模型并不能完全解決客戶信用評估中絕對稀缺帶來的類別不平衡。其原因主要有三:第一,在引入系統(tǒng)外部少數(shù)類樣本后,少數(shù)類樣本與多數(shù)類樣本相比仍然可能相對較少,出現(xiàn)相對類別不平衡。而TrBagg模型在基模型的訓(xùn)練過程中使用bootstrap抽樣方法直接從源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的并集(T∪S)上獲取數(shù)據(jù)訓(xùn)練基模型,這種抽樣方式不會改變樣本類別分布,不能保證基模型在相對類別不平衡情況下,在少數(shù)類樣本上得到好的學(xué)習(xí)效果;第二,在基模型篩選過程中,TrBagg使用模型在目標(biāo)數(shù)據(jù)集上總體精度作為準(zhǔn)則,這樣選出的基模型同樣不能保證在少數(shù)類樣本上的預(yù)測效果;第三,TrBagg在基模型集成過程中使用的是多數(shù)投票法,它不能反映每個基模型在目標(biāo)數(shù)據(jù)集上分類精度的差異性。
為解決上述不足,本文從兩個方面對TrBagg進(jìn)行了改進(jìn):一是使用兩階段抽樣獲取用于學(xué)習(xí)基模型的訓(xùn)練集,以更好地對少數(shù)類樣本進(jìn)行分類;二是使用數(shù)據(jù)分組處理技術(shù)(Group Method of Data Handling,GMDH)[23]作為基模型集成策略。GMDH是自組織數(shù)據(jù)挖掘的核心技術(shù),目前已有學(xué)者將其用于集成模型研究,并且取得了較好效果[24]。GMDH技術(shù)最大特點是能在建模過程中從眾多變量中自動選擇出重要變量建立非線性模型。因此,將其作為集成策略能夠很好地選擇出有用的基模型,并進(jìn)行非線性集成,充分反映各基模型在目標(biāo)數(shù)據(jù)上分類精度的差異性。這其中為了更好地篩選在少數(shù)類上具有較高分類精度的基模型,本研究為GMDH構(gòu)建了一種代價敏感外準(zhǔn)則(cost sensitive regularity criterion,CSRC)。綜合這些改進(jìn)工作,本研究提出了一種適用于客戶信用評估的平衡遷移學(xué)習(xí)模型B-TrBagg,該模型建模過程分為學(xué)習(xí)和篩選兩個階段,具體算法步驟如下:
學(xué)習(xí)階段:
④重復(fù)步驟①~③k遍,得到k個初始基模型集F={f1,f2,…,fk}。
篩選階段:
①把目標(biāo)數(shù)據(jù)集T分成兩個同等大小的子集:T=A∪B;
②把初始基模型集F中的基模型兩兩組合,以它們的輸出作為輸入,使用下面二次多項式生成中間待選模型:
(1)
其中xi=fi,xj=fj(1≤i,j≤k),a0,a1,a2,…,a5是待估計參數(shù),通常使用普通最小二乘法方法估計。以含有5個基模型的基模型集F={f1,f2,…,f5}為例,將基模型兩兩組合將會得到10個中間模型,其中使用基模型x1=f1和x2=f2將會產(chǎn)生中間模型z11如下:
(2)
③利用公式(3)所示代價敏感外準(zhǔn)則CSRC評價每個候選模型,記錄當(dāng)前層外部準(zhǔn)則最小值Ri。選擇Li個外準(zhǔn)則值較低的模型,將它們的輸出Zti作為GMDH網(wǎng)絡(luò)下一層的輸入變量(xti=Zti,t=1,…,Li):
(3)
④重復(fù)第②~③來產(chǎn)生第二層、第三層,…中間候選模型,直到當(dāng)前層外準(zhǔn)則最小值Ri比前一層大時算法停止。將第i-1層中外準(zhǔn)則值最小模型選為最終的集成模型f*。
本節(jié)將新提出的平衡遷移模型應(yīng)用于銀行信用卡客戶信用評估問題進(jìn)行實證研究以檢驗其有效性。
3.1 數(shù)據(jù)描述
實證研究數(shù)據(jù)來自重慶某商業(yè)銀行數(shù)據(jù)庫的信用卡用戶數(shù)據(jù)。數(shù)據(jù)采集于2012年12月,原始數(shù)據(jù)中包含了每位客戶的人口地理統(tǒng)計等相關(guān)信息。根據(jù)客戶有無違約記錄,將其分類為按時還款客戶和違約客戶。由于客戶信用行為具有時效性,隨著經(jīng)濟(jì)和銀行業(yè)務(wù)發(fā)展,其信用行為也會發(fā)生變化。因此,公司期望使用2012年后申請并獲取了信用卡的客戶數(shù)據(jù)進(jìn)行建模,以幫助企業(yè)進(jìn)行營銷發(fā)卡決策。由于該銀行信用卡業(yè)務(wù)較小,這部分客戶中有信用記錄客戶數(shù)量有2502個,其中違約客戶數(shù)目僅有345個,不僅絕對數(shù)量少,而且在總體中的比例僅為13.8%,與此同時,該銀行還保存了自開展信用卡業(yè)務(wù)以來的所有客戶數(shù)據(jù),其中2012年以前申請并獲取了信用卡的客戶中有1141個違約客戶。我們希望通過這1141個客戶的“信息遷移”,以幫助解決類別不平衡問題,提高模型在目標(biāo)客戶中的分類精度。
3.2 實驗設(shè)置
精密度:取同一稻谷,進(jìn)行葉黃素提取,連續(xù)測定6次,計算出葉黃素提取量的RSD為0.25%,表明精密度良好。
在研究中將歷史數(shù)據(jù)中1141個違約客戶作為源數(shù)據(jù)集S,將近期的2502個客戶樣本分為兩部分,約70%樣本(1752個樣本)作為目標(biāo)數(shù)據(jù)集T用于訓(xùn)練模型,約30%樣本(750個樣本)作為測試集檢驗?zāi)P托Ч⑦@樣的數(shù)據(jù)劃分過程重復(fù)20次,并把20次數(shù)據(jù)劃分建模結(jié)果進(jìn)行平均得到最后的結(jié)果。在數(shù)據(jù)劃分過程中,保持了兩部分樣本中的按時還款和違約客戶的比例大致相同,即在學(xué)習(xí)集上有1510個按時還款客戶和242個違約客戶,而在測試集中有645個按時還款客戶和105個違約客戶。
由于特征選擇對減輕類別不平衡對建模的影響有幫助作用[7],我們使用著名的特征選擇方法Relief[25],先選擇出一個含有10個自變量的特征子集,再建立信用評估模型,表1給出了10個自變量的相關(guān)信息。
表1 自變量列表
我們選擇支持向量機(support vector machine, SVM)這種信用評估中常用且效果較好的模型作為基準(zhǔn)。為了驗證B-TrBagg的有效性,我們從兩個方面將其與其它方法進(jìn)行了比較:一是與使用系統(tǒng)內(nèi)部信息的基準(zhǔn)方法比較。其中為了處理類不平衡,使用隨機向下抽樣(RUS)、合成過采樣SMOTE和代價敏感支持向量機(cost-sensitive support vector machine,CS-SVM)三種技術(shù);二是與其它的遷移學(xué)習(xí)技術(shù)進(jìn)行比較。主要考慮了另一種著名集成遷移學(xué)習(xí)方法Tradaboost以及原始的TrBagg。在B-TrBagg和TrBagg模型中,采用決策樹作為基模型。
因當(dāng)數(shù)據(jù)類別不平衡時,單一的總體精度(Accuracy,Acc)不足以全面地評價模型性能。我們采用了其他四個在類別不平衡條件下常用于衡量模型有效性的度量指標(biāo):AUC (Area under curve of the receiver operating characteristic graph)、敏感性(Sensitivity,Se)、特異性 (Specificity,Sp)和G-Mean。其中敏感性Se和特異性Sp分別反映了模型在兩類客戶中的分類精度,而G-Mean和AUC則反映了在兩類客戶分類精度上的平衡,所有實驗均在Matlab環(huán)境中完成。
3.3 結(jié)果分析
表2給了實驗結(jié)果,其中每列粗體數(shù)值代表了該指標(biāo)下的最優(yōu)值,為了進(jìn)一步驗證新方法B-TrBagg的有效性,我們將B-TrBagg與基準(zhǔn)方法在每一個指標(biāo)下進(jìn)行了配對t檢驗,表3給出了統(tǒng)計檢驗p值結(jié)果。從表2、表3中我們可以觀察到:
表2 與系統(tǒng)內(nèi)部信息基準(zhǔn)方法對比結(jié)果
表3 配對t檢驗結(jié)果
從實證研究結(jié)果中,我們可以看出B-TrBagg比僅使用系統(tǒng)內(nèi)部信息處理類別不平衡的方法有效,也明顯優(yōu)于其他遷移學(xué)習(xí)模型,特別是對少數(shù)類違約客戶的分類精度較好。為了進(jìn)一步驗證上述的結(jié)論,我們使用該銀行2011年后申請并獲取了信用卡的客戶數(shù)據(jù)作為系統(tǒng)內(nèi)部數(shù)據(jù),而將2011年以前申請并獲取了信用卡的客戶數(shù)據(jù)作為系統(tǒng)外部數(shù)據(jù)進(jìn)行建模,得到了與上述相類似的結(jié)論,實驗結(jié)果如表4所示。
表4 補充實驗結(jié)果
實驗結(jié)果表明,引入外部信息后,BT-rBagg與其他的基準(zhǔn)模型相比,對兩類客戶均有較好的預(yù)測精度,對少數(shù)類違約客戶的分類的預(yù)測精度有顯著提高,而對多類客戶的預(yù)測精度也較高。通過使用B-TrBagg該銀行能夠有效預(yù)測出有違約可能的客戶,提高風(fēng)險規(guī)避能力,對多類按時還款客戶的精確預(yù)測能夠使其減少對這部分客戶的風(fēng)險控制投入的精力,降到運行成本。
現(xiàn)有客戶信用評估中處理類別不平衡問題主要是通過抽樣或者成本敏感學(xué)習(xí)等手段解決,它們僅使用了來自系統(tǒng)內(nèi)部的客戶信息,不能有效處理絕對稀缺帶來的類別不平衡。本文提出了一種新的解決思路,將系統(tǒng)外部客戶數(shù)據(jù)引入,通過遷移學(xué)習(xí)技術(shù)整合系統(tǒng)內(nèi)外部信息,構(gòu)建了一種基于集成學(xué)習(xí)的平衡遷移學(xué)習(xí)模型,并在重慶地區(qū)某商業(yè)銀行的信用卡客戶數(shù)據(jù)上進(jìn)行了實證研究。研究結(jié)果表明,通過遷移學(xué)習(xí)技術(shù)引入系統(tǒng)外部客戶信息來解決客戶信用評估問題中由絕對稀缺帶來的類別不平衡這一思路是有效的,平衡遷移模型比僅利用系統(tǒng)內(nèi)部信息的方法以及其它的遷移學(xué)習(xí)方法能取得更好分類精度,特別是能顯著提高少數(shù)類違約客戶的預(yù)測精度,幫助企業(yè)規(guī)避信用風(fēng)險。在客戶關(guān)系管理實踐中還存在著很多問題都受到類別不平衡的困擾,比如客戶流失預(yù)測,在未來研究工作中可以將平衡遷移學(xué)習(xí)模型應(yīng)用于解決這些問題。
[1] Crook J N, Edelman D B, Thomas L C. Recent developments in consumer credit risk assessment[J]. European Journal of Operational Research, 2007, 183(3): 1447-1465.
[2] Orgler Y E. A credit scoring model for commercial loans[J]. Journal of Money, Credit and Banking, 1970, 2(4): 435- 445.
[3] 劉京禮,李建平,徐偉宣,石勇.信用評估中的魯棒賦權(quán)自適應(yīng)Lp最小二乘支持向量機方法[J].中國管理科學(xué),2010,5:28-33.
[4] Chang S Y, Yeh T Y. An artificial immune classifier for credit scoring analysis[J]. Applied Soft Computing, 2012, 12(2): 611- 618.
[5] 肖智,李文娟.RS-ANN在消費信貸個人信用評估中的實證研究[J].軟科學(xué),2011,25(4):141-144.
[6] West D, Dellana S, Qian J. Neural network ensemble strategies for financial decision applications[J]. Computers & Operations Research, 2005, 32: 2543-2559.
[7] Haibo H, Garcia E. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
[8] Sun Y, Wong A, Kamel M, Classification of imbalanced data: a review[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2009, 23(4): 687-719.
[9] Chawla N V, Bowyer K W, Hall L O, Kegelmeyer W P. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
[10] 吳沖,夏晗.基于支持向量機集成的電子商務(wù)環(huán)境下客戶信用評估模型研究[J].中國管理科學(xué),2008,S1.
[11] Yang Y. Adaptive credit scoring with kernel learning methods[J]. European Journal of Operational Research, 2007, 183(3): 1521-1536.
[12] Skinner B F. Science and human behavior[M]. Colliler-Macmillian, 1953.
[13] Thrun S. Is learning the N-th thing any easier than learning the first?[C]. In: Proc. of NIPS-96, 1996. 640- 646.
[14] Baxter J. A Bayesian/information theoretic model of learning to learn via multiple task sampling[J]. Machine Learning, 1997, 28(1): 7-39.
[15] Caruana R. Multitask learning[J]. Machine Learning, 1997, 28 : 41-75.
[16] Ben-David S, Schuller R. Exploiting task relatedness for multiple task learning[C]. In: Proc. 16th Annual Conference on Computational Learning Theory, Washington, DC, USA, 2003.
[17] Mahmud M, Ray S R. Transfer learning using Kolmogorov complexity: basic theory and empirical evaluations[C]. In: Proc. of the 20th Annual Conference on Neural Information Processing Systems, Cambridge, MA: MIT Press, 2008. 985-992.
[18] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
[19] Dai W Y, Yang Q, Xue G R, Yu R. Boosting for transfer learning[C]. In: Proc. of the 24th International Conference on Machine Learning, ACM Press, 2007.193-200.
[20] Kamishima T, Hamasaki M, Akaho S. TrBagg: A simple transfer learning method and its application to personalization in collaborative tagging[C]. In: Proc. of Ninth IEEE International Conference on Data Mining, 2009. 219-228.
[21] Wang G, et al. A comparative assessment of ensemble learning for credit scoring[J]. Expert Systems with Applications, 2011, 38: 223-230.
[22] Weiss G M. Mining with rarity: a unifying framework[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 7-19.
[23] Mueller J A, Lemke F. Self-organizing data mining: an intelligent approach to extract knowledge from data[M]. Hamburg : Libri Books, Berlin, 2000.
[24] Xiao J, He C Z, Jiang X Y, Liu D H. A dynamic classifier ensemble selection approach for noise data[J]. Information Science, 2010, 180(18): 3402-3421.
[25] Kira K, Rendell L A. The feature selection problem: traditional methods and a new algorithm[C]. In: Proc. of Tenth National Conference on Artificial Intelligence, MIT Press, 1992. 129-134.
Research on Credit Scoring Model Based on Transfer Learning
ZHU Bing, HE Chang-zheng, LI Hui-yuan
(BusinessSchoolofSichuanUniversity,Chengdu610064,China)
Customer credit scoring is an important part of daily business activities for financial companies such as banks. Default customers usually makae up the minority of the population while customers of timely repayment make up the majority, which is called a class imbalance problem in the study of customer credit scoring. Existing methods in credit scoring cannot effectively solve the issue of class imbalance caused by absolute scarcity of the minority class. In our study, we introduce the technique of transfer learning to integrate the external information and try to solve the issue of class imbalance caused by absolute scarcity of the minority class. In order to exploit the minority sample outside the system more effectively, a transfer learning model is proposed, which is based on the ensemble transfer learning technology transfer bagging. A two-stage sampling method and the technique of group method of data handling are used in the new model to improve the generation and integration strategy of base models. The empirical results on the credit card dataset from a commercial bank show that the new model can deal with the issue of class imbalance caused by absolute scarcity better in comparison with other commonly used methods in credit scoring and provide a better prediction of the credit status of default customers.
credit scoring; class imbalance; transfer learning; group method of data handling
2013- 08-19
國家自然科學(xué)基金資助項目(71401115);教育部人文社會科學(xué)基金(13YJC630249);中央高校基本科研業(yè)務(wù)專項基金(2012SCU11013)
朱兵(1982-),男,四川涼山人,博士,講師,研究方向:統(tǒng)計學(xué)習(xí)、商務(wù)智能、客戶關(guān)系管理;賀昌政(1947-),男,四川成都人,教授,博士生導(dǎo)師,研究方向:數(shù)據(jù)挖掘、客戶關(guān)系管理。
C931
A
1007-3221(2015)02- 0201- 07