龍海明 鄒漢錚 朱建
摘?要:識別手機分期消費貸款違約因子是防范手機消費貸款業(yè)務信用風險的關鍵所在。為此,基于融合隨機森林(RF)和邏輯回歸(Logistics)兩階段模型,通過數據挖掘揭示風險特征重要性含義,并結合經濟計量方法詮釋異質性客戶信用違約的基準邏輯。結果表明:入網時長、終端個數、客戶月流量、終端時長是影響手機分期消費貸款客戶信用風險的重要性特征變量,且邊際影響分別為-0.039%、3.18%、-0.01%、-1.06%,模型泛化能力強,準確率達到74%。所以,要完善手機分期消費貸款信用風險管理應從交叉數據獲取、社交網絡、興趣熱點和消費習慣等方面著手。
關鍵詞: 信用風險;隨機森林;變量重要性;邏輯回歸
中圖分類號:F832.4????文獻標識碼:?A????文章編號:1003-7217(2019)05-0027-07
一、引?言
經濟新常態(tài)下,消費金融由平滑消費、風險管理和資產保值增值等傳統(tǒng)職能向消費升級、內需拉動和兼具包容性等新型職能轉換。隨著5G通訊技術、互聯(lián)網支付和社交新媒體等快速發(fā)展,手機已具備即時通訊、網購消費、投資理財、社交娛樂和商務運用等多樣化功能,已成為居民日常生活重要消費品。相關數據表明,截至2018年底中國手機用戶規(guī)模達到15.7億①,國內手機市場總體出貨量為4.14億部②,手機產品已成為萬億級消費市場。與手機消費市場蓬勃發(fā)展不相適應的是,手機消費貸款缺乏針對特定消費群體的產品設計、模式開發(fā)及風險防范機制,尤其是在校學生、農民工等低收入群體信用擔保不足,導致校園貸、裸貸、民間貸等亂象叢生,探索手機消費金融已成為繼汽車消費金融后的新趨勢和新方向。強化對手機消費貸款信用風險的相關研究,不僅可以為消費金融新領域、新業(yè)務、新場景提供理論支持,而且通過異質性對象風險特征識別為鎖定目標客戶、用戶畫像及精準營銷奠定堅實基礎。
目前,針對手機消費貸款信用風險評估研究較少,但可以借鑒商業(yè)銀行客戶、互聯(lián)網P2P借款人、中小企業(yè)等評估對象的信用風險測度方法。
一是針對客戶信用風險分級,設定貸款決策信用評分的閾值來控制風險。Norden和Weber(2004)利用事件分析法驗證了股市和信用違約互換市場(CDS)與三大機構的信用評級存在相互影響[1]。遲國泰等(2014)利用G1法、均值方差法、擬合分布和模擬評分法將46家商業(yè)銀行信用風險進行九級分類[2]。趙志沖等(2017)以等級信用差值最大化為目標構建了信用分級模型,解決了信用等級與違約損失率非一致性問題[3];張衛(wèi)國等(2018)提出基于非均衡模糊近似支持向量機的P2P借款人六梯度信用評級方法[4]。
二是通過統(tǒng)計計量、機器學習及兩者結合的方法來提高評估模型準確率,驗證其可行性。統(tǒng)計計量方面包括多元線性回歸、判別分析、Logistic回歸、數學規(guī)劃等方法[5,6],機器學習方面包括SUM、神經網絡、決策樹、隨機森林等方法[7-11];兩者結合的方法包括Lasso-logistic回歸、Adaptive lasso-logistic回歸、Logistic-SVM回歸等[12,13]。其他方法方面,Yang和Shi(2009)引入免疫算法建立個人違約的信用風險模型,對比采用ROC檢驗的Logistic模型,該模型在雙抗體人工免疫理論下對數據敏感度更高,更具備智能性和動態(tài)性[14]。Wekesa等(2012)采用比例風險模型方法估計貸款申請人的違約風險,結果表明性別、就業(yè)部門和教育水平在信用風險模型中不顯著;然而,婚姻狀況、年齡居家自有率和居留時間是顯著的[15]。張潤馳和杜亞斌(2018)改進經典加權k均值聚類算法,提出了多預測器粒子群優(yōu)化加權k均值聚類算法(MPWKM)模型,解決了權重選擇問題[16]。
三是信用風險的動態(tài)評估方法,與靜態(tài)模型相比,動態(tài)評估能克服信息突變下的結果失真問題[17,20]。
綜上所述,國內外學者針對消費貸款信用風險的研究,往往遵循經濟理論邏輯或數據事實導向單一思路。傳統(tǒng)計量方法側重研究信用風險的影響因素,而依靠經濟學直覺選取變量可能存在遺漏變量、內生性、反向因果等問題;數據挖掘方法揭示信用風險要素的高相依度,泛化結果準確率高,但統(tǒng)計相關或數理相關往往缺乏可靠的經驗依據。為此,本文在借鑒傳統(tǒng)信用風險評估方法基礎上,提出個體信用風險評價模型,利用隨機森林方法違約樣本與正常樣本差異度的先驗規(guī)律,挖掘用戶違約誘因特征信息,并進行模型訓練得到用戶畫像,由此得到風險因素重要性排序結果;然后,利用邏輯回歸模型對其進行邊際分解,得到各維度下個體信用貸款違約概率結果,并結合事實依據和理論邏輯來提供防范手機消費信貸信用風險的可行建議。
二、實證方法應用
(一) 算法及模型簡介
1.隨機森林算法。隨機森林算法利用Boost-strap抽樣法從原始訓練集N中抽取N個樣本,然后對 N 個樣本分別建立決策樹模型,每棵決策樹都由根節(jié)點、葉節(jié)點和樹枝組成,其中每個決策樹模型均包含隨機M個變量屬性,以M個特征中最佳分裂方式對該節(jié)點進行分裂,每棵樹都完整生長而不進行剪枝,得到組合分類器。利用 N個決策樹模型分別對每個測試樣本分類,得到 N 種分類結果,最后對N種分類投票決定其最終分類結果。
本文選取基尼系數(Gini)作為分裂或競爭規(guī)則。
分類數采用Gini系數的減少量測度異質性下降的程度,其數學表達式為:
2. Logistic模型。Logistic的條件概率為:
(二)樣本及變量說明
1.樣本來源。手機分期消費貸款數據來源于中國云南省某金融機構線下在2017年3月-12月的手機分期消費貸款客戶跟蹤數據③,共5900條原始數據,篩選得到4475條有效數據,其中逾期違約數據1578條,非違約數據2897條,組成實驗的全樣本。假設總共有N個樣本,則每個樣本被選中的概率是1/N,未被選中的概率是1-1/N,那么某樣本沒有出現在訓練集中的概率就是(1-1/N)n。當N 趨于無窮大時,這一概率趨近于 0.368。本文隨機從樣本中按比例選取30%為測試集,則剩余70%作為訓練集。數據樣本見表1。
2.變量定義及說明。本文選擇用戶是否逾期違約作為信用風險的響應變量,個體信用風險評估是一個典型二元分類器問題,當客戶出現違約時取1,否則取0。借鑒其他學者相關研究,客戶消費信貸信用風險影響因素涵蓋個體特征、社交環(huán)境、用戶興趣和消費能力等多個方面。變量賦值及說明見表2。
3.數據預處理。通過利用數據合并、數據清洗和數據采樣等手段對數據預處理,充分保障實驗結果準確性、完整性、一致性、惟一性、適時性、有效性。通過插值法來補齊不完整、缺失部分數據,利用統(tǒng)計檢驗對錯誤值、異常值和重復值進行檢測并及時刪除。尤其是針對客戶違約與非違約數據類別不平衡問題,采用過采樣(Synthetic Minority Oversampling Technique、Border-line SMOTE、Adaptive Synthetic Sampling)、欠采樣(Near Miss)、過采樣和欠采樣結合(SMOTE+ENN、SMOTE+Tomek)等技術,調整樣本范圍。
三、實證結果及分析
(一)變量重要性識別
本文初步選擇40個變量作為可能影響個體消費貸款信用風險因子(見表2),但上述變量并不完全符合個體信用風險預測,可能存在多重共線性、自相關等不利因素,從而降低預測精準度和有效性,因此,從初始變量中識別和遴選出核心變量是建立個體信用風險評估指標體系的關鍵。
從表3可以看出,個體信用違約風險最顯著的影響因子是X9(入網時長),其Gini指標平均下降值為46.193;其次是X5(業(yè)務類型)、X21(交往圈人數)、X10(所屬地市)、X25(終端個數)、X12(客戶月流量)、X22(交往圈移動用戶占比)、X13(終端時長)、X11(客戶星級)、X19(通話活躍天數)等因素,它們對個體信用違約存在較大影響;而最不顯著的是X36(國際交往圈占比)、X16(是否校園網)、X24(緊急聯(lián)系人終端)、X27(閱讀類APP天數)、X31(是否網購)、X37(交往圈星級)、X18(單位類型)、X17(是否實名)等變量。
從對輸出變量異質性下降程度的影響看(見圖1),X9(入網時長)同樣是個體信用風險違約行為需要重點關注因素。X25(交往圈人數)、X12(客戶月流量)、X13(終端時長)、X35(高活躍客戶占比)、X7(年齡)、X21(交往圈人數)、X22(交往圈移動用戶占比)、X23(緊急聯(lián)系人消費)、X2(套餐月租)較為重要。
綜合來看,X9(入網時長)、X25(交往圈人數)、X12(客戶月流量)、X13(終端時長)是影響用戶信用風險行為的核心因子。交叉驗證得到X9(入網時長)、X25(交往圈人數)、X12(客戶月流量)、X13(終端時長)、X11(客戶星級)、X19(通話活躍天數)、X2(套餐月租)、X21(交往圈人數)、X7(年齡)、X35(高活躍消費客戶占比)等是最顯著的前10個變量,它們構成了手機消費貸款違約風險審核和重點監(jiān)控的指標體系。下面基于此指標體系做進一步預測分析。
(二)實驗效果檢驗
本文通過構建多指標體系評價算法實驗效果,其中精準率(precision)表示預測為正例的樣本中,真實為正例的比例;召回率(recall)定義為真實為正例中為正例的比例;準確率(accuracy)計算在所有樣本里面預測正確的比例。
最終利用精準率、召回率和準確率、f1-score和ROC面積比等五個指標來衡量算法效果。從表5可見,非平衡樣本的五個指標值分別為0.73、0.72、0.72、0.70和0.646,對應的平衡樣本五個指標分別為0.73、0.74、0.74、0.72和0.676,說明平衡樣本之后各項指標都有提升,且算法的整體效果較好。
除此之外,引入ROC曲線進一步刻畫模型的分類效果,ROC橫坐標表示FRP,縱坐標表示TPR,對于一個分類器,改變實驗設計閾值,每一個閾值都可以得到ROC曲線。其中FRP(偽正類率)表示預測為正但實際為負的樣本占所有負樣本的比例,TPR(真正類率)表示預測為正且實際為正的樣本占所有正樣本的比例,實際上與召回率含義相同(見圖2、3)。對比圖2和圖3可以看到,樣本平衡前后的ROC曲線都呈現折線形,算法泛化能力強,具有較強的適應性,且平衡樣本之后ROC面積比值有所提高,說明平衡樣本有效提高了算法精度。
(三)Logistic回歸結果
通過構建用戶違約事件的影響因素邏輯回歸模型,并利用Stata軟件得到實證結果(見表6)。從表6結果來看,X9(入網時長)、X25(終端個數)、X12(客戶月流量)、X13(終端時長)、X11(客戶星級)、X19(通話活躍天數)、X2(套餐月租)、X21(交往圈人數)、X7(年齡)、X35(高活躍客戶占比)對違約風險都存在一定程度的影響。其中X9(入網時長)、X12(客戶月流量)、X11(客戶星級)、X19(通話活躍天數)、X2(套餐月租)、X7(年齡)、X35(高活躍客戶占比)與違約風險負相關。事實上,用戶入網時間越長、年齡越大,客戶星級越高,表示用戶穩(wěn)定性更高,更有可能擁有良好的信用;通話活躍天數越大、客戶流量消費越大,套餐月租越高,表示用戶對手機實際用途更加重視,對手機依賴程度越高,用戶粘性越強。X25(終端個數)、X13(終端時長)、X21(交往圈人數)、X35(高活躍客戶占比)與違約風險正相關。終端個數越多、交往圈人數越多,高活躍客戶占比越大,說明用戶對單一手機品牌依賴程度低,社交網絡關系越復雜,手機消費更新?lián)Q代越快,則用戶違約的概率越高。同時,從模型1結果來看,入網時長、交往圈人數、客戶月流量、終端時長分別提高1%,個體違約風險分別提高-0.039%、3.18%、-0.01%、-1.06%,說明用戶對手機社交、娛樂功能和品牌忠誠度的重視程度與信用違約概率的相依度越來越高,且社交功能和娛樂功能越豐富,平均流量消費越大,個體違約的概率越小。
四、結論及政策啟示
以上通過利用隨機森林算法有效解決風險因子重要性排序問題,結合邏輯回歸模型解釋風險因子的邊際影響,研究表明:入網時長、終端個數、客戶月流量、終端時長是基于Gini指數重要性排序下的核心因子,且邊際影響為-0.039%、3.18%、-0.01%、-1.06%,且算法整體準確率達到74%,入網時長、客戶月流量、終端時長與違約風險負相關,而交往圈人數與違約風險正相關,并由此得到相關的政策啟示:
1.通過交叉端口獲取數據來研究消費主體信貸行為。當前居民消費正從量向質、從有形商品向品質服務轉變,傳統(tǒng)信貸數據、消費信息已經得到充分挖掘,而互聯(lián)網、大數據、云計算和物聯(lián)網技術的發(fā)展,使得通過交叉來源分析消費主體行為成為時下的前沿和趨勢。
2.通過社交網絡、興趣熱點和消費習慣來多維度識別信貸風險。從消費主體出發(fā)研究現實場景帶來的消費偏效應要結合時代發(fā)展和營銷對象的特征因子,而社交網絡、興趣熱點和消費習慣無疑是側面反映消費主體特征的重要方面,消費主體的一致性、偏好性和社交性是影響信貸違約的重要因子,從消費個體畫像、消費群體特征到消費細分領域都離不開對多維視角下消費者的微觀行為和選擇的研究,要想改善供給端產品質量、服務水準必須創(chuàng)造需求、挖掘需求。
3.融合傳統(tǒng)計量和數據挖掘技術是未來信用風險識別和評估的方向。長遠來看,大數據、云計算和互聯(lián)網等技術發(fā)展提供了海量的個體信用風險數據,如何擺脫數據驅動、算法驅動和數據至上理念,透過數據來挖掘隱含的理性經濟行為人決策是未來的重要方向,由信用風險因子的相關關系向因果關系轉變,利用前沿的挖掘技術來推動和發(fā)展消費信貸理論,既可克服傳統(tǒng)計量的主觀性,又可為數據實驗提供可靠的經驗依據和理論邏輯。
注釋:
① ?數據來源于《中國無線電管理年度報告(2018年)》。
② 數據來源于《中國互聯(lián)網發(fā)展報告(2019)》。
③ 由于消費信貸數據一般涉及商業(yè)機密及道德問題,出于實際研究中數據獲得渠道的可得性、可靠性考慮,本文選用云南省的數據。
參考文獻:
[1]?Norden L, Weber M. Informational efficiency of credit default swap and stock arkets: the impact of credit rating announcements[J]. Journal of Banking & Finance, 2004, 28(11):2813-2843.
[2] 遲國泰, 潘明道, 齊菲. 一個基于小樣本的銀行信用風險評級模型的設計及應用[J]. 數量經濟技術經濟研究, 2014(6):102-116.
[3] 趙志沖, 遲國泰, 潘明道. 基于信用差異度最大的信用等級劃分優(yōu)化方法[J]. 系統(tǒng)工程理論與實踐, 2017, 37(10):2539-2554.
[4] 張衛(wèi)國, 盧媛媛, 劉勇軍. 基于非均衡模糊近似支持向量機的P2P網貸借款人信用風險評估及應用[J]. 系統(tǒng)工程理論與實踐, 2018, 38(10):66-78.
[5] Bekhet H A , Eletter S F K . Credit risk assessment model for jordanian commercial banks: neural scoring approach[J]. Review of Development Finance, 2014, 4(1):20-28.
[6] 付永貴, 朱建明. 基于大數據的網絡供應商信用評估模型[J]. 中央財經大學學報, 2016(8):74-83.
[7] 肖會敏, 候宇,崔春生. 基于BP神經網絡的P2P網貸借款人信用評估[J]. 運籌與管理, 2018,27(9):112-118.
[8] Zhang Z L . Identification of credit risk of personal loan in commercial bank based on SVM[J]. Applied Mechanics and Materials, 2013, 281:682-687.
[9] 陸愛國, 王玨, 劉紅衛(wèi). 基于改進的SVM學習算法及其在信用評分中的應用[J]. 系統(tǒng)工程理論與實踐, 2012, 32(3):515-521.
[10]Namvar A, Siami M, Rabhi F, et al. Credit risk prediction in an imbalanced social lending environment[J]. 2018,11(1):925-935.
[11]Zhang Z , Cao M . Notice of ?retraction research of credit risk of commercial bank's personal loan based on CHAID decision tree[C].International Conference on Artificial Intelligence. IEEE, 2011.
[12]張奇, 胡藍藝, 王玨. 基于Logit與SVM的銀行業(yè)信用風險預警模型研究[J]. 系統(tǒng)工程理論與實踐, 2015, 35(7):1784-1790.
[13]阮素梅, 周澤林. 基于L1懲罰Logit模型的P2P網絡借貸信用違約識別與預測[J]. 財貿研究, 2018(2):54-63.
[14]Yang Y , Shi X H . Personal credit risk measurement: bilateral antibody artificial immune probability model[J]. Systems Engineering-Theory Practice, 2009, 29(12):88-93.
[15]Wekesa O A, Samuel M, Peter M. Modelling credit risk for personal loans: cox proportional hazards model approach[J]. Far East J.theor.stat, 2012, 40(2):107-125.
[16]張潤馳, 杜亞斌. 基于粒子群優(yōu)化聚類算法的多預測器信用評估模型[J]. 系統(tǒng)工程, 2017(10):154-158.
[17]Zhang Y , Chen L , Zhou Z , et al. A geometrical method on multidimensional dynamic ?credit evaluation[J]. International Journal of Information Technology & Decision Making, 2011,7(1):103-114.
[18]Jing H, Yang W S. Structural design of dynamic credit evaluation system oriented multi-service principal[C].International Conference on Information Management,2012.
[19]Huang Q H, Sun J, Mao W D. Dynamic modeling on credit risk evaluation with fixed time window and imbalanced ensemble of support vector machine[J]. Recent Patents on Computer Science, 2012, 5(1):51-58.
[20]張發(fā)明. 一種融合 SOM 與 K-means 算法的動態(tài)信用評價方法及應用[J]. 運籌與管理, 2016(6):186-192.
(責任編輯:寧曉青)