王譯啡 宋雅蓉
關(guān)鍵詞:金融借貸數(shù)據(jù);可視化;K-Means 聚類;Python;第三方庫
0 引言
大力發(fā)展普惠金融,是我國全面建成小康社會(huì)的必然要求,意在為微小企業(yè)、農(nóng)民、城鎮(zhèn)低收入人群等弱勢(shì)群體提供有效的金融服務(wù)。之前研究表明,從解決居民融資問題的實(shí)際效果來看,P2P 借貸確有緩解難以獲得正規(guī)金融服務(wù)的人群融資困難的問題,但普惠金融的發(fā)展效益并沒有很好的呈現(xiàn)出來,其原因包括不同類型的服務(wù)客體參與貸款的主觀能動(dòng)性差異。投資者對(duì)不同類型的服務(wù)客體主觀偏好不顯著等等[1]。所以在信息時(shí)代發(fā)展的背景下,需要利用大數(shù)據(jù)技術(shù)在數(shù)據(jù)處理與分析中的效能,與金融業(yè)務(wù)緊密融合,才能使金融服務(wù)的深度和廣度得以提升。
然而金融行業(yè)數(shù)據(jù)復(fù)雜且專業(yè),難以讓一些不具備金融專業(yè)背景的信息使用者所理解。利用數(shù)據(jù)可視化手段將大量信息整合,轉(zhuǎn)化為圖片或線條呈現(xiàn),無疑是理解海量數(shù)據(jù)的高效方式。不同的企業(yè),應(yīng)用可視化技術(shù)的程度是不相同的,許多用戶還是使用Excel 電子表格工具來進(jìn)行數(shù)據(jù)比對(duì),如vlookup 等方式,或是制作一個(gè)氣泡效果圖來發(fā)現(xiàn)異常。但受到數(shù)據(jù)量和效率成本等限制,有時(shí)通過Excel 分析展示數(shù)據(jù)的效果并不理想[2]。Python 語言有更高的效率和可擴(kuò)展性,并且可以用于研究算法模型,數(shù)據(jù)量龐大且復(fù)雜時(shí)用Python 能更好的進(jìn)行可視化呈現(xiàn)。
本文以普惠金融為背景,基于P2P 平臺(tái)LendingClub 的貸款數(shù)據(jù),用Python 語言進(jìn)行多維度可視化分析,產(chǎn)生用戶畫像,深度挖掘用戶的各項(xiàng)特征與金融服務(wù)之間的關(guān)系,找出參與貸款活動(dòng)主觀能動(dòng)性差異的關(guān)鍵因素,并利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)大數(shù)據(jù)背景下對(duì)金融服務(wù)對(duì)象的精確細(xì)分,更利于金融服務(wù)的個(gè)性化推廣。
1 數(shù)據(jù)描述及探索
1.1 數(shù)據(jù)集簡(jiǎn)介
P2P 貸款需要借助電子商務(wù)平臺(tái)來確立借貸關(guān)系,體現(xiàn)了在互相網(wǎng)環(huán)境下的新型金融模式,美國Lending Club 是世界最大的P2P 互聯(lián)網(wǎng)金融平臺(tái),業(yè)務(wù)范圍是美國51 個(gè)州[3],并且Lending Club 平臺(tái)對(duì)外公開了真實(shí)交易數(shù)據(jù)供學(xué)者研究,本文下載了該平臺(tái)公開的2007 年至2018 年所有數(shù)據(jù),共2260701 條記錄(151個(gè)特征),從中篩選出2018年第四季度的所有數(shù)據(jù),共計(jì)128412 條記錄,對(duì)所有特征進(jìn)行整理并分析后篩選出15 個(gè)特征供后續(xù)分析研究使用,如表1 所示。
1.2 探索性數(shù)據(jù)分析
用Python 的Pandas 庫對(duì)數(shù)據(jù)進(jìn)行了描述性統(tǒng)計(jì)分析,如圖1 所示,顯示數(shù)據(jù)完整性較好,僅emp_title與emp_length 屬性有少量的缺失值,由于缺失值占比很小,后期處理時(shí)直接進(jìn)行刪除。另外,用describe 函數(shù)對(duì)浮點(diǎn)類型的數(shù)據(jù)進(jìn)行了數(shù)值范圍的統(tǒng)計(jì)分析,用unique 函數(shù)對(duì)一些object 類型變量進(jìn)行了取值探索。
2 數(shù)據(jù)分析與模型構(gòu)建
2.1 單變量可視化探索
首先對(duì)客戶的基本信息進(jìn)行分析,選取purpose,home_ownership,emp_length 變量,選擇利用Python 中Plotly 庫進(jìn)行數(shù)據(jù)可視化,Plotly 繪圖底層是plotly.js,可以在網(wǎng)頁上實(shí)現(xiàn)交互功能,便于多維數(shù)據(jù)的復(fù)雜性分析展示[4],如圖2 左側(cè)所示,客戶借款主要用于債務(wù)整合,以貸養(yǎng)貸,房屋改善等,客戶信用評(píng)估等級(jí)B 和C 占多數(shù),基本呈現(xiàn)正態(tài)分布;從餅圖中也能看出有接近一半的客戶是擁有住房的,但是面臨著房貸壓力,有將近四成的客戶(39.4%)處于租房狀態(tài),經(jīng)濟(jì)壓力較大。工作年限在十年以上的客戶占三成,LC 客戶平均工作年限在五年左右。
其次是對(duì)客戶貸款的情況進(jìn)行系統(tǒng)分析,選擇出loan_amnt,int_rate, dti 和total_acc 這四個(gè)變量,利用Python 中Seaborn 庫進(jìn)行繪制,從圖2 右側(cè)四張分布圖可以看出,公司主要以小額貸款為主,貸款金額分布在0.5-4 萬美元,貸款金額在1-2 萬區(qū)間的居多;利率分布主要集中在5%-15%,處于合理范圍;借款人的信用度集中在25 左右,普遍信用度較低,這也正是因?yàn)镻2P 模式門檻低,審核簡(jiǎn)單,所以很多融資困難,貸款困難的個(gè)人或企業(yè)會(huì)選擇該模式的原因[5]。Dti 是借款人每月所繳的債務(wù)總額(不包括LC貸款)除以借款人每月收入,能夠反映貸款對(duì)借貸人的壓力指數(shù),結(jié)果顯示大部分客戶dti都集中在30%以下,原有的債務(wù)壓力不算太重,這也是衡量借款人還款能力的重要指標(biāo)。
2.2 多變量可視化探索
多變量探索是為了發(fā)現(xiàn)變量與變量之間的關(guān)聯(lián)性,利用Seaborn 庫中的boxplot 方法繪制圖3 左側(cè)的箱圖,能看出還款狀態(tài)與借款金額之間的關(guān)系:延期還款的金額總體比已全部還清狀態(tài)下的借款金額要高一些;從不良公眾記錄與貸款金額的關(guān)系來看,不良記錄越多的,能申請(qǐng)到的貸款金額就越低,可見LC是有嚴(yán)格把關(guān);年收入的多少與被驗(yàn)證狀態(tài)的關(guān)系表現(xiàn)并不明顯,但是能發(fā)現(xiàn)年收入高其很多收入來源是有被LC 驗(yàn)證的;統(tǒng)計(jì)發(fā)現(xiàn),借款人職位排在前三的職位分別是老師。經(jīng)理和護(hù)士,并且這三類人員的借款金額也相對(duì)較高。
散點(diǎn)圖矩陣將多維數(shù)據(jù)中的各個(gè)維度兩兩組合繪制成一系列的按規(guī)律排列的散點(diǎn)圖,對(duì)海量數(shù)據(jù)進(jìn)行變量之間關(guān)系的展示,利用Seaborn 庫中的pairplot方法進(jìn)行如圖3 右側(cè)散點(diǎn)矩陣?yán)L制,通過kind='reg'參數(shù)能夠在圖中加入最佳擬合線,擬合線能更清楚的表現(xiàn)兩個(gè)變量是如何變化的[5],圖中顯示installment 與loan_amnt 幾乎呈現(xiàn)完全正相關(guān)趨勢(shì),貸款金額越高,分期付款期數(shù)相對(duì)固定的情況下,每月還款金額肯定也就越高;從annual_inc 與loan_amnt 變化擬合線可以看出,也近乎是正相關(guān),客戶年收入越高,能申請(qǐng)到的貸款金額就越高;annual_inc 與dti 近似擬合為負(fù)相關(guān),體現(xiàn)出年收入越高,還款壓力就相對(duì)越小。
2.3 K-means 建模
聚類算法可以根據(jù)數(shù)據(jù)屬性之間的信息關(guān)系進(jìn)行分組,最終使組內(nèi)樣本的相似度最大,組間相似度最小[6],本文采用的K-means 模型是經(jīng)典的聚類算法,用于對(duì)客戶進(jìn)行分組,以便于更好的繪制用戶畫像,了解客戶情況。基于對(duì)原始數(shù)據(jù)的探索分析,最終選定'int_rate', 'loan_status', 'emp_length', 'open_acc', 'dti' 這五個(gè)屬性來構(gòu)建聚類模型。對(duì)于K-means 方法,K 的取值是一個(gè)難點(diǎn),這里采用SSE 方法嘗試找到最優(yōu)的K 數(shù)值[7],如圖4 所示,并沒有出現(xiàn)所謂的“拐”點(diǎn),隨著K 值的增大,SSE 的值逐漸減小,當(dāng)K=3 時(shí),減小幅度明顯增大,所以最終確定K 為3。
所選取屬性中int_rate 和emp_length 數(shù)據(jù)類型都是object,需要將它們轉(zhuǎn)化為float 數(shù)字類型,另外,loan_status 是一個(gè)關(guān)鍵特征,反映了當(dāng)前貸款的還款情況,包含了多個(gè)類別,根據(jù)Lending Club 官網(wǎng)標(biāo)準(zhǔn)解釋,對(duì)不同類別賦予不同權(quán)重以便后續(xù)處理,已全額償還和還在償還期內(nèi)的為好客戶,賦予較高值;逾期和核銷貸款的用戶賦予較低值,具體為:'Fully Paid': 10,'Current': 9,'In Grace Period': 5,'Late (16-30 days)':1,'Late (31-120 days)':0.5,'ChargedOff':-1。然后對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使所有數(shù)據(jù)落入一個(gè)限定的區(qū)間,從而去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位的指標(biāo)能夠進(jìn)行比較和加權(quán)[8]。本文采用的z-score 標(biāo)準(zhǔn)化,利用公式:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差,將原始數(shù)據(jù)映射到新的區(qū)間[9]。然后使用Python 中的sklearn 庫,對(duì)數(shù)據(jù)進(jìn)行聚類分析,從而得到聚類的中心點(diǎn)和每類的人群數(shù)目。為了更清晰的顯示聚類的結(jié)果,利用Matplotlib 可視化庫進(jìn)行雷達(dá)圖繪制,如圖5 所示。
通過圖5 的聚類結(jié)果進(jìn)行特征分析,該圖繪制在一個(gè)圓形極坐標(biāo)系上,共五個(gè)特征維度,圖中點(diǎn)越靠近某特征的,證明該特征越明顯,反之亦然。由于之前確定k 值為3,故所有數(shù)據(jù)被分為三類,每個(gè)客戶群都有不同的表現(xiàn)特征,第一類人群共計(jì)54258 人,圖中黑色表示,總體來說這類人群工作年限較長,信用度較高,借款利率相對(duì)較低,并且借款狀態(tài)的值越高,證明拖欠可能性越低,證明此類客戶為優(yōu)質(zhì)客戶群,也是應(yīng)該重點(diǎn)維系和長期合作的對(duì)象。第二類人群共計(jì)60812 人,此類人群數(shù)量最大,但第二類人群幾乎在第一類人群特征中包含了,只是對(duì)比第一類人群的工作年限相對(duì)較低,可能新客戶占比較多,但信用度和還款能力較好,屬于重要發(fā)展和重要保持客戶。第三類客戶共計(jì)1616 人,該類客戶的明顯特點(diǎn)是借款狀態(tài)值很低,證明很多屬于經(jīng)常拖欠,延期和違約的,并且該類客戶的利率相較于其他客戶較高,證明還款周期較長,此類為低價(jià)值客戶,后期可重點(diǎn)對(duì)其進(jìn)行分析,探究拖欠原因并針對(duì)性地解決。
3 結(jié)論與建議
3.1 研究結(jié)論
本文以Lending Club 公司2018 年Q4 季度的128412 條貸款數(shù)據(jù)(27 個(gè)特征)為研究對(duì)象,結(jié)合金融數(shù)據(jù)特點(diǎn),基于Python 強(qiáng)大的第三方庫,對(duì)數(shù)據(jù)進(jìn)行探索性分析,并以多類別可視化圖形的方式呈現(xiàn),完成了對(duì)Lending Club(正文簡(jiǎn)稱LC)平臺(tái)上的借款客戶畫像繪制,實(shí)現(xiàn)了對(duì)該平臺(tái)借貸業(yè)務(wù)的整體分析,同時(shí)通過對(duì)用戶進(jìn)行分類,來分析了解客戶是否具有還款意愿及償還能力??偟膩碚f,本文對(duì)金融借貸數(shù)據(jù)進(jìn)行的可視化研究和探索具有較好的應(yīng)用價(jià)值和實(shí)際意義。
3.2 研究建議
在金融信貸業(yè)務(wù)領(lǐng)域中,需要明確信貸機(jī)構(gòu)的目標(biāo)客戶群、目標(biāo)客戶的特征以及客戶畫像信息,以Lending Club 平臺(tái)的P2P 小額借貸業(yè)務(wù)為例,完整、健全的客戶信息有利于公司更好的進(jìn)行資格審查。因此可進(jìn)一步細(xì)化借貸標(biāo)準(zhǔn),完善征信體系,同時(shí)也有利于風(fēng)控人員系統(tǒng)分析,把控違約風(fēng)險(xiǎn),讓借款人養(yǎng)成良好的履約記錄,防止“跑路”情況的發(fā)生。另一方面,根據(jù)數(shù)據(jù)分析結(jié)果可以看出,借款人的信用度,工作年限,收入,借款時(shí)間等對(duì)利率和還款情況也是有一定影響的,因此借款人需要自律、守信,預(yù)防超支及過度消費(fèi)行為,在規(guī)定期限內(nèi)還款。最后,借貸公司可以加強(qiáng)與銀行的合作,吸納更多有經(jīng)濟(jì)實(shí)力和還款能力的優(yōu)質(zhì)客戶并適當(dāng)提高其貸款額度,從而進(jìn)一步推動(dòng)普惠化發(fā)展。