劉聯(lián)盟
摘 要:小微企業(yè)或企業(yè)主的純信用貸款融資服務(wù)一直是金融機(jī)構(gòu)的難題,如何在風(fēng)險(xiǎn)可控的前提下擴(kuò)大業(yè)務(wù)規(guī)模是亟待解決的,所以需要做一些基于稅務(wù)數(shù)據(jù)的風(fēng)控建模的研究,以作為重點(diǎn)解決信貸風(fēng)險(xiǎn)不對(duì)稱的問題。當(dāng)前在風(fēng)險(xiǎn)模型策略中也更為注重量化分析,所以借此論文研究的機(jī)會(huì)進(jìn)行擬定題目方向的研究,提升自身的研究分析能力。本文從銀行等金融機(jī)構(gòu)的信用風(fēng)險(xiǎn)管理中稅務(wù)數(shù)據(jù)的價(jià)值入手,詳細(xì)闡述了其在建模方向的應(yīng)用,并提出了相應(yīng)的困難。
關(guān)鍵詞:風(fēng)控;模型;小微信貸;稅務(wù)
小微金融融資難,其本質(zhì)是源于三個(gè)不對(duì)稱,即信息不對(duì)稱,風(fēng)險(xiǎn)不對(duì)稱,成本收益不對(duì)稱。綜合國內(nèi)外學(xué)者對(duì)小企業(yè)融資模式的研究成果來看,大多是希望通過破解信息不對(duì)稱問題,來解決其融資過程中遇到的問題,其中風(fēng)險(xiǎn)控制又是關(guān)鍵。盡管近年來,我國商業(yè)銀行正在逐步推行流程銀行改革,大中小行業(yè)銀行也都在對(duì)線上化的信用貸款進(jìn)行了一定程度的嘗試,這些對(duì)小微企業(yè)的融資起到了部分促進(jìn)作用,但依然成效不大。為此,筆者認(rèn)為重點(diǎn)是從數(shù)據(jù)源著手,提高銀行風(fēng)險(xiǎn)模型和策略的決策能力來減輕小微企業(yè)信息不對(duì)稱問題,依托銀稅互動(dòng)的背景,大力挖掘稅務(wù)數(shù)據(jù)在風(fēng)控領(lǐng)域的應(yīng)用價(jià)值,通過解決風(fēng)控和成本不平衡的難點(diǎn)逐步解決小微企業(yè)融資難題。
1 小微信貸的意義和價(jià)值
小微客群數(shù)量龐大、分布廣泛,他們貼近市場、貼近用戶,活躍在市場競爭最為激烈的領(lǐng)域,是經(jīng)濟(jì)增長和市場創(chuàng)新的微觀基礎(chǔ)。
在我國“以票管稅“的大環(huán)境 下,發(fā)票信息與稅務(wù)信息緊密相連。在各類小微企業(yè)融資模式中,稅務(wù)信息模式在風(fēng)控效果提升、成本與效果兼顧兩方面均具備優(yōu)勢,成為當(dāng)前各金融機(jī)構(gòu)越來越重視的模式。具體而言,稅務(wù)信息具備覆蓋的企業(yè)面廣、信息維度多且與風(fēng)控效果相關(guān)性大、信息準(zhǔn)確度高、電子化存儲(chǔ)方便等優(yōu)勢。其中,稅務(wù)數(shù)據(jù)的信息維度優(yōu)勢尤為突出,這其中包含企業(yè)主營商品分析、繳稅記錄、稅務(wù)信用等級(jí)、采購商品分析、銷售額排名區(qū)間、水電支出等信息。
當(dāng)前情況下,提升風(fēng)控水平是破解小微信貸成本和風(fēng)控的兩難問題的最佳手段,同時(shí)可以更好地提高貸款決策的有效性和科學(xué)性。金融結(jié)構(gòu)可以借助稅務(wù)數(shù)據(jù)來構(gòu)建的企業(yè)經(jīng)營全景視圖來進(jìn)行風(fēng)險(xiǎn)控制、產(chǎn)品營銷、業(yè)務(wù)創(chuàng)新等活動(dòng),真正有效的發(fā)揮數(shù)據(jù)和資金價(jià)值,進(jìn)一步促進(jìn)經(jīng)濟(jì)發(fā)展,落實(shí)普惠金融建設(shè)。
2 基于稅務(wù)數(shù)據(jù)的風(fēng)控建模的實(shí)現(xiàn)
本文采用的是一個(gè)融合模型,即通過兩個(gè)機(jī)器學(xué)習(xí)模型建模,然后在進(jìn)行邏輯回歸建模。首先會(huì)介紹數(shù)據(jù)探索和處理過程,以及特征構(gòu)造等建模前的基礎(chǔ)內(nèi)容。然后介紹Logsitc Regression 的基本原理、數(shù)學(xué)模型以及主要的方法。之后詳細(xì)介紹了 Random? Forest、Xgboost 在融合模型中的應(yīng)用,對(duì)算法的原理及其實(shí)現(xiàn)方式進(jìn)行了詳細(xì)的闡述,并對(duì)必要環(huán)節(jié)的處理過程進(jìn)行解釋。主要包含以下幾個(gè)重要步驟:
2.1 數(shù)據(jù)探索
數(shù)據(jù)探索要弄清楚這些問題:有哪兒些字段?樣本數(shù)據(jù)長什么樣子?基本特征是什么?分布是什么樣?有什么特殊之處?數(shù)據(jù)之間有沒有關(guān)系(相關(guān)性分析)?樣本數(shù)據(jù)是否能滿足建模需求?
數(shù)據(jù)探索是在具有較為良好的樣本后,對(duì)樣本數(shù)據(jù)進(jìn)行解釋性的分析工作,它是數(shù)據(jù)建模的較為前期的部分。數(shù)據(jù)探索并不需要應(yīng)用過多的模型算法,相反,它更偏重于定義數(shù)據(jù)的本質(zhì)、描述數(shù)據(jù)的形態(tài)特征并解釋數(shù)據(jù)的相關(guān)性及其業(yè)務(wù)意義。通過數(shù)據(jù)探索的結(jié)果,我們能夠更好的開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模工作。
2.2 數(shù)據(jù)處理
對(duì)原始數(shù)據(jù)進(jìn)行處理是論述本文的一切的前提,這部分工作十分繁復(fù),其中主要是對(duì)相關(guān)數(shù)據(jù)的抽取,對(duì)數(shù)據(jù)類型進(jìn)行處理,數(shù)據(jù)進(jìn)行歸一化處理,缺失值填充的方法評(píng)估,去除噪聲數(shù)據(jù),對(duì)極值處理,并對(duì)確認(rèn)錯(cuò)誤的數(shù)據(jù)進(jìn)行修正或刪除。由此產(chǎn)生的高質(zhì)量的數(shù)據(jù)才能進(jìn)行下一步的特征構(gòu)造工作。
2.3 特征構(gòu)造
這部分涉及到如何構(gòu)造特征,特征作為模型效果的直接因素,在數(shù)據(jù)建模工作中占了大部分工作量,也是模型建設(shè)中最重要的工作,從多樣化的業(yè)務(wù)邏輯中尋找特征構(gòu)造方法,利用特征工程通用的技術(shù)方法去驗(yàn)證特征效果,并使用專業(yè)性知識(shí)構(gòu)造特征生成模型。由此構(gòu)造出有效且解釋性強(qiáng)的特征,不僅對(duì)模型效果有極大提升作用,還能對(duì)業(yè)務(wù)意義提供參考。
2.4 模型原理和模型構(gòu)建評(píng)估
2.4.1 Logistic? Resgression
Logistic? Resgression 是以概率學(xué)理論為基礎(chǔ)所衍生出的非線性回歸模型,針對(duì)解決二分類問題的回歸模型,為了擬合因變量 y 與自變量(x1,x2,…,xn)之間關(guān)系而構(gòu)造的數(shù)學(xué)模型,是一種廣義的線性回歸分析模型,較常用于數(shù)據(jù)挖掘,醫(yī)學(xué)上的疾病分析和診斷,信貸評(píng)分卡等領(lǐng)域。
2.4.2 Random Forest
Random Forest算法是由多個(gè)基模型組成的分類算法?;跊Q策樹用隨機(jī)的方式建立一個(gè)森林,在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹分別進(jìn)行判斷。既然 Random? Forest 是一種多模型組合算法,那它一定是由元分類器組成的,它的元分類器是 CART 樹。每次進(jìn)行訓(xùn)練的樣本集沒有使用全集,而是使用抽樣的方法,抽樣方法是 Bagging 方法抽取有差異的子集,在樹的分支時(shí)也采用隨機(jī)選擇分裂特征的方式。通過使用以上方法,增強(qiáng)了 Random? Forest 算法較好的抗噪能力,并且由此也使得其分類效果十分優(yōu)秀。
2.4.3 Xgboost
Xgboost 將通用 Tree? Boosting 算法進(jìn)行了工程化實(shí)現(xiàn),梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是 Tree Boosting 算法的代表,而它也被稱為 MART(Multiple Additive Regression Tree)。
2.4.4 模型構(gòu)建
通過之前生成的特征變量,進(jìn)行變量的必要篩選和入模調(diào)整,構(gòu)建一整套違約預(yù)測模型,對(duì)融合模型和單模型進(jìn)行效果對(duì)比,并對(duì)模型中必要的模塊的實(shí)現(xiàn)方法及過程進(jìn)行論述。
2.4.5 模型評(píng)估
效果評(píng)估方式包含KS檢驗(yàn)和ROC檢驗(yàn):
1)KS檢驗(yàn)主要是驗(yàn)證模型對(duì)違約對(duì)象的區(qū)分能力,一般用在模型預(yù)測建模的信用樣本的信用評(píng)分后,將樣本按違約率與非違約率分成兩部分,然后用KS值來檢驗(yàn)兩組樣本的信用評(píng)分是否具有顯著性差異。
2)ROC曲線及AUC系數(shù)主要用來檢驗(yàn)違約預(yù)測模型對(duì)客戶進(jìn)行正確的排序能力。ROC曲線重點(diǎn)描述在一定累計(jì)好客戶比例下的累計(jì)壞客戶的比例,模型的分別能力越強(qiáng),ROC曲線越往左上角靠近。AUC值表示ROC曲線下方的面積。AUC越高則模型的風(fēng)險(xiǎn)區(qū)分能力也就越強(qiáng),AUC的最大值是1,也即是理論上的完美信用違約模型。
3 當(dāng)前遇到的困難和后續(xù)展望
3.1 當(dāng)前遇到的困難
一是對(duì)稅務(wù)數(shù)據(jù)的業(yè)務(wù)含義認(rèn)識(shí)上的片面性,導(dǎo)致無法構(gòu)造出一些十分有價(jià)值的變量,可能致使最終模型效果無法達(dá)到預(yù)期;二是數(shù)據(jù)實(shí)證分析遇到阻滯,影響論文寫作的階段性推進(jìn);三是企業(yè)上下游數(shù)據(jù)因普通發(fā)票開具的信息以及接收到的信息不完整,上下游的統(tǒng)計(jì)數(shù)據(jù)可能會(huì)與企業(yè)實(shí)際交易情況存在細(xì)微的誤差。
3.2 后續(xù)展望
綜上所述,通過本文的研究,給出了利用稅務(wù)數(shù)據(jù)對(duì)小微信貸領(lǐng)域的風(fēng)控模型進(jìn)行分析和挖掘的一個(gè)思路和方向,并取得了初步的成果,但是由于本人知識(shí)面的狹窄和經(jīng)驗(yàn)上的不足,該研究并不完美,還存在著許多需要完善的地方,有待未來繼續(xù)努力。未來可以進(jìn)一步研究的內(nèi)容包括:
1)對(duì)數(shù)據(jù)的深度分析和使用,采集更多的數(shù)據(jù),除了本文所使用的稅務(wù)基礎(chǔ)數(shù)據(jù)之外,還可以納入更多的與企業(yè)經(jīng)營相關(guān)的數(shù)據(jù),包括不限于水電費(fèi)用信息,企業(yè)進(jìn)銷項(xiàng)中更多維度的數(shù)據(jù)。此外對(duì)于數(shù)據(jù)的處理,需要研究更優(yōu)的數(shù)據(jù)清理方式,更加有效的消除異常數(shù)據(jù),填補(bǔ)空缺數(shù)據(jù)。最后還要對(duì)小微企業(yè)的經(jīng)營數(shù)據(jù)做深度分析,提高特征數(shù)據(jù)的粒度,尋到更多有效的與違約強(qiáng)相關(guān)的數(shù)據(jù)特征。
2)使用一些最新的算法來進(jìn)行違約預(yù)測,利用目前前沿的深度學(xué)習(xí)技術(shù)對(duì)違約模型進(jìn)行優(yōu)化。
4 結(jié)束語
綜上所述,小微信貸領(lǐng)域的數(shù)據(jù)模型的應(yīng)用還處在探索與發(fā)展階段,但是這也是當(dāng)前數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的熱點(diǎn)研究方向。本文以作者實(shí)際經(jīng)驗(yàn)出發(fā),介紹了在當(dāng)前國家政策的大力支持下,小微企業(yè)融資難、融資貴的現(xiàn)象依然一直存在,分析融資難的本質(zhì)原因分析,以及解決小微企業(yè)融資的現(xiàn)實(shí)意義,針對(duì)小微企業(yè)融資難的問題,一方面,通過“銀稅互動(dòng)”、“銀商互動(dòng)”、對(duì)接產(chǎn)業(yè)中的交易數(shù)據(jù)、與正規(guī)持牌的第三方征信機(jī)構(gòu)合作等方式,不斷拓展充實(shí)小微企業(yè)的經(jīng)營信息;另一方面,結(jié)合稅務(wù)數(shù)據(jù)和機(jī)器學(xué)習(xí)算法,動(dòng)態(tài)搜集企業(yè)經(jīng)營的相關(guān)信息線索、提煉數(shù)據(jù)特征。豐富和完善企業(yè)信用評(píng)估的維度,將傳統(tǒng)的評(píng)分卡建設(shè)轉(zhuǎn)變?yōu)槿诤夏P偷臉?gòu)建,切實(shí)提高金融結(jié)構(gòu)的小微信貸風(fēng)險(xiǎn)把控能力。
企業(yè)的稅務(wù)相關(guān)數(shù)據(jù)中也存在很多值得挖掘的信息等待人們?nèi)グl(fā)現(xiàn),盡管本論文的研究內(nèi)容還有許多不足之處,但隨著未來研究的進(jìn)一步開展,相關(guān)領(lǐng)域的研究必然會(huì)取得更大的突破,為數(shù)據(jù)建模在小微信貸領(lǐng)域的應(yīng)用取得更大的成果。
參考文獻(xiàn)
[1]姜強(qiáng),趙蔚,王朋嬌,等.基于大數(shù)據(jù)的個(gè)性化自適應(yīng)在線學(xué)習(xí)分析模型及實(shí)現(xiàn)[J].中國電化教育,2015(1):85-92.
[2]洪娟.大數(shù)據(jù)環(huán)境下商業(yè)銀行“小微貸”競爭策略研究[J].南方金融,2014(03):80-82.
[3]王妍.構(gòu)建大數(shù)據(jù)“云銀行”金融模式突破小微企業(yè)融資瓶頸[J].對(duì)外經(jīng)貿(mào),2015(07):114-116.
[4]李雅芹,楊慧中.一種基于Bagging算法的高斯過程集成建模方法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2011,41(B09):93-96.
[5]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.