趙雪峰 ,吳德林 ,吳偉偉 ,王世璇 ,龍 森
(1.哈爾濱工業(yè)大學(xué)(深圳) 經(jīng)濟管理學(xué)院,廣東 深圳 518055;2.哈爾濱工業(yè)大學(xué)經(jīng)濟與管理學(xué)院,哈爾濱 150001)
因我國國際形式變化及境外貿(mào)易摩擦加劇[1-2],為保證市場穩(wěn)定需提高放貸效率[3-8]。其中,合理選擇信貸評估模型可大幅提高放貸效率[9-11]。目前已衍生出一批優(yōu)異的信貸模型研究方法,主要包括模型特征選擇和模型結(jié)構(gòu)改進兩個方面。
在模型特征選擇方面的研究有:王馨等[12]探究綠色信貸政策對信用貸款的影響;王性玉等[13]通過Logit及Tobit回歸模型分析農(nóng)戶貸款發(fā)現(xiàn),高信譽特征能夠有效增加農(nóng)戶信貸可得性和信貸額度;趙志沖等[14]通過最小顯著差異法確定“年凈收入/省人均GDP”區(qū)間在10.02~19.24 內(nèi),居住狀況是“共有住房”特征的貸款農(nóng)戶的違約風(fēng)險最大;Zh等[15]構(gòu)建博弈模型研究補貼對貸款的影響;Jiménez等[16]采用結(jié)合貸款用戶和放貸機構(gòu)的固定效應(yīng),發(fā)現(xiàn)較低的隔夜利率會導(dǎo)致資本水平較低的放貸機構(gòu)向事前風(fēng)險較高的貸款用戶發(fā)放更多貸款申請等結(jié)論。
在模型結(jié)構(gòu)改進方面的研究有:趙雪峰等[7]針對目前貸款評估過程存在特征預(yù)處理復(fù)雜、受主觀因素干擾、準(zhǔn)確率較低等問題,利用Word2Vec及卷積神經(jīng)網(wǎng)絡(luò)(CNN)組建了WV-CNN 信貸評估模型;王小燕等[17]構(gòu)建logit-quantile模型,并在模型中添加Lasso 懲罰,結(jié)果表明,在零膨脹比例為80%及高維情形時,該模型表現(xiàn)最優(yōu);Li 等[18]提出基于半?yún)?shù)混合分布的集合模型預(yù)測信貸收益率,并通過盈利貸款評估回報風(fēng)險,最終形成信貸投資組合的優(yōu)化方法;石寶峰等[19]建立由年齡、非農(nóng)收入/總收入等13個指標(biāo)組成的農(nóng)戶小額貸款信用評級指標(biāo)體系,并利用熵權(quán)法求解評價指標(biāo)權(quán)重,構(gòu)建了基于ELECTRE III(消去與選擇轉(zhuǎn)換評價)的農(nóng)戶小額貸款信用評級模型;遲國泰等[20]從貸款的整體風(fēng)險和風(fēng)險分散度兩個方面,構(gòu)建基于CVaR 和改進熵的全貸款組合優(yōu)化模型;Liu等[21]提出一種基于梯度提升機的序列集成信用評分模型,該模型利用特征重要性得分去除冗余變量,并采用貝葉斯超參數(shù)優(yōu)化方法自適應(yīng)調(diào)整模型超參數(shù);文忠平等[22]結(jié)合信貸機構(gòu)資本運用效率及風(fēng)險承受能力,建立風(fēng)險調(diào)整后的資本收益率最大化和風(fēng)險最小化的多目標(biāo)行業(yè)貸款組合模型,改進了現(xiàn)有貸款組合研究需假設(shè)模型約束變量數(shù)值的缺陷;Wang等[23]利用Word2vec 將貸款文本轉(zhuǎn)換為向量,并使用LSTM 網(wǎng)絡(luò)預(yù)測用戶違約概率;Pang等[9]從貸款客戶類型和違約貸款角度構(gòu)建基于C5.0 決策樹、CART 決策樹和CHAID 決策樹的貸款違約客戶預(yù)警模型。
綜合而言,特征選擇及結(jié)構(gòu)改進等信貸研究已對當(dāng)下我國經(jīng)濟復(fù)蘇及社會轉(zhuǎn)型做出巨大貢獻[2,24-25]。但客觀而言,高效放貸依然受如下3 種因素干擾:
(1) 信貸模型應(yīng)用場景受限。如將 WVCNN[23]應(yīng)用于農(nóng)戶信貸預(yù)測中,為保證WV-CNN的預(yù)測準(zhǔn)確率,需構(gòu)建農(nóng)戶信貸特征訓(xùn)練集;同理,若將梯度提升信用評分模型[21]應(yīng)用于跨境電商用戶,則需構(gòu)建跨界電商用戶特征的訓(xùn)練集。由此可見,因為信貸模型與訓(xùn)練集的對應(yīng)關(guān)系,限制了信貸模型的應(yīng)用場景,難以實現(xiàn)高效評估[33]。
(2) 離散及缺失特征預(yù)處理繁瑣。如logitquantile[17]、基于Logit及Tobit構(gòu)建的回歸模型[13]等,均利用離散型信貸特征執(zhí)行信貸評估,但由于離散型特征涉及降維、相似度計算及定性至定量轉(zhuǎn)換等[26-27],極大地影響信貸評估效率。而且,當(dāng)涉及缺失特征時,業(yè)內(nèi)缺少統(tǒng)一的特征填充標(biāo)準(zhǔn),造成主觀填補特征現(xiàn)象,在影響信貸評估效率的同時,甚至影響信貸評估的公正公平。
(3) 信貸文本詞向量固化。有學(xué)者為克服離散信貸特征的弊端,已通過信貸文本執(zhí)行信貸評估。趙雪峰等[7]利用Word2Vec詞向量化信貸文本,并通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)執(zhí)行信貸預(yù)測,但由于Word2Vec等方法是通過詞袋與詞語的對應(yīng)關(guān)系實現(xiàn)向量化,這種固定的對應(yīng)關(guān)系導(dǎo)致模型無法解決一詞多義及通篇理解信貸文本的問題,進而影響信貸評估準(zhǔn)確率。
針對上述問題,本文以自然語言處理技術(shù)為基礎(chǔ),組合Bag-of-Words[28-29]與Bert模型[30-31],并添加多元線性激活函數(shù)構(gòu)建信貸評估模型BM-Linear(Linear activation credit loan model based on Bagof-Words and Multi-Head Attention)。詳細(xì)地,BM-Linear首先對待評估用戶文本執(zhí)行包括分詞、去停用詞的預(yù)處理;然后,基于Bag-of-Words模型與Multi-Head Attention組合模型,對預(yù)處理后的用戶文本執(zhí)行詞向量化;最后,利用多元線性激活函數(shù)對詞向量化后的數(shù)據(jù)執(zhí)行激活處理,從而實現(xiàn)貸款評估預(yù)測。
此外,為探究BM-Linear是否能有效解決因?qū)?yīng)關(guān)系造成應(yīng)用場景受限、離散及缺失特征處理繁瑣以及詞向量固化的問題,首先引入多組不同應(yīng)用場景下的信貸數(shù)據(jù)集,并使用核密度估計、參數(shù)擬合等方法發(fā)現(xiàn)在不同信貸特征下所展現(xiàn)的信貸現(xiàn)象;其次,創(chuàng)造性地提出參數(shù)獨立訓(xùn)練及參數(shù)共用訓(xùn)練兩種訓(xùn)練方法,發(fā)現(xiàn)BM-Linear可有效緩解因?qū)?yīng)關(guān)系造成的模型應(yīng)用場景受限及詞向量固化問題;最后,引入多組公認(rèn)信貸表現(xiàn)優(yōu)異的評估模型與BM-Linear組成對比實驗,得出BM-Linear在對缺失特征不做處理的情況下,其信貸表現(xiàn)依然領(lǐng)先其他多數(shù)模型的結(jié)論。
按照信貸文本在BM-Linear的處理過程,可將BM-Linear分為3個部分,依次為信貸文本預(yù)處理、信貸文本詞向量化以及線性激活,整個模型結(jié)構(gòu)如圖1所示。
圖1 BM-Linear模型結(jié)構(gòu)
由于信貸文本包括標(biāo)點符號、停用詞等無用特征,這類無用特征會干擾信貸評估準(zhǔn)確率,占用模型對信貸文本的計算時間,故需利用預(yù)處理手段剔除無用特征并規(guī)范信貸文本,以提高后續(xù)Bag-of-Words及Bert的詞向量化質(zhì)量。
其中,本文預(yù)處理手段共包括5個步驟,依次為文本分詞、去停用詞、去標(biāo)點、去異性詞及語句重組,在此不再贅述。需要強調(diào)的是,BM-Linear核心在于詞向量化,其中詞向量化包括兩個步驟,依次為Bag-of-Words詞向量化及Bert 所包括的Multi-Head Attention詞向量化,在詳細(xì)闡述兩個步驟之前,需要先解釋相關(guān)理論知識背景及參數(shù)。
詞袋模型的詞向量化主要基于Huffman編碼及詞袋原理生成Huffman 二叉樹,通過Huffman二叉樹來表示詞對詞之間的關(guān)系,進而生成不受詞語在文本中語句順序限制的詞向量[28-29]。
多頭注意力機制主要以注意力模型為基礎(chǔ)而構(gòu)建,現(xiàn)已被廣泛使用在自然語言處理、圖像識別及語音識別等各種不同類型的深度學(xué)習(xí)任務(wù)中,是深度學(xué)習(xí)技術(shù)中最值得關(guān)注與深入了解的核心技術(shù)之一[30-31]。進一步,本文多頭注意力機制由6組自注意力機制垛疊組成,為進一步提高詞向量化精準(zhǔn)度,在6組自注意力機制后繼續(xù)添加殘差連接及前饋神經(jīng)網(wǎng)絡(luò)。
上述各技術(shù)專有名詞的詳細(xì)解釋如下:
(1)Huffman二叉樹。為了對數(shù)據(jù)集執(zhí)行有效劃分,構(gòu)建出非線性數(shù)據(jù)結(jié)構(gòu)劃分法,即稱為樹,其中二叉樹是每個結(jié)點最多僅有兩棵分支子樹的樹,兩棵子樹分別稱為左子樹和右子樹,若存在一棵二叉樹的路徑長度最小,則稱為Huffman二叉樹。
(2) 結(jié)點。結(jié)點包括葉子結(jié)點、非葉子結(jié)點及根結(jié)點。其中,根結(jié)點是所有結(jié)點的起點,非葉子結(jié)點表示可執(zhí)行數(shù)據(jù)結(jié)構(gòu)劃分的結(jié)點,葉子結(jié)點與葉子結(jié)點相反,表示無法進一步執(zhí)行數(shù)據(jù)結(jié)構(gòu)劃分的結(jié)點。
(3) 詞典。若干不重復(fù)的詞所組成的集合稱為詞典。
(4)自注意力機制 (Self-Attention)。Attention機制是一種從海量數(shù)據(jù)中選擇與當(dāng)前任務(wù)關(guān)聯(lián)性更強信息的一種實施手段,Self-Attention是Attention的特殊情況,表示每個單詞需與該單詞之外的其他單詞執(zhí)行Attention計算。
(5) 前饋神經(jīng)網(wǎng)絡(luò)。一種單向多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),每一層包含若干神經(jīng)元,各神經(jīng)元可接收前一層神經(jīng)元的信號,并產(chǎn)生輸出至下一層。其中,第0層稱為輸入層,最后一層稱為輸出層,其他中間層稱為隱藏層。
(6) 殘差連接。將神經(jīng)元的輸出表述為輸出和輸出的非線性變換的線性疊加,以防止因神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)深度增加而導(dǎo)致信息丟失的一種技巧手段。
應(yīng)該了解的是,信貸文本內(nèi)包括可供放貸機構(gòu)評估的重要評估信息,若詞向量操作的細(xì)膩度低,會直接影響后續(xù)信貸預(yù)測的準(zhǔn)確率,因此,本文將詞向量分為兩個步驟,分別為Bag-of-Words的初次詞向量及Multi-Head Attention的二次詞向量。詞向量化過程如圖2所示。
圖2 BM-Linear的詞向量過程
由圖2可見,BM-Linear的詞向量過程可簡述為:首先接收已預(yù)處理完成的信貸詞語集,根據(jù)每個信貸詞語在信貸文本的位置及預(yù)構(gòu)建的詞袋,將每個信貸詞語編碼為初級詞向量。進一步,通過6組Self-Attention、殘差連接及前饋神經(jīng)網(wǎng)絡(luò),將每組初級詞向量執(zhí)行再次編碼,得到可直接進行線性激活的標(biāo)準(zhǔn)詞向量。
具體地,Bag-of-Words是一種求解詞典?內(nèi)詞語ω的詞向量,從而完成信貸詞語集的初次詞向量化過程,Bag-of-Words包括輸入層、投影層和輸出層,各層之間的流程如圖3所示。
結(jié)合圖3,Bag-of-Words首先遍歷出信貸文本內(nèi)的信貸詞語,并將每個信貸詞語假設(shè)為已知的詞向量,通過求和與反向迭代的方式更新假設(shè)出的詞向量。其中,輸入層的主要作用是根據(jù)信貸詞語在信貸文本的位置Context(ω),預(yù)設(shè)信貸詞向量V(Context(ω)),并根據(jù)信貸詞語與其他詞語的位置關(guān)系,構(gòu)建得到輸入向量V(Context(ω)1),V(Context(ω)2),…,V(Context(ω)2c)。
圖3 Bag-of-Words詞向量過程
進一步,投射層將所有詞向量累加求和,即
對詞向量進行結(jié)點分類,本文約定分到二叉樹左邊為負(fù)類,分到右邊為正類,則根據(jù)sigmoid函數(shù)計算結(jié)點被分到正類的概率為
輸出層基于Huffman的二叉樹編碼原則,聯(lián)立式(1)及路徑pω內(nèi)lω-1個分支的概率乘積和,構(gòu)建條件概率及條件概率的對數(shù)似然函數(shù)分別為:
聯(lián)立式(3)~式(5),可得出對數(shù)似然函數(shù)恒等式為
設(shè)ζ(ω,j)表示式(6)花括號內(nèi)函數(shù),由式(6)可以發(fā)現(xiàn),條件概率對數(shù)似然函數(shù)與ζ(ω,j)成正比關(guān)系,因此,最優(yōu)化ζ(ω,j),即可得出對數(shù)似然函數(shù)最優(yōu)解為
根據(jù)上述推導(dǎo)總結(jié),當(dāng)輸出層得到映射層的累加向量Xω后,利用式(1)、(8)和式(9),更新詞ω的詞向量V(ω),有
但是由于Bag-of-Words是以詞袋與信貸詞語的一一對應(yīng)關(guān)系實現(xiàn)詞向量的目的,因為對應(yīng)關(guān)系固定,所以導(dǎo)致詞向量固化。這種信貸詞語到詞向量的靜態(tài)轉(zhuǎn)化首先無法解決一詞多義的問題,其次難以通篇理解信貸文本,從而影響后續(xù)信貸評估[31]。因此,為實現(xiàn)動態(tài)詞向量,引入Bert模型中的Multi-Head Attention 以克服Bag-of-Words靜態(tài)詞化所帶來的缺點,以圖2 為參考,細(xì)化Multi-Head Attention的詞向量過程,得到圖4。
圖4 Multi-Head Attention詞向量過程
由圖4 可見,多頭注意力機制由多個Self-Attention Layer組成,其中Self-Attention Layer的層數(shù)需要根據(jù)信貸詞向量的復(fù)雜度確定。需要格外說明的是,每個Self-Attention Layer對初級詞向量執(zhí)行自注意力運算均是并行處理,且不同Self-Attention Layer之間互不影響,因此,根據(jù)Self-Attention Layer的層數(shù)生成對應(yīng)數(shù)量的注意力向量。例如圖4 中的Self-Attention Layer若有10層,則1組初級詞向量經(jīng)過多頭注意力機制會生成10組注意力向量。
此外,Self-Attention Layer 除了具有并行計算、互不干擾的優(yōu)點之外,還能有效捕捉信貸文本之間的順序關(guān)系,自動忽略信貸文本信息中大量無用的文字,并篩選出少量重要信貸信息,繼而聚焦到此類重要信貸信息上執(zhí)行詞向量化,為后續(xù)提高信貸預(yù)測準(zhǔn)確率提供前置基礎(chǔ)[31]。
參閱圖5 關(guān)于Self-Attention Layer的自注意力運算,根據(jù)Bag-of-Words所得到的初級詞向量z1,z2,…,z i,…,z n,以z1為例展開自注意力運算過程,如下式所示:
圖5 Self-Attention Layer的自注意力運算
根據(jù)a1初始化3個矩陣,分別為問題矩陣、鍵值矩陣及搭配矩陣,如下式所示:
需要解釋的是,a1對應(yīng)q1、k1和v1,以此類推,a i對應(yīng)q i、k i和v i。下面以問題矩陣q1為例,分別計算與所有鍵值矩陣k1,k2,…,k i,…,k n的乘積,如下式所示:
根據(jù)前述可知,注意力向量b1是以問題矩陣q1相乘每個鍵值矩陣為基礎(chǔ),通過softmax函數(shù)激活并相乘搭配矩陣求和得到的矩陣向量,以此類推,依次計算得到與q2對應(yīng)的注意力向量b2、與q i對應(yīng)的注意力向量b i,匯總得到信貸詞語集對應(yīng)的注意力向量集b1,b2,…,b i,…,b n。
結(jié)合圖3 可知,Multi-Head Attention 包括多層Self-Attention Layer,每個Self-Attention Layer均生成對應(yīng)的注意力向量集b1,b2,…,b i,…,b n,若Multi-Head Attention具有10層Self-Attention Layer時,則對應(yīng)生成10 組注意力向量集b1,b2,…,b i,…,b n。
進一步,結(jié)合圖2可知,當(dāng)?shù)玫蕉嘟M注意力向量集后,依次將每組注意力向量集與初級詞向量組執(zhí)行殘差連接及歸一化后輸入至前饋神經(jīng)網(wǎng)絡(luò)執(zhí)行映射計算,并將映射值再一次執(zhí)行殘差連接及歸一化操作得到標(biāo)準(zhǔn)詞向量組。最后,本文將經(jīng)過兩次詞向量化所得到的標(biāo)準(zhǔn)向量組執(zhí)行線性激活,進而得到對應(yīng)的信貸評估結(jié)果。
由于本文所使用的Bag-of-Words 及Multi-Head Attention具有計算量大、復(fù)雜度高的特點,難以通過普通程序?qū)崿F(xiàn),故結(jié)合Pytorch深度神經(jīng)網(wǎng)絡(luò)框架執(zhí)行BM-Linear部署,Pytorch 是當(dāng)前最受歡迎的神經(jīng)網(wǎng)絡(luò)實現(xiàn)框架,具有靈活性高、運行速度快、代碼部署簡單清楚等優(yōu)點[32]。
如圖6所示,根據(jù)BM-Linear模型所包括的信貸文本預(yù)處理、文本詞向量化及線性激活3個階段,首先,導(dǎo)入numpy、nltk、gensim 和jieba等文本預(yù)處理包,并從預(yù)處理包中調(diào)用split、cut 和stopswords等函數(shù),依次對信貸文本執(zhí)行切分、分詞、去停用詞等操作,從而完成信貸文本預(yù)處理;其次,BM-Linear核心在于Bag-of-Words及Multi-Head Attention,特別地,Multi-Head Attention計算復(fù)雜度很高。因此,本文結(jié)合Pytorch部署其實現(xiàn)過程。具體地,調(diào)用 Wore2 Vec 包構(gòu)建Bag-of-Words詞向量程序,然后從Hugging Face中下載bert模型的參數(shù)包bert-base-chinese,利用Pytorch在bert-base-chinese后接入多元線性激活函數(shù)并封裝,最后構(gòu)建fine-tune 程序訓(xùn)練得到的BMLinear,從而實現(xiàn)BM-Linear部署。
圖6 BM-Linear的部署邏輯
需要解釋的是,Pytorch不僅具有簡易化實現(xiàn)模型的優(yōu)點,同時也提供便捷的功能實現(xiàn)函數(shù),如 Feedforward Neural Network 函 數(shù)、Skip-Connect函數(shù)及歸一化函數(shù)等,通過封裝這類功能實現(xiàn)函數(shù),可以形成端到端的BM-Linear模型,從而提高信貸評估流暢性,弱化評估中間過程[32]。
綜合而言,BM-Linear 模型一方面由于使用Bag-of-Words機制,可將信貸詞語進行相似度聚類,提高信貸詞向量化準(zhǔn)確率;另一方面,為克服Bag-of-Words因詞袋與信貸詞語的對應(yīng)關(guān)系所帶來的詞向量固化問題,引入Multi-Head Attention實現(xiàn)動態(tài)詞向量,規(guī)避詞向量固化,從而提高詞向量精準(zhǔn)度。
研究發(fā)現(xiàn),影響信貸結(jié)果的特征具有多樣性。姚宇韜等[33]發(fā)現(xiàn),申請人為女性、家庭負(fù)擔(dān)越重、健康狀況越差、受教育水平越低、年收入越高、貸款期越長、實際貸款利率越高,則貸款違約概率越高。因此,為確保模型評估公正性,最大化收集不同信貸特征,下載文獻[34-35]中所使用的Bank Marketing Dataset、LendingClub 以 及Default of Credit Card Clients Dataset共3組信貸數(shù)據(jù)集。其中,Bank Marketing Dataset累計11 162 組、LendingClub累計42 538組、Default of Credit Card Clients Dataset累計30 000組,在執(zhí)行異常缺失特征的清理、填充及維度消散等操作后,Bank Marketing D ataset剩余10 461 組、LendingClub剩余41 761組、Default of Credit Card Clients Dataset剩余28 603組。最后,文本合成每組數(shù)據(jù),得到可用于訓(xùn)練、測試的BM-Datasets (Datasets used to train and test the BM-Linear model)。
由表1 可以看出,BM-Datasets共有3 組數(shù)據(jù)集,分別為Bank Marketing Dataset、LendingClub和Default of Credit Card Clients Dataset,每組數(shù)據(jù)集的信貸特征按照類別均可劃分為基本特征(BF)及財務(wù)特征(PF),但每組數(shù)據(jù)集均有與眾不同的信貸特征,如Bank Marketing Dataset所獨有的參與營銷活動次數(shù)特征、LendingClub獨有的征信局記錄的信用產(chǎn)品數(shù)、公眾不良記錄數(shù)以及Default of Credit Card Clients Dataset的每月賬單金額特征等??梢?不同數(shù)據(jù)集所關(guān)注的信貸特征不盡相同。因此,對于信貸模型BM-Linear而言,不同信貸數(shù)據(jù)集是否會影響B(tài)M-Linear的表現(xiàn),是本文后續(xù)需要研究的內(nèi)容。
表1 BM-Datasets的信貸特征簡介
此外,根據(jù)上述理論構(gòu)建知,BM-Linear的較佳操作對象是連續(xù)性信貸文本,而非表1所示的離散型特征,故將表1中的各信貸特征按照中文語言敘述的規(guī)律進行復(fù)現(xiàn)。
表2所示為部分語言復(fù)現(xiàn)后的文本。例如,信貸文本S1,其對應(yīng)的離散型特征包括老師(職業(yè))、未婚(婚姻情況)、大專畢業(yè)(受教育程度)、市區(qū)一套自住房(住房)、兩次(參與營銷活動次數(shù))以及具有存款(賬戶余額)等。通過關(guān)鍵字合成技術(shù)合成得到“大專畢業(yè)的未婚老師,目前有存款,且市區(qū)一套自住房,曾兩次參與銀行營銷活動”,從而節(jié)約為測試BM-Linear模型而整理信貸文本所花費的時間,提高本文研究效率。
表2 信貸文本部分復(fù)現(xiàn)
由于BM-Datasets數(shù)據(jù)集數(shù)量龐大,累加Bank Marketing Dataset、LendingClub 以 及Default of Credit Card Clients Dataset共計超8萬條,為探究如此龐大數(shù)據(jù)可能產(chǎn)生的信貸現(xiàn)象,首先利用Pandas、matplotlib等數(shù)據(jù)包分析不同信貸特征對信貸結(jié)果的影響。
根據(jù)2005~2011年多個地區(qū)貸款因素對信貸影響的研究發(fā)現(xiàn)[36],年收入支出、貸款者年齡等對信用貸款有重要影響。因此,本文進一步探究不同年齡段所展現(xiàn)的信貸現(xiàn)象。首先使用seaborn、matplotlib.pyplot 及pandas 等 數(shù) 據(jù) 包,從BMDatasets中依次提取每組信貸年齡,并利用直方圖可視化不同年齡段的信貸比例;其次,參考非參數(shù)檢驗方法之一的核密度估計方法[37],擬合上述直方圖得到信貸年齡分布曲線,從而直觀地顯示信貸年齡在信貸中的分布特征(見圖7)。
圖7 核密度估計下信貸年齡趨勢走向
根據(jù)核密度估計,未來使用信貸方式解決資金短缺困境的年齡分布段主要集中在[25,40]歲,且在[25,30]階段信貸比例呈陡峭上升,當(dāng)臨近30歲時,信貸比例達(dá)峰值后呈平緩下滑趨勢。由此可見,[25,30]階段的信貸用戶對資金的渴求度最激烈,結(jié)合社會現(xiàn)象,該年齡段伴隨初入社會對生活質(zhì)量需求度的提升、成家立業(yè)所需經(jīng)濟壓力或維持新婚家庭成本開支等,已成為刺激市場消費的主力軍。因此,在當(dāng)下疫情影響市場經(jīng)濟并驅(qū)動形成國內(nèi)國際雙循環(huán)格局的雙重背景下,政府及信貸機構(gòu)可采取對該年齡段降低信貸評估門檻的方法,達(dá)到快速注入資金至該年齡段的目的,從而加快市場經(jīng)濟復(fù)蘇及雙循環(huán)格局的形成。但是否需要針對該年齡段設(shè)置違約還款督促措施,以防止因信貸門檻降低所帶來的違約比例上升問題? 為探究該問題,從Default of Credit Card Clients Dataset中提取是否逾期的還貸標(biāo)簽,得到逾期還貸數(shù)據(jù)6 636組,準(zhǔn)時還貸數(shù)據(jù)23 364組,逾期與準(zhǔn)時分別占總數(shù)據(jù)集22.1%及77.9%。進一步,利用pandas庫中cut函數(shù),依次計算不同年齡區(qū)間在Default of Credit Card Clients Dataset的逾期與準(zhǔn)時還貸的占比,并通過占比擬合出隨年齡變化的逾期還貸曲線圖(見圖8)。根據(jù)圖8所示,將信貸年齡分為8個區(qū)間并可視化出直方圖(底X軸,左Y軸),總體上,不同年齡段準(zhǔn)時還貸人數(shù)均遠(yuǎn)大于逾期還貸人數(shù),屬信貸可控范圍。另外,結(jié)合圖7可知,年齡段[26,40]歲是目前貸款主力軍,但伴隨年齡的不斷增加,信貸人數(shù)呈規(guī)律下降現(xiàn)象??梢?當(dāng)前經(jīng)濟背景下,信貸的主要服務(wù)人群依然為青中年人群,做好青中年信貸服務(wù)尤其重要。但不可否認(rèn)的是,年齡段影響逾期率,通過逾期擬合曲線發(fā)現(xiàn)(頂X軸右Y軸),雖然年齡段[31,35]的信貸人數(shù)基數(shù)龐大,但信貸違約率最低,信用狀況最優(yōu),而剛成年年齡段[20,25]及年長年齡段[50,80]信貸違約率相對最高??傊?逾期率呈現(xiàn)“倆頭違約高,中間違約低”的sin函數(shù)現(xiàn)象。
圖8 準(zhǔn)時還貸與逾期還貸占比及擬合曲線
因此,對青中年人群降低信貸評估門檻,快速注入資金至該人群,可加快市場經(jīng)濟復(fù)蘇及雙循環(huán)格局的形成,但參照逾期率所表現(xiàn)的“倆頭違約高,中間違約低”的sin函數(shù)現(xiàn)象,剛成年年齡段信貸需求大。但由于該年齡段違約比例高,應(yīng)落實一套針對該年齡段的違約還款督促措施,以防止因信貸門檻降低所帶來的違約比例再次攀高的問題。
此外,本文分析了消費額與付款額的關(guān)聯(lián)分布,并根據(jù)關(guān)聯(lián)分布探究信貸在消費額與付款額之間的承接關(guān)系。利用pandas庫的列索引依次提取每個用戶在不同月的消費賬單及支付額度,并通過matplotlib庫中的scatter函數(shù),以月為單位可視化出消費額與支付額的散點圖,如圖9所示。
參考圖9付款額與消費額的散點關(guān)系,多數(shù)信貸用戶每月付款額均大于實際消費額,且從X、Y軸的坐標(biāo)數(shù)值得出,用戶每月消費額主要集中在[0,400 000]區(qū)間,但付款額集中于[0,50 000]區(qū)間,理應(yīng)做到消費與付款的收支平衡,但實際情況卻是消費額遠(yuǎn)大于付款額,兩者額度數(shù)值比例高達(dá)8∶1。因此,多數(shù)用戶均利用信貸方式填補消費額缺口,出現(xiàn)了在以消費額背景下支付額與信貸額的“1+7”現(xiàn)象。
圖9 各月消費額與付款額的散點分布
通過“1+7”現(xiàn)象折射出當(dāng)下信貸用戶消費需求量大,但滿足自身消費需求能力較弱,需要通過信貸維持收支平衡。因此,從政府協(xié)調(diào)市場的角度而言,在信貸的放款額度上,應(yīng)通過放貸機構(gòu)制定與“1+7”現(xiàn)象相匹配的額度值,防止因信貸額度過少帶來信貸用戶消費缺口太大所導(dǎo)致的市場不穩(wěn)定,或信貸額度過高引發(fā)的市場通貨膨脹等問題。
由于BM-Datasets 包括Bank Marketing Dataset(BM)、LendingClub(LC)以 及Default of Credit Card Clients Dataset(CC)等3種類型的信貸數(shù)據(jù)集,考慮到不同數(shù)據(jù)集所包括的特征種類不同,為多角度探究BM-Linear的信貸表現(xiàn),采用參數(shù)獨立訓(xùn)練和參數(shù)共用訓(xùn)練兩種訓(xùn)練方法探究模型表現(xiàn)。其中,參數(shù)獨立訓(xùn)練是指按照不同類型的數(shù)據(jù)集而構(gòu)建對應(yīng)數(shù)量的BM-Linear,如上述3種類型的信貸數(shù)據(jù)集,則構(gòu)建3 組初始參數(shù)相同的BMLinear模型,每組BM-Linear模型對應(yīng)一種類型數(shù)據(jù)集(簡稱獨立-BM-Linear模型)。以此類推,參數(shù)共用訓(xùn)練即訓(xùn)練階段只采用一組BM-Linear模型(簡稱共用-BM-Linear模型)同時訓(xùn)練3 種類型數(shù)據(jù)集,在訓(xùn)練階段每組數(shù)據(jù)集均共用一組BMLinear的內(nèi)部參數(shù),直至完成訓(xùn)練,得到可在不同數(shù)據(jù)集之間通用的BM-Linear模型參數(shù)。
綜上所述,利用Pytorch框架首先構(gòu)建出4組初始參數(shù)相同的BM-Linear。其中,3組作為獨立-BM-Linear用來執(zhí)行參數(shù)獨立訓(xùn)練,第4組作為共用-BM-Linear用來執(zhí)行參數(shù)共用訓(xùn)練。然后,按照訓(xùn)練集與測試集8∶2的數(shù)量比,依次接收文本化之后的BM、LC及CC執(zhí)行訓(xùn)練,如圖10所示。
由圖10可見,當(dāng)利用BM、LC 及CC 這3組數(shù)據(jù)集依次完成BM-Linear的參數(shù)獨立訓(xùn)練及共用訓(xùn)練后,發(fā)現(xiàn)獨立訓(xùn)練下的BM-Linear評估錯誤率相比于共用訓(xùn)練有較大幅度降低,且錯誤率會因訓(xùn)練集變化伴有波動性,其中在BM 訓(xùn)練場景下模型表現(xiàn)最優(yōu),錯誤率可降低至7%左右。與獨立訓(xùn)練相比,共用訓(xùn)練下的BM-Linear因需同時滿足3組數(shù)據(jù)集的標(biāo)簽要求,導(dǎo)致訓(xùn)練時相鄰散點錯誤率變化大,訓(xùn)練過程具有波動性,最終錯誤率約為16%。
當(dāng)BM-Linear訓(xùn)練完成后,為探究其實際表現(xiàn)構(gòu)建各模型對比實驗。一方面,根據(jù)文獻[38-39]中的研究,引入隨機森林、XGBoost及AdaBoost等模型進行對比實驗;另一方面,為探究詞向量固化是否會造成評估準(zhǔn)確率下降的問題,根據(jù)文獻[7,23]中的研究,組合Word2Vec與線性激活函數(shù)得到Word2Vec-Linear,經(jīng)對比得到如下結(jié)論。
如表3所示,BM-Linear利用信貸文本可直接執(zhí)行信貸預(yù)測,無需通過平均值、眾數(shù)填充等方法處理信貸文本中缺失特征,從而降低人為填充特征的主觀因素干擾,且BM-Linear在對缺失特征不做填充處理的情況下,每組測試準(zhǔn)確率依然領(lǐng)先其他模型??梢?其信貸評估依然優(yōu)異。綜合面言,BMLinear在提高信貸評估準(zhǔn)確率的同時,也弱化缺失特征的處理步驟,可有效提高信貸評估效率,縮減信貸資本回流至個人的時間。
表3 各模型測試表現(xiàn) %
此外,BM-Linear相比于其他模型,可直接進行參數(shù)共用訓(xùn)練,即多組數(shù)據(jù)集共用一組BMLinear模型參數(shù),且參數(shù)共用訓(xùn)練的BM-Linear測試準(zhǔn)確率依然領(lǐng)先多元線性回歸模型,信貸預(yù)警表現(xiàn)較為優(yōu)異。從實際意義而言,當(dāng)僅使用一套模型可完成對不同特征數(shù)據(jù)的信貸預(yù)測時,即解決信貸模型受限于應(yīng)用場景的問題,可有效加快信貸評估效率。例如,居民A 和B 提供至信貸機構(gòu)的信貸特征具有差異性,但利用相同模型即可完成兩個不同特征居民的信貸評估,極大地減少了居民A 或居民B再次收集特征或信貸機構(gòu)重新訓(xùn)練信貸模型的時間,從而進一步提高信貸評估效率、加速資金回流盤活周期,在當(dāng)下打造國內(nèi)外雙循環(huán)背景下具有重要意義。
最后,相比于 Word2Vec-Linear,由于BMLinear添加了多頭注意力機制,解決Word2Vec向量化過程詞袋與信貸詞語的對應(yīng)關(guān)系限制,將靜態(tài)詞向量過渡為動態(tài)詞向量,解決不能根據(jù)全篇文本及一詞多義實現(xiàn)詞向量化過程,從而提高基于信貸文本的信貸預(yù)測準(zhǔn)確率。
合理構(gòu)建及選擇信貸評估模型,可加快個人信用貸放貸效率、縮減放貸評估時間,防止因經(jīng)濟下滑帶來居民生活成本提高及資金周轉(zhuǎn)困頓問題。本文以自然語言處理技術(shù)為基礎(chǔ),通過Pytorch框架組合Bag-of-Words及Bert中的多頭注意力機制,添加多元線性激活函數(shù)構(gòu)建得到信貸評估模型BMLinear,其后引入多組不同類型的信貸數(shù)據(jù)集并結(jié)合其他信貸模型進行實驗驗證。
本文的貢獻體現(xiàn)在:
(1) 弱化模型與訓(xùn)練集的對應(yīng)關(guān)系,解決了應(yīng)用場景受限問題。BM-Linear在實現(xiàn)參數(shù)共用訓(xùn)練下,其預(yù)測準(zhǔn)確率依然高于多元線性回歸,對比XGBoost及AdaBoost等模型僅接收離散信貸特征,導(dǎo)致與訓(xùn)練集具有嚴(yán)格對應(yīng)關(guān)系,無法實現(xiàn)參數(shù)共用訓(xùn)練而言,BM-Linear在保證預(yù)測精度的同時,擴大了信貸模型的應(yīng)用場景,極大地減少了因反復(fù)訓(xùn)練模型所帶來的資源消耗問題,從而提高信貸評估效率。
(2) 忽略缺失特征并將離散特征轉(zhuǎn)為信貸文本,解決了預(yù)處理繁瑣問題,提高了信貸評估效率。BM-Linear在不處理缺失特征的情況下,可利用信貸文本執(zhí)行評估,且評估準(zhǔn)確率依然領(lǐng)先其他多數(shù)模型。與按照特征補齊、定量、歸一化、降維及預(yù)測的傳統(tǒng)信貸評估流程相比,BM-Linear在保證信貸評估準(zhǔn)確率的前提下,進一步提高信貸評估效率、縮減信貸資本回流至個人的時間周期。
(3) 利用多頭注意力機制解決詞向量固化問題,提高了信貸評估準(zhǔn)確率。BM-Linear 引入Multi-Head Attention,克服因詞袋與信貸詞語的對應(yīng)關(guān)系所帶來的詞向量固化,導(dǎo)致難以理解一詞多義及整體信貸文本的問題。與僅利用靜態(tài)詞向量如Word2Vec構(gòu)建的Word2Vec-Linear等相比,BMLinear實現(xiàn)了動態(tài)詞向量,提高了詞向量化精準(zhǔn)度,進而評估準(zhǔn)確率相比靜態(tài)信貸模型大幅提高。
本文提出一種信貸評估新模型BM-Linear,可提高信貸場景應(yīng)用范圍,并簡化離散及缺失特征處理步驟,達(dá)到降低信貸評估操作成本的目的。另外,BM-Linear將靜態(tài)詞向量轉(zhuǎn)為動態(tài)詞向量,進一步提高評估準(zhǔn)確率。綜上所述,本文可為放貸機構(gòu)及政府多提供一種信貸評估可選模型。