李淑錦,潘雨虹
(杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院,浙江 杭州 310018)
科技信息媒介與金融業(yè)務(wù)的融合創(chuàng)新產(chǎn)生了典型P2P網(wǎng)絡(luò)融資模式。作為一種跨時(shí)間、跨空間的資金借貸新模式,在當(dāng)前的金融體系下,P2P網(wǎng)絡(luò)借貸的出現(xiàn)有效地解決了不同地區(qū)市場(chǎng)投資者對(duì)收益和風(fēng)險(xiǎn)的不同偏好,以及市場(chǎng)中長(zhǎng)尾人群對(duì)融資的規(guī)?;枨?。
改革開(kāi)放以來(lái),中小企業(yè)已成為中國(guó)經(jīng)濟(jì)的重要力量,其能否良好發(fā)展對(duì)中國(guó)經(jīng)濟(jì)的未來(lái)發(fā)展起著至關(guān)重要的作用。目前,全國(guó)中小企業(yè)總數(shù)已超過(guò)4 300萬(wàn)家,企業(yè)之間的競(jìng)爭(zhēng)日趨激烈。在這場(chǎng)激烈的競(jìng)爭(zhēng)中,解決中小企業(yè)融資難問(wèn)題已經(jīng)迫在眉睫?;ヂ?lián)網(wǎng)背景下的P2P網(wǎng)絡(luò)借貸一度被認(rèn)為是解決中小企業(yè)融資難問(wèn)題的有效途徑,但如何有效識(shí)別P2P網(wǎng)絡(luò)借貸平臺(tái)上中小企業(yè)借款者的信用風(fēng)險(xiǎn)是科學(xué)管控與預(yù)防金融領(lǐng)域系統(tǒng)性風(fēng)險(xiǎn)的關(guān)鍵,也是促進(jìn)金融生態(tài)系統(tǒng)可持續(xù)穩(wěn)定發(fā)展的重要環(huán)節(jié)。
P2P作為第三方的借貸平臺(tái),一直備受學(xué)者們的關(guān)注。一部分學(xué)者研究了P2P網(wǎng)絡(luò)借貸的發(fā)展歷程和經(jīng)營(yíng)模式等。Galloway(2009)[1]就占據(jù)市場(chǎng)主要份額的Prosper借貸平臺(tái)的主要經(jīng)營(yíng)模式進(jìn)行了細(xì)致的討論,特別強(qiáng)調(diào)了借貸雙方通過(guò)信用憑證直接關(guān)聯(lián)的經(jīng)營(yíng)模式,這種模式使平臺(tái)負(fù)有對(duì)違約方欠債的追償責(zé)任。劉文雅和晏鋼(2011)[2]則從P2P的起源和網(wǎng)上信貸的具體運(yùn)作方式入手,分析了我國(guó)網(wǎng)上借貸的模式,并對(duì)我國(guó)P2P網(wǎng)貸的發(fā)展予以展望。彭龍和閆琳(2018)[3]對(duì)比分析了我國(guó)P2P網(wǎng)貸與美國(guó)P2P網(wǎng)貸的發(fā)展?fàn)顩r,指出我國(guó)的P2P平臺(tái)在運(yùn)營(yíng)理念、產(chǎn)品類(lèi)型和風(fēng)控模式等方面均與美國(guó)存在較大差異,而這些差異是為了適應(yīng)我國(guó)的市場(chǎng)環(huán)境造成的。
另有一些學(xué)者對(duì)個(gè)人及其企業(yè)借款者的信用風(fēng)險(xiǎn)評(píng)估問(wèn)題進(jìn)行了研究。Ha(2010)[4]構(gòu)建了結(jié)合Kohonen網(wǎng)絡(luò)和Cox的比例風(fēng)險(xiǎn)的混合動(dòng)態(tài)模型,研究結(jié)果表明該模型的預(yù)測(cè)準(zhǔn)確度得分高于93%。Blanco等(2013)[5]采用來(lái)自秘魯小額信貸機(jī)構(gòu)的借款者的樣本,基于多層感知器方法(MLP)構(gòu)建了幾個(gè)非參數(shù)信用評(píng)分模型,與其他采用傳統(tǒng)線性判別分析(LDA)、二次判別分析(QDA)和邏輯回歸(LR)的模型進(jìn)行了比較,結(jié)果顯示神經(jīng)網(wǎng)絡(luò)模型錯(cuò)誤分類(lèi)成本方面均優(yōu)于其他三種經(jīng)典技術(shù)。還有一些學(xué)者們研究了P2P網(wǎng)絡(luò)借貸平臺(tái)上借款者的信用風(fēng)險(xiǎn)評(píng)估問(wèn)題,如Allen等(2007)[6]實(shí)證發(fā)現(xiàn)P2P借貸平臺(tái)上小額貸款的風(fēng)險(xiǎn)會(huì)受到借款人的年齡、家庭凈資產(chǎn)、性別等的影響。國(guó)內(nèi)學(xué)者宋麗平等(2015)[7]認(rèn)為個(gè)人借款人的歷史表現(xiàn)、客觀條件和還款能力將對(duì)P2P網(wǎng)貸的個(gè)人借款人的信用風(fēng)險(xiǎn)產(chǎn)生重要影響。劉紅娟(2017)[8]從五方面構(gòu)造了P2P供應(yīng)鏈模式下的中小企業(yè)的信用評(píng)估指標(biāo)體系,用BP神經(jīng)網(wǎng)絡(luò)與Logistics方法對(duì)其信用風(fēng)險(xiǎn)進(jìn)行評(píng)估,結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力高于Logistics回歸。
還有部分學(xué)者將多層感知器與徑向基函數(shù)應(yīng)用于企業(yè)信用風(fēng)險(xiǎn)的評(píng)估問(wèn)題。如龐素琳和王燕鳴(2003)[9]利用公司經(jīng)營(yíng)狀況的四個(gè)主要財(cái)務(wù)指標(biāo),通過(guò)多層感知器對(duì)96家上市公司進(jìn)行分類(lèi),準(zhǔn)確率達(dá)到79.17%。高國(guó)平和劉樹(shù)安(2007)[10]通過(guò)綜合分析國(guó)內(nèi)外企業(yè)信用評(píng)分指標(biāo)體系,建立了基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的信用評(píng)分模型,利用遼寧華誠(chéng)信用評(píng)級(jí)有限公司的相關(guān)數(shù)據(jù)分別進(jìn)行判別和分析,得到了令人滿(mǎn)意的評(píng)價(jià)結(jié)果。在眾多研究成果中,尚未發(fā)現(xiàn)有學(xué)者把這兩種方法應(yīng)用于P2P借貸平臺(tái)上的中小企業(yè)借款者的信用風(fēng)險(xiǎn)評(píng)估。
綜上所述,神經(jīng)網(wǎng)絡(luò)技術(shù)在信用風(fēng)險(xiǎn)評(píng)估中具有很好的預(yù)測(cè)精度。文章試圖將多層感知器與徑向基函數(shù)這兩種神經(jīng)網(wǎng)絡(luò)方法用于P2P借貸平臺(tái)上的中小企業(yè)的信用風(fēng)險(xiǎn)評(píng)估中,且對(duì)兩種方法的評(píng)估結(jié)果進(jìn)行對(duì)比分析,突出其在中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)的能力。在大數(shù)據(jù)的背景下,通過(guò)企業(yè)信用風(fēng)險(xiǎn)評(píng)估理論建立中小企業(yè)的信用風(fēng)險(xiǎn)評(píng)估指標(biāo),并擬使用Python技術(shù)獲取P2P借貸平臺(tái)的中小企業(yè)借款者的數(shù)據(jù),克服在中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估中缺乏數(shù)據(jù)的缺點(diǎn),解決中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估問(wèn)題。
文章的創(chuàng)新點(diǎn)之一是建立中小企業(yè)評(píng)估指標(biāo)體系時(shí)考慮了行業(yè)的違約率;創(chuàng)新點(diǎn)之二是利用多重填補(bǔ)方法模擬出符合樣本的數(shù)據(jù)并與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,使得結(jié)果可行性提高;創(chuàng)新點(diǎn)之三是將多層感知器與徑向基函數(shù)進(jìn)行結(jié)果對(duì)比分析,選擇更適合中小企業(yè)信用評(píng)估的方法。
企業(yè)信用風(fēng)險(xiǎn)評(píng)估問(wèn)題一直是信用風(fēng)險(xiǎn)管理的熱點(diǎn)。迄今為止,已有不少學(xué)者從理論、實(shí)證方法的角度對(duì)企業(yè)的信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。
信用風(fēng)險(xiǎn)理論模型可以分為基于期權(quán)理論的結(jié)構(gòu)模型和基于違約強(qiáng)度的約化模型。Merton基于Black和Scholes建立的期權(quán)定價(jià)理論,提出了結(jié)構(gòu)化模型。該模型將持有負(fù)債的企業(yè)看作債權(quán)人持有的證券,其股東則持有以該證券為標(biāo)的看漲期權(quán)。當(dāng)企業(yè)的價(jià)值高于其債權(quán)時(shí),股東會(huì)選擇行權(quán)以繼續(xù)持有公司股份,反之則是公司破產(chǎn)并歸屬于債權(quán)人。與結(jié)構(gòu)化模型不同,約化模型是基于市場(chǎng)易于獲得的信息來(lái)進(jìn)行研究。該模型是Jarrow和Turnbull提出,經(jīng)過(guò)Jarrow、Lando等諸多學(xué)者的不斷完善。該模型將違約過(guò)程看作跳的過(guò)程,將違約時(shí)間選擇在某個(gè)跳過(guò)程的首次跳時(shí)刻,而這種跳躍是不可預(yù)測(cè)的,即違約是一個(gè)不可預(yù)料的過(guò)程。
在結(jié)構(gòu)化模型的應(yīng)用中,眾多學(xué)者采用相關(guān)公司的股票數(shù)據(jù)來(lái)代表公司的總價(jià)值;在約化模型的應(yīng)用中,許多學(xué)者利用市場(chǎng)中的信用違約互換(CDS)和債券價(jià)格計(jì)算公司的違約概率。但由于在P2P平臺(tái)上收集的中小企業(yè)大部分均無(wú)上市股票,也未發(fā)行債券,因而結(jié)構(gòu)化模型與約化模型均無(wú)法直接應(yīng)用于中小企業(yè)的信用風(fēng)險(xiǎn)評(píng)估中。故文章選取影響公司股票價(jià)值以及債券價(jià)格的相關(guān)指標(biāo),并參考學(xué)者Allen等的研究,選擇企業(yè)所有者的特征指標(biāo)如年齡、性別、學(xué)歷、孩子個(gè)數(shù)、婚姻狀況、房屋數(shù)量、汽車(chē)數(shù)量;中小企業(yè)經(jīng)營(yíng)狀況的相關(guān)微觀指標(biāo)包括規(guī)模、投資者數(shù)目、營(yíng)業(yè)收入;融資信貸指標(biāo)包括借款金額、借款利率、借款目的、借款等級(jí)、其他貸款平臺(tái)數(shù)量、其他平臺(tái)借款、在點(diǎn)融網(wǎng)上的拖欠金額共17個(gè)微觀指標(biāo)以及居民消費(fèi)指數(shù)CPI、國(guó)內(nèi)生產(chǎn)總值GDP、狹義貨幣供應(yīng)M1、財(cái)政支出、經(jīng)濟(jì)景氣指數(shù)ECI、消費(fèi)者信心指數(shù)CCI、失業(yè)率指數(shù)URI、采購(gòu)經(jīng)理指數(shù)PMI、國(guó)房景氣指數(shù)CERCI和行業(yè)狀況共10個(gè)宏觀經(jīng)濟(jì)指標(biāo)建立中小企業(yè)的信用風(fēng)險(xiǎn)評(píng)估指標(biāo)體系。
企業(yè)所有者對(duì)企業(yè)的日常經(jīng)營(yíng)決策起著至關(guān)重要的作用,在不同的年齡階段,其所傾向的決策也會(huì)不同,而決策會(huì)隨著年齡的增長(zhǎng)從激進(jìn)型向穩(wěn)健型轉(zhuǎn)變,從而影響企業(yè)的發(fā)展;性別的不同、教育程度以及婚姻狀況使得企業(yè)所有者在決策的偏好以及日常處理事情的方法上會(huì)呈現(xiàn)差異,從而影響企業(yè)發(fā)展;作為孩子的父親或母親,都希望給孩子提供好的生活條件,基于這個(gè)目的會(huì)使得企業(yè)所有者更用心、盡力地謀劃,從而有利于企業(yè)的發(fā)展;而房屋數(shù)量與汽車(chē)數(shù)量作為反映企業(yè)所有者自身?yè)碛械呢?cái)產(chǎn)的指標(biāo),間接反映了企業(yè)的盈利能力。
企業(yè)的規(guī)模是反映企業(yè)業(yè)務(wù)成熟能力的一個(gè)指標(biāo),規(guī)模越小,其業(yè)務(wù)涉及的資金量也會(huì)越少,企業(yè)還款的困難度較高;投資者數(shù)目反映了外界投資者對(duì)企業(yè)未來(lái)發(fā)展的一個(gè)預(yù)測(cè),數(shù)目越多表明該企業(yè)未來(lái)發(fā)展前景較好;企業(yè)的營(yíng)業(yè)收入越高,企業(yè)違約的可能性便會(huì)越??;由于借款期限大多為12個(gè)月并且需要每月還款,當(dāng)借款金額越高,所對(duì)應(yīng)的借款利率也越高時(shí),借款企業(yè)所承擔(dān)的每月還款金額就越高,那么企業(yè)違約的可能性越大;借款的用處決定了資金的回收期的長(zhǎng)短,將資金用于回收期長(zhǎng)的項(xiàng)目時(shí),前期資金鏈斷裂的可能性增加,從而導(dǎo)致違約的發(fā)生。點(diǎn)融網(wǎng)根據(jù)中小企業(yè)借款者的資料,按照標(biāo)準(zhǔn)將借款者劃分信用等級(jí),等級(jí)高的借款者違約可能性較小,等級(jí)低的借款者違約可能性較大;其他貸款平臺(tái)數(shù)量與其他平臺(tái)借款均反映借款者的負(fù)債情況,借款者的負(fù)債越多,違約發(fā)生的可能性越大;在點(diǎn)融網(wǎng)上的拖欠金額越大,則表明借款企業(yè)對(duì)當(dāng)時(shí)資金的缺乏程度越高,違約的可能性越大。
宏觀經(jīng)濟(jì)狀況也會(huì)影響中小企業(yè)的還款能力,如居民消費(fèi)指數(shù)(CPI)通過(guò)反映消費(fèi)者的消費(fèi)能力,可以從側(cè)面反映出市場(chǎng)需求情況。當(dāng)需求較高時(shí),企業(yè)的供給增加,營(yíng)業(yè)收入也會(huì)相應(yīng)的增加;國(guó)內(nèi)生產(chǎn)總值(GDP)通常被視為衡量國(guó)家(或地區(qū))經(jīng)濟(jì)狀況的指標(biāo),該指標(biāo)越高,反映出經(jīng)濟(jì)形勢(shì)較好,違約率便會(huì)較低;作為反映貨幣供給的指標(biāo)M1,其對(duì)經(jīng)濟(jì)的影響是雙面性的,一方面貨幣供給的增加會(huì)導(dǎo)致利率水平的上升,使得借款者的還款金額相對(duì)變少,但另一方面高利率會(huì)使得物價(jià)水平的上升從而導(dǎo)致企業(yè)還款能力減弱;財(cái)政支出指標(biāo)高顯示政府對(duì)企業(yè)的業(yè)務(wù)支持會(huì)使得企業(yè)發(fā)展更加順利,更利于企業(yè)還款;經(jīng)濟(jì)景氣指數(shù)(ECI)是反映企業(yè)的生產(chǎn)經(jīng)營(yíng)以及經(jīng)濟(jì)運(yùn)行狀況,并預(yù)測(cè)未來(lái)經(jīng)濟(jì)的發(fā)展變化趨勢(shì)的一個(gè)指標(biāo),與企業(yè)的經(jīng)營(yíng)發(fā)展相關(guān);消費(fèi)者信心指數(shù)(CCI)是反映消費(fèi)者對(duì)當(dāng)前經(jīng)濟(jì)形勢(shì)評(píng)價(jià)和對(duì)經(jīng)濟(jì)前景、收入水平、收入預(yù)期以及消費(fèi)心理狀態(tài)的主觀感受,與消費(fèi)者未來(lái)的消費(fèi)心理相關(guān);失業(yè)率指數(shù)(URI)旨在衡量閑置的勞動(dòng)產(chǎn)能,失業(yè)率越高,表明閑置勞動(dòng)產(chǎn)能越高,經(jīng)濟(jì)形勢(shì)較差,企業(yè)違約可能性較高;采購(gòu)經(jīng)理指數(shù)(PMI)反映了商業(yè)活動(dòng)的現(xiàn)實(shí)情況,以及眾多企業(yè)的相關(guān)經(jīng)營(yíng)情況,與企業(yè)是否違約相關(guān);國(guó)房景氣指數(shù)(CERCI)與企業(yè)所有者的資產(chǎn)以及企業(yè)擁有的固定資產(chǎn)相關(guān);由于每個(gè)企業(yè)所處的行業(yè)不同,而在不同的行業(yè)中企業(yè)的生產(chǎn)模式、經(jīng)營(yíng)模式亦不同,資金周轉(zhuǎn)期也不同,故文章選擇行業(yè)狀況作為影響其信用風(fēng)險(xiǎn)的宏觀指標(biāo)考慮。
文章使用預(yù)測(cè)能力較強(qiáng)的神經(jīng)網(wǎng)絡(luò)方法對(duì)中小企業(yè)的信用風(fēng)險(xiǎn)進(jìn)行評(píng)估,可由于涉及的評(píng)估指標(biāo)較多,意味著輸入層的神經(jīng)元節(jié)點(diǎn)太多,會(huì)極大地影響輸出效率,而且指標(biāo)之間也存在一定的關(guān)聯(lián)性,故文章通過(guò)主成分因子分析提取公因子,實(shí)現(xiàn)指標(biāo)分類(lèi)降維的目的。在處理樣本數(shù)據(jù)時(shí)發(fā)現(xiàn)存在部分信用指標(biāo)數(shù)據(jù)缺失的現(xiàn)象,故需要對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)處理。特別是缺失連續(xù)型變量,文章采用MCMC多重填補(bǔ)法。為了解決樣本中違約樣本與非違約樣本占比不平衡的問(wèn)題,采用SMOTE算法平衡數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)技術(shù)的運(yùn)算過(guò)程分為學(xué)習(xí)和工作兩個(gè)階段。在學(xué)習(xí)階段,基于輸入層的訓(xùn)練集數(shù)據(jù),該算法會(huì)輸出相關(guān)預(yù)期目標(biāo),并在獲得具有最佳網(wǎng)絡(luò)參數(shù)的模型后,模型可進(jìn)入工作階段。在工作階段,將測(cè)試集的樣本數(shù)據(jù)作為變量輸入,基于神經(jīng)網(wǎng)絡(luò)模型在學(xué)習(xí)階段所運(yùn)行得到的參數(shù)以及該模型的運(yùn)行規(guī)則,可以獲得最終預(yù)測(cè)結(jié)果。神經(jīng)網(wǎng)絡(luò)技術(shù)是近年來(lái)的熱點(diǎn)研究領(lǐng)域,其基本模型是多層感知器與徑向基函數(shù)。
1.多層感知器。多層感知器包含1個(gè)輸入層、1個(gè)或多個(gè)隱含層以及1個(gè)輸出層,每一層都有若干個(gè)神經(jīng)元節(jié)點(diǎn)。圖1所示的是包含2個(gè)隱藏層的多層感知器模型。
圖1 多層感知器結(jié)構(gòu)
圖2 徑向基函數(shù)結(jié)構(gòu)
多層感知器與徑向基函數(shù)雖然均是前饋神經(jīng)網(wǎng)絡(luò),但也存在不同,比如徑向基函數(shù)只有1個(gè)隱含層,而多層感知器的隱含層可以是一層或者多層;多層感知器的隱含層和輸出層具有相同的神經(jīng)元模型,而徑向基函數(shù)的隱含層神經(jīng)元和輸出層神經(jīng)元不僅模型不同,而且在網(wǎng)絡(luò)中起到的作用也不一樣;徑向基函數(shù)的隱含層是非線性的,輸出層是線性的。然而,當(dāng)用多層感知器解決模式分類(lèi)問(wèn)題時(shí),它的隱含層和輸出層通常選為非線性的;當(dāng)用多層感知器解決非線性回歸問(wèn)題時(shí),通常選擇線性輸出層。
基于此,文章將圍繞這兩種方法對(duì)點(diǎn)融網(wǎng)上的中小企業(yè)借款者的信用風(fēng)險(xiǎn)進(jìn)行評(píng)估,通過(guò)對(duì)結(jié)果的對(duì)比分析,判斷這兩種方法在信用風(fēng)險(xiǎn)評(píng)估中的預(yù)測(cè)精度的強(qiáng)弱。
因子分析最早由英國(guó)心理學(xué)家C.E.斯皮爾曼提出,其基本目的是用少數(shù)因子來(lái)描述許多指標(biāo)或因素之間的關(guān)系。因子分析涉及多種方法,如主成分因子分析、聚類(lèi)分析、判別分析等。文章使用主成分因子分析方法。其計(jì)算步驟如下:
第一步,規(guī)范原始數(shù)據(jù)以消除變量之間數(shù)量級(jí)和量綱上的差異;
第二步,求出標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣,并基于該相關(guān)矩陣,求出對(duì)應(yīng)的特征值和特征向量;
第三步,計(jì)算方差貢獻(xiàn)率和累積方差貢獻(xiàn)率;
第四步,確定因子。設(shè) F1,F(xiàn)2,…,F(xiàn)p為 p 個(gè)因子,當(dāng)其中前m個(gè)因子對(duì)數(shù)據(jù)信息量的累積貢獻(xiàn)率不小于80%時(shí),可以采用前m個(gè)因子來(lái)反映原始評(píng)價(jià)指標(biāo),若無(wú)法確定或意義不明顯,則需要旋轉(zhuǎn)因子以獲得較為明顯的實(shí)際含義;
第五步,采用Thomson估計(jì),回歸估計(jì)或Bartlett估計(jì)方法計(jì)算因子得分;
第六步,根據(jù)公式(1),以各因子的方差貢獻(xiàn)率為權(quán),通過(guò)各因子的線性組合得到綜合評(píng)價(jià)指標(biāo)函數(shù),并對(duì)綜合評(píng)分進(jìn)行排序,得到評(píng)分名次。
其中,wj為旋轉(zhuǎn)后因子的方差貢獻(xiàn)率。
多重填補(bǔ)是由Rubin在1978年首先提出的。多重填補(bǔ)法的具體方法較多,如針對(duì)連續(xù)型變量的預(yù)測(cè)均數(shù)匹配法、趨勢(shì)得分法、馬爾科夫鏈蒙塔卡羅(MCMC)方法等??紤]到文章樣本的特殊性,采用MCMC方法,其具體操作步驟可分成兩步:
第二步,后驗(yàn)。在每個(gè)周期中,從先前填補(bǔ)中得到的均值向量μ和協(xié)方差矩陣ε表示后驗(yàn)主體的對(duì)應(yīng)值以模擬參數(shù)。循環(huán)填補(bǔ)和后驗(yàn)這兩個(gè)步驟,可以生成足夠長(zhǎng)的馬爾可夫鏈。當(dāng)馬爾可夫鏈集中在一個(gè)穩(wěn)定分布時(shí),就可以近似地從該獨(dú)立分布中提出相應(yīng)值進(jìn)行填補(bǔ)。
2002年Chawla提出了SMOTE算法,該算法的基本思想是對(duì)少數(shù)類(lèi)別樣本進(jìn)行分析和模擬,并將新的人工模擬樣本添加到數(shù)據(jù)集中,以避免原始數(shù)據(jù)中的類(lèi)別嚴(yán)重失衡,其模擬過(guò)程采用KNN技術(shù),模擬新樣本生成的步驟如下:
第一步,采樣最鄰近算法,計(jì)算出每個(gè)少數(shù)類(lèi)樣本的K個(gè)近鄰;
第二步,從K個(gè)近鄰中隨機(jī)挑選N個(gè)樣本進(jìn)行隨機(jī)線性插值;
第三步,構(gòu)造新的少數(shù)類(lèi)樣本,并將新樣本與原數(shù)據(jù)合成,產(chǎn)生新的訓(xùn)練集。
文章的中小企業(yè)微觀數(shù)據(jù)來(lái)源于P2P網(wǎng)絡(luò)借貸平臺(tái)——點(diǎn)融網(wǎng)。運(yùn)用Python技術(shù)從點(diǎn)融網(wǎng)上獲得1 392組數(shù)據(jù),刪除缺失起始時(shí)間的樣本數(shù)據(jù)后,剩余1 385組數(shù)據(jù)作為樣本。根據(jù)2004年6月巴塞爾銀行監(jiān)管委員會(huì)發(fā)布的《統(tǒng)一資本計(jì)量和資本標(biāo)準(zhǔn)的國(guó)際協(xié)議:修訂框架》中對(duì)違約的定義:債務(wù)人對(duì)于銀行集團(tuán)的實(shí)質(zhì)性信貸債務(wù)逾期90天以上即為違約。得出在1 385組樣本中,違約樣本為154個(gè),非違約樣本為1 231個(gè),違約率為11.12%。這些樣本涉及的行業(yè)較為廣泛,其中餐飲業(yè)、零售業(yè)與服務(wù)業(yè)占比較大。樣本的借款時(shí)間從2015年7月至2017年8月,大部分以12個(gè)月為借款期限,少部分則是貸款6個(gè)月、18個(gè)月。而在這些貸款中,每月歸還貸款的借款企業(yè)占多數(shù),只有個(gè)別貸款企業(yè)選擇以雙周還貸的形式。為了保證訓(xùn)練集和測(cè)試集的違約率與總樣本一致,隨機(jī)選擇120個(gè)違約樣本和965個(gè)非違約樣本構(gòu)成訓(xùn)練集,34個(gè)違約樣本和266個(gè)非違約樣本構(gòu)成測(cè)試集。文章的宏觀經(jīng)濟(jì)數(shù)據(jù)來(lái)自于國(guó)泰安數(shù)據(jù)庫(kù),行業(yè)指標(biāo)數(shù)據(jù)來(lái)自工商銀行、建設(shè)銀行與農(nóng)業(yè)銀行的半年度報(bào)表數(shù)據(jù)匯總(中國(guó)銀行未披露相關(guān)數(shù)據(jù))。
由于指標(biāo)數(shù)據(jù)的缺失率過(guò)高對(duì)違約預(yù)測(cè)會(huì)產(chǎn)生不利的影響,文章首先刪除缺失率大于50%的指標(biāo),即刪除“孩子個(gè)數(shù)”這個(gè)微觀指標(biāo),將剩余指標(biāo)賦值。文章用Y表示樣本是否違約,當(dāng)Y為1時(shí)表示樣本違約,Y為0則表示樣本未違約。其他的微觀指標(biāo)參照銀行業(yè)信用風(fēng)險(xiǎn)評(píng)估指標(biāo)的量化標(biāo)準(zhǔn)賦值。性別上,女性賦值為0,男性賦值為1;婚姻狀況中,未婚賦值為1,已婚賦值為2,離異賦值為3;學(xué)歷上,博士賦值為1,碩士賦值為2,大專(zhuān)、本科賦值為3,高中賦值為4,初中及以下賦值為5;公司規(guī)模在1 000人以上賦值為1,500~1 000人賦值為2,300~500 人賦值為 3,200~300人賦值為4,100~200 人賦值為 5,50~100 人賦值為 6,10~50 人賦值為 7,0~10人賦值為 8;營(yíng)業(yè)收入中,50 000元以上賦值為1,10 000元~50 000元賦值為2,5 000元~10 000元賦值為 3,1 000元 ~5 000元賦值為4,0~1 000元賦值為5;借款目的,按用途的違約率從高到低進(jìn)行賦值。用于流動(dòng)資產(chǎn)違約率最高(27.13%),賦值為5,其次是用于業(yè)務(wù)周轉(zhuǎn)的14.29%的違約率,賦值為4,違約率為10.20%的固定資產(chǎn)用途賦值3,違約率為5.13%的擴(kuò)大經(jīng)營(yíng)賦值為2,違約率最低的其他用途賦值1。點(diǎn)融網(wǎng)為企業(yè)的信用評(píng)級(jí)按A級(jí)為1,B級(jí)為2,C級(jí)為3,D級(jí)為4進(jìn)行賦值。
對(duì)于宏觀指標(biāo)均為連續(xù)型變量,CPI、GDP、M1、財(cái)政支出、ECI、CCI、PMI 以及 CERCI均是月度數(shù)據(jù)。由于只能搜集到季度失業(yè)率數(shù)據(jù),且該指標(biāo)并未像GDP是一個(gè)累計(jì)型指標(biāo),且失業(yè)率的波動(dòng)幅度不大,故直接取其平均值作為月度數(shù)據(jù);行業(yè)狀況是將三個(gè)銀行的半年報(bào)數(shù)據(jù)匯總后,按其違約率從低到高進(jìn)行排序,違約率最低的行業(yè)賦值為1,稍高的賦值為2,以此類(lèi)推。
對(duì)于離散型變量,如婚姻狀況、性別等變量,數(shù)據(jù)缺失值較少,采用眾數(shù)填補(bǔ)法用以修復(fù);對(duì)于連續(xù)型變量,運(yùn)用SAS軟件,將連續(xù)型指標(biāo)導(dǎo)入后,分別利用MCMC算法運(yùn)行1次、5次和10次后比較連續(xù)型變量的均值和標(biāo)準(zhǔn)差,所得結(jié)果如表1所示。通過(guò)比較后發(fā)現(xiàn)填充10次后的樣本標(biāo)準(zhǔn)差較填充1次、5次的樣本小,填充效果較好,故選多重MCMC填充10后的樣本填補(bǔ),得到完整數(shù)據(jù)。
表1 MCMC算法在不同運(yùn)行次數(shù)下的填補(bǔ)結(jié)果
將填充后完整的數(shù)據(jù)樣本分為訓(xùn)練集與測(cè)試集。其中,訓(xùn)練集中有120個(gè)違約樣本和965個(gè)非違約樣本構(gòu)成,違約率僅為11.06%,樣本具有不均衡的特點(diǎn)。由于樣本涉及的數(shù)據(jù)量并不是很大,不能采用欠抽樣方法。文章采取過(guò)采樣中的SMOTE算法,在原有數(shù)據(jù)的基礎(chǔ)上產(chǎn)生新的數(shù)據(jù)。樣本均衡前后違約樣本的數(shù)目達(dá)到965,使得違約樣本數(shù)與未違約樣本數(shù)的比例為1∶1,訓(xùn)練集成為均衡樣本。
目前刪除部分缺失數(shù)據(jù)的指標(biāo)后還剩下26個(gè)指標(biāo)。但由于每個(gè)指標(biāo)重要性不同,提取比率均不相同,對(duì)于重要性較低的指標(biāo)則予以刪除。其中學(xué)歷、其他平臺(tái)借款以及月收入提取比率過(guò)低,故將該兩項(xiàng)指標(biāo)剔除,將剩余23個(gè)指標(biāo)進(jìn)行因子分析。為了考察樣本數(shù)據(jù)是否適合做因子分析,需要先做一個(gè)KMO和Bartlett的球形度檢驗(yàn),具體結(jié)果如表2所示。
表2 KMO和Bartlett檢驗(yàn)結(jié)果
從表 2可知,KMO值為 0.706,大于0.6;且Bartlett的球形度檢驗(yàn)的顯著性為0.000,小于0.05,所以這23個(gè)指標(biāo)適合做主成分因子分析。
文章將主成分分析方法提取出來(lái)的因子用Kaiser標(biāo)準(zhǔn)化最大方差法旋轉(zhuǎn),在10次迭代后樣本收斂。查看旋轉(zhuǎn)后的成分矩陣,可知每個(gè)因子中比重較大的指標(biāo),相關(guān)結(jié)果如表3所示。
表3 旋轉(zhuǎn)后的成分矩陣
從表3可知,因子1、因子2與因子6其主要的顯著成分均是宏觀指標(biāo),剩余因子的主要顯著性成分為微觀指標(biāo),所以第一個(gè)因子由CERCI、M1、GDP和CCI構(gòu)成,稱(chēng)為經(jīng)濟(jì)基本面因子;第二個(gè)因子由URI、PMI和ECI組成,稱(chēng)為經(jīng)濟(jì)景氣因子;第六個(gè)因子則為財(cái)政支出因子;而其他剩余的6個(gè)因子為微觀因子,分別稱(chēng)其為借款特征因子、借款情況因子、相關(guān)資產(chǎn)因子、信用等級(jí)因子、企業(yè)狀況因子和個(gè)人特征因子。
通過(guò)主成分因子分析的訓(xùn)練集樣本可以得到每個(gè)因子對(duì)應(yīng)值,而對(duì)于測(cè)試集樣本,則應(yīng)將表4中的成分得分系數(shù)矩陣與標(biāo)準(zhǔn)化的測(cè)試集數(shù)據(jù)按照公式(2)對(duì)應(yīng)計(jì)算出每個(gè)因子對(duì)應(yīng)值。
表4 成分得分系數(shù)矩陣
其中,i為每個(gè)因子編號(hào)數(shù),i=1,2,3,…,9;Fi表示因子得分,xj表示每個(gè)樣本對(duì)應(yīng)指標(biāo)的標(biāo)準(zhǔn)化值,aij表示為對(duì)應(yīng)指標(biāo)的系數(shù)值。
文章總共有2 230個(gè)樣本進(jìn)行實(shí)證,其中1 930組數(shù)據(jù)作為訓(xùn)練集得出神經(jīng)網(wǎng)絡(luò)模型,剩余300組數(shù)據(jù)作為測(cè)試集驗(yàn)證神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的精確度。多層感知器和徑向基函數(shù)模型的輸入層節(jié)點(diǎn)數(shù)由主成分因子分析得到的9個(gè)因子構(gòu)成,即輸入層有9個(gè)神經(jīng)元,輸出層節(jié)點(diǎn)數(shù)設(shè)定為1個(gè)。假設(shè)輸出值接近于0時(shí),為非違約企業(yè);輸出值接近于1時(shí),為違約企業(yè)。在SPSS軟件中輸入相關(guān)因子,設(shè)定好相關(guān)程序后,得出輸出結(jié)果。
1.多層感知器評(píng)估結(jié)果。根據(jù)軟件要求及模型的需要,將模型體系結(jié)構(gòu)中選擇1層為隱藏層數(shù),且隱藏層中最大單位數(shù)為50,選擇調(diào)整的共軛梯度算法。將培訓(xùn)錯(cuò)誤的最小相對(duì)變化設(shè)置為0.000 1,誤差率最小變化設(shè)置為0.01。隱藏層激活函數(shù)采用雙曲正切,而輸出層激活函數(shù)采用Softmax。表5展示了測(cè)試集的預(yù)測(cè)結(jié)果。
表5 多層感知器的預(yù)測(cè)結(jié)果
從表5可知,多層感知器模型預(yù)測(cè)違約企業(yè)的精確度遠(yuǎn)高于預(yù)測(cè)非違約企業(yè)的精確度。從測(cè)試集的樣本預(yù)測(cè)結(jié)果可知,非違約企業(yè)“0”判斷的正確率為76.30%,但是對(duì)于違約企業(yè)“1”預(yù)測(cè)能力高,達(dá)到100.00%,整體預(yù)測(cè)正確率為79.00%。
2.徑向基函數(shù)的結(jié)果。根據(jù)軟件要求及模型的需要,隱藏層激活函數(shù)選擇標(biāo)準(zhǔn)化徑向基函數(shù),且自動(dòng)計(jì)算允許的重疊數(shù)量。表6展示了測(cè)試集的預(yù)測(cè)結(jié)果。
表6 徑向基函數(shù)的預(yù)測(cè)結(jié)果
從表6可知,徑向基函數(shù)模型無(wú)論預(yù)測(cè)非違約企業(yè)還是預(yù)測(cè)違約企業(yè),其精確度均較高。從測(cè)試集的樣本預(yù)測(cè)可知,非違約企業(yè)“0”判斷的正確率為92.50%,對(duì)于違約企業(yè)“1”預(yù)測(cè)能力較高,達(dá)到97.10%,整體預(yù)測(cè)正確率為93.00%。
比較多層感知器與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果后發(fā)現(xiàn),雖然在預(yù)測(cè)違約企業(yè)上,徑向基函數(shù)與多層感知器的預(yù)測(cè)精確度均較高,但是多層感知器在預(yù)測(cè)違約企業(yè)上的優(yōu)勢(shì)較為明顯。而在預(yù)測(cè)非違約企業(yè)上,多層感知器的精確度僅76.30%,但是徑向基函數(shù)的預(yù)測(cè)精確度達(dá)到92.50%,優(yōu)勢(shì)明顯。從總體預(yù)測(cè)精確度來(lái)看,徑向基函數(shù)預(yù)測(cè)準(zhǔn)確率為93.00%,高于多層感知器79.00%預(yù)測(cè)準(zhǔn)確度,徑向基函數(shù)的預(yù)測(cè)能力較強(qiáng)。
文章首先根據(jù)點(diǎn)融網(wǎng)上中小企業(yè)的數(shù)據(jù)以及影響企業(yè)信用風(fēng)險(xiǎn)的宏觀指標(biāo),建立了一套中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估體系。利用Python技術(shù)獲得點(diǎn)融網(wǎng)上關(guān)于中小企業(yè)信用貸款的1 392組數(shù)據(jù),將缺失借貸時(shí)間的數(shù)據(jù)刪除,填補(bǔ)完缺失數(shù)據(jù)后,利用SMOTE算法對(duì)訓(xùn)練集的樣本平衡數(shù)據(jù),從而獲取的樣本總數(shù)為2 230組。將1 930組訓(xùn)練集數(shù)據(jù)進(jìn)行主成分因子分析,并將得到的因子與測(cè)試集的因子使用SPSS系統(tǒng)進(jìn)行神經(jīng)網(wǎng)絡(luò)算法分類(lèi)。
實(shí)證結(jié)果發(fā)現(xiàn),在預(yù)測(cè)違約企業(yè)上多層感知器的預(yù)測(cè)正確率高于徑向基函數(shù),但在預(yù)測(cè)非違約企業(yè)的能力上徑向基函數(shù)預(yù)測(cè)正確率略高,而徑向基函數(shù)的總體預(yù)測(cè)能力較強(qiáng)。
從該實(shí)證結(jié)果可知,在眾多指標(biāo)中,因子1、因子2與因子6中比重較大的宏觀指標(biāo)對(duì)于中小企業(yè)的信用影響較大,也就是 CERCI、M1、GDP、CCI、URI、PMI、ECI與財(cái)政支出這些宏觀指標(biāo)較為重要;而剩余因子中比重較大的微觀指標(biāo)對(duì)于研究中小企業(yè)的信用風(fēng)險(xiǎn)研究也是較為重要的,如公司規(guī)模、借款金額、在點(diǎn)融的拖欠金額、借款目的、汽車(chē)數(shù)量、房屋數(shù)量、借款等級(jí)、投資者數(shù)目、性別和婚姻狀況等指標(biāo)在中小企業(yè)信用風(fēng)險(xiǎn)中評(píng)估中有十分重要的作用,故而應(yīng)該將這些指標(biāo)納入中小企業(yè)信用評(píng)估指標(biāo)體系中。
盡管文章使用的是P2P網(wǎng)絡(luò)借貸平臺(tái)的中小企業(yè)的借貸數(shù)據(jù)來(lái)研究中小企業(yè)的信用風(fēng)險(xiǎn)評(píng)估問(wèn)題,但評(píng)估的方法與評(píng)估指標(biāo)、評(píng)估結(jié)果均適用于一般的中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估,對(duì)一般的中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估時(shí)評(píng)估指標(biāo)體系和方法的選擇有一定的借鑒意義。