亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        軟信息有助于預(yù)測小微企業(yè)信用風(fēng)險
        ——來自中國P2P平臺的證據(jù)

        2021-11-16 02:21:38李艷萍
        宿州學(xué)院學(xué)報 2021年10期
        關(guān)鍵詞:特征信息模型

        李艷萍,武 浩

        1.安徽農(nóng)業(yè)大學(xué)經(jīng)濟技術(shù)學(xué)院,安徽合肥,230013;2.合肥工業(yè)大學(xué)管理學(xué)院,安徽合肥,230009

        在金融科技領(lǐng)域,P2P網(wǎng)絡(luò)借貸是一種重要的金融創(chuàng)新模式,它為資金需求與供給雙方提供了一個在線匹配與信息交換的服務(wù)平臺。P2P平臺的出現(xiàn)為小微企業(yè)(SMEs)提供了新的融資渠道,同時在一定程度上解決了融資難與融資貴的問題[1-2]。然而,學(xué)者Zhu[3]與封思賢等[4]認為P2P平臺參與者往往信用水平不高且難以提供更多的信用信息,加大了信息不對稱程度,造成了信用評價的困難。如何準確評價與預(yù)測小微企業(yè)信用風(fēng)險,成為亟待解決的關(guān)鍵問題。

        在大數(shù)據(jù)時代,軟信息受到越來越多的關(guān)注。Liberti等[5]認為有些信息是難以用具體的數(shù)字分數(shù)概括的,需要結(jié)合上下文分析的信息才稱為軟信息。在P2P網(wǎng)貸中,軟信息通常以文本形式進行交流,主要包括意見、計劃、經(jīng)濟預(yù)測、借款人的面部特征以及借款申請的文本描述等。一些研究將財務(wù)信息定義為硬信息,將非財務(wù)信息定義為軟信息[5-9]。

        目前,軟信息在P2P網(wǎng)貸中獲得了成功應(yīng)用[10-12]。第一,軟信息可以反映借款人的信用風(fēng)險,預(yù)測借款成功率[13-15]。第二,軟信息對違約概率也有較好的預(yù)測作用[16-17]。如Ge等[18]使用一個結(jié)合了流行社交媒體網(wǎng)站數(shù)據(jù)的獨特數(shù)據(jù)集,發(fā)現(xiàn)借款人對其社交媒體賬戶和社交媒體活動的自我披露可以成功預(yù)測違約概率。Gao等[19]發(fā)現(xiàn)借款申請說明的可讀性和其中包含的積極情緒也與違約概率有關(guān)。Dorfleitner等[20]通過對比歐洲的兩個P2P平臺,發(fā)現(xiàn)在借款項目描述中提供了關(guān)于教育信息的借款人往往具有更低的違約概率。

        軟信息的內(nèi)容往往是非結(jié)構(gòu)化的,傳統(tǒng)方法不能有效地處理。故Blei等[21]提出了潛在狄利克雷分配(LDA)主題模型,用于識別文檔中的主題并挖掘語料庫中隱藏的信息。到目前為止,LDA分析已被廣泛應(yīng)用于主題聚合、非結(jié)構(gòu)化文本信息提取、特征選擇等場景中。其中,情感分析就是一種主要的軟信息分析方法,被廣泛用于分析語篇中的態(tài)度、情感和評價,并使用情緒分析從借款人的自我報告中提取特征,并基于這些特征和金融特征分析借款人的信用風(fēng)險。也可以應(yīng)用情緒分析構(gòu)建了情緒指數(shù),發(fā)現(xiàn)負面情緒與借款成功率呈負相關(guān)。為此,本文基于LDA分析與機器學(xué)習(xí)模型,選取中國P2P平臺上852家借款企業(yè)的真實交易數(shù)據(jù)進行實證分析,深入挖掘借款項目描述軟信息并考察其對網(wǎng)絡(luò)借貸信用風(fēng)險預(yù)測能力。

        1 LDA主題模型

        LDA主題模型是一個三層貝葉斯概率模型[21],包括詞、主題和文檔三層結(jié)構(gòu)。它屬于無監(jiān)督學(xué)習(xí),可用于識別隱藏在大規(guī)模文檔集合或語料庫中的主題信息。為更好地處理P2P網(wǎng)貸文本信息,研究引入LDA主題模型,提取相應(yīng)軟信息特征。假設(shè)有K個主題,M個文檔,每個文檔有N個單詞,文檔中的主題服從參數(shù)為α的狄利克萊分布,主題中的單詞服從參數(shù)為β的狄利克萊分布。LDA模型包括以下步驟:

        步驟1:從M中選擇一個文檔d;

        步驟2:從狄里克萊特分布Dir(α)中抽樣一個主題分布θd;

        步驟3:根據(jù)采樣的主題分布θd隨機選擇一個主題Zdi;

        步驟4:從先前選擇的主題Zdi的多項式分布φzdi中隨機選擇文檔d中的第i個單詞的單詞wi。

        本文在上述步驟中選擇了一種常見的Gibbs采樣方法,并給出了圖1中可視化處理過程。

        圖1 LDA主題模型的提取過程

        2 數(shù)據(jù)、變量及描述性統(tǒng)計

        2.1 樣本數(shù)據(jù)

        在中國的P2P網(wǎng)貸中,小微企業(yè)的借貸信息非常稀少。本文對比了網(wǎng)絡(luò)借貸市場的76個平臺,根據(jù)這些平臺的綜合實力和透明度選擇研究對象,最終選定了為中小企業(yè)提供金融服務(wù)的P2P網(wǎng)貸平臺“融金寶”。數(shù)據(jù)集來自兩個渠道:第一,平臺網(wǎng)站(https://www.rjb777.com/);第二,定期發(fā)布借款企業(yè)還款狀態(tài)的微信官方賬號。本文使用R包“Rselenium”從網(wǎng)站上收集了從2016年3月7日到2019年3月15日期間的樣本,包括了1 459家企業(yè)的借款信息。然后,本文剔除了那些不能確定是否違約的借款企業(yè),最終獲得852家公司借款信息作為研究樣本。

        2.2 軟特征提取

        在訓(xùn)練LDA主題模型之前,需要確定一個重要的參數(shù),即主題數(shù)量。本文從2到20個主題的數(shù)量中得到了19個主題分類結(jié)果,并檢查提取的主題是否包含定義明確的相關(guān)詞。結(jié)合語言模型和主觀判斷,選擇了最優(yōu)的7個主題:投資、工廠、材料、日用品、工程、銷售和創(chuàng)新。表1顯示了每個主題下出現(xiàn)頻率最高的單詞。在確定主題后,LDA主題模型會輸出每一項文本被歸類為7個主題的概率(本文實證分析使用的軟特征是每個借款企業(yè)的項目描述屬于7個主題的概率)。

        表1 從借款項目描述中提取的軟特征

        2.3 描述性統(tǒng)計

        除了上述七個軟信息特征外,本文還考慮了另外七個解釋變量:注冊資本、員工人數(shù)、借款金額、借款利率、借款期限和注冊地點、成立年限。響應(yīng)變量為違約,當(dāng)借款企業(yè)違反合同約定拒不支付本息時,響應(yīng)變量被標記為1(發(fā)生違約),否則被標記為0(未違約),所有變量的描述性統(tǒng)計結(jié)果見表2。

        表2 變量的描述性統(tǒng)計

        表2中可以看出,違約企業(yè)的比例只占總樣本的8%,一方面表示違約發(fā)生概率并不高;另一方面使得在訓(xùn)練時更多關(guān)注未違約企業(yè)的特征,可能會影響模型分類的準確性。這是一個典型的非平衡數(shù)據(jù)的二分類問題,本文在數(shù)據(jù)處理中引入多種重采樣方法解決非平衡問題,以進一步提高模型的預(yù)測能力。

        3 實證研究

        3.1 軟特征的分類效果

        將特征集劃分為三類:硬特征集、軟特征集和硬-軟特征集,同時考慮三種流行的機器學(xué)習(xí)模型,即L1-Logit、支持向量機(SVM)和隨機森林(RF)。隨機選取80%觀測值作為訓(xùn)練集進行模型訓(xùn)練,其余的觀測值則作為測試集進行模型測試。此外,本文通過ROC曲線下方的面積大小(AUC)、準確率(ACC)、綜合評價(F1-MEASURE,簡記F1)和召回率(RECALL)等指標對模型性能進行評估。

        對于三種預(yù)測模型,本文采用5折交叉驗證(CV)在訓(xùn)練集上選擇最優(yōu)參數(shù),如L1-logit的λ、SVM的gamma和RF的tree。對于特定特征集上的每個模型,本文在每次實驗中將5折交叉驗證得到的五個AUC進行平均后,選擇平均AUC最高的參數(shù)作為最優(yōu)參數(shù)。然后,將擁有最優(yōu)參數(shù)的模型應(yīng)用于測試集中,計算出所有的評價指標。重復(fù)該過程50次,統(tǒng)計模型分類結(jié)果見表3。

        表3 非平衡樣本下軟特征預(yù)測表現(xiàn)

        注:(1)表中報告的結(jié)果為50次試驗后的平均結(jié)果;(2)括號內(nèi)展示實驗結(jié)果的標準差。下同。

        表3反映了L1-Logit、SVM和RF在50次重復(fù)實驗后在不同特征集上的分類性能。總體而言,三種預(yù)測模型在硬-軟特征集上取得了最佳違約預(yù)測效果,在12個實驗(12=3個模型×4個評價指標)中,其預(yù)測效果有8次優(yōu)于其他兩個特征集。對于AUC指標,相比較其他特征集,硬-軟特征集在所有的模型中獲得最佳的表現(xiàn)。加入軟特征后,AUC和Recall兩種指標呈現(xiàn)上升趨勢,如在RF中,分別增加到0.880和0.820。雖然加入軟特征集后,ACC和F1-MEASURE在RF中沒有明顯改進,但在L1-Logit和SVM中,當(dāng)考慮到軟特征時,兩項指標均有所提升。實證結(jié)果充分說明軟信息有助于預(yù)測違約概率,它可以作為硬特征的有效補充,用于準確評估企業(yè)信用風(fēng)險。

        3.2 基于重采樣方法的分類效果

        在二分類問題中,當(dāng)一類的比例超出另一類的比例很多時,就會出現(xiàn)非平衡數(shù)據(jù)問題,常出現(xiàn)在欺詐檢測、風(fēng)險管理等領(lǐng)域。非平衡數(shù)據(jù)問題導(dǎo)致模型對少數(shù)類缺乏關(guān)注,從而影響分類效果。為此,本文引入三種常用的重采樣方法:隨機過采樣(簡稱ROS)、隨機欠采樣(簡稱RUS)與隨機過欠采樣(簡稱ROUS)。除額外的重采樣過程外,其余建模過程沒有變化,在硬-軟特征集上模型結(jié)果見表4。可以看出,在解決了非平衡數(shù)據(jù)問題之后,可以提高預(yù)測效果,其中ROS方法顯著提高了模型的預(yù)測能力,ROU方法也有較好的表現(xiàn)。

        表4 非平衡樣本與平衡樣本下硬-軟特征集預(yù)測表現(xiàn)

        以上結(jié)果再次證明,本文構(gòu)造的包含軟信息在內(nèi)的特征變量是有效的,能夠準確預(yù)測小微企業(yè)的信用風(fēng)險。此外,在利用非平衡數(shù)據(jù)評價小微企業(yè)信用風(fēng)險時,可以選擇合適的重采樣方法,進一步提高預(yù)測效果。

        3.3 基于軟特征的信用風(fēng)險分析

        為了進一步說明各軟特征對借款企業(yè)信用風(fēng)險的影響,對全樣本進行Logit回歸(見表5)。以7個硬特征為控制變量,按先后順序或同時加入軟特征,模型的響應(yīng)變量為違約。特別地,由于7個軟特征的概率和為1,為了避免多重共線性的問題,在模型8中,移除了一個軟特征。

        表5 Logit回歸結(jié)果

        注:(1)*,**,和***分別表示在10%,5%,1%水平下顯著。(2)括號內(nèi)展示Z統(tǒng)計量。

        由表5可知,盡管調(diào)整R2并不算高,但眾多軟信息特征都存在統(tǒng)計上的顯著性。進一步,在模型8中,投資在5%的水平上顯著,而日用品在10%的水平上顯著。至于工程,在模型8中不顯著,但在模型5中處于10%水平下顯著。在這三個變量中,工程的系數(shù)為正,表明借款人的項目描述中包含的關(guān)于工程的信息越多,違約概率越高;而投資和日用品的系數(shù)為負,關(guān)于投資和日用品的信息意味著借款企業(yè)違約的概率較低??傊?,軟信息可以幫助篩選違約企業(yè)、預(yù)測信用風(fēng)險,從而維護投資人的利益,促進P2P網(wǎng)貸健康發(fā)展。

        4 結(jié)論與啟示

        本文以P2P網(wǎng)貸為研究對象,綜合運用LDA主題分析、機器學(xué)習(xí)模型與Logit回歸,選取中國P2P平臺上852家借款企業(yè)的真實交易數(shù)據(jù),實證考察了借款項目描述軟信息對小微企業(yè)信用風(fēng)險的預(yù)測能力。實證結(jié)果表明,軟信息特征能夠有效識別違約企業(yè),有助于分析違約行為,預(yù)測企業(yè)違約概率。當(dāng)借款企業(yè)提供的借款項目描述與工程有關(guān)時,則該企業(yè)違約的可能性較大;如果借款項目描述與投資和日用品有關(guān),則違約的可能性較小。實證結(jié)果具有較好的管理學(xué)啟示:第一,P2P平臺應(yīng)該規(guī)范軟信息發(fā)布,減輕金融科技中的信息不對稱程度,降低信用風(fēng)險發(fā)生的概率;第二,小微企業(yè)應(yīng)該積極發(fā)布借款項目描述,以獲得市場的支持,解決融資難與融資貴問題;第三,投資者可以從借款項目描述中進行特征分析,識別出可能違約的企業(yè),以避免投資風(fēng)險。

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        在线免费看91免费版.| 国产免费人成视频在线播放播| 无码伊人久久大香线蕉| 日本女优中文字幕亚洲| 成人精品一区二区三区电影| 黑人玩弄人妻中文在线| 亚洲免费一区二区三区视频| 精品女人一区二区三区| 风韵丰满熟妇啪啪区老老熟妇| v一区无码内射国产| 亚洲熟妇色xxxxx欧美老妇| av男人操美女一区二区三区 | 国产午夜激无码av毛片不卡| 精品深夜av无码一区二区老年| 国产精品嫩草影院午夜| 亚洲天堂av免费在线| 国产欧美在线观看不卡| 性生交大片免费看淑女出招| 一本一本久久久久a久久综合激情| 国产精品美女自在线观看| 成熟人妻换xxxx| 国产国语熟妇视频在线观看| 久久国产国内精品对话对白| 亚洲天堂一区二区三区| 国模冰莲自慰肥美胞极品人体图| 人妻少妇精品视中文字幕国语| 国产美女精品AⅤ在线老女人| 国产人妖在线视频网站| 色欲aⅴ亚洲情无码av| 亚洲网站地址一地址二| 97国产精品麻豆性色| 亚洲AV无码乱码精品国产草莓| 亚洲一区二区在线观看av| 日本阿v片在线播放免费| 精品三级久久久久久久电影| 啪啪视频免费看一区二区| 日韩女同精品av在线观看| 国产亚洲精品bt天堂精选| 精品国产91久久综合| 青青草免费在线视频久草| 免费网站看av片|