王 平,夏火松
(武漢紡織大學(xué) 管理學(xué)院,湖北 武漢 430073)
網(wǎng)貸之家發(fā)布的《2018年中國(guó)網(wǎng)絡(luò)借貸行業(yè)年報(bào)》數(shù)據(jù)顯示,2018年全年P(guān)2P網(wǎng)貸行業(yè)成交量達(dá)到了17948.01億元,相比2017年全年網(wǎng)貸成交量(28048.49億元)減少了36.01%。2018年,P2P行業(yè)不僅成交量下降,而且大量的平臺(tái)暴雷、退出,給行業(yè)帶來(lái)了巨大的風(fēng)險(xiǎn)。究其原因,可分為三類:第一類由于P2P是一種創(chuàng)新金融模式,政府采取從混沌到有序的治理思路尚未適應(yīng)復(fù)雜的金融風(fēng)險(xiǎn);第二類是P2P平臺(tái)缺乏有效的治理,流程不規(guī)范以及金融市場(chǎng)的競(jìng)爭(zhēng)壓力,產(chǎn)生了高息攬存和潛在欺詐行為等風(fēng)險(xiǎn);第三類是投資者和借貸者的“無(wú)知”(對(duì)金融科技的風(fēng)險(xiǎn)缺乏知識(shí)素養(yǎng))。中國(guó)銀監(jiān)會(huì)在2016年分別印發(fā)《網(wǎng)絡(luò)借貸信息中介機(jī)構(gòu)業(yè)務(wù)活動(dòng)管理暫行辦法》和《網(wǎng)絡(luò)借貸信息中介機(jī)構(gòu)備案登記管理指引》,在 2017年提出《網(wǎng)絡(luò)借貸資金存管業(yè)務(wù)指引》和《網(wǎng)絡(luò)借貸信息中介機(jī)構(gòu)業(yè)務(wù)活動(dòng)信息披露指引》,形成了網(wǎng)貸行業(yè)“1+3”監(jiān)管制度體系。但是對(duì)于后兩類原因的分析與治理,缺乏深入的理論研究與對(duì)策研究。
P2P進(jìn)入國(guó)內(nèi)市場(chǎng)引起的行業(yè)亂象,吸引了大量的學(xué)者關(guān)注到新金融風(fēng)險(xiǎn)研究。葉青等[1]從平臺(tái)實(shí)力、標(biāo)的特征、風(fēng)控能力、治理水平等維度構(gòu)建模型,發(fā)現(xiàn)利率奇高是識(shí)別問(wèn)題平臺(tái)的最重要變量,同時(shí),實(shí)力薄弱、標(biāo)的類型單一、風(fēng)控能力欠缺是問(wèn)題平臺(tái)的前兆。王茂光等[2]以C5.0決策樹(shù)算法構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,表明該模型具有較好的預(yù)測(cè)能力。范超等[3]利用文本挖掘技術(shù)提取網(wǎng)絡(luò)口碑的情感傾向,結(jié)合平臺(tái)的基本信息和交易信息,使用八個(gè)統(tǒng)計(jì)模型判定風(fēng)險(xiǎn)。何光輝等[4]從道德風(fēng)險(xiǎn)、公司治理、信用管理和營(yíng)運(yùn)風(fēng)險(xiǎn)四個(gè)風(fēng)險(xiǎn)維度,提出了假設(shè)檢驗(yàn)和指標(biāo)體系,幵建立計(jì)量模型分析平臺(tái)風(fēng)險(xiǎn)及決定因素,發(fā)現(xiàn)平臺(tái)基本為民營(yíng)公司,四個(gè)風(fēng)險(xiǎn)維度指標(biāo)越高,平臺(tái)出問(wèn)題的可能性越大。古定威等[5]指出平臺(tái)競(jìng)爭(zhēng)不利于平臺(tái)控制信用風(fēng)險(xiǎn),監(jiān)管風(fēng)險(xiǎn)對(duì)控制P2P平臺(tái)信用風(fēng)險(xiǎn)有較大的影響。可見(jiàn),學(xué)者們對(duì)P2P平臺(tái)知識(shí)風(fēng)險(xiǎn)研究大致可分為:平臺(tái)基本信息、交易信息、風(fēng)控信息、治理信息和口碑信息等視角分析。第一類是對(duì)包括注冊(cè)資本、注冊(cè)地、保障方式、平臺(tái)背景等平臺(tái)基本信息分析(葉青[1]、王茂光[2]、范超等[3]);第二類是對(duì)包括成交量、平均利率、投資人數(shù)、平均借款期限、借款人數(shù)等交易信息分析(王茂光[2]、范超等[3]和何光輝等[4]);第三類是對(duì)包括風(fēng)控措施、信用風(fēng)險(xiǎn)、流動(dòng)性風(fēng)險(xiǎn)、系統(tǒng)性風(fēng)險(xiǎn)等風(fēng)控信息分析(王茂光[2]、何光輝等[4]和古定成等[5]);第四類是對(duì)包括高管背景、股東數(shù)目和董事人數(shù)等治理信息分析(葉青[1]和何光輝等[4]);第五類是對(duì)包括評(píng)論情感傾向口碑信息分析(范超等[3])。
以上研究較多運(yùn)用結(jié)構(gòu)化信息分析平臺(tái)風(fēng)險(xiǎn),范超等采用非結(jié)構(gòu)信息探究口碑的情感分類是否可以區(qū)分正常平臺(tái)和問(wèn)題平臺(tái)[3],但是缺乏利用文本挖掘的方法識(shí)別P2P平臺(tái)風(fēng)險(xiǎn)的負(fù)面口碑特征研究。Rinchins[6]界定負(fù)面口碑為告訴熟悉人有感產(chǎn)品的不滿意經(jīng)驗(yàn)。當(dāng)買方根據(jù)其他買方的口碑信息形成他對(duì)賣方的信任程度時(shí),負(fù)面口碑比正面口碑具有更大的反對(duì)效果[7]。負(fù)面口碑與正面口碑相比,其被消費(fèi)者認(rèn)為更加有用和可信[8],Lu et al.認(rèn)為負(fù)面口碑占比對(duì)銷售量會(huì)產(chǎn)生顯著的影響[9]。P2P負(fù)面口碑會(huì)增加投資者的風(fēng)險(xiǎn)感知,通過(guò)挖掘負(fù)面口碑風(fēng)險(xiǎn)知識(shí)在一定程度上會(huì)幫助投資者做決策,從而降低投資者的投資風(fēng)險(xiǎn)[10]。Chervalier等[11]發(fā)現(xiàn)負(fù)面口碑會(huì)給企業(yè)造成不良的影響。Zhu et al.[12]發(fā)現(xiàn)某些產(chǎn)品(例如利基產(chǎn)品),只有一個(gè)也是不利的。此外,已有研究從非結(jié)構(gòu)化信息(在線評(píng)論、公司財(cái)報(bào)、公司招股說(shuō)明書(shū)、公司披露的信息等文本信息)中提取風(fēng)險(xiǎn)信息,如胡小榮等[13]從文本分析的視角,通過(guò)統(tǒng)計(jì)詞頻、主題分析和可視化風(fēng)險(xiǎn)知識(shí),發(fā)現(xiàn)上市公司的風(fēng)險(xiǎn)信息。李金海等[14]基于大數(shù)據(jù)處理引擎MapReduce構(gòu)建了在線評(píng)論特征屬性挖掘模塊,幵提出了負(fù)面口碑網(wǎng)絡(luò)預(yù)警模型。可見(jiàn),從文本分析的視角研究企業(yè)風(fēng)險(xiǎn)較多的是提取關(guān)鍵詞、特征屬性挖掘、可視化等方法。
綜上所述,已有文獻(xiàn)主要從平臺(tái)交易、治理、風(fēng)控、營(yíng)運(yùn)和口碑等維度的信息研究平臺(tái)風(fēng)險(xiǎn),較少研究利用P2P平臺(tái)口碑信息識(shí)別風(fēng)險(xiǎn)信息,僅僅探討了基于粗粒度的網(wǎng)貸口碑的情感分析對(duì)平臺(tái)風(fēng)險(xiǎn)的影響,未深入挖掘口碑中其他特征屬性,如投資者抱怨的意見(jiàn)和抱怨的程度。通過(guò)挖掘網(wǎng)絡(luò)負(fù)面口碑有助于投資者降低投資風(fēng)險(xiǎn),有利于平臺(tái)及時(shí)發(fā)現(xiàn)經(jīng)營(yíng)管理遇到的問(wèn)題和政府進(jìn)行平臺(tái)治理,從而及時(shí)規(guī)避平臺(tái)風(fēng)險(xiǎn)和改進(jìn)服務(wù)。負(fù)面口碑不僅會(huì)影響投資者行為,而且挖掘其特征是企業(yè)識(shí)別風(fēng)險(xiǎn)的方法。因此,在虛擬性互聯(lián)網(wǎng)平臺(tái)的新金融模式中利用負(fù)面口碑來(lái)識(shí)別風(fēng)險(xiǎn)知識(shí)是一種新的探索,如何挖掘負(fù)面口碑中的特征是值得研究的問(wèn)題。
基于以上的討論,文章從文本分析的視角解決以下三個(gè)問(wèn)題彌合這一差距:
(1)利用文本挖掘方法,分析P2P負(fù)面口碑的內(nèi)容能否發(fā)現(xiàn)影響平臺(tái)風(fēng)險(xiǎn)的因素?
(2)在問(wèn)題(1)的研究背景下,P2P負(fù)面口碑中不同維度的影響因素呈現(xiàn)的風(fēng)險(xiǎn)程度?
(3)利用可視化方法比較P2P負(fù)面口碑與正面口碑的差異性?
文章主要的價(jià)值:第一,關(guān)于負(fù)面口碑的P2P平臺(tái)風(fēng)險(xiǎn)研究不多見(jiàn)但有研究的必要性,拓展了P2P風(fēng)險(xiǎn)知識(shí)研究的路徑;第二,設(shè)計(jì)了基于負(fù)面口碑的P2P平臺(tái)風(fēng)險(xiǎn)知識(shí)識(shí)別模型,利用文本挖掘和機(jī)器學(xué)習(xí)方法將投資者抱怨意見(jiàn)和抱怨程度從海量的負(fù)面口碑中轉(zhuǎn)化為關(guān)鍵的風(fēng)險(xiǎn)特征信息彌合研究的差距。
有限注意力理論是Kahneman于1973年提出來(lái)的。有限注意力理論認(rèn)為:個(gè)人或團(tuán)體注意力很重要但有限,因此強(qiáng)烈程度、新奇程度或吸引力更強(qiáng)的能夠吸引眼球幵采取行動(dòng)[15]。P2P作為一種創(chuàng)新的投融資模式,吸引了大量的投資者。
網(wǎng)絡(luò)口碑(eWOM)是一種典型的有限注意力集中的投融資行為的展現(xiàn)形式。在線用戶的潛在人格特征是否加強(qiáng)或削弱了WOM在社交媒體平臺(tái)中的效果,如基于深度學(xué)習(xí)模型控制潛在用戶同質(zhì)性和網(wǎng)絡(luò)結(jié)構(gòu)角色,通過(guò)將理論上影響WOM有效性的特征[16]。當(dāng)消費(fèi)者退貨時(shí),他們更可能填寫(xiě)比未退貨的口碑更負(fù)面的在線口碑[17]。有限注意力理論、負(fù)面口碑及網(wǎng)絡(luò)口碑對(duì)于P2P口碑的風(fēng)險(xiǎn)分析適合其理論思想。
知識(shí)模型是將知識(shí)進(jìn)行形式化和結(jié)構(gòu)化的抽象表示,包括知識(shí)的獲取方法、表達(dá)模式、實(shí)現(xiàn)技術(shù)等。文章根據(jù)評(píng)論挖掘任務(wù)設(shè)計(jì)負(fù)面口碑風(fēng)險(xiǎn)知識(shí)模型,包括特征抽取、評(píng)論觀點(diǎn)抽取、觀點(diǎn)的極性判斷、評(píng)論結(jié)果匯總與排序[13,18],以及產(chǎn)品評(píng)論主題提取[19]和關(guān)注點(diǎn)分析。具體而言,分析口碑觀點(diǎn)極性,篩選負(fù)面極性口碑,深入挖掘評(píng)論特征、評(píng)論主題與評(píng)論結(jié)果匯總。圖1展示了基于負(fù)面口碑的P2P風(fēng)險(xiǎn)知識(shí)識(shí)別模型。從流程上將P2P風(fēng)險(xiǎn)識(shí)別模型分為口碑下載與預(yù)處理、口碑情感分類、負(fù)面口碑信息挖掘。通過(guò)挖掘P2P平臺(tái)負(fù)面口碑的屬性特征,幵對(duì)屬性特征的重要程度進(jìn)行排序,及時(shí)發(fā)現(xiàn)平臺(tái)風(fēng)險(xiǎn)知識(shí)。
圖1 基于負(fù)面口碑的P2P風(fēng)險(xiǎn)知識(shí)識(shí)別模型
網(wǎng)貸天眼是國(guó)內(nèi)最大的P2P行業(yè)綜合門(mén)戶網(wǎng)站之一,其包含資訊、評(píng)級(jí)、數(shù)據(jù)、檔案、社區(qū)、P2P理財(cái)?shù)劝鍓K,收錄了大量的P2P平臺(tái)數(shù)據(jù)信息,幵且信息比較齊全。通過(guò)平臺(tái)檔案欄,可以獲取子版塊各平臺(tái)口碑?dāng)?shù)據(jù)。文章從天眼下載所有平臺(tái)的口碑?dāng)?shù)據(jù),共計(jì) 162071條。數(shù)據(jù)預(yù)處理,包括去除重復(fù)數(shù)據(jù)和同義詞合幵等,最終用于實(shí)驗(yàn)的數(shù)據(jù)140094條。
首先借助爬蟲(chóng)軟件爬取了網(wǎng)貸天眼的 14萬(wàn)多條口碑作為語(yǔ)料庫(kù)。在分析理解口碑信息基礎(chǔ)上,構(gòu)建了自定義詞表用于分詞。采用Python中文分詞組件Jieba中文分詞庫(kù)幵導(dǎo)入自定義詞表進(jìn)行分詞處理,去除停用詞。在此基礎(chǔ)上,隨機(jī)選取“正向”、“中立/噪音”、“負(fù)向”口碑?dāng)?shù)據(jù)各1000條標(biāo)記作為訓(xùn)練集,然后利用Python機(jī)器學(xué)習(xí)庫(kù)SciKit-Learn進(jìn)行特征提取、文本表示,且將數(shù)據(jù)集按照9:1的比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集,通過(guò)比較Xgboost、SVM、NB和LR四種分類算法,多次實(shí)驗(yàn)調(diào)參比較分類算法的準(zhǔn)確度,其中LR算法表現(xiàn)較好,準(zhǔn)確率可達(dá)76%,最終選擇LR算法對(duì)所有口碑進(jìn)行情感傾向判斷,分類結(jié)果顯示負(fù)向口碑33824條。
TFIDF是計(jì)算特征項(xiàng)的函數(shù),采用相對(duì)詞頻作為特征權(quán)重,用來(lái)刻畫(huà)特征詞在文本內(nèi)容的重要程度。一般情況下,做特征提取和主題聚類會(huì)過(guò)濾掉沒(méi)有實(shí)際意義的詞性,以名詞為主,但P2P對(duì)于時(shí)間的響應(yīng)程度要求更高,涉及關(guān)于資金操作方面的詞匯,故文章選擇名詞、動(dòng)詞、時(shí)間三種詞性的詞語(yǔ)作為關(guān)鍵詞提取的語(yǔ)料庫(kù)。選取前50的特征詞進(jìn)行展示(見(jiàn)表1)。從表1可知,平臺(tái)、提現(xiàn)、客服是投資者抱怨的前3位的特征詞。其次是存管、回款、逾期,說(shuō)明資金管理和風(fēng)險(xiǎn)控制是平臺(tái)的詬病。再者,充值、投資、APP等特征詞,體現(xiàn)了平臺(tái)技術(shù)實(shí)力薄弱。
針對(duì)口碑文本的特征稀疏性,選取 LDA主題模型,實(shí)現(xiàn)負(fù)面口碑聚類。利用 Python的機(jī)器學(xué)習(xí)庫(kù)SciKit-Learn,設(shè)置主題數(shù)為8,最大迭代次數(shù)為1000,提取主題排名前10的詞。從表2中可以看出,LDA主題模型將負(fù)面口碑分為8類主題域:主題K1顯示的是投資者情緒,包括垃圾、雷了、打不開(kāi)、賬戶、客服、提現(xiàn)等;主題K2顯示的是交易信息,包括提現(xiàn)、不到、體現(xiàn)等;主題K3顯示的是服務(wù)態(tài)度和技術(shù),包括客服、電話、APP;主題K4顯示的是收費(fèi)信息,包括手續(xù)費(fèi)、提現(xiàn)費(fèi)等;主題K5顯示的是資金安全,包括提現(xiàn)、充值、到賬等;主題K6是風(fēng)控信息,包括跑路、逾期、存管、提現(xiàn)等;主題K7是項(xiàng)目信息,包括退出、項(xiàng)目、無(wú)法、投資人等;主題K8是收益信息,包括收益、利息、利率、紅包等。
表1 基于TF-IDF的P2P負(fù)面口碑特征詞
表2 基于LDA的P2P負(fù)面口碑主題-詞語(yǔ)分布
從表2可知,P2P負(fù)面口碑的主題分別是投資者情緒、交易信息、服務(wù)態(tài)度、技術(shù)實(shí)力、資金安全、風(fēng)控信息、項(xiàng)目信息、收益信息。結(jié)合TFIDF值、LDA主題模型和領(lǐng)域知識(shí),構(gòu)建了投資者抱怨指標(biāo),設(shè)計(jì)了P2P負(fù)面口碑多維特征評(píng)分表。具體而言,選取TFIDF值前100的特征詞,人工挑選將每個(gè)詞放在不同的指標(biāo)中。由于每個(gè)維度的特征詞數(shù)量不相同,采用同一維度特征詞相加取平均數(shù)的方式計(jì)算不同維度特征詞的平均TFIDF值依次排序,見(jiàn)公式1和表3。從表3可知,資金信息、服務(wù)體驗(yàn)和風(fēng)控信息是關(guān)鍵風(fēng)險(xiǎn),反應(yīng)了投資者對(duì)于資金安全的緊張程度。其次,服務(wù)體驗(yàn)對(duì)于P2P平臺(tái)的影響較大,當(dāng)平臺(tái)客服回應(yīng)比較緩慢時(shí),會(huì)增加投資者的風(fēng)險(xiǎn)感知。再者,風(fēng)控信息直接反應(yīng)了投資者對(duì)于資金安全性的感知程度。最后,技術(shù)信息是抱怨的內(nèi)容,但相對(duì)資金信息、服務(wù)體驗(yàn)等方面,抱怨程度較低。
其中score代表不同維度的平均TFIDF值,xi代表第i個(gè)值的TFIDF值,N代表不同維度特征詞數(shù)量。
表3 基于領(lǐng)域知識(shí)的P2P負(fù)面口碑評(píng)分表
基于Python的WordCloud庫(kù)可視化分別呈現(xiàn)了P2P正面口碑與負(fù)面口碑TFIDF值在前100的特征詞,如圖2所示,其中左邊是正面口碑,右邊是負(fù)面口碑。左右兩圖相比之下,正面評(píng)論呈現(xiàn)的特征詞是合規(guī)、給力、朋友、準(zhǔn)時(shí)、車貸、透明度等積極的詞匯,負(fù)面口碑呈現(xiàn)的特征詞是逾期、搶標(biāo)、管理費(fèi)、借款、APP、站崗、打不開(kāi)等消極的詞匯。這一方面反應(yīng)了投資者對(duì)于合規(guī)、透明度高的平臺(tái)的信任,另一方面也反應(yīng)了投資者在搶標(biāo)、管理費(fèi)等方面不滿。
圖2 P2P正面口碑與負(fù)面口碑的特征詞云圖
文章梳理了P2P網(wǎng)絡(luò)借貸領(lǐng)域平臺(tái)風(fēng)險(xiǎn)研究,在基于平臺(tái)風(fēng)險(xiǎn)研究結(jié)構(gòu)化數(shù)據(jù)較多而網(wǎng)絡(luò)口碑的風(fēng)險(xiǎn)研究較少的背景下,闡述了深入挖掘負(fù)面口碑中風(fēng)險(xiǎn)點(diǎn)的必要性,提出了基于負(fù)面口碑的網(wǎng)絡(luò)借貸風(fēng)險(xiǎn)識(shí)別知識(shí)模型。具體而言,首先,利用文本挖掘的方法分析P2P負(fù)面口碑,發(fā)現(xiàn)Top6的特征詞是平臺(tái)、提現(xiàn)、客服、存管、回款和逾期,其TFIDF值均大于0.09。其次,對(duì)比了基于結(jié)構(gòu)化信息的P2P平臺(tái)風(fēng)險(xiǎn)研究與基于負(fù)面口碑的投資者角度風(fēng)險(xiǎn)的差異性。P2P平臺(tái)風(fēng)險(xiǎn)文獻(xiàn)主要集中在平臺(tái)基本信息、交易信息、風(fēng)控信息、治理信息等?;谪?fù)面口碑的風(fēng)險(xiǎn)信息主要包括資金信息、服務(wù)體驗(yàn)、投資者情緒、標(biāo)的特征、技術(shù)信息、用戶信息、收費(fèi)信息等,其中資金信息、服務(wù)體驗(yàn)、風(fēng)控信息是投資者抱怨程度較高。這表明基于負(fù)面口碑的P2P風(fēng)險(xiǎn)知識(shí)識(shí)別模型,可以挖掘投資者情緒、技術(shù)信息、收費(fèi)信息等風(fēng)險(xiǎn)知識(shí)。最后,對(duì)比了正面口碑與負(fù)面口碑的差異性,投資者的正面口碑中主要從合規(guī)、透明度、給力、社交等方面,負(fù)面口碑集中在逾期、搶標(biāo)、管理費(fèi)、技術(shù)等方面。因此,P2P負(fù)面口碑的特征屬性挖掘是識(shí)別風(fēng)險(xiǎn)的有效路徑,能夠識(shí)別平臺(tái)的風(fēng)險(xiǎn)知識(shí)。
文章對(duì)于P2P負(fù)面口碑分析,豐富了有限注意力理論和eWOM理論,對(duì)P2P平臺(tái)風(fēng)險(xiǎn)分析與治理有參考價(jià)值。對(duì)于 P2P平臺(tái),通過(guò)挖掘負(fù)面口碑知識(shí)有助于平臺(tái)找準(zhǔn)治理的方向;對(duì)于政府,可實(shí)時(shí)監(jiān)控P2P等平臺(tái)中的口碑,及早的防控平臺(tái)風(fēng)險(xiǎn),幵治理與監(jiān)管;對(duì)于投資者,應(yīng)密切關(guān)注P2P等金融科技平臺(tái)的負(fù)面口碑,加強(qiáng)借貸知識(shí)獲取與知識(shí)共享,以免由于金融科技的“無(wú)知”增加投資的風(fēng)險(xiǎn)。
未來(lái)的研究方向:第一,利用深度學(xué)習(xí)方法提高文本分類算法精準(zhǔn)度和特征提取的完整性;第二,從大數(shù)據(jù)集成的視角,結(jié)合文本挖掘和計(jì)量方法分析P2P平臺(tái)等FinTech平臺(tái)風(fēng)險(xiǎn)的因果效應(yīng)。