曾政多
(佛山科學(xué)技術(shù)學(xué)院自動(dòng)化學(xué)院,佛山528000)
P2P 金融是近幾年來(lái)較為火熱的一個(gè)關(guān)鍵詞,P2P(Peer to Peer)網(wǎng)貸模式指的是個(gè)體和個(gè)體之間通過(guò)互聯(lián)網(wǎng)平臺(tái)來(lái)實(shí)現(xiàn)直接借款與貸款,它也是互聯(lián)網(wǎng)金融(ITFIN)行業(yè)的一個(gè)子分類。我國(guó)的P2P 平臺(tái)數(shù)量自2012 年開始,增長(zhǎng)的較為迅速,迄今為止已經(jīng)有數(shù)千家平臺(tái)可供投資人選擇。由于投資回報(bào)率過(guò)高,參與其中的投資者與日俱增。為數(shù)眾多的P2P 平臺(tái)魚龍混雜,企業(yè)數(shù)量增速過(guò)快,而政府的監(jiān)管卻沒有跟上發(fā)展的速度,從中出現(xiàn)了大量的問(wèn)題,自2018 年6 月各大平臺(tái)相繼“暴雷”之后,于2018 年8 月開始,國(guó)家對(duì)互聯(lián)網(wǎng)金融進(jìn)行了整治。
即便是具有高風(fēng)險(xiǎn),在可觀的收益率下,還是有著數(shù)量龐大的投資者群體會(huì)選擇P2P 平臺(tái)進(jìn)行投資,伴隨著各類平臺(tái)網(wǎng)站用戶的持續(xù)增長(zhǎng),人們已經(jīng)從過(guò)去的口頭相傳或者是通過(guò)平臺(tái)的宣傳廣告等簡(jiǎn)單信息獲取方式轉(zhuǎn)變?yōu)橄蚧ヂ?lián)網(wǎng)傳輸自己的觀點(diǎn)看法,從而每天可以產(chǎn)生很多對(duì)于各種平臺(tái)的評(píng)論。這些呈指數(shù)增長(zhǎng)的評(píng)論發(fā)生在各種相關(guān)平臺(tái)如微博、貼吧、股吧論壇等各大地方,數(shù)量龐大,難以梳理。但是對(duì)于其文本是很有研究?jī)r(jià)值的。通過(guò)分析用戶對(duì)不同平臺(tái)不同特征的情感傾向,從而指導(dǎo)用戶的投資行為,是很有意義的一項(xiàng)研究。
本文所述研究所選用的數(shù)據(jù)集是DataFoutain 中的“互聯(lián)網(wǎng)金融平臺(tái)用戶評(píng)價(jià)提取”賽題中的數(shù)據(jù)集,數(shù)據(jù)中包含平臺(tái)評(píng)論數(shù)據(jù)集、投資公告數(shù)據(jù)集、論壇數(shù)據(jù)集等,本研究使用了其中的評(píng)論數(shù)據(jù)集用于分析和訓(xùn)練。
文本數(shù)據(jù)在分析之前通常要進(jìn)行一些預(yù)處理,特別是在諸如此類的競(jìng)賽平臺(tái)數(shù)據(jù)集中,主辦方肯定會(huì)通過(guò)復(fù)制同類數(shù)據(jù)使得數(shù)據(jù)變得冗雜,那么在開始就需要對(duì)數(shù)據(jù)集使用去重處理,本文使用Python 語(yǔ)言中的xlrd 與xlwt 庫(kù)對(duì)表格數(shù)據(jù)進(jìn)行處理。如圖1 所示,通過(guò)建立一個(gè)新的list 表,往里加入數(shù)據(jù),通過(guò)遍歷數(shù)據(jù)集與list 表中的進(jìn)行比對(duì),沒有重復(fù)則加入list 的方法來(lái)進(jìn)行去重處理,實(shí)現(xiàn)了數(shù)據(jù)清洗的過(guò)程。
圖1 數(shù)據(jù)去重流程圖
TF-IDF 即“詞頻-逆文本頻率”,它由TF(Term Frequency)和IDF(Inverse Document Frequency)兩部分組成。
其中的TF 就是我們前面說(shuō)到的詞頻(Term Frequency),文本向量化也就是做了文本中各個(gè)詞的出現(xiàn)頻率統(tǒng)計(jì),并作為文本特征,后面的這個(gè)IDF,即“逆文本頻率”。在英文文本中,幾乎所有的文本里都會(huì)出現(xiàn)“to”和“and”,這類單詞的詞頻雖然高,但是重要性卻應(yīng)該比詞頻低的“Naive”和“Investment”要低。IDF 的作用是用來(lái)反映這個(gè)詞的重要性,進(jìn)而修正僅僅用詞頻表示的詞特征值。
概括來(lái)講,IDF 指的是某個(gè)詞在全部文本內(nèi)出現(xiàn)的頻率,如果某個(gè)詞在較多的文本內(nèi)都出現(xiàn)過(guò),那么它的IDF 值是比較低的,例如上面說(shuō)到的介詞“to”和連詞“and”。反而言之,某個(gè)詞語(yǔ)只在很少的文本中出現(xiàn)過(guò),那么它的IDF 值應(yīng)高。例如一些專業(yè)的名詞如“Deep Learning”。這樣的詞IDF 值應(yīng)該高。一個(gè)極端的情況,在所有文本都出現(xiàn)的詞,IDF 值為零。
一個(gè)詞x 的IDF 的基本公式如下:
其中,N 代表語(yǔ)料庫(kù)中文本的總數(shù),而N(x)代表語(yǔ)料庫(kù)中包含詞x 的文本總數(shù)。
上述IDF 公式在大多數(shù)情況下適用,但是在一些特殊的情況則會(huì)出現(xiàn)一些小問(wèn)題,例如遇到的某個(gè)詞語(yǔ)沒有出現(xiàn)在之前訓(xùn)練好的語(yǔ)料庫(kù)中,這樣計(jì)算之后會(huì)使分母為0,IDF 會(huì)失去意義。因此通常我們?cè)贗DF計(jì)算時(shí)會(huì)做一些平滑處理,使某個(gè)詞語(yǔ)即使沒有在語(yǔ)料庫(kù)中出現(xiàn),在經(jīng)過(guò)計(jì)算之后也可以得到一個(gè)合適的IDF 值。平滑的方法有很多種,最常見的IDF 平滑后的公式之一為:
綜上所述,某一個(gè)詞的TF-IDF 值如下計(jì)算:
對(duì)于分詞,本研究用到的是Python 里的jieba 庫(kù)。jieba 分詞是一個(gè)完全開源,并且有集成的Python 庫(kù),具有多種模式且使用起來(lái)較為簡(jiǎn)單。jieba 在分詞的過(guò)程中可以添加自定義詞庫(kù)或者刪除“停用詞”(stopwords)?!巴S迷~”是指那些詞頻很高卻沒有情感特征的詞語(yǔ),這些詞的TF-IDF 值可能非常高,需要主動(dòng)刪除,以免引入噪聲。
詞云圖,也就是通常所說(shuō)的文字云,是對(duì)文章中出現(xiàn)次數(shù)比較多的“關(guān)鍵詞”進(jìn)行可視化,在詞云圖上,大量的低頻、低質(zhì)的文本信息會(huì)被過(guò)濾掉,使得瀏覽者只要看一眼詞云圖就可領(lǐng)會(huì)到文章主要想表達(dá)的意思。在Python 里現(xiàn)在有許多庫(kù)可以實(shí)現(xiàn)詞云圖,本文用到的Wordcloud 是詞頻分析的一個(gè)熱門庫(kù),在代碼中可以自行設(shè)定背景和顯示的字體,顯示效果相比于其他的繪圖工具會(huì)更加直觀、具體。
圖2 詞云圖
從詞云中可以看出網(wǎng)友們比較關(guān)注的關(guān)鍵詞有“收益”、“平臺(tái)”、“提現(xiàn)”、“活動(dòng)”等,表明網(wǎng)友在金融平臺(tái)的評(píng)論時(shí),重點(diǎn)關(guān)注的點(diǎn)還是在收益和提現(xiàn)上,由此可見收益的高低、提現(xiàn)的便捷程度與速度、是否定期有舉辦活動(dòng)是影響用戶情感的關(guān)鍵因素。
文本的情感分析在二十世紀(jì)九十年代末由國(guó)外開始,早期的研究是基于文本數(shù)據(jù)來(lái)構(gòu)建一個(gè)語(yǔ)義詞典。在McKeown 在對(duì)連詞開展研究之后,研究者們開始考慮特征詞和情感詞之間的關(guān)聯(lián)。從Pang 等研究者開始,機(jī)器學(xué)習(xí)的研究方法開始被應(yīng)用,以消極和積極兩個(gè)方向維度對(duì)文本評(píng)論進(jìn)行分類,取得了不錯(cuò)的效果。由此可見機(jī)器學(xué)習(xí)在文本情感分析的方面有著比較理想的研究前景?;跈C(jī)器學(xué)習(xí)的情感分析方法需要人工標(biāo)注文本,將標(biāo)注到的文本作為訓(xùn)練集訓(xùn)練模型,再對(duì)目標(biāo)進(jìn)行情感極性判斷,本研究用到的評(píng)論研究方法是屬于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法。
目前對(duì)于單條語(yǔ)句的情感分析應(yīng)用到的方法是通過(guò)上下文語(yǔ)義信息進(jìn)行分析,上下文的信息將會(huì)直接影響到對(duì)于單條語(yǔ)句情感值判定的準(zhǔn)確性。當(dāng)前大多數(shù)基于機(jī)器學(xué)習(xí)方法的情感分析工具都需要經(jīng)過(guò)訓(xùn)練這一階段,對(duì)待不同的樣本應(yīng)當(dāng)采用不同的訓(xùn)練集進(jìn)行訓(xùn)練以提高模型的適應(yīng)性。
本文對(duì)于情感分類的基本模型是貝葉斯模型Bayes,對(duì)于有兩個(gè)類別C1和C2的分類問(wèn)題來(lái)說(shuō),其特征為w1,????,wn,特征之間是相互獨(dú)立的,屬于類別C1的貝葉斯模型的基本過(guò)程為:
表1 預(yù)測(cè)結(jié)果表格
其中:
對(duì)上述公式進(jìn)行簡(jiǎn)化:
其中,分母1 可以改寫為:
在Python 里的SnowNLP 庫(kù)的情感分析核心就是貝葉斯模型,自帶了電商評(píng)論的數(shù)據(jù)訓(xùn)練集,因此在交易評(píng)論上效果較好,應(yīng)用到金融平臺(tái)上也不需要做太大的修改。SnowNLP 庫(kù)是針對(duì)中文文本的自然語(yǔ)言處理工具,具有中文分詞、詞性標(biāo)注、情感分析、文本分類、轉(zhuǎn)換拼音、提取摘要等等功能。
本研究在SnowNLP 自帶的正負(fù)預(yù)料樣本的基礎(chǔ)上,人工標(biāo)注了部分評(píng)論并加入到訓(xùn)練集中進(jìn)行了再訓(xùn)練,提高了預(yù)測(cè)結(jié)果的準(zhǔn)確性。
通過(guò)調(diào)用Python 中的pandas 庫(kù),讀取了評(píng)論數(shù)據(jù)集中的每段評(píng)論并且通過(guò)SnowNLP 逐句進(jìn)行了情感值分析,生成了一個(gè)處于[0,1]區(qū)間的數(shù)值作為情感預(yù)測(cè)值,研究設(shè)定當(dāng)?shù)玫降那楦兄荡笥?.5 時(shí)我們將評(píng)論定位為積極評(píng)論,情感值小于0.5 則認(rèn)為是消極評(píng)論。
圖3“多融財(cái)富”的評(píng)論
由上述實(shí)證結(jié)果顯示,使用條件篩選于2018 年7月出現(xiàn)問(wèn)題的“多融財(cái)富”平臺(tái),發(fā)現(xiàn)其在2017 年10月就開始出現(xiàn)比較多的負(fù)面評(píng)論(低于0.5),數(shù)據(jù)集中存在的最后一條評(píng)論是2018 年3 月14 日的評(píng)論,在本研究模型上的預(yù)測(cè)結(jié)果也是比較消極的,因此可以得出該結(jié)果與本文模型比較契合,在其“暴雷”之前在評(píng)論上是有表現(xiàn)出將要出現(xiàn)問(wèn)題的趨勢(shì)的。
使用條件篩選“微貸網(wǎng)”平臺(tái)的評(píng)論,出現(xiàn)的結(jié)果表明2018 年2 月8 日以前大多都是積極的正向結(jié)果?!拔①J網(wǎng)”平臺(tái)目前還處于正常運(yùn)轉(zhuǎn)的狀態(tài),通過(guò)本實(shí)驗(yàn)數(shù)據(jù)集的預(yù)測(cè)結(jié)果也沒有出現(xiàn)過(guò)多的消極評(píng)論,表明該平臺(tái)的對(duì)于大部分用戶口碑較好,沒有出現(xiàn)太大的問(wèn)題,短時(shí)間內(nèi)不會(huì)出現(xiàn)“暴雷”,是投資者可以作為選擇的網(wǎng)貸平臺(tái)之一。
中文的自然語(yǔ)言處理技術(shù)是一項(xiàng)特別繁雜的工作,需要注意非常多的細(xì)節(jié),本文提出了使用Python 語(yǔ)言中的jieba 庫(kù)與WordCloud 庫(kù)結(jié)合進(jìn)行詞頻分析的過(guò)程,并通過(guò)SnowNLP 庫(kù)分析情感極性,最后通過(guò)分析的結(jié)果來(lái)反饋到現(xiàn)實(shí)生活中的現(xiàn)象,評(píng)判一個(gè)平臺(tái)的好與壞,且通過(guò)實(shí)證以及模型檢驗(yàn)得出的對(duì)投資者的建議以及未來(lái)的一些發(fā)展趨勢(shì),為金融領(lǐng)域與自然語(yǔ)言處理學(xué)科的融合給出了初步的實(shí)驗(yàn)基礎(chǔ)。
目前本研究的實(shí)驗(yàn)還僅僅處于初步階段,只對(duì)評(píng)論數(shù)據(jù)進(jìn)行了簡(jiǎn)單處理與分析,在今后的工作當(dāng)中還可以使用不同的機(jī)器學(xué)習(xí)庫(kù)進(jìn)行處理,探尋如何讓機(jī)器對(duì)人類情感深入細(xì)致的把握和分析才是自然語(yǔ)言處理工作應(yīng)當(dāng)做的事情。以獲得更好的預(yù)測(cè)效果,同時(shí)受限于樣本數(shù)量沒有對(duì)單獨(dú)平臺(tái)進(jìn)行評(píng)論分析,在今后評(píng)論數(shù)據(jù)充足的情況下可以針對(duì)單一平臺(tái)進(jìn)行分析同時(shí)繪制情感極性變化曲線來(lái)預(yù)測(cè)平臺(tái)今后的發(fā)展情況。
對(duì)于數(shù)據(jù)集中的其他材料如新聞、股市公告等在本研究中并沒有應(yīng)用到,情感分析是一個(gè)相對(duì)復(fù)雜的研究,統(tǒng)計(jì)和展示大量數(shù)據(jù)中隱含的情感特征才是真正要探索的問(wèn)題,多維度的結(jié)合分析也是今后需要研究的方向。