季玉文, 陳 哲
(1.浙江理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 浙江 杭州 310018;2.浙江理工大學(xué)信息科學(xué)與工程學(xué)院, 浙江 杭州 310018)
金融市場(chǎng)的發(fā)展水平是衡量社會(huì)商品經(jīng)濟(jì)發(fā)展水平的重要指標(biāo)。學(xué)者們長(zhǎng)期以來(lái)一直通過(guò)歷史交易數(shù)據(jù)研究和預(yù)測(cè)市場(chǎng)變化規(guī)律。但是,金融市場(chǎng)的變化波動(dòng)受到政策、股本、金融公司變動(dòng)等多方面因素的影響,其數(shù)據(jù)具有非線性、非平穩(wěn)性和高噪聲等特點(diǎn),因此研究難以取得有效的成果。
隨著互聯(lián)網(wǎng)和科學(xué)技術(shù)的發(fā)展,人們開(kāi)始意識(shí)到可以通過(guò)網(wǎng)絡(luò)監(jiān)控金融輿情信息,進(jìn)而分析行業(yè)動(dòng)向和市場(chǎng)前景。已有研究表明,網(wǎng)絡(luò)輿情信息可以影響投資機(jī)構(gòu)或投資者的投資行為,進(jìn)而對(duì)股市產(chǎn)生影響[1]。然而,網(wǎng)絡(luò)文本數(shù)據(jù)的噪聲高、數(shù)據(jù)量大,傳統(tǒng)的經(jīng)濟(jì)學(xué)方法難以準(zhǔn)確挖掘文本中隱藏的信息,因此學(xué)者們開(kāi)始將深度學(xué)習(xí)技術(shù)應(yīng)用于該領(lǐng)域。
本文基于深度學(xué)習(xí)主題爬蟲(chóng),創(chuàng)建金融文本情感標(biāo)注數(shù)據(jù)集,填補(bǔ)了當(dāng)前金融文本情感標(biāo)注數(shù)據(jù)集的空白;采用目前文本分析領(lǐng)域應(yīng)用效果最好的BERT模型,并結(jié)合Bi-LSTM模型,豐富了深度學(xué)習(xí)方法在金融領(lǐng)域的研究。
主題爬蟲(chóng)是一種特殊類型的網(wǎng)絡(luò)爬蟲(chóng),它的初始統(tǒng)一資源定位符(Uniform Resource Location,URL)集合是與預(yù)定義主題高度相關(guān)的頁(yè)面。主題爬蟲(chóng)從這些種子URL開(kāi)始,分析頁(yè)面并提取與主題相關(guān)度高的鏈接,形成一個(gè)擴(kuò)展URL集合。主題相關(guān)度計(jì)算是主題爬蟲(chóng)的核心模塊,它決定了爬蟲(chóng)是否能夠很好地保留主題相關(guān)的網(wǎng)頁(yè)和過(guò)濾掉與主題無(wú)關(guān)的網(wǎng)頁(yè)。目前,主題爬蟲(chóng)常用的相似度計(jì)算策略主要分為兩類:基于網(wǎng)頁(yè)鏈接結(jié)構(gòu)的搜索策略和基于內(nèi)容評(píng)價(jià)的搜索策略。
胡萍瑞等[2]根據(jù)互聯(lián)網(wǎng)站點(diǎn)同一版塊URL在結(jié)構(gòu)和語(yǔ)義特征上的相似性,設(shè)計(jì)了一種基于URL模式集的主題爬蟲(chóng),能夠在下載頁(yè)面之前判斷主題相關(guān)度。于林軒等[3]將PageRank算法應(yīng)用于主題爬蟲(chóng),構(gòu)建了一個(gè)垂直搜索引擎。需要注意的是,基于鏈接分析的搜索策略主要依據(jù)URL的構(gòu)成進(jìn)行主題相關(guān)度判斷,忽略了網(wǎng)頁(yè)正文內(nèi)容,容易造成“主題漂移”的現(xiàn)象。
傳統(tǒng)的基于內(nèi)容評(píng)價(jià)的搜索策略使用詞頻和向量空間模型作為核心算法,通過(guò)對(duì)當(dāng)前爬取的頁(yè)面正文內(nèi)容、網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行分析,判斷當(dāng)前頁(yè)面是否與主題相關(guān)。YOHANES等[4]采用遺傳算法改進(jìn)局部爬蟲(chóng)算法的缺陷,精確爬取和遍歷主題相關(guān)的Web,使爬蟲(chóng)主題更加聚焦。DU等[5]采用將向量空間模型和語(yǔ)義相似度模型相結(jié)合的方法,改進(jìn)了主題相關(guān)度計(jì)算模塊。近年來(lái),隨著深度學(xué)習(xí)在文本、語(yǔ)音和圖像等數(shù)據(jù)處理領(lǐng)域的不斷發(fā)展,它在文本分類問(wèn)題上的應(yīng)用也已經(jīng)取得了顯著的成果。Word2Vec、BERT等詞編碼技術(shù)及TextCNN、LSTM等模型的提出和發(fā)展極大地提高了分類的準(zhǔn)確率。HUAN等[6]將多種深度學(xué)習(xí)模型結(jié)合使用,提高了分類的準(zhǔn)確性。
本文將主題爬蟲(chóng)中的主題相關(guān)度問(wèn)題看作是一個(gè)文本分類問(wèn)題,首先收集主題相關(guān)的文本數(shù)據(jù)集并訓(xùn)練模型,其次依據(jù)模型計(jì)算網(wǎng)頁(yè)中文本的主題相關(guān)度,計(jì)算網(wǎng)頁(yè)的主題相關(guān)度。
目前,主流的文本情感分析方法可分為基于情感詞典、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類。
基于情感詞典的方法是傳統(tǒng)的情感分析方法,它利用情感詞典中的情感極性計(jì)算目標(biāo)語(yǔ)句的情感值。國(guó)外最早的情感詞典是SentiWordNet,李壽山等[7]使用英文種子詞典和機(jī)器翻譯系統(tǒng)構(gòu)建了最早的中文情感詞典。盡管基于詞典的分析方法實(shí)現(xiàn)簡(jiǎn)單,但準(zhǔn)確率在很大程度上依賴于構(gòu)建詞典的質(zhì)量,并且構(gòu)建情感詞典需要耗費(fèi)大量人力物力,對(duì)新詞的適應(yīng)能力也較差[8]。
相對(duì)于基于詞典的方法,機(jī)器學(xué)習(xí)在文本情感分析任務(wù)上能夠取得更高的準(zhǔn)確率。唐慧豐等[9]使用幾種常見(jiàn)的機(jī)器學(xué)習(xí)方法(如SVM、KNN等)對(duì)中文文本進(jìn)行情感分類,通過(guò)多次實(shí)驗(yàn)比較,研究特征選擇方法、文本特征表示方法等對(duì)分類結(jié)果的影響。劉麗等[10]和唐莉等[11]將條件隨機(jī)場(chǎng)與依存句法規(guī)則等結(jié)合,實(shí)現(xiàn)了特征與情感詞的提取。前者利用復(fù)雜句式規(guī)則進(jìn)行粗粒度分析,計(jì)算整體情感傾向;后者基于情感詞二分網(wǎng),采用MHITS(拓展的基于超鏈接的主題搜索)算法對(duì)特征詞和情感詞的權(quán)值進(jìn)行計(jì)算排序。雖然機(jī)器學(xué)習(xí)在文本情感分析方面取得了不錯(cuò)的效果,但是需要專業(yè)人員對(duì)相關(guān)特征進(jìn)行專業(yè)分析和提取且其泛化能力較差。
深度學(xué)習(xí)的自動(dòng)提取特征的特點(diǎn)彌補(bǔ)了機(jī)器學(xué)習(xí)在特征提取困難,泛化能力差等方面的不足,它只需要對(duì)已標(biāo)注的數(shù)據(jù)進(jìn)行多次迭代訓(xùn)練,就可以實(shí)現(xiàn)高準(zhǔn)確率的文本情感分析。潘紅麗[12]基于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))對(duì)英文文本中的情感信息進(jìn)行分析,準(zhǔn)確率達(dá)到了94.5%。BASIRI等[13]提出了一種基于注意力的雙向CNN-RNN(卷積神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò))模型(ABCDM),它考慮了時(shí)間信息流的雙向性,同時(shí)結(jié)合注意力機(jī)制突出重要的詞語(yǔ)。近年來(lái),研究者發(fā)現(xiàn)Word2Vec和GloVe學(xué)習(xí)得到的是靜態(tài)的詞向量,忽視了上下文的關(guān)系,動(dòng)態(tài)詞向量算法ELMo和BERT的提出解決了這種語(yǔ)境問(wèn)題。劉思琴等[14]和方英蘭等[15]利用BERT預(yù)訓(xùn)練語(yǔ)言模型代替Word2Vec和GloVe訓(xùn)練詞向量,嵌入其他模型后獲得了更好的分類效果。
主題爬蟲(chóng)的設(shè)計(jì)包括四個(gè)關(guān)鍵模塊:網(wǎng)頁(yè)獲取、網(wǎng)頁(yè)解析、搜索調(diào)度和網(wǎng)頁(yè)存儲(chǔ)。網(wǎng)頁(yè)獲取模塊負(fù)責(zé)從目標(biāo)URL獲取HTML文件。網(wǎng)頁(yè)解析模塊則負(fù)責(zé)從HTML文件中提取出當(dāng)前網(wǎng)頁(yè)的鏈接和文本,并根據(jù)鏈接目標(biāo)與爬蟲(chóng)主題的相關(guān)性判斷鏈接的主題相關(guān)度。搜索調(diào)度模塊基于主題相關(guān)度或其他規(guī)則,制定合理的訪問(wèn)調(diào)度策略。網(wǎng)頁(yè)存儲(chǔ)模塊將目標(biāo)網(wǎng)頁(yè)存儲(chǔ)到數(shù)據(jù)庫(kù)中。
本文所采用的主題相關(guān)度計(jì)算是基于網(wǎng)頁(yè)中文本的分類,在爬取新的網(wǎng)頁(yè)時(shí),先判斷該網(wǎng)頁(yè)包含的文本集合與爬蟲(chóng)主題的相關(guān)性,并根據(jù)結(jié)果計(jì)算該網(wǎng)頁(yè)的主題相關(guān)度。這個(gè)過(guò)程是主題爬蟲(chóng)中至關(guān)重要的一環(huán),它保證了爬蟲(chóng)能夠針對(duì)性地爬取與主題相關(guān)的網(wǎng)頁(yè)。
2.1.1 搭建數(shù)據(jù)集
首先,在綜合考慮各個(gè)金融網(wǎng)站的用戶量和知名度等因素的基礎(chǔ)上,篩選出排名靠前的幾個(gè)URL作為主題爬蟲(chóng)的種子URL集合,并從這些網(wǎng)站中獲取短文本數(shù)據(jù)。其次,人工排除與主題無(wú)關(guān)的文本,將剩余的與主題相關(guān)的文本加入語(yǔ)料庫(kù),并標(biāo)記為1。此外,從THUCNews、ChnSentiCorp和今日頭條新聞等數(shù)據(jù)集中選擇部分非主題分類的數(shù)據(jù)集加入語(yǔ)料庫(kù),并標(biāo)記為0。經(jīng)過(guò)處理后,得到的語(yǔ)料庫(kù)樣例如表1所示。
表1 語(yǔ)料庫(kù)樣例
2.1.2 文本主題相關(guān)判斷模型
相關(guān)度計(jì)算采用的模型是BERT+Bi-GRU模型,BERT模型基于雙向Transformer結(jié)構(gòu)生成上下文感知的動(dòng)態(tài)詞向量,能夠更好地表示上下文語(yǔ)義信息。首先利用BERT模型將中文字符轉(zhuǎn)換為包含文本信息的詞向量,其次將BERT輸出的詞向量輸入Bi-GRU模型進(jìn)行特征提取。GRU模型是LSTM模型的一種變種,相比LSTM,GRU只有兩個(gè)門控開(kāi)關(guān),其一是將LSTM中的輸入門和遺忘門合二為一的更新門,用來(lái)控制前一神經(jīng)元保留的數(shù)據(jù)量,其二是重置門,用于控制要遺忘多少過(guò)去的信息。GRU狀態(tài)的傳輸是從前到后的單向傳輸,由于文本語(yǔ)義信息是由前后文語(yǔ)境綜合得出,所以采用包含一個(gè)前向GRU和一個(gè)后向GRU的Bi-LSTM作為特征提取模型,分別學(xué)習(xí)序列中各個(gè)詞的左右和上下文信息。GRU合并了LSTM的門控函數(shù),其參數(shù)數(shù)量要少于LSTM,所以GRU的計(jì)算更簡(jiǎn)單,實(shí)現(xiàn)更容易,也更加節(jié)省計(jì)算資源。
對(duì)于網(wǎng)頁(yè)中一個(gè)新的URL鏈接,相關(guān)度計(jì)算的步驟如下。
(1)判斷新的URL是否已被爬取。
(2)分析網(wǎng)頁(yè)內(nèi)容,獲取其中的所有文本集合。
(3)將集合中的短文本依次輸入神經(jīng)網(wǎng)絡(luò)獲得每一個(gè)短句是否為與主題相關(guān)的分類。
(4)將“步驟(3)”中得到的兩種分類數(shù)目的比值作為最終的主題相關(guān)度。
結(jié)合深度學(xué)習(xí)模型的主題爬蟲(chóng)具體步驟如下。
(1)選擇10個(gè)初始種子鏈接作為種子集合,將之放入等待隊(duì)列WaitQueue中。
(2)計(jì)算種子集合中各URL的主題相關(guān)度。
(3)選擇集合中相關(guān)度最高的網(wǎng)頁(yè)進(jìn)行爬取解析并存儲(chǔ)其中與主題相關(guān)的短句。
(4)對(duì)“步驟(3)”中選擇的URL解析的新URL集合進(jìn)行相關(guān)度計(jì)算,并選取相關(guān)度最高的前10個(gè)URL加入種子集,從種子集中刪除當(dāng)前URL。
(5)判斷網(wǎng)頁(yè)存儲(chǔ)數(shù)量是否到達(dá)目標(biāo)數(shù)量,否則重復(fù)“步驟(3)”。
文本情感分析數(shù)據(jù)集是通過(guò)主題爬蟲(chóng)爬取,專業(yè)軟件數(shù)據(jù)導(dǎo)出等方式進(jìn)行收集,并請(qǐng)金融從業(yè)專家進(jìn)行標(biāo)注。收集的原始文本數(shù)據(jù)樣例如表2所示。
表2 原始文本數(shù)據(jù)樣例
針對(duì)表2中文本的處理工作主要包括數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注等。具體來(lái)說(shuō),首先去除與金融無(wú)關(guān)的文本數(shù)據(jù),其次去除文本數(shù)據(jù)中多余的符號(hào)和連接詞等無(wú)用字符。再次邀請(qǐng)三位金融從業(yè)專家分別標(biāo)注數(shù)據(jù)集,按照文本情感偏向分類,積極標(biāo)1,消極標(biāo)-1。最后將三位金融從業(yè)專家對(duì)每一條文本數(shù)據(jù)的標(biāo)注值取平均值,大于0取1,小于0取-1,得到最終的分類標(biāo)注。最終標(biāo)記完成的文本數(shù)據(jù)如表3所示。
表3 預(yù)處理結(jié)果
本文采用基于BERT+Bi-LSTM的金融文本情感分析模型共包含四層,模型結(jié)構(gòu)如圖1所示。
圖1 模型結(jié)構(gòu)Fig.1 Model structure
3.2.1 BERT預(yù)訓(xùn)練模型獲得文本的向量表示
本文采用哈爾濱工業(yè)大學(xué)?訊飛語(yǔ)言認(rèn)知計(jì)算聯(lián)合實(shí)驗(yàn)室發(fā)布的中文預(yù)訓(xùn)練語(yǔ)言模型BERT-wwm-ext作為預(yù)訓(xùn)練模型。相比原始BERT模型,隨機(jī)掩蓋15%的字進(jìn)行上下文預(yù)測(cè),BERT-wwm-ext模型采用WWM(Whole Word Masking)方法,將同一個(gè)詞中的每個(gè)字全部掩蓋,從而預(yù)測(cè)整個(gè)詞,進(jìn)一步增強(qiáng)了模型對(duì)上下文的理解能力和語(yǔ)義信息的學(xué)習(xí)[16]。該方法是當(dāng)前中文預(yù)訓(xùn)練模型中最為適合的方法,能夠?yàn)榻鹑谖谋厩楦蟹治鋈蝿?wù)提供較高的語(yǔ)義信息提取和表達(dá)能力。
3.2.2 Bi-LSTM提取特征
RNN常用于捕捉序列之間的依賴關(guān)系,通過(guò)將前一個(gè)神經(jīng)元的輸出作為后一個(gè)神經(jīng)元的輸入利用序列間的隱藏信息。然而在訓(xùn)練過(guò)程中,函數(shù)迭代會(huì)導(dǎo)致梯度消失或梯度爆炸問(wèn)題。為了解決這個(gè)問(wèn)題,LSTM被設(shè)計(jì)出來(lái),它是一種特殊的RNN,具有獨(dú)特的“門”機(jī)制。每個(gè)LSTM細(xì)胞都包含三個(gè)門和一個(gè)記憶單元,LSTM細(xì)胞的結(jié)構(gòu)如圖2所示。LSTM可以有效地處理長(zhǎng)序列的訓(xùn)練,并在文本情感分析中表現(xiàn)出色。
圖2 LSTM細(xì)胞結(jié)構(gòu)Fig.2 Cell structure of LSTM
遺忘門用來(lái)決定前一個(gè)細(xì)胞中信息的保留或丟棄,它讀取ht-1和xt,經(jīng)過(guò)Sigmoid函數(shù)輸出一個(gè)在0~1的值,對(duì)于每個(gè)在記憶單元Ct-1中的元素,1表示完全保留,0表示完全舍棄;具體計(jì)算方式如公式(1)所示:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
輸入門用于更新細(xì)胞狀態(tài),確定什么樣的信息內(nèi)存放在記憶單元中,包含以下兩個(gè)部分。
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
輸入門完成工作后,要更新細(xì)胞狀態(tài),將Ct-1更新為Ct。首先將舊狀態(tài)Ct-1與ft相乘,遺忘掉由ft確定的要遺忘的信息,然后加上被篩選后的候選狀態(tài),得到新的記憶單元,如公式(4)如下:
(4)
輸出門ot將內(nèi)部狀態(tài)的信息傳遞給外部狀態(tài)ht,同樣傳遞給外部狀態(tài)的信息也是過(guò)濾后的信息。首先,Sigmoid層確定記憶單元的哪些信息被傳遞出去[如公式(5)所示]。其次,將細(xì)胞狀態(tài)通過(guò)tanh層進(jìn)行處理,并將它和輸出門的輸出相乘,最終外部狀態(tài)僅僅會(huì)得到輸出門確定輸出部分,如公式(6)所示:
ot=σ(Wo·[ht-1,xt]+bo)
(5)
ht=ot⊙tanh(Ct)
(6)
情感分析模型采用雙向的LSTM模型,結(jié)合前向傳播和反向傳播得到的向量,同時(shí)捕獲上下文語(yǔ)義信息。本文實(shí)驗(yàn)中,使用BERT對(duì)字符進(jìn)行編碼,并將輸出乘以權(quán)重W作為Bi-LSTM的輸入。Bi-LSTM在不同方向的隱層上進(jìn)行計(jì)算,最終將兩個(gè)方向的計(jì)算結(jié)果拼接輸出。
3.2.3 情感計(jì)算
首先將Bi-LSTM輸出的特征向量作為一個(gè)全連接層的輸入,其次將全連接層的輸出經(jīng)過(guò)一個(gè)Softmax函數(shù)得到一個(gè)向量,該向量表示該條文本屬于積極或消極的概率值,介于0~1。
4.1.1 數(shù)據(jù)采集與標(biāo)注
本實(shí)驗(yàn)使用的數(shù)據(jù)主要來(lái)源于Choice金融數(shù)據(jù)終端和主題爬蟲(chóng)從種子URL集合開(kāi)始爬取的網(wǎng)絡(luò)文本,總計(jì)獲得7 000條文本數(shù)據(jù)。數(shù)據(jù)集的分布結(jié)果如表4所示。
表4 數(shù)據(jù)集分布結(jié)果
4.1.2 評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)使用準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1值(F1-Score)評(píng)價(jià)模型預(yù)測(cè)效果[17]。準(zhǔn)確率是預(yù)測(cè)正確的樣本數(shù)量占總體樣本數(shù)量的比例。精確率反映的是在所有預(yù)測(cè)為正向的樣本中,預(yù)測(cè)正確的比例。召回率反映的是預(yù)測(cè)為正的數(shù)量與實(shí)際為正的數(shù)量的比例。F1值是為了調(diào)和精確率和召回率而設(shè)計(jì)的指標(biāo)。各項(xiàng)指標(biāo)的計(jì)算如公式(7)至公式(10)所示:
(7)
(8)
(9)
(10)
其中:TP表示預(yù)測(cè)為正且真實(shí)為正的樣本數(shù)量,TN表示預(yù)測(cè)為負(fù)且真實(shí)為負(fù)的樣本數(shù)量,FP表示預(yù)測(cè)為正真實(shí)為負(fù)的樣本數(shù)量,FN表示預(yù)測(cè)為負(fù)真實(shí)為正的樣本數(shù)量。
4.1.3 模型與參數(shù)設(shè)置
模型參數(shù)的設(shè)置對(duì)實(shí)驗(yàn)結(jié)果的好壞起到?jīng)Q定性作用,本實(shí)驗(yàn)經(jīng)過(guò)多次調(diào)整后,最終選取的參數(shù)如表5所示。
表5 模型參數(shù)
4.1.4 結(jié)果分析
為驗(yàn)證本文所使用的預(yù)訓(xùn)練模型與特征提取模型的有效性,本文設(shè)計(jì)多組對(duì)比實(shí)驗(yàn),對(duì)比結(jié)果如表6所示。
表6 實(shí)驗(yàn)對(duì)比結(jié)果
由實(shí)驗(yàn)結(jié)果可知,BERT+Bi-LSTM模型取得了87.1%的準(zhǔn)確率和87.5%的F1值,相比Word2Vec+Bi-LSTM模型,準(zhǔn)確率提升了4.7%,精確率提升了4.2%。由此證明:BERT-wwm-ext模型能更有效地將文本信息轉(zhuǎn)化為向量表達(dá)。相比BERT+LSTM模型,BERT+Bi-LSTM的準(zhǔn)確率提升了3.2%,說(shuō)明雙向LSTM能夠更好地提取文本特征。通過(guò)比較Bi-LSTM和Bi-GRU模型的結(jié)果可知,盡管GRU模型在參數(shù)數(shù)量和計(jì)算效率上具有一定優(yōu)勢(shì),但由于參數(shù)減少,導(dǎo)致準(zhǔn)確率略有下降。
主題爬蟲(chóng)的應(yīng)用主要可以分為兩個(gè)方面:一是爬取大量的文本數(shù)據(jù)用于訓(xùn)練情感分析模型,二是每日爬取當(dāng)天的股評(píng)、新聞等文本,用于市場(chǎng)情緒的可視化。
在為文本情感分析模型爬取數(shù)據(jù)集時(shí),本研究共爬取了500個(gè)網(wǎng)頁(yè)中的5 000條數(shù)據(jù)。為了評(píng)估主題爬蟲(chóng)中文本主題相關(guān)度判斷模型的性能,本研究采用準(zhǔn)確率、召回率、精確率以及每100條數(shù)據(jù)的判別時(shí)間作為評(píng)價(jià)指標(biāo)。BERT+Bi-LSTM和BERT+Bi-GRU的實(shí)驗(yàn)結(jié)果如表7所示。
表7 實(shí)驗(yàn)對(duì)比結(jié)果
經(jīng)過(guò)對(duì)比發(fā)現(xiàn),盡管BERT+Bi-LSTM的準(zhǔn)確率比BERT+Bi-GRU高0.8%,但它每百條文本的判別時(shí)間比BERT+Bi-GRU高了0.6 s,這對(duì)于包含大量文本數(shù)據(jù)的網(wǎng)頁(yè)來(lái)說(shuō),并不是最優(yōu)選擇。因此,在主題爬蟲(chóng)的文本相關(guān)性判斷中,使用BERT+Bi-GRU模型能夠獲得更好的效果。
4.3.1 市場(chǎng)情緒值的計(jì)算
市場(chǎng)情緒值的計(jì)算是根據(jù)當(dāng)日網(wǎng)絡(luò)媒體中的短文本集合進(jìn)行的,具體的計(jì)算步驟如下。
(1)利用主題爬蟲(chóng)爬取5 000條當(dāng)日互聯(lián)網(wǎng)中與金融相關(guān)的文本并存儲(chǔ)。
(2)將文本集依次輸入文本情感分析模型,得出每條文本的情感傾向。
(3)計(jì)算文本集中情感傾向?yàn)?的文本數(shù)量與總文本數(shù)量的比值,作為當(dāng)日的市場(chǎng)情緒。
4.3.2 應(yīng)用
本次實(shí)驗(yàn)結(jié)果已經(jīng)作為市場(chǎng)技術(shù)分析的一部分被金融軟件“對(duì)聰易”采用,市場(chǎng)情緒可視化應(yīng)用結(jié)果如圖3所示。
圖3 市場(chǎng)情緒可視化應(yīng)用結(jié)果Fig.3 Market sentiment visualization application
市場(chǎng)情緒對(duì)于個(gè)人投資、公司經(jīng)營(yíng)、政府監(jiān)管等方面都有重要意義。本文結(jié)合自然語(yǔ)言處理和網(wǎng)絡(luò)爬蟲(chóng)技術(shù),搭建了金融相關(guān)的主題爬蟲(chóng),并利用爬蟲(chóng)為情感分析模型爬取數(shù)據(jù)。使用基于BERT和Bi-LSTM的深度學(xué)習(xí)模型,對(duì)金融文本數(shù)據(jù)進(jìn)行情感分析,并將模型運(yùn)用到交易軟件的搭建中。
在未來(lái)的研究過(guò)程中,可以從兩個(gè)方向繼續(xù)深入探索。一方面,可以引入注意力機(jī)制提升情感分析過(guò)程中某些關(guān)鍵詞的權(quán)重,同時(shí)降低非關(guān)鍵詞的權(quán)重,從而獲得更好的分析效果。另一方面,本文只考慮了積極、消極兩種情緒,未來(lái)可以考慮更多元的分類或者量化分類,以更好地反映市場(chǎng)情緒的變化。這些深入研究的探索,將有助于更準(zhǔn)確地把控市場(chǎng)情緒,幫助投資者、企業(yè)家和政府監(jiān)管者更好地做出決策。