亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中國投資者多角度輿情分析及其在股市預(yù)測中的作用

        2022-08-12 08:48:54馬源源劉晏澤劉呈隆張?zhí)饾?/span>
        關(guān)鍵詞:輿情股市投資者

        馬源源, 劉晏澤, 劉呈隆, 張?zhí)饾?/p>

        (1. 東北大學(xué) 工商管理學(xué)院, 遼寧 沈陽 110819; 2. 東北大學(xué)秦皇島分校 經(jīng)濟學(xué)院, 河北 秦皇島 066004;3. 東北大學(xué)秦皇島分校 管理學(xué)院, 河北 秦皇島 066004)

        在以往的股市預(yù)測研究中,學(xué)者們大多僅考慮股市的理性因素[1].但在實際的股市中,存在很多歷史數(shù)據(jù)難以解釋的現(xiàn)象[2].例如,行為金融學(xué)中所涉及的投資者對股市產(chǎn)生直接影響的重要因素,即投資者情緒[3].股市輿情首先通過媒體進行傳播,經(jīng)由經(jīng)理人和個人投資者進行傳染和擴散,最終對股市整體造成影響[4].因此,有部分研究者開始在股市預(yù)測的研究中考慮投資者輿情的影響.Creamer[5]通過收集相關(guān)企業(yè)的新聞和管理者的社會關(guān)系以進行輿論分析,并用分析結(jié)果來優(yōu)化投資組合.Lemmon等[6]發(fā)現(xiàn),投資者輿情對股市的短期預(yù)測有輔助作用.Hu等[7]以美國股市為研究對象,借助谷歌指數(shù)表示投資者關(guān)注度,提高了預(yù)測精度.Liang等[8]對報紙新聞、互聯(lián)網(wǎng)新聞和投資者輿情都進行了分析,從不同角度證明了輿情對于股市的影響效果.Bollen等[9]從7個維度量化了投資者輿情,并證明了量化結(jié)果與股市的走勢顯著相關(guān).

        對于量化投資者輿情所必要的自然語言處理來說,重要的一環(huán)就是文本數(shù)據(jù)的編碼預(yù)處理.Word2Vec作為全新的基于上下文的編碼方法,依賴Skip-grams模型或連續(xù)詞袋(continuous bag-of-words,CBOW)模型來進行詞嵌入,能夠?qū)W習(xí)詞語間的語義相關(guān)關(guān)系[10],并且通過使用特定領(lǐng)域語料庫提取語義關(guān)系方面更準(zhǔn)確的特定領(lǐng)域詞向量[11].同時,近年來卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在文本分析領(lǐng)域的應(yīng)用也使模型能夠捕捉句子中的語序信息和詞組搭配,使文本分類、結(jié)果更加準(zhǔn)確[12].Guo等[13]使用TF-IDF表示詞語的重要性,建立多通道TextCNN來使模型能夠同時捕獲詞語的上下文關(guān)系和重要性.此外,潛在狄利克雷分布(latent Dirichlet allocation,LDA)也被用于提取文檔特征[14].這種無監(jiān)督學(xué)習(xí)方法能將文檔分為指定個數(shù)的主題,并獲取文檔中的重點[15].Wan等[16]提出了一種關(guān)聯(lián)約束 LDA模型(AC-LDA)來有效地捕獲共現(xiàn)關(guān)系,并進一步提高意見詞的提取率.Xie等[17]使用基于轉(zhuǎn)換器的雙向編碼表征和LDA 主題模型來分析主題演變,揭示不同語言撰寫的科學(xué)出版物之間的主題相似性.通過這些方法,不僅可以捕獲文本數(shù)據(jù)中的多種特征,還能夠?qū)⑽谋緮?shù)據(jù)數(shù)值化,以進一步分析其與股市之間的關(guān)系并應(yīng)用于股市預(yù)測.

        使用數(shù)學(xué)模型對股市進行短期預(yù)測一直是金融研究領(lǐng)域的核心問題之一,以往研究者們常用的經(jīng)典模型包括自回歸(autoregressive,AR)模型[18]和移動平均(moving average,MA)模型[19],以及以上兩個模型的混合模型——移動平均自回歸(autoregressive integrated moving average,ARIMA)模型[20].然而,由于影響股市的因素眾多并且股指常為非線性,這些時序模型的預(yù)測性能都表現(xiàn)一般.隨著機器學(xué)習(xí)模型在金融領(lǐng)域的使用,研究者們嘗試應(yīng)用更多模型來預(yù)測股票市場,比如長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò)[21,22],支持向量機(support vector machine,SVM)[23],循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[24],反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)[25-26].

        相比于傳統(tǒng)時序模型,機器學(xué)習(xí)模型不但能有效提升模型處理復(fù)雜問題的性能,而且易于與其他方法和模型混合使用,其在股市預(yù)測領(lǐng)域也得到了廣泛的運用[27].相對于BPNN等全連接神經(jīng)網(wǎng)絡(luò)模型,LSTM由于能夠?qū)?shù)據(jù)的時序信息進行學(xué)習(xí)和遺忘,成為了股市預(yù)測的常用模型之一[28].Yadav等[29]為印度股市創(chuàng)建了一個數(shù)據(jù)集,并為其開發(fā)了優(yōu)化超參數(shù)的LSTM.Ghosh等[30]同時使用隨機森林模型和LSTM模型對股市進行預(yù)測,根據(jù)預(yù)測進行投資模擬并跑贏了大盤.Moghar等[31]對LSTM在股市中可預(yù)測的精度和性能進行了驗證.Baek等[32]將2個LSTM組合并添加過擬合模塊,提高了模型的預(yù)測精度.

        綜上所述,投資者輿情對股市的影響不可忽視,對輿情的量化分析是科學(xué)認(rèn)識、分析股市的必要過程.目前針對投資者輿情的量化分析主要以投資者情感的積極程度為參考,探究投資者情感積極度與股市之間的關(guān)系,而忽視了語義層面的投資者關(guān)注主題的變動對股市的影響.本文基于東方財富網(wǎng)股吧中的投資者發(fā)言,從投資者發(fā)言積極程度和每日投資者關(guān)注主題兩方面進行文本挖掘,從多角度對投資者輿情進行量化和分析,研究投資者輿情與股市之間的關(guān)系和其在股市預(yù)測中的作用.

        1 模型與方法

        為了實現(xiàn)對投資者輿情的多角度量化,本文在使用Word2Vec模型將文本數(shù)據(jù)向量化后,基于文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)文本分類模型和LDA主題模型進行研究.同時針對LDA模型可能會有主題同質(zhì)性的問題,引入TF-IDF方法形成TLDA模型,進一步建立CNN-TLDA模型,對文本數(shù)據(jù)從投資者積極度和關(guān)注主題兩方面進行多角度量化.進而將量化的多維輿情指標(biāo)和股市歷史數(shù)據(jù)一起引入LSTM預(yù)測模型,形成多角度輿情分析LSTM(MSA-LSTM)預(yù)測模型以進一步分析投資者輿情在股市預(yù)測中的作用.

        1.1 基于Word2Vec的文本處理

        對于收集到的文本數(shù)據(jù),需要將其數(shù)值化才能夠用于文本分析模型中.與英文數(shù)據(jù)不同的是,中文句子是由連續(xù)的漢字構(gòu)成,在表達語義的詞組與詞組之間沒有自然劃分,因此在中文文本數(shù)值化之前,首先需要對數(shù)據(jù)進行分詞,將一個連續(xù)的句子拆分成數(shù)個詞.對于拆分后的詞串,需要進行停用詞處理,刪除對語義判別沒有幫助的詞和標(biāo)點,減小處理后的數(shù)據(jù)規(guī)模從而提高模型學(xué)習(xí)的效率和精度.

        經(jīng)過分詞和消除停用詞后,即可將處理后的詞串進行數(shù)值化,將每個詞轉(zhuǎn)化為獨特的詞向量.Word2Vec是谷歌2013年發(fā)布的詞嵌入模型.它能用上下文預(yù)測目標(biāo)詞的連續(xù)詞袋模型和用目標(biāo)詞預(yù)測上下文Skip-gram模型將詞訓(xùn)練成詞向量.與傳統(tǒng)的one-hot encoder方法相比,這種方法不僅能使用獨特的詞向量表示每一個詞,還能夠通過詞向量表示出詞的語義關(guān)系,通過余弦相似度還可表示詞與詞之間的語義相似程度.同時由于該方法生成詞向量的維度可以自己定義,根據(jù)文獻[10],詞向量維度一般設(shè)定在100到800之間,而在傳統(tǒng)方法中,詞向量的維度數(shù)與獨特的詞數(shù)相同.采用Word2Vec能夠大幅降低文本分析模型的計算成本,同時也使詞向量搭載的信息更多.

        本文選取國內(nèi)的股票投資論壇——東方財富網(wǎng)股吧,使用網(wǎng)絡(luò)爬蟲技術(shù)獲取其中的文本數(shù)據(jù)并進行文本分析.構(gòu)筑Word2Vec模型訓(xùn)練詞向量后,能夠得到尺寸為n×k的二維矩陣,其中n為語料中獨特的詞的個數(shù),k為模型設(shè)定的詞向量維度.

        1.2 基于TextCNN的情緒分類模型

        TextCNN是融合詞向量嵌入的針對文本進行分類的CNN,是由Kim[33]提出的短文本分類模型,是目前性能最好的自然語言處理模型之一.TextCNN能夠高效地從語料中捕獲到對應(yīng)特征,由嵌入層、卷積層、池化層和一個全連接層構(gòu)成,如圖1所示.

        圖1 TextCNN網(wǎng)絡(luò)結(jié)構(gòu)圖

        在嵌入層,每個詞與經(jīng)由Word2Vec模型訓(xùn)練得到的k維詞向量一一對應(yīng),于是一個由n個詞構(gòu)成的句子將會作為一個n×k的詞向量矩陣輸入.卷積層會通過多個卷積核對詞向量矩陣進行卷積,每一個卷積核都是k×l的矩陣,其中l(wèi)是卷積核的大小.每個卷積核從第1個詞開始卷積n-l+1次,每一次卷積時起點向后推移一個詞,第i次卷積的過程如式(1)所示:

        θi=f(C*Wordi:i+l-1+b) .

        (1)

        其中:θi是一個l維的向量;C是卷積核;Wordi:i+l-1是第i個至第i+l-1個連續(xù)的詞向量構(gòu)成的小矩陣;b是卷積核的偏置;f是一個非線性的激活函數(shù).因此,卷積核的大小l實際上也表示了卷積核提取的特征范圍,l=1時卷積核提取單個詞的特征,l>1時卷積核則能夠提取長度為l的詞組的特征.

        因此,一個長度為n的句子經(jīng)一個大小為l的卷積核卷積后,可以得到一個(n-l+1)×l維的向量,并輸入到池化層中進行池化.池化是一個特征提取和數(shù)據(jù)降維的過程,本文使用Max-pooling方式,即對于每個卷積后得到的向量,都取其最大值作為特征并輸出至全連接層.由此,每一個卷積核卷積得到的向量經(jīng)過池化后都會輸出一個特征值,即無論文本長度是否相同,經(jīng)過卷積和池化后,都會變成一個特征值輸出,即池化層最終能夠得到一個m維的向量V,其中m為卷積核的個數(shù),與句子長度n無關(guān).這個向量V即是全連接層的輸入.在本文的TextCNN中,全連接層具有2個輸出神經(jīng)元,并且使用softmax作為輸出層的激活函數(shù)來進行分類,softmax函數(shù)如式(2)所示:

        (2)

        其中outj是第j個輸出節(jié)點的值.則每個節(jié)點的softmax值代表句子最后被分為該類的概率分布,模型選取概率更高的類作為最后的分類結(jié)果.

        此外,經(jīng)模型分類后,通過計算每日正向帖子的占比,就可量化每日的投資者積極度,如式(3)所示:

        (3)

        其中:SI分布在區(qū)間[0,1]內(nèi),它反映了股民對股票市場的看漲或看跌的積極度;xp為當(dāng)日正向評論的數(shù)量;xn為當(dāng)日負(fù)向評論的數(shù)量.

        1.3 基于TF-IDF和LDA的TLDA主題模型

        1.3.1 LDA主題建模

        LDA主題模型是能夠描述語料庫中主題特征的一個生成模型.通過詞袋方法,將每個待分析的文檔以向量的形式表示,向量的維數(shù)即為獨立的詞數(shù),每個維度代表對應(yīng)詞在該文本中的詞頻.

        基于貝葉斯模型,LDA使用一個聯(lián)合分布計算潛在變量——主題的概率分布,從而將每個文檔轉(zhuǎn)化為一個多維向量,向量的維數(shù)即為預(yù)先設(shè)定的主題個數(shù),每個維度代表文檔屬于該主題的概率分布,同時每個主題的關(guān)鍵詞和詞的概率分布也可通過模型得到.并且由于主題關(guān)鍵詞的產(chǎn)生不依賴具體的文檔,因此文檔的主題分布和主題的關(guān)鍵詞分布是相互獨立的.

        1.3.2 基于TF-IDF對LDA的改進

        傳統(tǒng)LDA模型使用詞袋模型對文檔中的每個詞編碼并輸入模型,這種編碼方式僅以詞頻表示文檔中詞的占比,難以表達詞的獨特性,可能會導(dǎo)致主題的過度相似.針對這個問題,本文引入TF-IDF與LDA組合成TLDA來優(yōu)化編碼方式.TF-IDF是一種加權(quán)方式,用以評估詞對于一個語料庫中的其中一個文檔的重要程度.詞的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比減少.一個詞的TF-IDF值越大,說明此詞具有很好的類別區(qū)分能力,適合用來分類.

        TF-IDF實際上是term frequency(TF)與inverse document frequency(IDF)的乘積,如式(4)所示:

        (4)

        (5)

        tfidfi,j=tfi,j×idfi,j.

        (6)

        其中:|D|表示語料中的文檔總數(shù);|j:ti∈dj|表示包含該詞語的文檔數(shù)目.

        由此,可得到每個詞在各個文檔中的TF-IDF值,用代替詞頻作為LDA的輸入,模型能夠更好地捕獲文檔的主題特征.

        1.4 基于LSTM的預(yù)測模型

        長短時記憶(LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種.RNN具有記憶環(huán)節(jié),將時間序列中前面的數(shù)據(jù)特征記錄下來作為后面數(shù)據(jù)的特征之一,相比于其他神經(jīng)網(wǎng)絡(luò)模型能夠更好地處理序列數(shù)據(jù).但RNN的循環(huán)結(jié)構(gòu)會導(dǎo)致處理長序列數(shù)據(jù)時前面的數(shù)據(jù)中的無用特征被長期記錄,從而發(fā)生梯度消失或梯度爆炸問題.針對這一問題,LSTM在RNN中加入了遺忘環(huán)節(jié),對長序列中的不重要信息進行遺忘.

        每個LSTM節(jié)點包含一個輸入門ig,一個輸出門og,一個遺忘門fg和一個記憶單元mu.在時刻t時,LSTM基于輸入數(shù)據(jù)int和上一時刻的隱藏狀態(tài)ht-1對目前時刻的隱藏狀態(tài)ht進行更新,并向下一時刻傳遞.更新過程如下式所示:

        igt=γ(Uigint+Wight-1+big) ;

        (7)

        fgt=γ(Ufgint+Wfght-1+bfg) ;

        (8)

        ogt=γ(Uogint+Woght-1+bog) ;

        (9)

        mut=fgt⊙mut-1+igt⊙

        δ(Umuint+Wmuht-1+bmu);

        (10)

        ht=ogt⊙δ(mut) .

        (11)

        其中:{Uig,Ufg,Uog,Umu,Wig,Wfg,Wog,Wmu}是各節(jié)點的權(quán)重矩陣,U為輸入門的權(quán)重矩陣,W為隱藏狀態(tài)的權(quán)重矩陣;{big,bfg,bog,bmu}為對應(yīng)的偏置;γ和δ分別是sigmoid和tanh激活函數(shù);⊙表示矩陣的點乘.

        LSTM的單元結(jié)構(gòu)和每個時刻LSTM更新過程如圖2所示.

        圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖

        2 基于東方財富網(wǎng)股吧和上證指數(shù)的實證研究

        上證指數(shù)是以上海證券交易所掛牌上市的全部股票為計算范圍,以發(fā)行量為權(quán)數(shù)的加權(quán)綜合股價指數(shù),能夠很好地反映中國的股市行情.本文基于東方財富網(wǎng)股吧,以上證指數(shù)為例,探究輿情因素在中國股市中的影響,并對輿情因素對于股市預(yù)測的輔助效果進行研究.

        2.1 基于論壇發(fā)言的多角度輿情分析

        東方財富網(wǎng)股吧(https://guba.eastmoney.com/)是中國最大的投資者交流論壇,每天都有大量活躍用戶在論壇中發(fā)表自己對股市的看法.這些數(shù)據(jù)表現(xiàn)了最真實的一般投資者的輿論,對論壇中的投資者發(fā)言進行分析整理,就能夠捕獲到股票市場中的個體投資者情緒.

        本文使用Python爬蟲技術(shù)從東方財富股吧的上證指數(shù)板塊中獲取到2020年1月16日至2021年10月15日共421個交易日的全部帖子,經(jīng)數(shù)據(jù)清理去除重復(fù)發(fā)言和空白帖子后,得到共計1 316 971條文本數(shù)據(jù)用于文本分析.為了了解個體投資者的關(guān)注重點,將語料進行分詞、去除停用詞后,進行詞頻統(tǒng)計以獲取關(guān)鍵詞.高頻詞詞頻如表1所示,詞云如圖3所示.

        表1 股吧發(fā)言詞頻Table 1 Word frequency of Guba

        圖3 股吧發(fā)言詞云圖

        由表1和圖3可以看出,首先,股市的整體行情和個股表現(xiàn)都是投資者們關(guān)注的重點,股市整體的表現(xiàn)和市場中資金的流向都是投資者們議論的核心主題.其次,在投資者樂觀程度方面,下跌等悲觀詞匯的出現(xiàn)次數(shù)遠高于上漲等樂觀詞匯的出現(xiàn)次數(shù),說明投資者整體情緒較為悲觀.

        2.1.1 基于TextCNN情感分類模型的二元語義分析

        在本文所獲取到的語料中,經(jīng)分詞、去除停用詞后可以得到237 458個獨特的詞,但絕大多數(shù)詞語只在語料庫中出現(xiàn)了一兩次,對于詞向量訓(xùn)練用處不大,且嚴(yán)重拖慢訓(xùn)練速度.故在基于Word2Vec的語料數(shù)值化過程中,為了提高模型學(xué)習(xí)效率,過濾掉了詞頻在10以下的詞,將余下的36 348個獨特的詞訓(xùn)練成了36 348個150維的詞向量.

        在嵌入層中,每個詞與其訓(xùn)練得到的詞向量一一對應(yīng),未訓(xùn)練詞向量的詞均以一個150維的0表示,由此得到一個尺寸為(237 458,150)的嵌入層,將文本轉(zhuǎn)化為(n,150)維的矩陣輸入至卷積層,其中n是句子的長度.此外,為了防止句子太短而無法卷積,設(shè)定n最小為7,無內(nèi)容部分用0填充.在卷積層,分別使用尺寸為2, 3, 4, 5的卷積核各64個對輸入矩陣進行卷積,卷積后可得到256個特征向量.在池化層中,通過Max-pooling方式,從每個特征向量中得到一個特征值,由此,每個句子都會被轉(zhuǎn)化為一個256維的特征向量.由于模型將進行二元語義分類,全連接層的輸出節(jié)點數(shù)應(yīng)為2,分別代表積極、消極,為了防止訓(xùn)練數(shù)據(jù)中出現(xiàn)數(shù)據(jù)錯誤,另加一個輸出節(jié)點以剔除異常數(shù)據(jù),由此構(gòu)建一個尺寸為256×3的全連接層,并使用softmax函數(shù)作為激活函數(shù),最終完成文本分類.

        為了訓(xùn)練TextCNN模型,本文從獲取到的文本數(shù)據(jù)中隨機選取5 000條并對其進行人工標(biāo)記,將積極的帖子內(nèi)容標(biāo)記為1,消極的內(nèi)容標(biāo)記為0.標(biāo)記后的文本中的80%作為訓(xùn)練集對模型進行訓(xùn)練,并用剩余的20%作為測試集,驗證模型的分類性能,同時使用one-hot encoding和梯度提升決策樹(GBDT)模型進行對比.模型訓(xùn)練結(jié)果如表2所示.

        結(jié)果表明Word2Vec和TextCNN的組合展現(xiàn)了更高的分類準(zhǔn)確度,85.4%的準(zhǔn)確度足以支持下一步的情緒量化.

        圖4展示了每日量化投資者積極度的分布,投資者積極度整體接近正態(tài)分布,集中于0.1至0.16之間,即每日看漲的投資者發(fā)言經(jīng)常僅占當(dāng)日發(fā)言的20%以下.這表明了在社交平臺上,股民們對股市表現(xiàn)普遍不滿,悲觀情緒占據(jù)輿論的主導(dǎo),這也符合投資者普遍期望獲得更高收益的心理.

        表2 分類器性能Table 2 Classifier performance

        圖4 投資者積極度分布

        進一步觀察投資者積極度與股市的關(guān)系,如圖5所示,以2021年為例,可以看出投資者積極度的量化曲線與股市的漲跌具有良好的擬合效果,這說明投資者積極度受到股市表現(xiàn)影響,且?guī)缀鯖]有滯后,表示投資者在當(dāng)日內(nèi)即會對股市變動做出迅速反應(yīng),并在社交媒體中產(chǎn)生反饋.同時在部分區(qū)間,情緒的變動快于股市變動,說明投資者情緒能夠預(yù)示或影響股市的變動.

        圖5 投資者積極度和股市漲跌曲線圖

        2.1.2 基于TLDA的主題分析

        在TLDA模型中,通過多次實驗的方式選擇合適的主題數(shù),最終本文選取了4個主題,表3展示了主題劃分的結(jié)果以及對應(yīng)的關(guān)鍵詞,關(guān)鍵詞由主題內(nèi)獨特的高頻詞組成.

        表4展示了4個主題的描述性統(tǒng)計,主題的最小值和最大值說明,每日的投資者發(fā)言中不一定都存在所有主題,有一些可能只存在一個主題.

        圖6為每月的主題分布以及股市指數(shù)的平均值曲線.受新冠疫情影響,2020年中國股市整體處于動蕩之中,第一季度疫情爆發(fā)使經(jīng)濟受挫,股市持續(xù)下跌,第二季度開始疫情有所控制,經(jīng)濟回暖,股市大幅反彈,而2021年中國股市并無大幅度波動,以平穩(wěn)震蕩為主.對比主題分布與股指可以看出,首先,主題1在早期股市動蕩時期出現(xiàn)較少,2020年7月后和2021年第一季度分布較多,說明投資者對大盤的關(guān)注更多在股市平穩(wěn)震蕩時期.其次,主題2在除了新冠肺炎疫情爆發(fā)期之外均占據(jù)投資者輿論的主體地位,說明個股的表現(xiàn)始終是股民們關(guān)注和討論的重點.最后,在2020年的股市動蕩階段,主題3和主題4的分布較高,其中在2020年初的疫情爆發(fā)期和7月的股市暴漲期出現(xiàn)最多,但在2021年第一季度股市平穩(wěn)時逐漸消失,說明在動蕩時期,投資者會更關(guān)注股市變動,也會進行更多有關(guān)投資行為的討論.

        表3 TLDA主題建模結(jié)果Table 3 Results of TLDA topic modeling

        表4 主題分布的描述性統(tǒng)計Table 4 Descriptive statistics of topic distribution

        2.1.3 量化情緒與股市的相關(guān)性分析

        為了進一步探尋量化情緒與股市之間的關(guān)系,本文分析了投資者積極度、主題向量這些量化情緒與股市的次日收盤價的相關(guān)性.同時還分析了量化情緒與能夠表示投資者行為的當(dāng)、次日成交量、成交額、換手率之間的相關(guān)性以探尋情緒與投資者行為之間的關(guān)系.相關(guān)分析結(jié)果如圖7所示,其中**表示兩變量在置信度(雙測)為0.01時顯著相關(guān).

        圖6 主題分布和股指曲線圖

        從圖7可以看出,在投資者行為方面,投資者積極度、主題1和主題3與當(dāng)、次日的3個表示投資者行為的指標(biāo)均顯著相關(guān),這表示投資者情緒與投資者行為之間有緊密的聯(lián)系,投資者積極度和投資者對部分主題的關(guān)注度能夠反映出當(dāng)日投資者所進行的投資操作,同樣這些量化情緒也能夠預(yù)示次日投資者將要進行的投資操作.此外,量化情緒與次日行為指標(biāo)的相關(guān)系數(shù)均大于與當(dāng)日行為指標(biāo)的相關(guān)系數(shù),說明投資者的情緒因素具有更高的投資行為預(yù)示性.其中投資者積極度和主題1與表示投資者行為的指標(biāo)顯著正相關(guān),說明投資者在進行投資行為時會表現(xiàn)出較高的積極度,也會進行更多關(guān)于股市的討論,同時投資者對股市的關(guān)注和較高的積極情緒也能夠促進次日的投資行為.同時主題3與股市的行為指數(shù)顯著負(fù)相關(guān),說明股市動蕩和對牛市的鼓吹會使得投資者對投資行為更為慎重.

        在股指方面,投資者積極度、主題1、主題2與次日收盤價正相關(guān),主題3、主題4與次日收盤價負(fù)相關(guān),LDA結(jié)果和投資者積極度都與次日收盤價顯著相關(guān),且其中LDA結(jié)果的相關(guān)系數(shù)更高.這些結(jié)果說明了投資者情緒能夠通過某種形式去影響股市,將投資者情緒分析量化并加入回歸模型中能夠提高模型對股市的解釋能力.并且,LDA結(jié)果的相關(guān)系數(shù)遠高于投資者積極度的相關(guān)系數(shù),說明采用多角度輿情分析的量化結(jié)果遠優(yōu)于單獨的情感二元極性分析.在所有主題中,主題1和主題3與各指標(biāo)的相關(guān)系數(shù)更大,說明與股市整體表現(xiàn)相關(guān)的主題更能夠反映投資者行為.

        圖7 相關(guān)分析結(jié)果

        2.2 基于LSTM的股市預(yù)測多角度情緒分析

        基于前文的投資者輿情分析,各量化情緒都與股市次日收盤價之間表現(xiàn)出了顯著的相關(guān)性,說明這些量化情緒的引入能夠提升預(yù)測模型的預(yù)測能力.為進一步分析情緒在股市預(yù)測中的作用,本節(jié)將LSTM作為初始模型,使用2020年至2021年兩年的數(shù)據(jù)進行驗證.

        作為對照,本文構(gòu)建3個LSTM模型并對次日的上證指數(shù)收盤價進行預(yù)測(見表5).模型1,不添加任何量化情緒,只使用股市歷史數(shù)據(jù)的LSTM模型.模型2,在模型1的基礎(chǔ)上添加基于TextCNN文本分類模型量化得出的投資者積極度作為預(yù)測特征值的單角度輿情分析LSTM(SA-LSTM)模型.模型3,對文本進行多角度輿情分析,使用投資者積極度、基于TLDA模型量化得到的主題分布和股市歷史數(shù)據(jù)進行預(yù)測的MSA-LSTM.

        表5 預(yù)測模型誤差值Table 5 Error value of the prediction model

        本文使用2020/01/16至2021/08/09的379個交易日的數(shù)據(jù)對這3個模型分別進行訓(xùn)練,并使用2021/08/10至2021/10/15的42個交易日的數(shù)據(jù)作為測試集,驗證3個模型的性能.圖8是3個模型的擬合曲線圖.從圖8可以看出,考慮輿情因素的預(yù)測模型的擬合效果更加優(yōu)秀,其中使用多角度輿情分析能夠進一步提升模型的預(yù)測性能.表5是3個模型在測試集上的誤差,輿情因素的加入使模型的均方誤差降低了38%,從多角度考慮投資者情緒能進一步將均方誤差降低至LSTM的41%.這表示考慮輿情因素能夠完善預(yù)測模型,投資者輿情因素的加入能夠增加模型的可解釋性,使模型結(jié)構(gòu)更加貼近現(xiàn)實,并且本文提出的多角度輿情量化能夠更全面地對投資者行為進行分析.

        圖8 預(yù)測擬合曲線

        3 結(jié) 語

        研究結(jié)果表明投資者輿情因素與我國股市具有顯著的相關(guān)性,加入多維輿情因素能大幅減少預(yù)測模型的誤差,對我國股市有較好的預(yù)測效果.

        在中國投資者網(wǎng)絡(luò)論壇中,大盤的整體情況、個股的表現(xiàn)以及市場中的資金流向等宏觀信息是投資者關(guān)注的重點.同時股民們對股市的表現(xiàn)普遍不滿,悲觀詞匯占據(jù)輿論的主導(dǎo).

        對投資者積極度量化結(jié)果表明,股市情緒普遍消極,僅有不到20%的積極評論,將投資者積極度與股市漲跌對比,投資者情緒的變動與股市變動趨勢基本一致,表明投資者情緒與股市變動互相影響.對投資者發(fā)言的主題建模結(jié)果表明,相較于股市整體表現(xiàn),投資者更經(jīng)常關(guān)注個股的實際情況,并且在股市劇烈動蕩時期,投資者會進行更多的投資相關(guān)討論,在股市平穩(wěn)時期,股市整體表現(xiàn)則是投資者熱議的話題.

        相關(guān)分析結(jié)果表明,多個量化情緒均與次日的股市收盤價顯著相關(guān),說明了投資者情緒能夠通過某種形式去影響股市,量化情緒的引入能夠提升預(yù)測模型的預(yù)測能力.此外,在投資者行為方面,投資者的情緒積極度和對股市整體以及投資行為的關(guān)注度與代表股市行為的指標(biāo)顯著相關(guān),說明情緒因素能夠?qū)墒械姆抢硇袁F(xiàn)象作出解釋,投資者的樂觀程度和關(guān)注重點會對投資者行為產(chǎn)生影響.

        基于LSTM預(yù)測模型進一步分析投資者量化情緒在股市預(yù)測中的作用發(fā)現(xiàn):首先,考慮輿情因素可使模型預(yù)測的MSE降低38%;其次,與傳統(tǒng)的情緒二元分析量化相比,本文提出的多角度輿情量化方法對預(yù)測模型的優(yōu)化效果更好,MSE降低至LSTM模型的41%.說明多角度的輿情分析能夠使模型更全面地解釋股市中的投資者非理性行為,投資者的情緒積極度和關(guān)注重點都能夠?qū)墒蓄A(yù)測起到輔助作用.

        猜你喜歡
        輿情股市投資者
        投資者
        聊聊“普通投資者”與“專業(yè)投資者”
        新興市場對投資者的吸引力不斷增強
        中國外匯(2019年7期)2019-07-13 05:45:04
        股市日歷
        股市日歷
        股市日歷
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        股市日歷
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        亚洲国产精品一区二区久| 中文字幕 亚洲精品 第1页| av无码av天天av天天爽| 天天爽天天爽天天爽| 中文字幕亚洲无线码a| 中文字幕人妻av一区二区| 亚洲国产日韩a在线乱码| 无码av免费一区二区三区试看| 亚洲AV秘 无码一区二区三区1 | 亚洲午夜经典一区二区日韩| 国产精品毛片va一区二区三区| 国产成人亚洲精品无码h在线| 免费一级a毛片在线播出| 国产视频在线观看一区二区三区| 国产精品久久久爽爽爽麻豆色哟哟| 在线永久免费观看黄网站| 久久亚洲国产精品五月天| 国产亚洲中文字幕一区| 丰满少妇a级毛片| 精品性影院一区二区三区内射| 亚洲精品一品二品av| 日韩极品视频免费观看| 亚洲人成影院在线观看| 无码精品色午夜| 国产女主播福利一区二区| 蜜臀av在线观看| 无码国产精品一区二区vr老人| 精品人妻av区乱码| 日本a级一级淫片免费观看| 性欧美老人牲交xxxxx视频| 天天躁日日躁狠狠躁一区| 国产av精品一区二区三区不卡| 少妇性l交大片7724com| 秋霞鲁丝片av无码| 国产亚洲高清在线精品不卡| 成人免费av色资源日日| 18禁真人抽搐一进一出在线| 亚洲中文字幕无码久久2018| 日韩国产自拍视频在线观看| 亚洲av无码电影在线播放| 亚洲人成网站77777在线观看|