亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于股吧情感本體與傳播的股市短線預(yù)測*

        2020-11-02 12:13:32趙明清趙義軍
        經(jīng)濟(jì)數(shù)學(xué) 2020年3期
        關(guān)鍵詞:詞匯文本情感

        高 森,趙明清,趙義軍

        (山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)

        1 引 言

        影響股市走向的因素有很多,其中包括宏觀經(jīng)濟(jì)形勢、當(dāng)前政策、企業(yè)策略、股民情感等[1],前三者均是對整個行業(yè)的長期影響且在短時間內(nèi)少有較大變動,難以基于此對股市的走向進(jìn)行預(yù)測.而在面對復(fù)雜且具有不確定性的股市投資決策問題時,股民情緒很容易受到自身以及外部的影響,包括公開新聞、小道消息、股市短線走勢動蕩、其他股民言論等,在短時間內(nèi)變化較大,且在一定程度上也反映了前三者的變化影響.但是,其影響來源五花八門真假難辨,單一股民獲取的信息有限,面對各類信息無法快速有效地做出正確判斷,極易對股民的投資造成無法挽回的損失.

        隨著互聯(lián)網(wǎng)+時代的到來,大數(shù)據(jù)概念深入人心,越來越多的互聯(lián)網(wǎng)用戶嘗試通過大數(shù)據(jù)手段來挖掘數(shù)據(jù)背后的深層含義.據(jù)2019年中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì)顯示,截至2019年6月,我國互聯(lián)網(wǎng)用戶已有8.54億人,普及率達(dá)61.2%,其中移動互聯(lián)網(wǎng)用戶有8.47億[2].互聯(lián)網(wǎng)用戶的激增使各類社交媒體飛速發(fā)展,人們更樂于足不出戶,在網(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn),交流彼此的心得.

        股吧作為股民的專業(yè)社交平臺,包括股票推薦、走勢分析、個股研究等不同板塊,雖然有專業(yè)人士的指導(dǎo)意見,但更多的是普通股民發(fā)表的觀點(diǎn)看法.對于股民而言,專業(yè)性很強(qiáng)的股吧就是其獲取、交流信息的重要“根據(jù)地”,股民在其中發(fā)帖表達(dá)自己的觀點(diǎn),同時也瀏覽別人的帖子接收他人想法,更新自己的觀點(diǎn),這就體現(xiàn)了其對股市的情感表達(dá).當(dāng)股民的情感表達(dá)經(jīng)過“從眾”心理和“跟風(fēng)”心理的放大,會逐漸發(fā)展成總體趨于一致的群眾情感表達(dá),最終對股市走向產(chǎn)生影響.一個典型的案例就是發(fā)生在2016年1月4日的“千股熔斷”事件,兩次熔斷后的提前休市沖擊導(dǎo)致在接下來的幾天時間里,恐懼驚慌的情緒在股民中蔓延,大量投資者從眾跟風(fēng)拋售股票,近2000股跌停,股市震蕩持續(xù)數(shù)月后隨著股民情緒穩(wěn)定而趨于平緩.

        由于股民基數(shù)大、情緒復(fù)雜多樣且具有不確定性,收集股民情緒并進(jìn)行有效量化就是分析研究股民情感與股市走勢之間關(guān)系的首要問題.現(xiàn)有的情緒量化指標(biāo)主要有直接情感指數(shù)和間接情感指數(shù)[3]:直接情感指數(shù)通常由調(diào)查問卷的形式收集情感計(jì)算得出,由于中國股民基數(shù)過于龐大且參與積極性不一,收集的情緒難以代表真實(shí)的情感;間接情感指數(shù)由專家選取間接指標(biāo)來代替股民情感計(jì)算得出,包括封閉式基金折價(jià)率、成交量等,但由于選取指標(biāo)的范圍無法固定,間接情感指數(shù)也難以準(zhǔn)確表達(dá)股民情感.

        而基于文本情感分析的方法則直接以股吧文本作為數(shù)據(jù)來源,使用情感分析技術(shù)量化股民情感,從而有效避免直接情感指數(shù)和間接情感指數(shù)中出現(xiàn)的問題[4].在大數(shù)據(jù)技術(shù)的支持下,收集一段時期內(nèi)所有股民的情感表達(dá),進(jìn)行文本情感分析,可以得到這段時期的股民情感信息,進(jìn)而考察股吧文本中蘊(yùn)含的股民情感對股市短線走勢的影響變化.

        2 研究現(xiàn)狀

        現(xiàn)有的情感分析技術(shù),主要基于機(jī)器學(xué)習(xí)技術(shù)或統(tǒng)計(jì)語義方法[5].基于機(jī)器學(xué)習(xí)技術(shù)的情感分析技術(shù)需要大量語料庫的支持來對訓(xùn)練樣本進(jìn)行反復(fù)訓(xùn)練,其效率較低;基于統(tǒng)計(jì)語義方法的情感分析技術(shù)需要一個相對完整且專業(yè)的詞庫支持,在前期構(gòu)建方面要花費(fèi)較長時間.

        在國外,情感分析技術(shù)興起于20世紀(jì)90年代.Riloff等(1997)提出了一種基于語料庫的方法,可以用來構(gòu)建語義詞典的具體類別[6].Hatzivassiglouv等(1997)認(rèn)為形容詞表達(dá)的情感會受到前后修飾詞的影響,并以此為依據(jù)對英文文本做出情感傾向判斷[7].Turney等(2003)將點(diǎn)互信息法(Pointwise Mutual Information,PMI)引入到情感分析中,用于判斷詞義的褒貶性[8].Martineau等(2009)使用TF-IDF法來計(jì)算詞匯權(quán)重,構(gòu)建情感詞典進(jìn)行情感分析[9].Hassan等(2017)提出使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短時記憶模型(LSTM)進(jìn)行情感分析,實(shí)驗(yàn)結(jié)果要優(yōu)于傳統(tǒng)的方法[10].

        在國內(nèi),因?yàn)橹形南噍^于英文的特殊性,例如分詞困難、詞意模糊程度高,情感分析技術(shù)還處在一個探索的階段.近年來,朱嫣嵐等(2006)提出了基于Hownet的語義傾向方法,通過計(jì)算詞匯與Hownet基準(zhǔn)詞之間的相似度來對詞匯進(jìn)行相應(yīng)賦值,進(jìn)而判別文本的情感極性[11].李鈍等(2008)則是在Hownet詞庫的基礎(chǔ)上,再次建立種子詞庫,將詞匯與種子詞匯進(jìn)行相似度計(jì)算來確定詞匯的情感類別[12].柳位平等(2009)也是以Hownet為基礎(chǔ)建立中文情感詞典,使用TF-IDF法來計(jì)算詞匯權(quán)重并進(jìn)行賦值,實(shí)驗(yàn)結(jié)果顯示新詞典的準(zhǔn)確性要優(yōu)于Hownet基礎(chǔ)詞典[13].陳曉東(2012)使用點(diǎn)互信息法獲得新情感詞來擴(kuò)充原始詞庫,同時考慮到文本中感嘆號、特殊表情、否定詞以及副詞的情感表達(dá),通過加權(quán)計(jì)算獲得文本的情感傾向[14].徐小陽等(2018)利用文本挖掘技術(shù)處理金融文本輿情信息,進(jìn)而考察投資者情緒對投資決策的影響[15].

        目前在情感分析技術(shù)上國內(nèi)外學(xué)者均取得了一定成果,一些學(xué)者也將此技術(shù)應(yīng)用于股票的預(yù)測方面.Antweiler等(2004)研究了Yahoo!上發(fā)布的150萬條消息的影響,發(fā)現(xiàn)社交媒體上的股票消息有助于預(yù)測市場波動[16].Schumaker等(2009)更新了專業(yè)名詞詞庫,使用支持向量機(jī)(SVM)分析估計(jì)一篇新聞發(fā)布20分鐘后的離散股票價(jià)格,發(fā)現(xiàn)使用專業(yè)名詞詞庫比使用原始詞庫的預(yù)測效果要好[17].王超等(2009)將金融信息作為外部變量加入時間序列模型中進(jìn)行預(yù)測,發(fā)現(xiàn)股票的價(jià)格波動與金融信息有密切關(guān)系[18].宋澤芳等(2012)通過構(gòu)建情緒變量分析情緒與股票價(jià)格之間的關(guān)系,發(fā)現(xiàn)我國A股市場上規(guī)模大、波動率高、市凈率高的股票更易受股民情緒所影響[19].吳玉霞等(2016)通過建立ARIMA模型對"華泰證券"250期的股票收盤價(jià)進(jìn)行了短期股市預(yù)測,效果良好[20].趙明清等(2019)引入了詞匯頻數(shù)調(diào)整函數(shù),綜合考慮百度指數(shù)、微博情感與微博影響力,用信息增益確定微博權(quán)重建立股市加權(quán)預(yù)測SVM模型,結(jié)果表明該模型可以明顯提高預(yù)測的準(zhǔn)確率[21].

        總結(jié)目前相關(guān)研究可知,情感的表達(dá)會影響投資決策的產(chǎn)生,因此使用情感分析技術(shù)預(yù)測股市走向是可行的.現(xiàn)有的基于文本情感分析方法對投資者情緒的研究思路主要是收集帶有投資者感情色彩的文本信息,使用統(tǒng)計(jì)語義方法或機(jī)器學(xué)習(xí)技術(shù)加以整理、歸納和分析,識別文本中蘊(yùn)含的情感信息,將主觀性的文本信息量化,利用文本傾向性分析對文本情感進(jìn)行正負(fù)判定,然后分別統(tǒng)計(jì)正負(fù)情感的數(shù)量利用差值、比值或?qū)?shù)化來計(jì)算極性情感指數(shù),進(jìn)而考察投資者情緒對股市的影響.但是由于中文表達(dá)的復(fù)雜性,基于中文文本情感對投資者情緒的研究還存在以下的局限:1)情感分析中用到的情感詞典時效性差、針對性不強(qiáng),許多新興情感詞匯和針對股市的專有詞匯未被收入;2)語義表達(dá)因素考慮較少,現(xiàn)有文獻(xiàn)一般僅考慮否定詞與程度詞對情感表達(dá)的影響,而較少考慮符號語言的影響;3)僅對情感進(jìn)行正向或負(fù)向的判定而忽略了強(qiáng)度判定;4)現(xiàn)有研究大都集中在情感本體的計(jì)算上而忽略了來源的質(zhì)量問題,情緒經(jīng)過傳播與放大很容易影響大多數(shù)人的情感傾向,缺失此部分的計(jì)算會加大信息的損失.因此,本文在已有研究的基礎(chǔ)上,更新情感詞典并考慮前置詞與符號語言的影響構(gòu)建情感得分,考慮情感強(qiáng)度問題,將情感進(jìn)行量化賦值代替對情感的正負(fù)極性判斷,同時考慮情感來源的質(zhì)量與傳播問題并進(jìn)行賦分處理,構(gòu)建綜合情感指數(shù)用以評價(jià)情感波動,進(jìn)一步建立股市預(yù)測模型并與已有預(yù)測模型進(jìn)行對比分析.

        3 情感詞典構(gòu)建

        情感的識別需要使用專業(yè)的情感詞典,常用的中文情感詞典包括:知網(wǎng)(Hownet)情感詞典、大連理工情感詞匯本體庫、臺灣大學(xué)NTUSD詞庫等.以上詞庫均包括了大部分中文常見詞匯,但詞庫對金融股票專業(yè)詞匯的收入仍有不足,因此本文在這三者的基礎(chǔ)上,使用情感傾向點(diǎn)互信息算法(Semantic Orientation Pointwise Mutual Information,SO-PMI)更新金融股票專業(yè)詞匯與股票市場情感表達(dá)詞匯,提高專業(yè)詞匯識別效果.

        情感傾向點(diǎn)互信息算法的思想是尋找文本中的詞匯并與基準(zhǔn)的傾向褒貶詞組進(jìn)行對比,統(tǒng)計(jì)同時出現(xiàn)的概率,如果概率越大,也就認(rèn)為兩者相關(guān)度就越大,再根據(jù)得到的點(diǎn)互信息差值即可判斷其情感傾向[8].首先計(jì)算詞匯間的點(diǎn)互信息值:

        (1)

        其中,N為文本總數(shù),wordn是文檔中的詞匯,df(wordn)是包含wordn的文本數(shù),df(wordn&wordm)是同時包含wordn與wordm的文本數(shù).接著使用基準(zhǔn)傾向褒貶詞組與文本中的詞匯進(jìn)行對比并做差處理:

        (2)

        其中,word是需情感定位的詞匯,Pwords與Nwords是基準(zhǔn)的傾向褒貶詞組.

        (3)

        通過SO-PMI算法,將得到情感傾向定義的詞匯加入情感詞典.而股民在股吧中的情感表達(dá)按中文語言邏輯表達(dá)可分為4類:

        1)股民對經(jīng)濟(jì)形勢、行情環(huán)境、政策分析、股票漲跌所發(fā)表的專業(yè)詞匯.本文結(jié)合搜狗金融專業(yè)詞庫與人工篩選識別,新增7002個專業(yè)詞匯.目的是用于在文本預(yù)處理階段,使之能更為精準(zhǔn)的定位詞匯,提高識別效果.

        2)股民對股市的主觀情感詞匯,表達(dá)股民對股市的肯定、否定或懷疑.本文在專業(yè)論壇中爬取股民在線評論數(shù)據(jù),進(jìn)行分詞處理,使用SO-PMI算法在語料庫中篩選得到高頻情感詞匯,結(jié)合人工識別的方法,新增主觀褒義情感詞匯43個,主觀貶義情感詞匯54個.

        3)股民在進(jìn)行情感表達(dá)時語句前后所用到的程度詞匯,用來夸大削弱或翻轉(zhuǎn)情感表達(dá),使之更符合心中所想.此類詞匯知網(wǎng)(Hownet)情感詞典已收入較完整,因此不做更新修改.

        4)股民在發(fā)帖中用到的符號語言詞匯,用于輔助情感的表達(dá),本文結(jié)合搜狗原有顏文字詞庫與emoji詞庫并通過TF-IDF法在語料庫中找到股民常用特殊字符表達(dá),新增184條特殊符號語言詞匯.目的在于適應(yīng)網(wǎng)絡(luò)用語表達(dá),更為準(zhǔn)確地識別情感.

        部分新增詞匯如表1所示.

        表1 部分新增詞匯

        4 模型構(gòu)建與預(yù)測

        基于股吧文本情感分析的股市短線預(yù)測模型構(gòu)建步驟如圖1所示,包括3個部分:1)收集股民在股吧中發(fā)表的文本數(shù)據(jù),并進(jìn)行文本預(yù)處理與文本表示,通過情感分析得到以小時為變化單位的情感指數(shù);2)爬取上證綜指分時數(shù)據(jù),經(jīng)過數(shù)據(jù)整理后建立ARMA-GARCH模型;3)將情感指數(shù)作為外生變量加入ARMA-GARCH模型中進(jìn)行預(yù)測,分析情感因素與股市走向之間的關(guān)系,并與其他經(jīng)典模型進(jìn)行比較.

        圖1 基于股吧文本情感分析的股市短線預(yù)測模型構(gòu)建步驟

        4.1 文本預(yù)處理

        本文爬取東方財(cái)富網(wǎng)旗下股票社區(qū)上證指數(shù)吧(http://guba.eastmoney.com/list,zssh000001.html)2018年7月27日到2019年7月23日共計(jì)361天121322條帖子的文本數(shù)據(jù),包括發(fā)帖時間、閱讀數(shù)、評論數(shù)、發(fā)帖平臺、發(fā)帖人吧齡、發(fā)帖人等級、帖子標(biāo)題以及帖子正文內(nèi)容等.東方財(cái)富網(wǎng)作為中國訪問量最大的財(cái)經(jīng)證券門戶網(wǎng)站之一,日均頁面瀏覽量超過1億次,在股民社區(qū)影響力巨大,因此選擇此網(wǎng)站作為爬取數(shù)據(jù)的來源具有一定的代表性.

        因本文文本數(shù)據(jù)來源于互聯(lián)網(wǎng)社區(qū),相對于書面用語來說表達(dá)不規(guī)范程度大,在預(yù)處理階段需要對其進(jìn)行刪減整理,去除無用信息使之更易被機(jī)器識別分詞,包括以下步驟:

        1)進(jìn)行數(shù)據(jù)清洗,去除文本中的臟數(shù)據(jù),包括亂碼、鏈接、不常用符號等;

        2)識別文本中的特殊詞句,包括廣告、停用詞句、無意義語句等,進(jìn)行刪減;

        3)根據(jù)專用詞典進(jìn)行分詞處理;

        4)將詞匯數(shù)據(jù)進(jìn)行詞性標(biāo)注、關(guān)鍵詞采集.

        上述步驟涉及中文分詞、詞性標(biāo)注、關(guān)鍵詞采集等技術(shù).目前國內(nèi)已有較為成熟的技術(shù),如中國科學(xué)院計(jì)算技術(shù)研究的漢語詞法分析系統(tǒng)ICTCLAS、哈爾濱工業(yè)大學(xué)社會計(jì)算與信息檢索研究中心開發(fā)的“語言技術(shù)平臺LTP”以及結(jié)巴(jieba)中文分詞工具.其中,結(jié)巴中文分詞工具的優(yōu)勢在于其是完全開源的,詞庫可以由使用者進(jìn)行二次更新使用.本文即在結(jié)巴中文分詞工具自帶的分詞包中加入了股市專業(yè)詞匯,使其更適應(yīng)于專業(yè)分詞.部分處理數(shù)據(jù)如表2所示.

        表2 部分處理數(shù)據(jù)

        4.2 文本表示與特征提取

        可以看到如表2所示,語料庫中發(fā)帖時間、閱讀數(shù)、評論數(shù)等數(shù)據(jù)是單獨(dú)列出且詞性確定,機(jī)器可直接識別,只有帖子標(biāo)題以及帖子正文內(nèi)容兩項(xiàng)因中文語言的復(fù)雜性需要進(jìn)行分詞處理,這兩部分?jǐn)?shù)據(jù)經(jīng)分詞處理后用向量空間模型(Vector Space Model,VSM)[1]來表示.

        將文本集中的第i條文本按分詞結(jié)果分為多個特征項(xiàng),不同的特征項(xiàng)表示為tk(k=1,2,…,n),那么此文本即可表示為序列Ti=T(t1,t2,…,tk,…,tn),再使用布爾權(quán)重賦值匹配權(quán)值wk(k=1,2,…,n),將該文本序列表示為向量di=d(t1,w1,t2,w2,…,tk,wk,…,tn,wn)(i=1,2,…,m),簡記為di=(w1,w2,…,wk,…,wn)(i=1,2,…,m),其中wk為特征項(xiàng)tk的權(quán)重,最后將每條文本依次按以上方法表示,組成矩陣D,即為此文本集的向量空間模型.經(jīng)此完成由字符型數(shù)據(jù)到數(shù)字?jǐn)?shù)據(jù)的結(jié)構(gòu)化處理,將文本數(shù)據(jù)轉(zhuǎn)化為機(jī)器可以識別的有序數(shù)據(jù).

        但向量空間模型中文本集特征項(xiàng)的維度往往過高而不便于直接處理,因此需要進(jìn)一步降維[9]:通過TF-IDF法篩選出低頻詞匯并配合人工識別去除低頻無意義詞匯以達(dá)到降維的目的,其中TF表示詞頻,計(jì)算公式為

        (4)

        其中ni,j表示第i個特征項(xiàng)在第j條文本中出現(xiàn)的次數(shù),Nj表示第j條文本的詞條數(shù);IDF表示逆向文件頻率,由文本集中總文件數(shù)目與包含該特征項(xiàng)的文本數(shù)目的比值再取對數(shù)表示,計(jì)算公式為

        (5)

        其中N為文本集中總文件數(shù)目,Ni表示出現(xiàn)第i特征詞的文本數(shù).然后,計(jì)算TF與IDF的乘積

        TFIDFi,j=TFi,j×IDFi,j.

        (6)

        綜上,特征項(xiàng)如在特定文本中有低詞頻且在整個文本集中有高詞頻,即會有較小的TF-IDF值,也就代表這個特征項(xiàng)對情感區(qū)分沒有幫助,即可以篩選剔除.據(jù)此設(shè)定特定閾值后,TF-IDF法即可以過濾掉低于閾值的常見特征項(xiàng),從而保留重要的特征項(xiàng),向量空間模型特征項(xiàng)的維度也將大大降低,再結(jié)合人工識別,約41.67%的數(shù)據(jù)被篩除.

        4.3 情感指數(shù)計(jì)算

        文本數(shù)據(jù)經(jīng)過向量空間模型結(jié)構(gòu)化處理,可以被機(jī)器識別從而進(jìn)行情感得分計(jì)算,首先計(jì)算股民情感本體得分,步驟如下:

        1)定位di中的基本情感詞匯,包括評價(jià)詞與主觀情感詞,再以每個標(biāo)志詞為基準(zhǔn)向前定位臨近程度詞與否定詞.

        2)使用主觀情感詞匯詞典判斷情感類別并對基本情感詞匯進(jìn)行賦分,正向情感為1,負(fù)向情感為-1.

        3)使用知網(wǎng)程度詞典對程度詞、否定詞進(jìn)行賦分,對基本情感詞得分進(jìn)行放縮或轉(zhuǎn)換,規(guī)則如表3所示.

        表3 知網(wǎng)程度詞典

        4)對di中的每個基本情感詞的得分作求和運(yùn)算.

        5)判斷di是否為感嘆句,是否存在特殊符號,如果存在則在第4步得分基礎(chǔ)上進(jìn)行增減.

        6)對D中所有di得分進(jìn)行累加,即得到股民通過文本數(shù)據(jù)表達(dá)出的情感本體的量化得分Si.

        對股吧貼子數(shù)據(jù)來說,更多的閱讀評論量意味著有更多的人參與傳播,發(fā)帖人吧齡和星級越大意味著其發(fā)表的言論在相對意義上來說更為重要,普通股民也更為愿意閱讀此類貼主的文字.因此,本文選以上4個指標(biāo)來構(gòu)建情感來源質(zhì)量得分Ei,公式如下:

        Ei=ln(Nbrowse+1)×ln(Ncomment+1)×ln(Nage+1)×ln(Nstar+1).

        (7)

        其中,Nbrowse,Ncomment和Nage,Nstar分別為股吧帖子的閱讀數(shù)、評論數(shù)、發(fā)帖人的吧齡、星級.可以看到,情感表達(dá)的越激烈那么其對應(yīng)情感本體得分Si絕對值就會越大,而更高的情感來源得分Ei也就意味著這種表達(dá)的情感受到更多人的認(rèn)可,也代表了更多人的共同感受,將兩者進(jìn)行匯總得到綜合情感指數(shù):

        Xt=Si×Ei.

        (8)

        匯總一段時期內(nèi)所有的綜合情感指數(shù)并做差處理,即得到該時段的綜合情感指數(shù)變動:

        (9)

        其中p即為該時段向量空間模型D總數(shù),t為給定的時間段,計(jì)算結(jié)果如表4所示.

        表4 股吧綜合情感指數(shù)變動

        5 預(yù)測分析

        本文爬取了2019年6月10日到2019年7月22日的上證綜指分時數(shù)據(jù),包括日期、時間段、開盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)、成交額、成交量、漲跌額、漲跌幅等共124組數(shù)據(jù),并以當(dāng)期收盤價(jià)作為股票價(jià)格計(jì)算收益率,如表5所示.

        表5 上證指數(shù)數(shù)據(jù)變化

        按照4.3節(jié)計(jì)算方法,選取2019年6月10日到2019年7月22日的上證綜指股吧貼文進(jìn)行情感指數(shù)計(jì)算得到綜合情感指數(shù)Xt,由于股票價(jià)格變動大都有自相關(guān)、異方差、尖峰厚尾的特性[22],因此本文將綜合情感指數(shù)Xt作為外生變量加入ARMA-GARCH模型進(jìn)行股票走勢的預(yù)測:

        (10)

        其中,yt表示小時收益率(已驗(yàn)證其平穩(wěn)性和ARCH效應(yīng)),μt為獨(dú)立誤差項(xiàng),Xt為外生變量.

        通過建立股票價(jià)格變動與綜合情感指數(shù)變動的柱狀圖(見圖2)可以看出,股票價(jià)格變動與情感變化方向大體一致,僅因數(shù)量級差異而變化幅度有所不同,說明通過情感的變化可以看出股票價(jià)格的變化.

        圖2 股票價(jià)格變動與綜合情感指數(shù)變動柱狀圖

        作為對比,建立使用傳統(tǒng)判斷情感極性的方法計(jì)算情感得分作為外生變量的ARMA-GARCHX模型,分別計(jì)算以上模型的對數(shù)似然函數(shù)值L、AIC值、BIC值,如表6所示.

        表6 模型比較

        根據(jù)經(jīng)驗(yàn)比較擁有較大似然函數(shù)值L、較小AIC值、BIC值的綜合情感ARMA-GARCHX模型更優(yōu).然后,給出使用兩種情感分析方法得出的后4期預(yù)測結(jié)果并與真實(shí)值比較,如表7所示.

        表7 預(yù)測結(jié)果

        由此可見,使用本文提出的改進(jìn)的情感分析方法比使用傳統(tǒng)的情感極性分析方法更能對股市的短線預(yù)測做出準(zhǔn)確判斷,且預(yù)測效果有明顯提升.

        6 結(jié) 語

        從情感分析角度出發(fā),通過構(gòu)建面向股市的情感詞典,綜合考慮股民情感本體與情感傳播問題建立加權(quán)股吧文本情感傾向得分模型,分析預(yù)測股民情感與股市短線走勢之間的關(guān)系,研究結(jié)果表明:新詞典具有更強(qiáng)的適應(yīng)性,加入綜合情感得分后建立的預(yù)測模型具有更高精度.本文的創(chuàng)新點(diǎn)在于:1)使用經(jīng)更新過的專業(yè)詞庫進(jìn)行情感分析,更具針對性;2)考慮情感的強(qiáng)度問題,比傳統(tǒng)的情感分析方法更具準(zhǔn)確性;3)同時考慮情感本體和情感來源質(zhì)量問題,避免情感表達(dá)的損失.在今后的工作中可進(jìn)一步考慮提高詞匯的識別精度,擴(kuò)充專業(yè)詞庫,考慮更多的傳播影響因素,最終建立一個比較完善的中文語義股市情感分析系統(tǒng).

        猜你喜歡
        詞匯文本情感
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長,保持獨(dú)立
        一些常用詞匯可直接用縮寫
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产一区二区三区蜜桃| 成在人线av无码免费| 国产精品无码久久久久免费AV | 久久精品成人一区二区三区蜜臀| 99久久99久久久精品蜜桃| 国产狂喷潮在线观看| 亚洲性无码av在线| 欧洲无码一级毛片无遮挡| 国产一区二区av在线免费观看| 男人的天堂av网站| 久久亚洲精品ab无码播放| 亚洲色拍拍噜噜噜最新网站 | 国产精品国产三级国产av中文| 国产精品成人久久电影| 手机看片福利盒子久久青| 一本大道加勒比东京热| 国产极品少妇一区二区| 男女车车的车车网站w98免费| 日本午夜国产精彩| 亚洲专区一区二区三区四区五区| 无码精品人妻一区二区三区漫画| 国产精品久久久久久久免费看| 亚洲 无码 制服 丝袜 自拍| 日韩一区二区av伦理| 日本久久久久亚洲中字幕| 韩国v欧美v亚洲v日本v| 国产精品,在线点播影院| 中文字幕一区久久精品| 日本中文字幕一区二区高清在线| 999国产精品视频| 国产美女冒白浆视频免费| 一本到在线观看视频| 国产在线不卡一区二区三区 | 青青草视频网站免费看| 强开小婷嫩苞又嫩又紧视频韩国| 欧美人与动人物牲交免费观看 | 国产人妖乱国产精品人妖| 亚洲精品国偷自产在线99正片| 天堂AV无码AV毛片毛| 男女调情视频在线观看| 无码av天堂一区二区三区|