亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合微博情感分析和深度學(xué)習(xí)的宏觀經(jīng)濟(jì)預(yù)測方法

        2018-12-14 05:30:50趙軍豪李玉華李瑞軒辜希武
        計(jì)算機(jī)應(yīng)用 2018年11期
        關(guān)鍵詞:情感分析方法

        趙軍豪,李玉華,霍 林,李瑞軒,辜希武

        (1.華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430074; 2. 廣西大學(xué) 中國-東盟區(qū)域發(fā)展協(xié)同創(chuàng)新中心,南寧 530004)(*通信作者電子郵箱idcliyuhua@hust.edu.cn)

        0 引言

        經(jīng)濟(jì)預(yù)測方法的研究經(jīng)過多年的發(fā)展,已經(jīng)出現(xiàn)了大量的預(yù)測模型。這些模型分為兩大類:一種是基于時(shí)序的方法,主要包括移動平均法、趨勢外推法等;另一種是基于因果的方法,主要包括回歸分析、馬爾可夫預(yù)測、人工神經(jīng)網(wǎng)絡(luò)等;另外深度學(xué)習(xí)的發(fā)展使得復(fù)雜系統(tǒng)的擬合更加準(zhǔn)確?;ヂ?lián)網(wǎng)的快速發(fā)展和中國網(wǎng)民的快速增加,使得人們產(chǎn)生信息和獲取信息的方式和規(guī)模都發(fā)生了變化,使用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行預(yù)測模型的修正成為研究的熱點(diǎn),已經(jīng)有不少研究證實(shí)實(shí)時(shí)的互聯(lián)網(wǎng)數(shù)據(jù)能夠用于經(jīng)濟(jì)活動預(yù)測,并且起到積極的作用。

        本文的主要貢獻(xiàn)如下:

        1)提出了一種融合微博情感分析和深度學(xué)習(xí)的預(yù)測方法SA-LSTM(Long Short-Term Memory based on Weibo Sentiment Analysis), 該方法利用微博解決統(tǒng)計(jì)數(shù)據(jù)的滯后性問題,利用長短期記憶(Long Short-Term Memory, LSTM)及其變形構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來擬合具有時(shí)序關(guān)系的復(fù)雜宏觀經(jīng)濟(jì)系統(tǒng)。

        2) 在不同數(shù)據(jù)集上,利用差分自回歸移動平均模型(Autoregressive Integrated Moving Average model, ARIMA)、線性回歸(Linear Regression, LR)、反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network, BPNN)、LSTM網(wǎng)絡(luò)和SA-LSTM分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,SA-LSTM能夠明顯減小預(yù)測的相對誤差,有較強(qiáng)的泛化能力。

        1 相關(guān)工作

        國內(nèi)外有很多對宏觀經(jīng)濟(jì)預(yù)測的研究。傳統(tǒng)的經(jīng)濟(jì)預(yù)測方法,比如ARIMA、線性回歸等,存在很大的局限性:ARIMA要求時(shí)序數(shù)據(jù)是穩(wěn)定的,或者差分后是穩(wěn)定的; 線性回歸對復(fù)雜的非線性系統(tǒng)擬合能力較差。針對宏觀經(jīng)濟(jì)預(yù)測中復(fù)雜非線性關(guān)系,對非線性系統(tǒng)擬合能力強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型成為國內(nèi)外宏觀經(jīng)濟(jì)預(yù)測研究的熱點(diǎn)[1]。利用BPNN建立預(yù)測模型的研究有很多:孫安黎等[2]基于BPNN構(gòu)建輸電線工程造價(jià)預(yù)測模型,利用少量樣本即能夠準(zhǔn)確地估計(jì)工程造價(jià),適用于工程前期對比方案的優(yōu)劣; 趙海華[3]結(jié)合徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)以及無偏灰色模型(Grey Model,GM)建立灰色 RBF 神經(jīng)網(wǎng)絡(luò)預(yù)測模型,并通過對安徽省財(cái)政收入數(shù)據(jù)進(jìn)行預(yù)測分析,發(fā)現(xiàn)用該模型訓(xùn)練不僅收斂速度快、泛化能力強(qiáng),而且模型精度較高; Akbilgic等[4]提出了一種混合徑向基神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)整合了嶺回歸、回歸數(shù)和徑向基神經(jīng)網(wǎng)絡(luò),通過對股票指數(shù)的日均走勢預(yù)測實(shí)驗(yàn)證明了該網(wǎng)絡(luò)在變量間具有復(fù)雜的非線性關(guān)系以及具有相互依賴性時(shí)有較好的效果。經(jīng)過多年的研究和發(fā)展,人工神經(jīng)網(wǎng)絡(luò)及其各種改進(jìn)模型仍然不能完全擺脫其易陷入局部最小值的缺陷,不能反映樣本之間的時(shí)序關(guān)系;然而這種時(shí)序關(guān)系在經(jīng)濟(jì)領(lǐng)域普遍存在,對于預(yù)測分析有很大的幫助。與此同時(shí),深度學(xué)習(xí)中LSTM在預(yù)測領(lǐng)域表現(xiàn)出極其出色的對時(shí)序數(shù)據(jù)的處理能力。陸澤楠等[5]結(jié)合近幾年鋼鐵交易價(jià)格的走勢數(shù)據(jù),訓(xùn)練LSTM模型,并與支持向量回歸模型對比分析,發(fā)現(xiàn)LSTM 神經(jīng)網(wǎng)絡(luò)可以更精確地預(yù)測鋼鐵的價(jià)格走勢;李浩等[6]用深度學(xué)習(xí)對我國1980~2015年國內(nèi)生產(chǎn)總值(Gross Domestic Product, GDP)數(shù)據(jù)建立預(yù)測模型,結(jié)果表明,基于深度學(xué)習(xí)的預(yù)測精度顯著高于ARMA、LR、指數(shù)回歸;Fu等[7]針對交通流的隨機(jī)性和非線性特征,使用LSTM和門控循環(huán)單位(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)方法來預(yù)測短期交通流量,實(shí)驗(yàn)證明基于遞歸神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法 LSTM和GRU的表現(xiàn)優(yōu)于自ARIMA模型。

        在互聯(lián)網(wǎng)快速發(fā)展的今天,互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)成為提高預(yù)測精度的積極補(bǔ)充[8]。陳衛(wèi)華等[9]利用深度學(xué)習(xí)和股吧發(fā)帖數(shù)增長率數(shù)據(jù)對滬深300指數(shù)波動率進(jìn)行樣本外預(yù)測,研究發(fā)現(xiàn)深度學(xué)習(xí)預(yù)測效果明顯好于選取的其他對比模型,另外股票論壇數(shù)據(jù)對提升波動率預(yù)測精度有所貢獻(xiàn);劉濤雄等[10]在政府統(tǒng)計(jì)變量的基礎(chǔ)上,增加互聯(lián)網(wǎng)搜索行為變量進(jìn)行GDP的預(yù)測,發(fā)現(xiàn)互聯(lián)網(wǎng)搜索行為可以提高預(yù)測精度;Huang等[11]提出了一種基于百度指數(shù)預(yù)測旅游流量的新方法,通過比較是否加入百度指數(shù),發(fā)現(xiàn)游客人數(shù)與百度指數(shù)中的一組相關(guān)關(guān)鍵詞之間存在長期均衡關(guān)系和Granger因果關(guān)系,且百度關(guān)鍵詞搜索指數(shù)與日益增長的觀光客流量呈正相關(guān)關(guān)系; Yao等[12]通過將谷歌指數(shù)作為一個(gè)外生變量納入ARIMA和自回歸移動平均線來研究谷歌指數(shù)對原油價(jià)格的影響和預(yù)測能力,實(shí)驗(yàn)結(jié)果表明,谷歌指數(shù)原油價(jià)格有負(fù)面影響,有助于提高模型預(yù)測能力。

        根據(jù)以上分析,本文結(jié)合互聯(lián)網(wǎng)微博數(shù)據(jù)以及 LSTM網(wǎng)絡(luò)提出的SA-LSTM宏觀經(jīng)濟(jì)預(yù)測方法,不僅解決了統(tǒng)計(jì)數(shù)據(jù)的滯后性問題,而且能夠很好地?cái)M合宏觀經(jīng)濟(jì)系統(tǒng)中的非線性關(guān)系和時(shí)序關(guān)系。

        2 SA-LSTM模型結(jié)構(gòu)

        本章主要介紹SA-LSTM模型結(jié)構(gòu)。首先描述了宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn),然后介紹了模型的主要構(gòu)成LSTM及其特點(diǎn),接著講述了如何利用微博進(jìn)行預(yù)測分析,最后給出了SA-LSTM模型具體結(jié)構(gòu)。

        2.1 宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)特點(diǎn)

        在宏觀經(jīng)濟(jì)預(yù)測中,數(shù)據(jù)具有這樣的特點(diǎn):

        1)可供訓(xùn)練的樣本太少。各個(gè)經(jīng)濟(jì)指標(biāo)的統(tǒng)計(jì)一般以季度或者年為單位,而且國家有明確且完整記載的數(shù)據(jù)只有十年左右。

        2)樣本間具有一定的時(shí)序關(guān)系。經(jīng)濟(jì)的發(fā)展具有一定的規(guī)律,統(tǒng)計(jì)數(shù)據(jù)能夠在一定程度上反映未來的經(jīng)濟(jì)情況。

        3)統(tǒng)計(jì)數(shù)據(jù)滯后。宏觀經(jīng)濟(jì)預(yù)測一般是以季度或者年為單位的,對于突發(fā)情況,統(tǒng)計(jì)數(shù)據(jù)不能夠及時(shí)反映。

        4)經(jīng)濟(jì)的發(fā)展具有階段性,特別是進(jìn)入21世紀(jì)以來,經(jīng)濟(jì)發(fā)展可謂是日新月異。當(dāng)前年份經(jīng)濟(jì)的發(fā)展?fàn)顩r更多地受距它較近年份的影響,較遠(yuǎn)年份的影響小。

        根據(jù)宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn),本文通過融合微博情感分析和多層LSTM網(wǎng)絡(luò)來構(gòu)建預(yù)測模型,從而很好地解決該問題。

        2.2 SA-LSTM網(wǎng)絡(luò)簡介

        RNN(Recurrent Neural Network)是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它的一個(gè)很大的特點(diǎn)是在訓(xùn)練和預(yù)測時(shí)加入了時(shí)間的概念,即本次輸出的計(jì)算會受到前一次輸出結(jié)果的影響,所以在模型結(jié)構(gòu)上,與BPNN最大的不同點(diǎn)在于隱含層節(jié)點(diǎn)之間是有連接的,每一個(gè)隱含層節(jié)點(diǎn)的輸入既包含了輸入層的輸入,又有來自上一時(shí)刻隱含層的輸出。

        傳統(tǒng)的RNN模型一個(gè)很大的問題是會出現(xiàn)梯度消失和爆炸的情況,其原因在于在梯度下降過程中,每一層誤差反傳都會引入乘子,所以導(dǎo)致經(jīng)過多步之后,乘子的連乘會導(dǎo)致一系列麻煩。

        LSTM神經(jīng)網(wǎng)絡(luò)對RNN的改進(jìn)在于對神經(jīng)元的改變,如圖1所示。在這個(gè)模型中,常規(guī)的神經(jīng)元被替代為存儲單元,每個(gè)存儲單元包含三部分:一個(gè)輸入門、一個(gè)輸出門和一個(gè)遺忘門,這個(gè)單元保證了誤差將以常數(shù)的形式在網(wǎng)絡(luò)中流動;然后在此基礎(chǔ)上添加乘法門和非線性函數(shù)為模型引入非線性變換,并使得信息有選擇性地表達(dá)。

        2.3 微博情感分析

        本節(jié)主要介紹微博情感分值的表示方法,以便使之能夠參與模型的訓(xùn)練。情感分析的任務(wù)目標(biāo)是能夠判斷用戶情感是積極、消極或是中性的情感,并根據(jù)情感的程度給予不同的數(shù)值表示。方法主要有兩類:一類是基于深度學(xué)習(xí)的方法,分別在句子級、實(shí)體級、篇章級多粒度完整地建立分析任務(wù),這方面的工作比較著名的有百度自然語言處理(Natural Language Processing, NLP)實(shí)驗(yàn)室等;另一類是傳統(tǒng)的利用情感詞典的方法。本文采用基于情感詞典的進(jìn)行規(guī)則匹配的方法,后續(xù)的工作會利用深度學(xué)習(xí)的方法進(jìn)行改進(jìn)。

        基于情感詞典匹配的方法主要包含兩部分:對中文文本分詞和根據(jù)情感詞典計(jì)算微博情感分值。

        2.3.1 中文分詞

        不同于英文以詞為單位并且每個(gè)詞都可以獨(dú)立地表達(dá)一個(gè)意思,中文文本以字為單位,然而一個(gè)字不可以完整地表達(dá)一個(gè)意思。在中文中,一句話的意義是通過多個(gè)連續(xù)的字來傳達(dá)的,所以這就需要對中文文本進(jìn)行切分,分成一系列具有獨(dú)立意義的字符串。通常將此過程稱為中文分詞。

        本文采用中國科學(xué)院研發(fā)的中文分詞系統(tǒng)ICTCLAS2014-JAVA版。一方面考慮到本文實(shí)驗(yàn)代碼采用Java語言,另外最重要的是經(jīng)多年積累和驗(yàn)證該分詞方法分詞速度快,單機(jī)速度可達(dá)1 Mb/s,分詞精度能夠達(dá)到98%以上, 被很多商業(yè)系統(tǒng)所采用。

        2.3.2 微博情感分值計(jì)算

        本文選用基于情感詞典的方法計(jì)算情感分值。情感詞典選取知網(wǎng)發(fā)布在2007年10月22日發(fā)布的“情感分析用詞語集(beta版)”。本文將“正面評價(jià)”和“正面情感”同時(shí)作為積極情感詞,將“負(fù)面評價(jià)”和“負(fù)面情感”同時(shí)作為消極情感詞。

        本文計(jì)算微博情感分值的方法是:首先對每一條微博的每一句話,從左向右依次尋找情感詞,如果找到,則賦予一定的權(quán)值;然后找到該情感詞前后修飾情感詞的程度副詞、否定詞,并將它們的權(quán)值和情感詞的權(quán)值進(jìn)行累乘得到該情感詞的加權(quán)分值;接著將前面所有情感詞的加權(quán)分值進(jìn)行求和;最后分析該句子是否為感嘆句或者反問句,如果是則將上面的結(jié)果乘以感嘆句或者反問句的權(quán)值,得到本句話的情感分值。將每條微博內(nèi)每句話的情感分值求和即得到每條微博的情感分值。

        因?yàn)楸疚膶?shí)驗(yàn)的數(shù)據(jù)樣本是以季度為單位的,所以對每個(gè)季度所有微博的情感分值求算術(shù)平均值。

        一條微博內(nèi)每句話的情感分值計(jì)算如式(1):

        (1)

        其中:Non為否定詞權(quán)值,Seg為情感詞的權(quán)值,Lev為程度詞的權(quán)值,n為修飾當(dāng)前情感詞的程度詞的個(gè)數(shù)。

        一條微博情感分值計(jì)算如式(2)所示:

        (2)

        其中:sen為本句話在句型上的權(quán)值,m為該條微博情感詞的個(gè)數(shù)。

        2.4 SA-LSTM模型結(jié)構(gòu)

        根據(jù)宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn),以及2.1節(jié)、2.2節(jié)所述的LSTM網(wǎng)絡(luò)和情感分值的計(jì)算方法,本節(jié)給出SA-LSTM的具體結(jié)構(gòu),該模型的具體結(jié)構(gòu)如圖1所示。

        根據(jù)LSTM網(wǎng)絡(luò)的特點(diǎn),該模型第一個(gè)隱含層的輸入包括三部分:政府統(tǒng)計(jì)的經(jīng)濟(jì)指標(biāo)、微博情感分值以及上一時(shí)間片該隱含層的輸出,具體公式如下:

        (3)

        該模型第2個(gè)隱含層的輸入包括兩部分:同一時(shí)刻上一隱含層的輸出和同一隱含層上一時(shí)間片的輸出,具體公式如下:

        (4)

        該模型的損失函數(shù)是預(yù)測誤差平方和與模型權(quán)值參數(shù)的平方和之和,具體公式如式(5):

        (5)

        圖1 SA-LSTM模型結(jié)構(gòu)

        該模型具有以下特點(diǎn):

        1)能夠表征時(shí)序數(shù)據(jù)。RNN是專門用來處理時(shí)序數(shù)據(jù)的,其每一個(gè)隱含層節(jié)點(diǎn)的輸入既包含了輸入層的輸入,又有來自上一時(shí)刻隱含層的輸出,這使它可以使用先前的信息來學(xué)習(xí)當(dāng)前的任務(wù)。LSTM網(wǎng)絡(luò)基于RNN進(jìn)行改進(jìn),在保留上述優(yōu)點(diǎn)的基礎(chǔ)上,使得信息能夠保持長時(shí)間的記憶。利用該模型能夠很好地反映統(tǒng)計(jì)數(shù)據(jù)對未來的影響。

        2)融合時(shí)效性強(qiáng)的微博文本。微博文本能夠?qū)崟r(shí)反映經(jīng)濟(jì)發(fā)展?fàn)顩r以及社會對于經(jīng)濟(jì)發(fā)展的輿論傾向,借此來彌補(bǔ)統(tǒng)計(jì)數(shù)據(jù)滯后的缺點(diǎn)。

        3)模型層數(shù)少。本文使用的LSTM網(wǎng)絡(luò)只有兩層,分別為單向LSTM和雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)(Bidirectional-LSTM,BLSTM),這使得模型在保留自身特性的同時(shí),降低由于訓(xùn)練樣本過少而產(chǎn)生過擬合的風(fēng)險(xiǎn)。

        3 實(shí)驗(yàn)與結(jié)果

        3.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)所使用數(shù)據(jù)包括兩部分:非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。

        在本文中,結(jié)構(gòu)化數(shù)據(jù)是指政府機(jī)構(gòu)統(tǒng)計(jì)的指標(biāo)數(shù)據(jù)。精準(zhǔn)的預(yù)測結(jié)果和合理的預(yù)測指標(biāo)體系是分不開的,想要準(zhǔn)確地預(yù)測區(qū)域未來投資情況,需要有足夠而且覆蓋范圍廣但是又不冗余的預(yù)測指標(biāo),包括經(jīng)濟(jì)發(fā)展、交通發(fā)展、文化教育科技發(fā)展、對外貿(mào)易和能源等各方面的指標(biāo),它們從不同的角度反映了區(qū)域經(jīng)濟(jì)發(fā)展情況。

        本文采集的數(shù)據(jù)來自中國經(jīng)濟(jì)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫,分別采集了河南省、江蘇省、上海市、山西省4個(gè)省市2012- 01— 2016- 12五年20個(gè)季度的數(shù)據(jù)。在借鑒現(xiàn)有文獻(xiàn)研究成果的基礎(chǔ)上,遵循指標(biāo)變量的客觀性、代表性、非差異性及可獲得性4個(gè)原則, 重點(diǎn)考慮東道國的經(jīng)濟(jì)發(fā)展水平、交通建設(shè)、科技發(fā)展水平、市場開放程度、能源等影響東道國投資環(huán)境的重要因素,構(gòu)建評價(jià)指標(biāo)體系,具體包含了7個(gè)評價(jià)指標(biāo):地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)企業(yè)投資完成額、股票成交額(深圳證券交易所)、運(yùn)輸業(yè)固定投資完成額、軟件業(yè)務(wù)收入、進(jìn)出口總額、發(fā)電量[13]。預(yù)測目標(biāo)是固定投資總額。本文以新浪微博作為非結(jié)構(gòu)化數(shù)據(jù),因?yàn)槲⒉┚哂械淖杂?、高流動性與時(shí)效性等特點(diǎn)能夠及時(shí)反映社會對經(jīng)濟(jì)發(fā)展?fàn)顩r的態(tài)度。

        本文采用的獲取微博方法基于Python 語言,Selenium WebDriver 工具編寫爬蟲程序,自動獲得想要的微博文本,其中以河南經(jīng)濟(jì)報(bào)、新浪江蘇城市頻道、經(jīng)濟(jì)和信息化在線——上海、新浪山西四個(gè)公眾號所發(fā)的微博分別作為河南省、江蘇省、上海市、山西省數(shù)據(jù)集的非結(jié)構(gòu)化數(shù)據(jù)。時(shí)間范圍是2012- 01— 2016- 12,一共可分為20個(gè)季度,各個(gè)季度微博條數(shù)如表1所示。

        表1 四省市2012 — 2016微博數(shù)

        3.2 對比分析模型

        將預(yù)測模型SA-LSTM與以下4種模型進(jìn)行對比分析:

        BPNN 這是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)[14]。

        LSTM網(wǎng)絡(luò) LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),適合于處理和預(yù)測時(shí)間序列中間隔和延遲相對較長的重要事件。在本實(shí)驗(yàn)中構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)包括LSTM和BLSTM兩個(gè)隱含層[15-19]。在實(shí)驗(yàn)中,該模型的神經(jīng)網(wǎng)絡(luò)部分與SA-LSTM一樣,只是沒有加入微博情感分值。

        ARIMA 該模型是將非平穩(wěn)的時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列,然后將因變量僅對它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。在本文中以要預(yù)測的投資預(yù)測總額作為時(shí)間序列[20]。

        LR 該方法是利用數(shù)理統(tǒng)計(jì)中回歸分析來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法[21]。

        3.3 實(shí)驗(yàn)和結(jié)果分析

        3.3.1 情感分析實(shí)驗(yàn)結(jié)果

        本文非結(jié)構(gòu)化數(shù)據(jù)的處理是通過2.2節(jié)介紹的基于情感詞典的微博情感分析方法,計(jì)算得到各省市各個(gè)季度的微博的情感分值,然后將之作為預(yù)測指標(biāo),和原指標(biāo)體系一起進(jìn)行結(jié)果預(yù)測。微博情感分值計(jì)算結(jié)果如表2所示。

        3.3.2 預(yù)測模型實(shí)驗(yàn)對比分析

        在本實(shí)驗(yàn)中,將2012年第1季度到2015年第4季度的16個(gè)季度數(shù)據(jù)作為訓(xùn)練集,2015年第4季度到2016年第4季度的4個(gè)季度的數(shù)據(jù)集作為測試集。在模型訓(xùn)練階段,輸入為前一個(gè)季度的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)企業(yè)投資完成額、進(jìn)出口總額、發(fā)電量、軟件業(yè)務(wù)收入、運(yùn)輸業(yè)固定投資完成額、股票成交額(深圳證券交易所)和本季度的微博情感分值,一共8個(gè)指標(biāo);輸出為本季度的固定投資總額。

        根據(jù)江蘇省、河南省、上海市和山西省4個(gè)省市2012年第1季度到2015年第4季度的數(shù)據(jù),分別訓(xùn)練ARIMA、LR、BPNN、 LSTM和SA-LSTM五個(gè)模型;然后使用訓(xùn)練好的模型對2016年第1季度到2016年第4季度進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果如表3。

        從表3可以看出,在河南、江蘇、上海、山西4個(gè)數(shù)據(jù)集上SA-LSTM預(yù)測的平均相對誤差都是最小的,與其他4種方法中的最優(yōu)方法相比,能夠分別降低0.06,0.92,0.94,0.66個(gè)百分點(diǎn),實(shí)驗(yàn)結(jié)果說明本文構(gòu)建的SA-LSTM模型具有較強(qiáng)的非線性擬合能力,能夠很好地對宏觀經(jīng)濟(jì)進(jìn)行預(yù)測。

        本文構(gòu)建的SA-LSTM模型與LSTM模型相比,SA-LSTM模型加入了微博情感分析來修正模型。通過表3中LSTM與SA-LSTM兩列可以發(fā)現(xiàn)加入微博情感分析后,平均能夠降低相對誤差4.95, 0.92, 1.21,0.66個(gè)百分點(diǎn), 微博情感分析對投資預(yù)測有積極的影響。

        5個(gè)模型在4個(gè)數(shù)據(jù)集上預(yù)測相對誤差的方差如表4所示。

        表4 預(yù)測相對誤差的方差

        根據(jù)表4可以發(fā)現(xiàn),SA-LSTM在4個(gè)數(shù)據(jù)集上預(yù)測相對誤差的平均方差是最小的,比ARIMA、 LR、BPNN、LSTM分別低64.41、 56.09、 190.14、 0.52,這表明SA-LSTM預(yù)測結(jié)果穩(wěn)定,能夠很好地應(yīng)對突發(fā)情況,泛化能力強(qiáng)。

        關(guān)于使用江蘇省、上海市、山西省數(shù)據(jù)集進(jìn)行預(yù)測時(shí)在某一個(gè)季度會出現(xiàn)加入微博數(shù)據(jù)范圍誤差較大的情況:一方面是因?yàn)楸疚倪x取的微博數(shù)據(jù)較少且來源單一,存在一定的局限性,并不能夠完全準(zhǔn)確地反映所對應(yīng)省份的輿論情況;另一方面是因?yàn)楸疚脑陬A(yù)處理微博時(shí)僅僅去掉了非本省份的微博,剩余的微博里依然存在噪聲。這兩方面都會對預(yù)測的實(shí)驗(yàn)結(jié)果造成影響。

        4 結(jié)語

        對于宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)中建模和預(yù)測存在的特點(diǎn):系統(tǒng)高度非線性、數(shù)據(jù)樣本較少和系統(tǒng)數(shù)據(jù)存在時(shí)滯性,本文從預(yù)測模型和數(shù)據(jù)擴(kuò)充兩個(gè)方面進(jìn)行改進(jìn),提出融合微博情感分析和深度學(xué)習(xí)的新的預(yù)測方法——SA-LSTM,該方法綜合實(shí)時(shí)性的微博數(shù)據(jù)和權(quán)威網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)并與其他四種算法進(jìn)行對比分析。實(shí)驗(yàn)表明融合微博情感分析的深度學(xué)習(xí)宏觀經(jīng)濟(jì)預(yù)測方法能夠有效地對宏觀經(jīng)濟(jì)進(jìn)行預(yù)測,與ARIMA、Linear Regression、BPNN、LSTM模型相比具有更好的準(zhǔn)確性和泛化能力。

        本文在算法設(shè)計(jì)、數(shù)據(jù)特征上做了相關(guān)工作,有較好的結(jié)果,但仍存在可以改進(jìn)的地方:

        1)選取更加廣泛的互聯(lián)網(wǎng)數(shù)據(jù),而不僅僅是微博數(shù)據(jù)。并且需要對這些采集到的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行更加更加科學(xué)的噪聲處理。

        2)利用深度學(xué)習(xí)方法進(jìn)行微博情感分析?;谏疃葘W(xué)習(xí)的方法,分別在句子級、實(shí)體級、篇章級多粒度建立完整的分析任務(wù)。這種方法能夠更好地捕捉情感極性在前后文表達(dá)的信息,效果上相對于傳統(tǒng)的方法有很大的提升。

        猜你喜歡
        情感分析方法
        隱蔽失效適航要求符合性驗(yàn)證分析
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        如何在情感中自我成長,保持獨(dú)立
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        99国产小视频| 国产人成无码视频在线观看| 欧美裸体xxxx极品少妇| 国产精品久久国产精品99gif| 五月激情狠狠开心五月| 午夜免费观看国产视频| 五月天中文字幕mv在线| 免费无码av片在线观看| 亚洲精品动漫免费二区| 色综合久久综合欧美综合图片| 蜜桃网站在线免费观看视频| 人妻少妇猛烈井进入中文字幕| 国产人妻熟女高跟丝袜图片| 成人免费ā片在线观看| 无码啪啪熟妇人妻区| 久久人妻中文字幕精品一区二区| 国内精品久久久久影院薰衣草 | 亚洲乱码一区二区三区在线观看 | 亚洲中文字幕无码久久| 免费国产一级片内射老| 亚洲最大不卡av网站| 无人视频在线播放免费| 亚洲av无码成人精品区狼人影院| 亚洲av无码专区亚洲av| 成人国产一区二区三区精品不卡| 国产av一区二区亚洲精品| 久久www免费人成—看片| 亚洲一级无码片一区二区三区| 国产一区二区在三区在线观看| 久久久久久夜精品精品免费啦 | 二区免费在线视频观看| 精品人妻中文无码av在线| 国产精品99久久久久久98AV| 久久精品国产亚洲不卡| 国产激情自拍在线视频| 色综合久久88色综合天天| 国产欧美va欧美va香蕉在线观| av是男人的天堂免费| 欧美老妇交乱视频在线观看| vr成人片在线播放网站| 秋霞日韩一区二区三区在线观看|