亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合微博情感分析和深度學(xué)習(xí)的宏觀經(jīng)濟(jì)預(yù)測方法

2018-12-14 05:30:50趙軍豪李玉華李瑞軒辜希武

計(jì)算機(jī)應(yīng)用 2018年11期

趙軍豪，李玉華，霍林，李瑞軒，辜希武

(1.華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，武漢 430074； 2. 廣西大學(xué) 中國-東盟區(qū)域發(fā)展協(xié)同創(chuàng)新中心，南寧 530004)(*通信作者電子郵箱idcliyuhua@hust.edu.cn)

0 引言

經(jīng)濟(jì)預(yù)測方法的研究經(jīng)過多年的發(fā)展，已經(jīng)出現(xiàn)了大量的預(yù)測模型。這些模型分為兩大類：一種是基于時(shí)序的方法，主要包括移動平均法、趨勢外推法等；另一種是基于因果的方法，主要包括回歸分析、馬爾可夫預(yù)測、人工神經(jīng)網(wǎng)絡(luò)等；另外深度學(xué)習(xí)的發(fā)展使得復(fù)雜系統(tǒng)的擬合更加準(zhǔn)確?；ヂ?lián)網(wǎng)的快速發(fā)展和中國網(wǎng)民的快速增加，使得人們產(chǎn)生信息和獲取信息的方式和規(guī)模都發(fā)生了變化，使用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行預(yù)測模型的修正成為研究的熱點(diǎn)，已經(jīng)有不少研究證實(shí)實(shí)時(shí)的互聯(lián)網(wǎng)數(shù)據(jù)能夠用于經(jīng)濟(jì)活動預(yù)測，并且起到積極的作用。

本文的主要貢獻(xiàn)如下:

1)提出了一種融合微博情感分析和深度學(xué)習(xí)的預(yù)測方法SA-LSTM(Long Short-Term Memory based on Weibo Sentiment Analysis), 該方法利用微博解決統(tǒng)計(jì)數(shù)據(jù)的滯后性問題，利用長短期記憶(Long Short-Term Memory, LSTM)及其變形構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來擬合具有時(shí)序關(guān)系的復(fù)雜宏觀經(jīng)濟(jì)系統(tǒng)。

2) 在不同數(shù)據(jù)集上，利用差分自回歸移動平均模型(Autoregressive Integrated Moving Average model, ARIMA)、線性回歸(Linear Regression, LR)、反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network, BPNN)、LSTM網(wǎng)絡(luò)和SA-LSTM分別進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明,SA-LSTM能夠明顯減小預(yù)測的相對誤差，有較強(qiáng)的泛化能力。

1 相關(guān)工作

國內(nèi)外有很多對宏觀經(jīng)濟(jì)預(yù)測的研究。傳統(tǒng)的經(jīng)濟(jì)預(yù)測方法，比如ARIMA、線性回歸等，存在很大的局限性：ARIMA要求時(shí)序數(shù)據(jù)是穩(wěn)定的，或者差分后是穩(wěn)定的; 線性回歸對復(fù)雜的非線性系統(tǒng)擬合能力較差。針對宏觀經(jīng)濟(jì)預(yù)測中復(fù)雜非線性關(guān)系，對非線性系統(tǒng)擬合能力強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型成為國內(nèi)外宏觀經(jīng)濟(jì)預(yù)測研究的熱點(diǎn)[1]。利用BPNN建立預(yù)測模型的研究有很多：孫安黎等[2]基于BPNN構(gòu)建輸電線工程造價(jià)預(yù)測模型，利用少量樣本即能夠準(zhǔn)確地估計(jì)工程造價(jià)，適用于工程前期對比方案的優(yōu)劣；趙海華[3]結(jié)合徑向基(Radial Basis Function，RBF)神經(jīng)網(wǎng)絡(luò)以及無偏灰色模型(Grey Model，GM)建立灰色 RBF 神經(jīng)網(wǎng)絡(luò)預(yù)測模型，并通過對安徽省財(cái)政收入數(shù)據(jù)進(jìn)行預(yù)測分析，發(fā)現(xiàn)用該模型訓(xùn)練不僅收斂速度快、泛化能力強(qiáng)，而且模型精度較高； Akbilgic等[4]提出了一種混合徑向基神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)整合了嶺回歸、回歸數(shù)和徑向基神經(jīng)網(wǎng)絡(luò)，通過對股票指數(shù)的日均走勢預(yù)測實(shí)驗(yàn)證明了該網(wǎng)絡(luò)在變量間具有復(fù)雜的非線性關(guān)系以及具有相互依賴性時(shí)有較好的效果。經(jīng)過多年的研究和發(fā)展，人工神經(jīng)網(wǎng)絡(luò)及其各種改進(jìn)模型仍然不能完全擺脫其易陷入局部最小值的缺陷，不能反映樣本之間的時(shí)序關(guān)系；然而這種時(shí)序關(guān)系在經(jīng)濟(jì)領(lǐng)域普遍存在，對于預(yù)測分析有很大的幫助。與此同時(shí)，深度學(xué)習(xí)中LSTM在預(yù)測領(lǐng)域表現(xiàn)出極其出色的對時(shí)序數(shù)據(jù)的處理能力。陸澤楠等[5]結(jié)合近幾年鋼鐵交易價(jià)格的走勢數(shù)據(jù)，訓(xùn)練LSTM模型，并與支持向量回歸模型對比分析，發(fā)現(xiàn)LSTM 神經(jīng)網(wǎng)絡(luò)可以更精確地預(yù)測鋼鐵的價(jià)格走勢；李浩等[6]用深度學(xué)習(xí)對我國1980～2015年國內(nèi)生產(chǎn)總值(Gross Domestic Product, GDP)數(shù)據(jù)建立預(yù)測模型，結(jié)果表明，基于深度學(xué)習(xí)的預(yù)測精度顯著高于ARMA、LR、指數(shù)回歸；Fu等[7]針對交通流的隨機(jī)性和非線性特征，使用LSTM和門控循環(huán)單位(Gated Recurrent Unit，GRU)神經(jīng)網(wǎng)絡(luò)方法來預(yù)測短期交通流量，實(shí)驗(yàn)證明基于遞歸神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法 LSTM和GRU的表現(xiàn)優(yōu)于自ARIMA模型。

在互聯(lián)網(wǎng)快速發(fā)展的今天，互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)成為提高預(yù)測精度的積極補(bǔ)充[8]。陳衛(wèi)華等[9]利用深度學(xué)習(xí)和股吧發(fā)帖數(shù)增長率數(shù)據(jù)對滬深300指數(shù)波動率進(jìn)行樣本外預(yù)測，研究發(fā)現(xiàn)深度學(xué)習(xí)預(yù)測效果明顯好于選取的其他對比模型，另外股票論壇數(shù)據(jù)對提升波動率預(yù)測精度有所貢獻(xiàn)；劉濤雄等[10]在政府統(tǒng)計(jì)變量的基礎(chǔ)上，增加互聯(lián)網(wǎng)搜索行為變量進(jìn)行GDP的預(yù)測，發(fā)現(xiàn)互聯(lián)網(wǎng)搜索行為可以提高預(yù)測精度；Huang等[11]提出了一種基于百度指數(shù)預(yù)測旅游流量的新方法，通過比較是否加入百度指數(shù)，發(fā)現(xiàn)游客人數(shù)與百度指數(shù)中的一組相關(guān)關(guān)鍵詞之間存在長期均衡關(guān)系和Granger因果關(guān)系，且百度關(guān)鍵詞搜索指數(shù)與日益增長的觀光客流量呈正相關(guān)關(guān)系； Yao等[12]通過將谷歌指數(shù)作為一個(gè)外生變量納入ARIMA和自回歸移動平均線來研究谷歌指數(shù)對原油價(jià)格的影響和預(yù)測能力，實(shí)驗(yàn)結(jié)果表明，谷歌指數(shù)原油價(jià)格有負(fù)面影響，有助于提高模型預(yù)測能力。

根據(jù)以上分析，本文結(jié)合互聯(lián)網(wǎng)微博數(shù)據(jù)以及 LSTM網(wǎng)絡(luò)提出的SA-LSTM宏觀經(jīng)濟(jì)預(yù)測方法，不僅解決了統(tǒng)計(jì)數(shù)據(jù)的滯后性問題，而且能夠很好地?cái)M合宏觀經(jīng)濟(jì)系統(tǒng)中的非線性關(guān)系和時(shí)序關(guān)系。

2 SA-LSTM模型結(jié)構(gòu)

本章主要介紹SA-LSTM模型結(jié)構(gòu)。首先描述了宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn)，然后介紹了模型的主要構(gòu)成LSTM及其特點(diǎn)，接著講述了如何利用微博進(jìn)行預(yù)測分析，最后給出了SA-LSTM模型具體結(jié)構(gòu)。

2.1 宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)特點(diǎn)

在宏觀經(jīng)濟(jì)預(yù)測中，數(shù)據(jù)具有這樣的特點(diǎn)：

1)可供訓(xùn)練的樣本太少。各個(gè)經(jīng)濟(jì)指標(biāo)的統(tǒng)計(jì)一般以季度或者年為單位，而且國家有明確且完整記載的數(shù)據(jù)只有十年左右。

2)樣本間具有一定的時(shí)序關(guān)系。經(jīng)濟(jì)的發(fā)展具有一定的規(guī)律，統(tǒng)計(jì)數(shù)據(jù)能夠在一定程度上反映未來的經(jīng)濟(jì)情況。

3)統(tǒng)計(jì)數(shù)據(jù)滯后。宏觀經(jīng)濟(jì)預(yù)測一般是以季度或者年為單位的，對于突發(fā)情況，統(tǒng)計(jì)數(shù)據(jù)不能夠及時(shí)反映。

4)經(jīng)濟(jì)的發(fā)展具有階段性，特別是進(jìn)入21世紀(jì)以來，經(jīng)濟(jì)發(fā)展可謂是日新月異。當(dāng)前年份經(jīng)濟(jì)的發(fā)展?fàn)顩r更多地受距它較近年份的影響，較遠(yuǎn)年份的影響小。

根據(jù)宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn)，本文通過融合微博情感分析和多層LSTM網(wǎng)絡(luò)來構(gòu)建預(yù)測模型，從而很好地解決該問題。

2.2 SA-LSTM網(wǎng)絡(luò)簡介

RNN(Recurrent Neural Network)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)，它的一個(gè)很大的特點(diǎn)是在訓(xùn)練和預(yù)測時(shí)加入了時(shí)間的概念，即本次輸出的計(jì)算會受到前一次輸出結(jié)果的影響，所以在模型結(jié)構(gòu)上，與BPNN最大的不同點(diǎn)在于隱含層節(jié)點(diǎn)之間是有連接的，每一個(gè)隱含層節(jié)點(diǎn)的輸入既包含了輸入層的輸入，又有來自上一時(shí)刻隱含層的輸出。

傳統(tǒng)的RNN模型一個(gè)很大的問題是會出現(xiàn)梯度消失和爆炸的情況，其原因在于在梯度下降過程中，每一層誤差反傳都會引入乘子，所以導(dǎo)致經(jīng)過多步之后，乘子的連乘會導(dǎo)致一系列麻煩。

LSTM神經(jīng)網(wǎng)絡(luò)對RNN的改進(jìn)在于對神經(jīng)元的改變，如圖1所示。在這個(gè)模型中，常規(guī)的神經(jīng)元被替代為存儲單元，每個(gè)存儲單元包含三部分：一個(gè)輸入門、一個(gè)輸出門和一個(gè)遺忘門，這個(gè)單元保證了誤差將以常數(shù)的形式在網(wǎng)絡(luò)中流動；然后在此基礎(chǔ)上添加乘法門和非線性函數(shù)為模型引入非線性變換，并使得信息有選擇性地表達(dá)。

2.3 微博情感分析

本節(jié)主要介紹微博情感分值的表示方法，以便使之能夠參與模型的訓(xùn)練。情感分析的任務(wù)目標(biāo)是能夠判斷用戶情感是積極、消極或是中性的情感，并根據(jù)情感的程度給予不同的數(shù)值表示。方法主要有兩類：一類是基于深度學(xué)習(xí)的方法，分別在句子級、實(shí)體級、篇章級多粒度完整地建立分析任務(wù)，這方面的工作比較著名的有百度自然語言處理(Natural Language Processing, NLP)實(shí)驗(yàn)室等；另一類是傳統(tǒng)的利用情感詞典的方法。本文采用基于情感詞典的進(jìn)行規(guī)則匹配的方法，后續(xù)的工作會利用深度學(xué)習(xí)的方法進(jìn)行改進(jìn)。

基于情感詞典匹配的方法主要包含兩部分：對中文文本分詞和根據(jù)情感詞典計(jì)算微博情感分值。

2.3.1 中文分詞

不同于英文以詞為單位并且每個(gè)詞都可以獨(dú)立地表達(dá)一個(gè)意思，中文文本以字為單位，然而一個(gè)字不可以完整地表達(dá)一個(gè)意思。在中文中，一句話的意義是通過多個(gè)連續(xù)的字來傳達(dá)的，所以這就需要對中文文本進(jìn)行切分，分成一系列具有獨(dú)立意義的字符串。通常將此過程稱為中文分詞。

本文采用中國科學(xué)院研發(fā)的中文分詞系統(tǒng)ICTCLAS2014-JAVA版。一方面考慮到本文實(shí)驗(yàn)代碼采用Java語言，另外最重要的是經(jīng)多年積累和驗(yàn)證該分詞方法分詞速度快，單機(jī)速度可達(dá)1 Mb/s,分詞精度能夠達(dá)到98%以上, 被很多商業(yè)系統(tǒng)所采用。

2.3.2 微博情感分值計(jì)算

本文選用基于情感詞典的方法計(jì)算情感分值。情感詞典選取知網(wǎng)發(fā)布在2007年10月22日發(fā)布的“情感分析用詞語集(beta版)”。本文將“正面評價(jià)”和“正面情感”同時(shí)作為積極情感詞，將“負(fù)面評價(jià)”和“負(fù)面情感”同時(shí)作為消極情感詞。

本文計(jì)算微博情感分值的方法是：首先對每一條微博的每一句話，從左向右依次尋找情感詞，如果找到，則賦予一定的權(quán)值；然后找到該情感詞前后修飾情感詞的程度副詞、否定詞，并將它們的權(quán)值和情感詞的權(quán)值進(jìn)行累乘得到該情感詞的加權(quán)分值；接著將前面所有情感詞的加權(quán)分值進(jìn)行求和；最后分析該句子是否為感嘆句或者反問句，如果是則將上面的結(jié)果乘以感嘆句或者反問句的權(quán)值，得到本句話的情感分值。將每條微博內(nèi)每句話的情感分值求和即得到每條微博的情感分值。

因?yàn)楸疚膶?shí)驗(yàn)的數(shù)據(jù)樣本是以季度為單位的，所以對每個(gè)季度所有微博的情感分值求算術(shù)平均值。

一條微博內(nèi)每句話的情感分值計(jì)算如式(1)：

(1)

其中:Non為否定詞權(quán)值，Seg為情感詞的權(quán)值，Lev為程度詞的權(quán)值，n為修飾當(dāng)前情感詞的程度詞的個(gè)數(shù)。

一條微博情感分值計(jì)算如式(2)所示：

(2)

其中:sen為本句話在句型上的權(quán)值，m為該條微博情感詞的個(gè)數(shù)。

2.4 SA-LSTM模型結(jié)構(gòu)

根據(jù)宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)的特點(diǎn)，以及2.1節(jié)、2.2節(jié)所述的LSTM網(wǎng)絡(luò)和情感分值的計(jì)算方法，本節(jié)給出SA-LSTM的具體結(jié)構(gòu)，該模型的具體結(jié)構(gòu)如圖1所示。

根據(jù)LSTM網(wǎng)絡(luò)的特點(diǎn)，該模型第一個(gè)隱含層的輸入包括三部分：政府統(tǒng)計(jì)的經(jīng)濟(jì)指標(biāo)、微博情感分值以及上一時(shí)間片該隱含層的輸出，具體公式如下：

(3)

該模型第2個(gè)隱含層的輸入包括兩部分：同一時(shí)刻上一隱含層的輸出和同一隱含層上一時(shí)間片的輸出，具體公式如下:

(4)

該模型的損失函數(shù)是預(yù)測誤差平方和與模型權(quán)值參數(shù)的平方和之和，具體公式如式(5)：

(5)

圖1 SA-LSTM模型結(jié)構(gòu)

該模型具有以下特點(diǎn)：

1)能夠表征時(shí)序數(shù)據(jù)。RNN是專門用來處理時(shí)序數(shù)據(jù)的，其每一個(gè)隱含層節(jié)點(diǎn)的輸入既包含了輸入層的輸入，又有來自上一時(shí)刻隱含層的輸出，這使它可以使用先前的信息來學(xué)習(xí)當(dāng)前的任務(wù)。LSTM網(wǎng)絡(luò)基于RNN進(jìn)行改進(jìn)，在保留上述優(yōu)點(diǎn)的基礎(chǔ)上，使得信息能夠保持長時(shí)間的記憶。利用該模型能夠很好地反映統(tǒng)計(jì)數(shù)據(jù)對未來的影響。

2)融合時(shí)效性強(qiáng)的微博文本。微博文本能夠?qū)崟r(shí)反映經(jīng)濟(jì)發(fā)展?fàn)顩r以及社會對于經(jīng)濟(jì)發(fā)展的輿論傾向，借此來彌補(bǔ)統(tǒng)計(jì)數(shù)據(jù)滯后的缺點(diǎn)。

3)模型層數(shù)少。本文使用的LSTM網(wǎng)絡(luò)只有兩層，分別為單向LSTM和雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)(Bidirectional-LSTM，BLSTM)，這使得模型在保留自身特性的同時(shí)，降低由于訓(xùn)練樣本過少而產(chǎn)生過擬合的風(fēng)險(xiǎn)。

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)所使用數(shù)據(jù)包括兩部分：非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。

在本文中，結(jié)構(gòu)化數(shù)據(jù)是指政府機(jī)構(gòu)統(tǒng)計(jì)的指標(biāo)數(shù)據(jù)。精準(zhǔn)的預(yù)測結(jié)果和合理的預(yù)測指標(biāo)體系是分不開的，想要準(zhǔn)確地預(yù)測區(qū)域未來投資情況，需要有足夠而且覆蓋范圍廣但是又不冗余的預(yù)測指標(biāo)，包括經(jīng)濟(jì)發(fā)展、交通發(fā)展、文化教育科技發(fā)展、對外貿(mào)易和能源等各方面的指標(biāo)，它們從不同的角度反映了區(qū)域經(jīng)濟(jì)發(fā)展情況。

本文采集的數(shù)據(jù)來自中國經(jīng)濟(jì)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫，分別采集了河南省、江蘇省、上海市、山西省4個(gè)省市2012- 01— 2016- 12五年20個(gè)季度的數(shù)據(jù)。在借鑒現(xiàn)有文獻(xiàn)研究成果的基礎(chǔ)上，遵循指標(biāo)變量的客觀性、代表性、非差異性及可獲得性4個(gè)原則，重點(diǎn)考慮東道國的經(jīng)濟(jì)發(fā)展水平、交通建設(shè)、科技發(fā)展水平、市場開放程度、能源等影響東道國投資環(huán)境的重要因素，構(gòu)建評價(jià)指標(biāo)體系，具體包含了7個(gè)評價(jià)指標(biāo)：地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)企業(yè)投資完成額、股票成交額(深圳證券交易所)、運(yùn)輸業(yè)固定投資完成額、軟件業(yè)務(wù)收入、進(jìn)出口總額、發(fā)電量[13]。預(yù)測目標(biāo)是固定投資總額。本文以新浪微博作為非結(jié)構(gòu)化數(shù)據(jù)，因?yàn)槲⒉┚哂械淖杂?、高流動性與時(shí)效性等特點(diǎn)能夠及時(shí)反映社會對經(jīng)濟(jì)發(fā)展?fàn)顩r的態(tài)度。

本文采用的獲取微博方法基于Python 語言，Selenium WebDriver 工具編寫爬蟲程序，自動獲得想要的微博文本，其中以河南經(jīng)濟(jì)報(bào)、新浪江蘇城市頻道、經(jīng)濟(jì)和信息化在線——上海、新浪山西四個(gè)公眾號所發(fā)的微博分別作為河南省、江蘇省、上海市、山西省數(shù)據(jù)集的非結(jié)構(gòu)化數(shù)據(jù)。時(shí)間范圍是2012- 01— 2016- 12，一共可分為20個(gè)季度，各個(gè)季度微博條數(shù)如表1所示。

表1 四省市2012 — 2016微博數(shù)

3.2 對比分析模型

將預(yù)測模型SA-LSTM與以下4種模型進(jìn)行對比分析：

BPNN 這是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)[14]。

LSTM網(wǎng)絡(luò) LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)，適合于處理和預(yù)測時(shí)間序列中間隔和延遲相對較長的重要事件。在本實(shí)驗(yàn)中構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)包括LSTM和BLSTM兩個(gè)隱含層[15-19]。在實(shí)驗(yàn)中，該模型的神經(jīng)網(wǎng)絡(luò)部分與SA-LSTM一樣，只是沒有加入微博情感分值。

ARIMA 該模型是將非平穩(wěn)的時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列，然后將因變量僅對它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。在本文中以要預(yù)測的投資預(yù)測總額作為時(shí)間序列[20]。

LR 該方法是利用數(shù)理統(tǒng)計(jì)中回歸分析來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法[21]。

3.3 實(shí)驗(yàn)和結(jié)果分析

3.3.1 情感分析實(shí)驗(yàn)結(jié)果

本文非結(jié)構(gòu)化數(shù)據(jù)的處理是通過2.2節(jié)介紹的基于情感詞典的微博情感分析方法，計(jì)算得到各省市各個(gè)季度的微博的情感分值，然后將之作為預(yù)測指標(biāo)，和原指標(biāo)體系一起進(jìn)行結(jié)果預(yù)測。微博情感分值計(jì)算結(jié)果如表2所示。

3.3.2 預(yù)測模型實(shí)驗(yàn)對比分析

在本實(shí)驗(yàn)中，將2012年第1季度到2015年第4季度的16個(gè)季度數(shù)據(jù)作為訓(xùn)練集，2015年第4季度到2016年第4季度的4個(gè)季度的數(shù)據(jù)集作為測試集。在模型訓(xùn)練階段，輸入為前一個(gè)季度的地區(qū)生產(chǎn)總值、房地產(chǎn)開發(fā)企業(yè)投資完成額、進(jìn)出口總額、發(fā)電量、軟件業(yè)務(wù)收入、運(yùn)輸業(yè)固定投資完成額、股票成交額(深圳證券交易所)和本季度的微博情感分值，一共8個(gè)指標(biāo)；輸出為本季度的固定投資總額。

根據(jù)江蘇省、河南省、上海市和山西省4個(gè)省市2012年第1季度到2015年第4季度的數(shù)據(jù)，分別訓(xùn)練ARIMA、LR、BPNN、 LSTM和SA-LSTM五個(gè)模型；然后使用訓(xùn)練好的模型對2016年第1季度到2016年第4季度進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果如表3。

從表3可以看出，在河南、江蘇、上海、山西4個(gè)數(shù)據(jù)集上SA-LSTM預(yù)測的平均相對誤差都是最小的，與其他4種方法中的最優(yōu)方法相比，能夠分別降低0.06，0.92，0.94，0.66個(gè)百分點(diǎn)，實(shí)驗(yàn)結(jié)果說明本文構(gòu)建的SA-LSTM模型具有較強(qiáng)的非線性擬合能力，能夠很好地對宏觀經(jīng)濟(jì)進(jìn)行預(yù)測。

本文構(gòu)建的SA-LSTM模型與LSTM模型相比，SA-LSTM模型加入了微博情感分析來修正模型。通過表3中LSTM與SA-LSTM兩列可以發(fā)現(xiàn)加入微博情感分析后，平均能夠降低相對誤差4.95， 0.92， 1.21，0.66個(gè)百分點(diǎn), 微博情感分析對投資預(yù)測有積極的影響。

5個(gè)模型在4個(gè)數(shù)據(jù)集上預(yù)測相對誤差的方差如表4所示。

表4 預(yù)測相對誤差的方差

根據(jù)表4可以發(fā)現(xiàn)，SA-LSTM在4個(gè)數(shù)據(jù)集上預(yù)測相對誤差的平均方差是最小的，比ARIMA、 LR、BPNN、LSTM分別低64.41、 56.09、 190.14、 0.52，這表明SA-LSTM預(yù)測結(jié)果穩(wěn)定，能夠很好地應(yīng)對突發(fā)情況，泛化能力強(qiáng)。

關(guān)于使用江蘇省、上海市、山西省數(shù)據(jù)集進(jìn)行預(yù)測時(shí)在某一個(gè)季度會出現(xiàn)加入微博數(shù)據(jù)范圍誤差較大的情況：一方面是因?yàn)楸疚倪x取的微博數(shù)據(jù)較少且來源單一，存在一定的局限性，并不能夠完全準(zhǔn)確地反映所對應(yīng)省份的輿論情況；另一方面是因?yàn)楸疚脑陬A(yù)處理微博時(shí)僅僅去掉了非本省份的微博，剩余的微博里依然存在噪聲。這兩方面都會對預(yù)測的實(shí)驗(yàn)結(jié)果造成影響。

4 結(jié)語

對于宏觀經(jīng)濟(jì)預(yù)測系統(tǒng)中建模和預(yù)測存在的特點(diǎn)：系統(tǒng)高度非線性、數(shù)據(jù)樣本較少和系統(tǒng)數(shù)據(jù)存在時(shí)滯性，本文從預(yù)測模型和數(shù)據(jù)擴(kuò)充兩個(gè)方面進(jìn)行改進(jìn)，提出融合微博情感分析和深度學(xué)習(xí)的新的預(yù)測方法——SA-LSTM，該方法綜合實(shí)時(shí)性的微博數(shù)據(jù)和權(quán)威網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)并與其他四種算法進(jìn)行對比分析。實(shí)驗(yàn)表明融合微博情感分析的深度學(xué)習(xí)宏觀經(jīng)濟(jì)預(yù)測方法能夠有效地對宏觀經(jīng)濟(jì)進(jìn)行預(yù)測，與ARIMA、Linear Regression、BPNN、LSTM模型相比具有更好的準(zhǔn)確性和泛化能力。

本文在算法設(shè)計(jì)、數(shù)據(jù)特征上做了相關(guān)工作，有較好的結(jié)果，但仍存在可以改進(jìn)的地方：

1)選取更加廣泛的互聯(lián)網(wǎng)數(shù)據(jù)，而不僅僅是微博數(shù)據(jù)。并且需要對這些采集到的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行更加更加科學(xué)的噪聲處理。

2)利用深度學(xué)習(xí)方法進(jìn)行微博情感分析?；谏疃葘W(xué)習(xí)的方法，分別在句子級、實(shí)體級、篇章級多粒度建立完整的分析任務(wù)。這種方法能夠更好地捕捉情感極性在前后文表達(dá)的信息，效果上相對于傳統(tǒng)的方法有很大的提升。