曹 雷 尚 維 謝士堯 王 向
(1.中國科學院數(shù)學與系統(tǒng)科學研究院;2.中國科學院科技戰(zhàn)略咨詢研究院;3.國家電網(wǎng)有限公司國網(wǎng)能源研究院有限公司)
近年來,信息科學和人工智能推動了經(jīng)濟和管理領域的研究,大量的數(shù)據(jù)積累和計算技術(shù)的發(fā)展為數(shù)智化創(chuàng)新與管理奠定了基礎,也提出了一系列的挑戰(zhàn)。其中,利用新聞數(shù)據(jù)對經(jīng)濟和金融市場進行分析和預測,成為一個重要的研究方向[1,2]。我國經(jīng)濟領域越來越多的研究也開始應用互聯(lián)網(wǎng)數(shù)據(jù),通過構(gòu)建輿情指數(shù)引入更廣泛的市場預期,來進行價格指數(shù)水平變化的監(jiān)測[3,4]。這些研究發(fā)現(xiàn),互聯(lián)網(wǎng)新聞所代表的公眾輿論可能會影響投資者和消費者的期望,從而影響生產(chǎn)、投資和消費等經(jīng)濟行為,并進一步影響市場[5,6]。建立基于互聯(lián)網(wǎng)新聞的經(jīng)濟輿情指數(shù)有助于發(fā)現(xiàn)市場變化的早期信號,以更好地預測市場未來的發(fā)展趨勢。
本研究注意到不同領域的新聞輿情之間存在著復雜的相互關(guān)聯(lián)。一方面,不同領域的新聞事件可能受到共同因素的影響。例如,蔬菜價格和水果價格會共同受到天氣因素影響,所有的食品價格都會受到政策、突發(fā)事件及防控形勢所引發(fā)的生產(chǎn)成本和物流成本的影響。另一方面,輿情可能會在相關(guān)的主題之間傳播。比如,關(guān)于糧食價格的輿情變化可能和關(guān)于畜肉或雞蛋價格的輿情變化之間有著相關(guān)關(guān)系,豬肉價格波動和水產(chǎn)品價格波動也存在關(guān)聯(lián)關(guān)系[7]。這種復雜的、動態(tài)的時間和空間關(guān)聯(lián)特征形成了難以用靜態(tài)網(wǎng)絡結(jié)構(gòu)表征的輿情關(guān)聯(lián)網(wǎng)絡。由于新聞輿情數(shù)據(jù)在日度等更高頻度或具體行業(yè)產(chǎn)品和領域方面往往并不連續(xù),對不連續(xù)的新聞輿情進行數(shù)據(jù)補齊時,除了數(shù)據(jù)本身的時序特征,也應考慮到這些關(guān)聯(lián)特征,才能更好地刻畫輿情所反映的市場參與者預期。
圖神經(jīng)網(wǎng)絡(GNN)是一種學習圖結(jié)構(gòu)數(shù)據(jù)的深度學習方法,具有強魯棒性、容錯性、自學習處理不確定系統(tǒng)等特點。GNN用于輿情數(shù)據(jù)補齊,能夠充分地利用不同時間的網(wǎng)絡中其他各節(jié)點的觀測值的特征信息[8,9]。本研究以多主題輿情數(shù)據(jù)補齊為目標,構(gòu)造具備學習動態(tài)圖結(jié)構(gòu)能力的圖神經(jīng)網(wǎng)絡框架(AGNN),探索多元時間序列的隱性圖結(jié)構(gòu),在GNN學習和消息傳遞的基礎上,實現(xiàn)快速有效的輿情數(shù)據(jù)補齊。
本研究的貢獻主要體現(xiàn)在:①使用圖表示法來描述某一類相互關(guān)聯(lián)的經(jīng)濟指數(shù)所構(gòu)成的系統(tǒng),并且構(gòu)造以分項主題為節(jié)點的有向動態(tài)圖,其中分項時間序列數(shù)據(jù)為節(jié)點特征;②設計具備圖學習層的AGNN網(wǎng)絡,來學習動態(tài)圖的結(jié)構(gòu)變化并預測標簽,通過圖卷積模塊捕獲節(jié)點與節(jié)點鄰居的空間依賴關(guān)系,通過時間卷積模塊在時間維度上獲取信息,二者交替進行,從而實現(xiàn)數(shù)據(jù)補全;③在AGNN網(wǎng)絡圖表示下,不連續(xù)的具體領域新聞輿情數(shù)據(jù)得以根據(jù)相關(guān)領域輿情變動情況補齊,相比單一時間序列補齊和K近鄰等補齊方法,更能夠同時納入時間和空間的關(guān)聯(lián),解決了特定主題新聞不連續(xù)無法使用相應輿情數(shù)據(jù)進行預測的問題,促進了計算機科學、經(jīng)濟學和管理學領域的交叉創(chuàng)新。
量化新聞文本中反映出的情感傾向和輿論觀點,以及匯總輿情來反映經(jīng)濟趨勢是研究者普遍關(guān)注的方向?,F(xiàn)今新聞數(shù)據(jù)的處理主要分為3種方法:統(tǒng)計方法、詞典方法和機器學習方法。在統(tǒng)計方法的研究中,常利用主觀指定的關(guān)鍵詞的數(shù)量等文本特征來反映其情感傾向。經(jīng)濟政策不確定性指標(EPU)經(jīng)常用于市場動態(tài)分析當中,EPU指數(shù)于2016年由斯坦福大學與芝加哥大學3位學者編制[10],選擇相關(guān)領域的報紙,統(tǒng)計了與經(jīng)濟政策相關(guān)的新聞中“不確定”這一關(guān)鍵詞的頻率,構(gòu)建了反映經(jīng)濟政策不確定性的指標。研究表明,EPU指數(shù)與實際宏觀經(jīng)濟變量有顯著反向關(guān)系,甚至對權(quán)益市場的大幅波動也有解釋作用[11]。使用機器學習方法的研究中,YADAV等[12]使用有監(jiān)督的情感分析方法來處理實時新聞數(shù)據(jù),以檢驗期貨市場中投資者購買行為的可預測性;HAUSLER等[13]基于支持向量機處理新聞數(shù)據(jù),分別構(gòu)建了股市和房地產(chǎn)市場的情感指數(shù)。構(gòu)建情感詞典的方法在情感分析中占據(jù)主要地位,用詞典來區(qū)分語義情感具有結(jié)構(gòu)清晰、使用便捷和理論完整的優(yōu)點。
近年來隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)的可獲得性和可用性大大提高,已有大量研究通過用戶搜索行為和評論來構(gòu)建各類經(jīng)濟場景下的經(jīng)濟輿情指數(shù)。
經(jīng)濟指標的不穩(wěn)定會直接反映國家經(jīng)濟社會的諸多問題,因此國內(nèi)外的專家學者對于經(jīng)濟指標的預測十分重視。APARICIO等[14]提出了基于網(wǎng)購價格的CPI預測方法,通過爬取網(wǎng)購商品價格的數(shù)據(jù)來計算網(wǎng)購商品CPI,以作為外生變量對實際CPI進行預測;劉張宇[15]通過對情感分析技術(shù)、鋼鐵行業(yè)上下游產(chǎn)業(yè)鏈以及鋼鐵價格指數(shù)的系統(tǒng)性研究,搭建了鋼鐵價格指數(shù)趨勢預測框架;POWELL等[16]研究集中在產(chǎn)品類別的平均價格,實現(xiàn)了自動化地預測每日消費者價格指數(shù)。同時,隨著各大搜索引擎的搜索指數(shù)產(chǎn)品的陸續(xù)出現(xiàn),搜索指數(shù)成為研究經(jīng)濟輿情的有力工具。張瑞等[17]基于網(wǎng)絡搜索數(shù)據(jù)對商品零售價格進行預測;雷懷英等[18]通過對物價關(guān)鍵詞的搜索數(shù)據(jù)進行整合,進而探究互聯(lián)網(wǎng)數(shù)據(jù)與通貨膨脹的相關(guān)性?,F(xiàn)有的互聯(lián)網(wǎng)數(shù)據(jù)應用于經(jīng)濟領域的研究結(jié)構(gòu)有許多相似之處,大多基于搜索引擎數(shù)據(jù)使用主題詞和趨勢詞建模,但基于趨勢情感映射的輿情詞典可綜合評估不同類別詞匯對語義的影響,其中包含了情感詞、主題詞、否定詞以及程度副詞等,相比原有方法,能更有效地提高量化信息的準確性[19]。
目前已有大量關(guān)于時間序列中缺失值的填補的研究工作。傳統(tǒng)的統(tǒng)計推斷方法,如基于多項式曲線擬合、中值計算、均值計算等插值方法,未能利用到時間序列的信息特征和變量之間的關(guān)聯(lián)關(guān)系。而一些基于機器學習的計算方法,如期望最大化算法(EM)、K-最近鄰(KNN)、矩陣分解或狀態(tài)空間模型,無法建模時間序列的時間依賴性。最近,一些深度學習方法在多元時間序列缺失值填補工作中取得了成功。其中應用最廣泛的是基于深度循環(huán)網(wǎng)絡(RNN)的自回歸方法[20~22]。CHE等[20]提出了GRU-D的深度神經(jīng)網(wǎng)絡,通過門控循環(huán)單元(GRU)的隱藏狀態(tài)來表示數(shù)據(jù)的缺失模式,并整合進模型,捕獲時間序列的長時間依賴。另一種成功研究策略是利用對抗神經(jīng)網(wǎng)絡學習真實數(shù)據(jù)的完整生成序列,進而對時間序列補齊[23~25]。GUO等[25]以GRUI(一種經(jīng)過修飾的GRU單元)來建模不完全時間序列,通過對抗生成模型學習時間關(guān)系、類內(nèi)相似性和數(shù)據(jù)集的分布。得益于圖神經(jīng)網(wǎng)絡高效的非線性時空間依賴關(guān)系捕獲能力,以及可擴展性和靈活性,也有研究者將輸入的多元時間序列建模為圖序列,以邊表示不同變量之間的關(guān)系。WU等[26]提出了一種為多元時間序列數(shù)據(jù)設計的通用圖神經(jīng)網(wǎng)絡框架MTGNN,無需預先指定變量之間的關(guān)系,通過圖學習模塊學習多元變量之間潛在的依賴。但是現(xiàn)有的GNN補齊方法依賴于預定義的圖結(jié)構(gòu)來執(zhí)行時間序列預測,除此之外,多數(shù)GNN方法只關(guān)注消息傳遞(GNN學習),而忽略了圖結(jié)構(gòu)不是最優(yōu)的并且應該在訓練期間更新的事實。所以,未知圖結(jié)構(gòu)或已知圖結(jié)構(gòu)但該結(jié)構(gòu)不是最佳的,對于預測來說都是需要解決的問題。
本研究從互聯(lián)網(wǎng)新聞數(shù)據(jù)來提取特定行業(yè)變動趨勢相關(guān)觀點文本,首先使用基于趨勢情感映射和考慮句法結(jié)構(gòu)的輿情詞典,對于同主題下的新聞數(shù)據(jù)進行細分,再運用該詞典量化各分項的新聞文本,從而構(gòu)建各個細項的日度輿情值。針對新聞數(shù)據(jù)的缺失問題,提出一種圖神經(jīng)網(wǎng)絡刻畫輿情指數(shù)之間的關(guān)聯(lián),以實現(xiàn)對于缺失指數(shù)數(shù)據(jù)節(jié)點的數(shù)據(jù)補齊。本研究將領域的分項視為節(jié)點,而分項的輿情值視為節(jié)點的特征序列,利用設計的圖神經(jīng)網(wǎng)絡模型對存在的隱性圖結(jié)構(gòu)進行學習,發(fā)現(xiàn)節(jié)點之間隱藏的關(guān)聯(lián)性,捕獲節(jié)點間的時空依賴性,進而預測缺失值來實現(xiàn)缺失補齊的目的。
本研究基于互聯(lián)網(wǎng)新聞數(shù)據(jù)來構(gòu)建相關(guān)領域的輿情詞典[19],使用TextRank和TF-IDF算法選擇趨勢詞為種子詞。在這些種子詞及其同義詞擴展的基礎上,通過集成學習Word2Vec和情感取向互信息(So-PMI)的相關(guān)性計算結(jié)果,判斷情感詞在輿情詞典中的歸屬,并用標簽傳播算法將情感詞的相關(guān)值附加到輿情字典中。同時,在輿情詞典中加入程度詞典和否定詞典來刻畫語義的強烈等級,并在句子等級進行主題匹配以提高量化文本的準確性。由于本研究構(gòu)建的輿情詞典具有量化新聞文本的能力,故具有文本分類的功能。以物價的子領域劃分為細項輿情主題,通過所構(gòu)建的輿情詞典生成相應細項的日度輿情特征序列,并利用設計的AGNN圖神經(jīng)網(wǎng)絡模型對存在的隱性圖結(jié)構(gòu)進行學習,構(gòu)成關(guān)于各領域價格指數(shù)的動態(tài)輿情指數(shù)網(wǎng)絡,捕獲各細項的新聞信息來實現(xiàn)缺失部分的預測,進而完善輿情指數(shù)。而設計的圖神經(jīng)網(wǎng)絡模型,主要由一個圖學習層、n個圖卷積模塊以及n個擴張過濾器組成。最后,將補齊后的細項輿情指數(shù)與對應的具體統(tǒng)計指標進行比較分析,并構(gòu)建預測模型,對所提出方法的實證效果進行檢驗。本研究框架見圖1。
圖1 研究框架
使用動態(tài)圖表示法來描述本研究問題后,構(gòu)建AGNN自學習圖神經(jīng)網(wǎng)絡模型以捕獲動態(tài)網(wǎng)絡中的信息,并且根據(jù)時序數(shù)據(jù)進行學習和優(yōu)化圖結(jié)構(gòu),過程中不僅考慮自身特征,還充分利用了其他觀測值的特征信息,進一步完善預測效果。
模型的具體框架如下(見圖2):對于特定的領域進行主題細分,將各細分項視為節(jié)點,其時間序列數(shù)據(jù)設定為節(jié)點的特征,第i個分項的第j個特征表示為Fji。而圖學習層可以自適應地學習隱形圖的鄰接矩陣A∈Rn×n,以捕獲各個細項的時間序列數(shù)據(jù)之間的隱藏關(guān)系,鄰接矩陣中的元素aij∈{0,1},設Y∈Rn是標簽集,P∈{0 or 1}n是分區(qū),其中只有當aij=1時,Pi=1,在訓練測試中觀察到Y(jié)i。例如對于分項Ti,若aki=1,則表示分項Tk與分項Ti之間有有向邊,方向是Tk指向Ti,同時Pk=1,即在預測分項Ti的缺失特征值時,訓練過程中觀察到Y(jié)k,即分項Tk的標簽。對于每個分項,根據(jù)預測的標簽結(jié)果選擇合適的其他分項作為鄰居,而每一個分項視為節(jié)點,然后通過圖卷積模塊(GCM)融合節(jié)點的信息和節(jié)點鄰居的信息來處理空間依賴性。時間層面信息提取模塊(TCM),則是利用一維卷積濾波器來捕獲時間序列數(shù)據(jù)的順序模式,作用是捕獲時間層面的節(jié)點信息。時間卷積模塊通過在時間軸和節(jié)點軸上來過濾輸入(用虛線框表示),圖卷積模塊在每一步過濾輸入(用實線框表示),二者交替推進。通過上述模型,即可補齊節(jié)點Ti在t+1時刻的缺失值,時間窗口繼續(xù)滑動至新的特征矩陣(包含補齊的特征值和未被觀察的節(jié)點特征),再次利用自學習層,獲得新的鄰接矩陣A。
3.2.1圖學習層
圖學習層自適應地學習圖的鄰接矩陣,以捕獲各個細項的時間序列數(shù)據(jù)之間的隱藏關(guān)系,而在多元時間序列預測中,希望節(jié)點的前期條件變化導致后期變化,故所學的關(guān)系應該是單向的。出于該目的,圖學習層的設計有利于這種單向關(guān)系的提取,其核心公式如下:
N1=tanh(αE1θ1);
(1)
N2=tanh(αE2θ2);
(2)
(3)
idx=argtopk(A[i:]);
(4)
A[i,idx]=0(i=1,2,…,M),
(5)
式中,E1、E2表示為隨機初始化的節(jié)點嵌入,并且在訓練過程中是可以學習的;θi是模型參數(shù);α是控制激活函數(shù)飽和率的超參數(shù);argtopk是返回top-k的索引向量的最大值。由式(3)實現(xiàn)的圖鄰接矩陣具有不對稱性質(zhì),其中減法項和RELU激活函數(shù)正則化鄰接矩陣,從而體現(xiàn)單向性,而一般的距離度量通常是對稱或者雙向的。式(4)和式(5)是制作鄰接矩陣的策略稀疏同時降低接下來圖卷積的計算成本。對于每個節(jié)點,選擇它的前k個最近的節(jié)點作為其鄰居。在保留連接節(jié)點的權(quán)重的同時,將非連接節(jié)點的權(quán)重設置為零。
當圖學習層學習到隱藏圖結(jié)構(gòu)的鄰接矩陣A,矩陣A導入圖卷積模塊,圖卷積模塊實質(zhì)是由兩個混合跳傳播層組成,當圖學習層學習到鄰接矩陣,混合跳傳播層可以在空間層面處理相關(guān)節(jié)點的信息。
3.2.2混合跳傳播層
在給定圖鄰接矩陣的情況下,混合跳傳播層來處理空間相關(guān)節(jié)點上的信息流,其核心步驟主要為信息傳播過程和信息選擇過程。核心步驟的數(shù)學形式如下:
①信息傳播過程:
(6)
式中,β是一個超參數(shù),它控制保留的比率根節(jié)點的原始狀態(tài)。
②信息選擇過程:
(7)
本研究保留了一部分節(jié)點的原始狀態(tài)傳播過程,以便傳播的節(jié)點狀態(tài)既可以保留自身信息,又能探索鄰居節(jié)點的深層信息。如果只應用信息傳播過程,將會丟失一些節(jié)點信息。因為在不存在空間依賴的情況下,聚合鄰里信息只會增加無用的噪音到每個節(jié)點,引入信息選擇步驟是為了過濾掉可能出現(xiàn)的噪音,保留下每一跳產(chǎn)生的重要信息。根據(jù)信息選擇原理,參數(shù)矩陣W(k)功能作為一個特征選擇器,并且當給定一個圖結(jié)構(gòu),該圖結(jié)構(gòu)不包含依賴關(guān)系時,可以通過調(diào)整W(k)為0來保留原始節(jié)點的自身信息?;旌蟼鞑拥膫鞑ミ^程見圖3。
圖3 混合傳播層的傳播過程
3.2.3擴張初始層
時間層面信息提取模塊主要由兩個擴張的初始層組成。一個擴張的初始層之后是一個切線雙曲線激活函數(shù)作為過濾器,另一層之后是一個sigmoid激活函數(shù),其作為一個門,來控制過濾器傳遞給下一個模塊的信息。由于時間信號往往具有一些固有的時間周期,而量化的輿情值是日度數(shù)據(jù),符合這些時間周期的范圍,1×7尺寸的濾波器組成的時間初始層可以覆蓋上述周期。同時,卷積網(wǎng)絡的感受野大小、網(wǎng)絡深度及過濾器內(nèi)核尺寸呈線性關(guān)系增加,比如一個卷積網(wǎng)絡具有n個一維卷積層,并且每個卷積層的內(nèi)核大小為c,那么這個卷積網(wǎng)絡的感受野大小為
感受野=n(c-1)+1。
(8)
擴張初始層可以減少模型的復雜度,因為當處理很長的時間序列,它需要一個非常深的網(wǎng)絡即非常大的過濾器,這就意味著復雜度過高導致模型運算困難。解決該問題的具體方法為,設置膨脹因子q(q>1),對每q步的采樣輸入應用標準卷積,讓每一層的膨脹因子以q的指數(shù)形式增加,假設初始膨脹因子為1,內(nèi)核為c的n個一維卷積層組成的卷積網(wǎng)絡,其感受野大小為
(9)
3.2.4輸出層
圖4 節(jié)點信息捕獲過程
3.3.1價格輿情特征提取
本研究采用基于詞典的方法進行文本量化[19],詞典中的每個單詞都必須對應地有一個極性得分,稱為該詞的觀點值,觀點值的大小用來衡量對應詞在特定領域中的觀點強度,觀點值的正負反映對應詞的觀點方向(繁榮或衰落)。本部分的目的是,建立與所研究領域主題的新聞特別相關(guān)的基于趨勢情感映射的輿情詞典,其主要由種子詞典、程度詞典、否定詞典和情感詞典組成。主題輿情詞典的構(gòu)造框架見圖5。
圖5 輿情詞典的構(gòu)建
選擇的種子詞及其擴展為反映經(jīng)濟領域發(fā)展趨勢的詞(如“上升”“下降”等)。這樣的詞作為詞典的“種子”,更能充分提取經(jīng)濟市場的動態(tài)信息。使用詞頻、詞頻-逆文本頻率和TextRank算法選擇種子詞及其擴展。根據(jù)極性,在字典中將種子詞i的觀點值記為Vd,i。將在同義詞林中得到的詞與對應種子詞組的平均相關(guān)性記為ci,則將詞典中同義詞i的觀點值記為Ve,i。使用神經(jīng)網(wǎng)絡詞向量訓練Word2Vec方法和So-PMI方法對情感詞進行處理,通過集成學習兩種算法的極性判別結(jié)果,來獲取情感詞在輿情詞典中的極性和相似度。情感詞i的極性歸屬可以由相關(guān)值Tc,i或Tp,i來判斷,而標簽數(shù)據(jù)的敏感性分析決定判別極性的閾值ρ,本研究使用不同的閾值對情感詞進行極性劃分,獲得Word2Vec和PMI兩種算法的最佳閾值分別為ρW2V和ρPMI,從而實現(xiàn)情感詞的極性劃分。完成極性劃分后,情感詞的相關(guān)值Cor_I與趨勢種子詞及其擴展的觀點值并不相關(guān),故需要計算映射系數(shù),將相關(guān)值Cor_I映射到趨勢種子詞及其擴展的觀點值的值域當中。
本研究基于標簽傳播算法進行映射系數(shù)的計算。具體為將詞典中的詞定義為圖模型的節(jié)點,趨勢種子詞及其擴展的矩陣記為FL,第i行表示第i個趨勢種子詞的觀點值;情感詞的矩陣記為FU,其每行的初始值都為0,將它們合并得到矩陣F(L+U)×1=[FL;FU]。對于圖模型的邊,將之前計算的Word2Vec和So-PMI算法的相關(guān)值的集成值作為圖模型的邊權(quán)wij。該圖模型為有向圖,情感詞與種子詞及其擴展分別對應相連,但同屬性的詞之間無邊(邊權(quán)wij=0)。由圖模型的邊權(quán)可以計算點i到點j的轉(zhuǎn)移概率Pij,得到一個(L+U)×(L+U)維的轉(zhuǎn)移概率矩陣P。進行LP算法更新,結(jié)束后FU中的值即為情感詞i一一對應的映射系數(shù)θi。
經(jīng)過上述步驟,可以得到情感詞i的極性分組Polari、極性相關(guān)值Cor_Ii以及映射系數(shù)θi。則輿情詞典中情感詞i的觀點值Vs,i為
(10)
式中,Up和Down分別表示上漲集合和下降集合。
3.3.2輿情指數(shù)網(wǎng)絡
本研究使用構(gòu)建的輿情詞典對收集的文本按照主題進行分類,分別將食品領域和有色金屬領域分為若干個細項,通過量化各細項主題下的新聞文本,構(gòu)建相應的日度物價輿情值。各細項組成圖的節(jié)點集,細項的日度值視為其特征序列,形成一個圖結(jié)構(gòu)數(shù)據(jù)。利用本研究設計的圖神經(jīng)網(wǎng)絡模型對動態(tài)圖結(jié)構(gòu)進行學習,AGNN繼續(xù)抓取節(jié)點之間的關(guān)聯(lián)關(guān)系,捕獲時空依賴性;然后利用已有的信息去預測缺失部分,實現(xiàn)各細項的輿情指數(shù)的補齊,至此構(gòu)建了一個特定領域主題下的輿情指數(shù)動態(tài)網(wǎng)絡。
量化某篇新聞文本k的表達式為
(11)
式中,Vword in k表示新聞文本k中詞條的觀點值,搜索當前詞條前后兩個詞的范圍,若出現(xiàn)程度詞i,則將當前詞條的觀點值變換Ve,i倍;搜索當前詞條前后3個詞的范圍,若出現(xiàn)奇數(shù)個否定詞,則否定系數(shù)Neg=-1,否則Neg=1。
基于量化后的新聞,將同日的新聞輿情量化值求和平均。則日度輿情指數(shù)定義為
POId=Average(NVd,k),
(12)
式中,NVd,k表示第d天的新聞值文本量化集合;Average表示求和平均。則月度輿情指數(shù)為
POIt=Average(POIt,d),
(13)
式中,POIt,d表示第t月的日度輿情指數(shù)集合。新聞量化的初始輿情值和AGNN補齊后的日度輿情值按日期前后合并成新的日度輿情指數(shù),可定義為
(14)
式中,POIAGNN表示通過AGNN模型補齊的輿情缺失部分。則月度輿情指數(shù)為
(15)
4.1.1數(shù)據(jù)描述
本研究采用一個經(jīng)過檢驗的相對完整新聞數(shù)據(jù)集,篩選了來自2009年10月~2014年2月的搜狐新聞公開數(shù)據(jù)集中,正文包含“食品”“物價”“價格”“CPI”等相關(guān)字段,同時僅保留描述國內(nèi)食品物價情況的新聞,最終共選出2009~2014年全國食品物價新聞219 231條。由于本研究使用的新聞數(shù)據(jù)時間在2016年前,而在2016年1月之后,國家統(tǒng)計局對食品項構(gòu)成進行了調(diào)整,故考慮舊食品項構(gòu)成并根據(jù)《價格指數(shù)生活必需品編制目錄》中的食品分項關(guān)鍵詞條篩選了9個細項數(shù)據(jù)集,分別為糧食、畜肉、食用油、水產(chǎn)品、蔬菜、水果、蛋類、調(diào)味品和其他食品。但是存在在某些監(jiān)測日內(nèi)并未有相關(guān)新聞報道的情況,所以收集的新聞數(shù)據(jù)存在著缺失問題,例如食品主題的缺失天數(shù)共計122天。
4.1.2食品價格輿情指數(shù)網(wǎng)絡構(gòu)建
物價的變化能夠很好地反映通貨膨脹等經(jīng)濟現(xiàn)象的趨勢情況,在現(xiàn)有的經(jīng)濟指標中,居民消費價格指數(shù)(CPI)可解釋一定時間內(nèi)通貨膨脹的變動情況,而其中食品項為最重要的組成部分,故本研究使用CPI食品項當月同比數(shù)據(jù)作為目標變量進行預測分析。使用輿情網(wǎng)絡框架對中國食品物價新聞數(shù)據(jù)集進行量化,針對食品領域的新聞數(shù)據(jù),網(wǎng)絡框架是由Tensorflow中優(yōu)化器AdamOptimizer使用梯度裁剪進行訓練,選擇的學習率為0.001,L2正則化懲罰為0.000 1。在每個圖卷積模塊之后應用分層形式,混合躍點傳播層的深度設置為2,保留率設置為0.04。圖學習層激活函數(shù)的飽和率設置為3,節(jié)點嵌入的維數(shù)不超過40。對于本研究量化的輿情值,使用6個圖卷積模塊和6個時間卷積模塊,膨脹指數(shù)因子為2。圖形卷積模塊和時間卷積模塊都有16個輸出通道,跳過連接層都有32個輸出通道,設置了9個節(jié)點,每個節(jié)點的鄰域數(shù)設為不超過9,而批次大小設置為5。然后使用本研究所描述的輿情指數(shù)構(gòu)建方式,構(gòu)建各領域下的日度輿情值;而對于缺失的部分,利用構(gòu)建的AGNN模型對9個細項進行信息捕獲,將其看成9個節(jié)點,各自的日度輿情值視為節(jié)點的特征序列,圖神經(jīng)網(wǎng)絡對存在的隱性圖結(jié)構(gòu)進行學習,預測缺失部分。得到完整的日度輿情值后,使用文中的月度輿情指數(shù)構(gòu)建方法,形成各細項的月度輿情指數(shù)。根據(jù)2016年之前的食品項各構(gòu)成占比:糧食(10.5%)、食用油(3.9%)、肉禽及其制品(25%)、蛋(3.4%)、水產(chǎn)品(6.6%)、蔬菜(12.1%)、水果(12.1%)、調(diào)味品(2.9%)和其他食品(23.5%),最終合成了食品物價月度輿情指數(shù)POIfood。這里使用了常用的補齊方式(選擇刪除、均值填充和最近鄰點填充)對缺失的日度輿情值進行填充,并且按照各構(gòu)成占比,合成不同的食品物價月度輿情指數(shù);同時用構(gòu)建的輿情詞典對食品項所有新聞進行直接量化,然后合成食品物價總輿情指數(shù)POIfood_all(見圖6)。
圖6 不同補齊方式的輿情指數(shù)
食品項CPI和POI的Pearson相關(guān)系數(shù)見表1。由表1可知,不同方式合成的輿情指數(shù)與食品項CPI值之間具有較強的相關(guān)性,并且基于輿情網(wǎng)絡框架構(gòu)建的輿情指數(shù)和CPI值的相關(guān)系數(shù)提升至0.654,表明本研究方法可以更有效地提取信息。各細項CPI和POI的Pearson相關(guān)系數(shù)見表2。由表2可知,細項的輿情指數(shù)與CPI值之間都具有較強的相關(guān)性,例如肉禽及其制品項中兩項指標的相關(guān)系數(shù)為0.845,糧食項中兩項指標相關(guān)系數(shù)為0.665。進一步說明了本研究方法提取輿情信息的有效性,相比其他方法捕獲了更多的信息。
表1 食品項CPI和POI的Pearson相關(guān)系數(shù)(N=324)(1)利用本研究提出的方法,量化食品價格新聞文本,得到2009年10月~2014年2月的月度輿情指數(shù),共計54條,表1涉及6個變量,觀測值總計324。表2~表4同法得到相應的觀測值。
表2 各細項CPI和POI的Pearson相關(guān)系數(shù)(N=2 430)
4.1.3基于輿情物價修正的食品價格指數(shù)預測
為了探究所構(gòu)建的輿情指數(shù)與食品物價之間是否存在長期穩(wěn)定的均衡關(guān)系,對全國食品物價進行基于回歸殘差的協(xié)整檢驗,檢驗結(jié)果見表3。
表3 食品物價和輿情指數(shù)協(xié)整檢驗(N=324)
協(xié)整檢驗的結(jié)果說明,每組的兩個變量回歸得到的殘差序列都是平穩(wěn)的,即食品物價輿情指數(shù)POI與食品項CPI存在長期穩(wěn)定的均衡關(guān)系。長期均衡關(guān)系的存在也為利用輿情指數(shù)對食品物價進行預測分析奠定了理論基礎。
為了進一步驗證所構(gòu)建食品物價輿情指數(shù)網(wǎng)絡模型的有效性,本研究用基于食品物價輿情指數(shù)網(wǎng)絡補齊的食品分項輿情指數(shù)集合,對消費者價格指數(shù)食品項(CPIfood)同比數(shù)據(jù)進行預測。由于食品項CPI指數(shù)具有較強的季節(jié)性和趨勢性,首先通過X13季節(jié)調(diào)整加法模型剔除季節(jié)因素后,保留季節(jié)調(diào)整后值(SA項)。而ARIMA模型在經(jīng)濟預測過程中既考慮了經(jīng)濟現(xiàn)象在時間序列上的依存性,又考慮了隨機波動的干擾性,對于經(jīng)濟運行短期趨勢的預測準確率較高[27],模型只考慮內(nèi)生性而不需要外生變量。由于本研究的核心是探索輿情指數(shù)是否對食品價格指數(shù)變化存在外生影響,所以使用食品項CPI的SA項數(shù)據(jù)構(gòu)造自回歸滑動平均預測模型(ARIMA),以去除數(shù)據(jù)本身內(nèi)生性帶來的效益,將預測的SA項值還原為預測的食品項CPI,與實際的食品項CPI比較分析。本研究使用2009年10月~2013年6月的食品物價輿情指數(shù)POIfood、食品物價總輿情指數(shù)POIfood_all、選擇刪除補齊的食品物價輿情指數(shù)POI選擇刪除、均值補齊的食品物價輿情指數(shù)POI均值補齊、最近鄰點法補齊的食品物價輿情指數(shù)POI最近鄰點分別與ARIMA模型得到的殘差構(gòu)造最小二乘法回歸模型,進行誤差修正。
(1)ARIMA模型的確定
對食品項CPI的SA項進行ADF單位根檢驗,結(jié)果顯示數(shù)據(jù)是一階差分平穩(wěn),可以設定ARIMA模型參數(shù)d=1;然后根據(jù)AIC準則和BIC準則,確立最合適的ARIMA模型參數(shù)p=1,q=1;最終選擇ARIMA(1,1,1)作為預測模型。模型表達式為
ΔYt=c+β1ΔYt-1+γ1μt-1+μt,
(16)
式中,c為常數(shù)項;β1為自回歸系數(shù);γ1為移動回歸系數(shù);{μt}為白噪聲序列。
由ARIMA模型直接預測的Yt為食品項CPI的SA項預測值,然后通過季節(jié)調(diào)整的加法模型還原為CPI預測值:
CPIt=Yt+季節(jié)調(diào)整因子t;
(17)
季節(jié)調(diào)整因子=CPItrue-(TC+I),
(18)
式中,TC表示季節(jié)調(diào)整后的趨勢循環(huán)項;I為不規(guī)則要素。
基于該模型的食品項CPI預測結(jié)果見圖7。由圖7可知,預測結(jié)果與實際值之間的差距呈現(xiàn)一定的規(guī)律性,在大部分時間ARMA模型的擬合值都略微滯后于CPI的實際值。這與現(xiàn)有的CPI預測實證研究中的結(jié)果一致[27,28]。
圖7 ARIMA預測食品項CPI和實際食品項CPI
(2)食品項CPI的誤差修正
ARIMA模型中誤差的產(chǎn)生是由于其只考慮了數(shù)據(jù)本身所在的時間序列特征,并沒有考慮外生變量對物價的影響。由于物價相關(guān)輿情從一定程度上可以體現(xiàn)很多方面對于物價的外來影響,而根據(jù)協(xié)整檢驗的結(jié)果可知,本研究構(gòu)建的輿情指數(shù)和食品項CPI是存在長期穩(wěn)定的均衡關(guān)系。因此,這里用本研究構(gòu)建的食品分項輿情指數(shù)來修正食品項CPI預測值的誤差,選擇OLS回歸模型,并使用最優(yōu)子集回歸的方法進行變量篩選。由于OLS回歸模型為時間序列模型,允許變量滯后項參與回歸過程,則生成各種食品物價輿情指數(shù)的1~3階滯后。經(jīng)過最優(yōu)子集回歸,根據(jù)AIC、BIC、Cp準則以及擬合優(yōu)度R2,以ARIMA殘差(σ)為因變量,分別生成5種食品物價輿情指數(shù)的誤差修正模型,模型的基本形式為
模型1:
σ=α11POIfood_all+α12POIfood_all(-1)+δ1;
(19)
模型2:
σ=α21POI選擇刪除+α22POI選擇刪除(-1)+δ2;
(20)
模型3:
σ=α31POI均值補齊+α32POI均值補齊(-1)+
α33POI均值補齊(-2)+δ3;
(21)
模型4:
σ=α41POI最近鄰點+α42POI最近鄰點(-1)+
α43POI最近鄰點(-2)+δ4;
(22)
模型5:
σ=α51POIfood+α52POIfood(-1)+
α53POIfood(-2)+δ5,
(23)
式中,αij(i=1,2,3,4,5;j=1,2,3)為回歸系數(shù);δi(i=1,2,3,4,5)為隨機誤差項。然后將由輿情指數(shù)修正的殘差與ARIMA的預測值進行結(jié)合,再考慮季節(jié)調(diào)整因子的因素,得到最終的食品項CPI的預測值為CPIt=Yt+季節(jié)調(diào)整因子t+σt。
4.1.4預測結(jié)果分析
使用處理好的數(shù)據(jù)集對模型1~模型5和ARIMA模型分別建立預測模型,進行靜態(tài)的樣本內(nèi)的預測(IN),時間區(qū)間為2009年10月~2013年6月。對模型的預測結(jié)果評估依據(jù)均方誤差(MSE)、誤差均方根(RMSE)、平均絕對誤差(MAE)、平均相對誤差絕對值(MAPE)、對稱平均絕對百分比誤差(SMAPE)5個指標來評判。為了探究輿情指數(shù)在樣本外預測的效果,對6個模型分別建立預測模型,進行動態(tài)的樣本外預測,使用時間區(qū)間為2009年10月~2013年6月的樣本數(shù)據(jù)對2013年6月~2014年2月進行預測,樣本內(nèi)外的預測效果對比見表4。
表4 預測結(jié)果對比(N=1 620)
由樣本內(nèi)預測結(jié)果可知,用食品物價輿情指數(shù)對ARIMA誤差進行修正后的預測模型,其所有評價指標都逐漸減小,有更加良好的預測結(jié)果,并且基于AGNN輿情指數(shù)網(wǎng)絡的誤差修正預測模型各項指標均達到最小。而樣本外預測結(jié)果表明,加入食品物價輿情指數(shù)對預測精度有所提高,并且分細項后再合成的輿情指數(shù)能捕獲更多的信息,從而更好地預測食品項CPI。除此之外,構(gòu)建輿情指數(shù)網(wǎng)絡來實現(xiàn)數(shù)據(jù)補齊的方式是效果最好的,其涉及的預測模型評價指標也是6個模型中數(shù)值最小的,有良好的樣本外預測效果。樣本內(nèi)和樣本外的預測驗證了所構(gòu)建的全國食品物價輿情指數(shù)的有效性,通過對食品項CPI進行預測建模,能夠提高食品項CPI的預測精度,為全國食品消費市場的預測研究作出貢獻。
4.2.1數(shù)據(jù)描述
為了進一步驗證本研究方法的合理性和可擴展性,嘗試建立有色金屬行業(yè)領域基于互聯(lián)網(wǎng)新聞的輿情指數(shù)網(wǎng)絡,爬取了來自中國有色網(wǎng)2015年1月~2021年12月的新聞數(shù)據(jù),進行數(shù)據(jù)清洗過濾,最終共保留2015~2021年全國有色金屬行業(yè)新聞5 604條。
4.2.2有色金屬領域輿情指數(shù)網(wǎng)絡構(gòu)建
以主要有色金屬的價格及需求為主題進行分項,構(gòu)建有色金屬領域的輿情網(wǎng)絡,利用本研究方法填補缺失部分,針對有色金屬領域的新聞數(shù)據(jù),混合躍點傳播層的深度設置為2,保留率設置為0.05。圖學習層激活函數(shù)的飽和率設置為2.5,節(jié)點嵌入的維數(shù)不超過30。對于本研究量化的輿情值,使用5個圖卷積模塊和5個時間卷積模塊,膨脹指數(shù)因子為2。圖形卷積模塊和時間卷積模塊都有10個輸出通道,跳過連接層都有20個輸出通道,設置了8個節(jié)點,每個節(jié)點的鄰域數(shù)設為不超過8,而批次大小設置為4。
合成有色金屬行業(yè)價格輿情指數(shù)(POIprice)和需求輿情指數(shù)(POIdemand),與有色金屬的工業(yè)生產(chǎn)者出廠價格指數(shù)(PPI同比)進行相關(guān)性分析,并和其他補齊方法進行比較,結(jié)果見表5。由表5可知,基于輿情網(wǎng)絡框架構(gòu)建的輿情指數(shù)和PPI值的相關(guān)系數(shù)提升至最高,表明本研究補齊方式可以更有效地提取信息。
表5 有色金屬輿情值與有色金屬PPI的Pearson相關(guān)系數(shù)(N=3 060)(2)利用本研究提出的方法,量化有色金屬行業(yè)新聞文本,得到2015年1月~2021年12月的月度輿情指數(shù),共計84條,表5涉及40個變量,觀測值總計3 360。表6同法得到相應的觀測值。
4.2.3基于輿情修正的有色金屬行業(yè)價格指數(shù)預測
同理,對有色金屬PPI的SA項進行ADF單位根檢驗,結(jié)果顯示數(shù)據(jù)是一階差分平穩(wěn),可以設定ARIMA模型參數(shù)d=1,并根據(jù)AIC準則和BIC準則,確立最合適的ARIMA模型參數(shù)p=1,q=2,并且協(xié)整檢驗說明,有色金屬輿情指數(shù)POI與有色金屬行業(yè)PPI存在長期穩(wěn)定的均衡關(guān)系。因此,最終選擇ARIMA(1,1,2)作為基準模型,然后用本研究方法構(gòu)建的主題輿情指數(shù)來修正有色金屬PPI的預測殘差,根據(jù)AIC、BIC、Cp準則以及擬合優(yōu)度R2,以ARIMA殘差(σ)為因變量,分別生成有色金屬行業(yè)輿情指數(shù)的誤差修正模型為
模型1(ARIMA+POI選擇刪除):
σ=ω11POIprice(-1)+ω12POIprice(-2)+
ω13POIdemand(-1)+δ1;
(24)
模型2(ARIMA+POI均值補齊):
σ=ω21POIprice(-1)+ω22POIprice(-2)+
ω23POIdemand(-1)+δ2;
(25)
模型3(ARIMA+POI最近鄰點):
σ=ω31POIprice(-1)+ω32POIprice(-2)+
ω33POIdemand(-1)+δ3;
(26)
模型4(ARIMA+POIAGNN):
σ=ω41POIprice(-1)+ω42POIprice(-2)+
ω43POIdemand(-1)+δ4,
(27)
式中,ωij(i=1,2,3,4;j=1,2,3)為回歸系數(shù);δi(i=1,2,3,4)為隨機誤差項。
4.2.4預測結(jié)果分析
使用處理好的數(shù)據(jù)集對模型1~模型4和ARIMA模型分別建立預測模型進行靜態(tài)的樣本內(nèi)的預測(IN)和動態(tài)的樣本外的預測(OUT),使用時間區(qū)間為2015年1月~2021年6月的樣本數(shù)據(jù)對2021年7~12月進行預測,樣本內(nèi)外的預測效果對比見表6。
表6 有色金屬預測結(jié)果對比(N=4 100)
由預測結(jié)果可知,構(gòu)建輿情指數(shù)網(wǎng)絡來實現(xiàn)數(shù)據(jù)補齊的方式是效果最好的,其涉及的預測模型評價指標也是諸多模型中數(shù)值最小的,有良好的樣本外預測效果。樣本內(nèi)和樣本外的預測驗證了所構(gòu)建的有色金屬輿情指數(shù)的有效性,通過對有色金屬PPI進行預測建模,能夠提高預測精度,本研究所提出的方法適用于不同的價格指數(shù)領域,具有擴展性和實用性。
本研究構(gòu)建了特定領域下的輿情指數(shù)動態(tài)網(wǎng)絡,解決了輿情指數(shù)構(gòu)建中由于新聞數(shù)據(jù)稀疏性導致的連續(xù)性和一致性等問題,能更有效地提取公眾輿情觀點。實證檢驗顯示,本研究所提出的方法可提高基于輿情數(shù)據(jù)進行食品價格和有色金屬價格預測的精度。由于構(gòu)建過程中僅采用了來自特定領域的新聞數(shù)據(jù)集和價格指標時間序列,并沒有采用其他外生變量數(shù)據(jù)信息,所以本研究提供了一種不依賴于領域經(jīng)濟知識的建模和預測方法,是數(shù)據(jù)驅(qū)動的便于應用于其他類似領域的方法,具有較好的可擴展性。
本研究將動態(tài)圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡用于輿情趨勢推斷,為更好地獲取新聞數(shù)據(jù)中輿情信息提供了一種方法,并且在與其他方法的比較過程中顯示出更好的性能,基于本研究輿情網(wǎng)絡框架構(gòu)建的食品物價輿情指數(shù)和有色金屬輿情指數(shù),與食品CPI和有色金屬行業(yè)PPI的相關(guān)系數(shù)結(jié)果表明,本研究方法可以更有效地提取信息。另外,在食品項價格指數(shù)方面,細項的輿情指數(shù)與各自CPI值之間都具有較強的相關(guān)性;有色金屬行業(yè)領域方面,細項的輿情指數(shù)與PPI之間也具有強相關(guān)性,進一步說明本研究方法的有效性。在這種圖形表示下,特征插補可以自然地表示為節(jié)點級的預測任務,而標簽預測作為動態(tài)圖隨時間變化的參考依據(jù),構(gòu)造出具備學習動態(tài)圖結(jié)構(gòu)能力的圖神經(jīng)網(wǎng)絡框架,并且考慮了數(shù)據(jù)的特征性質(zhì)和標簽類型,能更好地利用數(shù)據(jù)信息。僅需要從時間序列本身提取時序特征,利用輿情信息所蘊含的外部信息作為外生變量的來源對時序預測模型進行修正,從而實現(xiàn)快捷有效的時序預測。根據(jù)樣本內(nèi)和樣本外預測結(jié)果可知,在食品物價領域中,該預測模型的預測誤差均為6個預測模型中最低值;而在有色金屬行業(yè)領域中,基于輿情指數(shù)網(wǎng)絡方法的預測效果顯示最佳。
本研究僅以單變量時間序列作為CPI預測和PPI預測的基準模型進行實證設計,沒有考慮其他外生變量;在后續(xù)的研究中,將設計方法來驗證輿情變量是否能夠完全涵蓋其他外生因素對于目標時間序列的影響。雖然本研究方法具有一般性,但在其他領域應用中可能會需要進行模型算法的調(diào)整和改進,同時需要進一步考慮經(jīng)濟變量理論上的關(guān)聯(lián)作為網(wǎng)絡結(jié)構(gòu)生成的約束。