亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時間編碼LSTM的高校輿情熱點趨勢預(yù)測研究

        2022-09-18 03:56:26易杰曹騰飛黃明峰黃肖翰張子震
        大數(shù)據(jù) 2022年5期
        關(guān)鍵詞:輿情編碼預(yù)測

        易杰,曹騰飛,黃明峰,黃肖翰,張子震

        1. 青海大學(xué)計算機技術(shù)與應(yīng)用系,青海 西寧 810016;

        2. 云上貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司,貴州 貴陽 550081

        0 引言

        隨著互聯(lián)網(wǎng)通信技術(shù)的快速發(fā)展,多樣的新媒體平臺(如微博、抖音、貼吧等平臺)將信息及時推送給用戶,使得社會發(fā)生的實時新聞能迅速傳播。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第47次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》統(tǒng)計,截至2020年12月,我國網(wǎng)民規(guī)模達9.89億,其中學(xué)生占比最高[1],達到21%。新時代下高校學(xué)生作為互聯(lián)網(wǎng)用戶的主要群體,在網(wǎng)絡(luò)上的參與度以及活躍度比較高。當(dāng)高校突發(fā)一些熱點事件時,由于高校學(xué)生思想活躍并且樂于表達自我看法,實時熱點問題會引發(fā)激烈的討論[2]。若輿情信息的價值取向是負(fù)面的,則極易帶偏高校學(xué)生的思想觀念,從而引發(fā)一系列高校輿情管理問題,高校輿情管理的重要性不言而喻[3]。

        近些年,高校輿情事件頻頻發(fā)生,其中輿情信息的主題主要圍繞社會時事、校園安全、師風(fēng)師德、學(xué)術(shù)造假等方面,例如研究生校內(nèi)身亡、高校實驗室爆炸、學(xué)生違紀(jì)違法等事件。在事情的真相還未正式公布時,網(wǎng)絡(luò)上各種評論的助推極易導(dǎo)致錯誤的輿情發(fā)展方向,引發(fā)一系列高校以及社會輿情管理問題[4]。高校輿情發(fā)展一般是階段性的,初期由個別大學(xué)生在網(wǎng)絡(luò)上發(fā)布自己對某個問題的想法,而后隨著時間的推移,逐漸引起大范圍的關(guān)注,引發(fā)更多的討論。一般情況下,網(wǎng)絡(luò)輿情的發(fā)展趨勢遵循新聞傳播學(xué)中的“沉默螺旋效應(yīng)”,大多數(shù)人支持的意見會因為更多的人贊同而越來越流行;而少數(shù)人支持的觀點會逐漸減少直至最后消失[5]?;诖嗽恚糨浨榈陌l(fā)展趨勢能比較及時、準(zhǔn)確地被預(yù)測,高校有關(guān)部門就能在短時間采取相應(yīng)的應(yīng)對措施,合理地解決問題,以達到對輿情發(fā)展進行管控的目的。因此,對高校輿情的發(fā)展趨勢進行預(yù)測,有助于新媒體時代下的大學(xué)校園完善管理體系,及時預(yù)測輿情發(fā)展趨勢并加以正確的引導(dǎo)[6],能極大地提升高校對突發(fā)輿情事件的處置水平[7-8]。

        基于上述分析,對輿情熱度的預(yù)測分析顯得尤為重要,不僅關(guān)乎高校學(xué)生的思想健康發(fā)展,而且關(guān)乎整個社會的價值觀取向和穩(wěn)定性。由于輿情信息的發(fā)展一般會隨著時間變化,當(dāng)獲取到輿情的時序數(shù)據(jù)后,需要對數(shù)據(jù)進行分析處理,找到數(shù)據(jù)的變化和發(fā)展趨勢,對未來輿情事態(tài)的發(fā)展做出預(yù)測,以便及時管控。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在大數(shù)據(jù)和人工智能等技術(shù)的推動下,時序數(shù)據(jù)處理的有效性逐漸提高。因此,本文利用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對時序數(shù)據(jù)處理的有效性,研究基于時間編碼的LSTM模型。LSTM對時序數(shù)據(jù)的處理具有極大的優(yōu)勢,但是其只考慮了數(shù)據(jù)相對的先后順序,不包含絕對的時間意義,如LSTM在自然語言處理任務(wù)上的應(yīng)用[9]。對輸入數(shù)據(jù)加入時間編碼,即在使用LSTM處理數(shù)據(jù)時,同時考慮熱點話題發(fā)生的具體時間,以實現(xiàn)對高校輿情熱點的精準(zhǔn)預(yù)測。與支持向量機(support vector machine,SVM)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)兩種模型的預(yù)測結(jié)果進行對比發(fā)現(xiàn),基于時間編碼的LSTM在熱度預(yù)測準(zhǔn)確率上具有明顯優(yōu)勢。

        1 相關(guān)工作

        1.1 輿情分析和預(yù)測

        高校輿情經(jīng)常引發(fā)全社會的廣泛關(guān)注,而輿情的正確引導(dǎo)對于高校管理以及社會的穩(wěn)定發(fā)展有著十分重要的意義。參考文獻[10]針對高校在輿情管理和引導(dǎo)工作中遇到的挑戰(zhàn)與問題,構(gòu)建以“大數(shù)據(jù)”為支撐、新媒體為載體、機制創(chuàng)新為保障的“三位一體”的輿情管理和引導(dǎo)的工作模式,營造了良好的校園輿論生態(tài)環(huán)境。該參考文獻考慮了高校輿情對學(xué)生意識形態(tài)管理的意義,并提出引導(dǎo)輿情向正確方向發(fā)展的策略,然而其在輿情發(fā)展趨勢預(yù)測方面的考慮不足,導(dǎo)致難以有效地引導(dǎo)輿情的發(fā)展[11-13]。在網(wǎng)絡(luò)輿情預(yù)測的研究方面,參考文獻[14]針對區(qū)間猶豫模糊集在描述決策信息時會導(dǎo)致決策信息重要性程度降低這一問題,構(gòu)建了一種基于概率區(qū)間猶豫模糊幾何算子的多屬性群決策模型,且通過網(wǎng)絡(luò)輿情預(yù)測系統(tǒng)的選擇實例驗證了所提決策模型是可行和有效的。秦濤等人[15]提出一種基于排序?qū)W習(xí)的輿情事件演化趨勢重要性評估算法。在模型訓(xùn)練過程中,充分利用標(biāo)注數(shù)據(jù)中的專家知識以及有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的關(guān)聯(lián)關(guān)系,篩選出重要輿情事件并進行管控,提升了資源的利用效能。參考文獻[16]以網(wǎng)絡(luò)流文本為對象,通過分析網(wǎng)絡(luò)話題內(nèi)容焦點的遷移特性,提出了網(wǎng)絡(luò)話題內(nèi)容焦點的識別方法。上述方法由于模型訓(xùn)練未考慮輿情事件的動態(tài)變化性,預(yù)測準(zhǔn)確率不高,還需要進一步增強模型的適應(yīng)性。

        1.2 輿情時序數(shù)據(jù)處理

        由于輿情熱度數(shù)據(jù)按照時間序列變化,劉定一等人[17]針對單一模型預(yù)測精度不高和社交媒體對輿情走勢影響較大的問題,提出了融合微博熱點分析和LSTM的輿情預(yù)測方法。然而特征集的數(shù)量較少,網(wǎng)絡(luò)輿情謠言識別的準(zhǔn)確率還有待提高。笱程成等人[18]利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對社交消息的傳播過程進行建模,提出了SMOP模型。該模型由于優(yōu)化目標(biāo)單一,未考慮通過聯(lián)合建模優(yōu)化來進一步提升預(yù)測準(zhǔn)確率。彭丹蕾等人[19]針對如何高效挖掘處理大量評論數(shù)據(jù)并進行情感分析的問題,采用SVM和LSTM分別對從京東網(wǎng)站爬取的商品評論進行建模。由于情感分析涉及的學(xué)科跨度比較大,并且采集的數(shù)據(jù)集比較單一,該模型適應(yīng)性不強。為了有效監(jiān)控和管理新型冠狀病毒肺炎疫情引起的網(wǎng)絡(luò)輿情,景楠等人[20]基于差分自回歸移動平均(autoregressive integrated moving average,ARIMA)模型以及LSTM預(yù)測和分析輿情數(shù)據(jù),對輿情模型進行參數(shù)估計、模型診斷和模型評價。由于未考慮各地區(qū)疫情發(fā)展的影響因素不同,該模型適應(yīng)性不足。張?zhí)盏热薣21]針對無屬性社交網(wǎng)絡(luò)的節(jié)點分類問題,提出了一種基于圖嵌入與SVM的社交節(jié)點分類方法。由于采用靜態(tài)的社交網(wǎng)絡(luò)數(shù)據(jù)集進行模擬,該方法對動態(tài)社交網(wǎng)絡(luò)的適應(yīng)性不足,應(yīng)用范圍受到限制。針對方面情感,宋婷等人[22]提出基于方面情感分析的深度分層注意力網(wǎng)絡(luò)模型,利用改進的LSTM獲取句子內(nèi)部和句子間的情感特征。由于未包含跨領(lǐng)域的詞匯和網(wǎng)絡(luò)用語句子的方面情感分析,該模型的情感分類效果有待進一步提高。

        根據(jù)以上分析,現(xiàn)有的時序數(shù)據(jù)處理模型存在算法預(yù)測精確度不夠高、特征集和數(shù)據(jù)集比較單一的問題,并且很少結(jié)合輿情數(shù)據(jù)動態(tài)更新預(yù)測值。本文在對高校輿情數(shù)據(jù)進行處理時,利用關(guān)鍵詞匹配全面考慮高校的相關(guān)信息,目的在于提高對高校輿情信息預(yù)測的準(zhǔn)確率。結(jié)合時間編碼方法,對輿情熱度數(shù)據(jù)的絕對時間因素進行分析,可以解決L S T M處理時序數(shù)據(jù)時僅考慮數(shù)據(jù)先后關(guān)系的問題。同時利用實時輿情數(shù)據(jù)動態(tài)更新預(yù)測值,使得預(yù)測精確率進一步提升。本文提出基于時間編碼L STM的高校輿情熱點趨勢預(yù)測研究方法,動態(tài)調(diào)整評估參數(shù)。本文研究主要包括以下5個方面:一是獲取微博熱搜數(shù)據(jù)集合;二是通過降維、篩選、升維3種方法對數(shù)據(jù)集進行處理;三是將熱點話題的時間編碼加入數(shù)據(jù)集并進行歸一化處理;四是生成訓(xùn)練集和測試集,利用訓(xùn)練集訓(xùn)練模型并生成預(yù)測模型,再利用測試集進行模型預(yù)測;五是對比分析預(yù)測值與真實值,最后評估各個模型的性能,驗證了基于時間編碼的L S T M在輿情熱點時序數(shù)據(jù)處理方面的優(yōu)越性。

        2 模型介紹

        2.1 LSTM模型

        RNN在時序數(shù)據(jù)處理過程中會保留之前所有輸入數(shù)據(jù)信息。一方面,隨著后序數(shù)據(jù)的輸入,先前的輸入對模型隱含層的影響會越來越小,即長距離的依賴問題;另一方面,一些不重要的信息將被RNN保留。為了克服上述困難,LSTM被提出,該模型具有保持長期記憶性的特點,在時序數(shù)據(jù)處理方面具有良好的性能,LSTM結(jié)構(gòu)如圖1所示。LSTM模型的構(gòu)建如下。

        圖1 LSTM結(jié)構(gòu)

        首先,對輸入數(shù)據(jù)xi-1和隱含狀態(tài)hi-1進行運算,得到LSTM的遺忘門,如式(1)所示:

        在式(1)中,對輸入數(shù)據(jù)xi-1、隱含狀態(tài)hi-1與遺忘門的權(quán)重W1進行線性運算,b1表示引入的偏置項,再經(jīng)過sigmoid激活函數(shù)引入非線性元素,此時C?(0,)1。C越大,記憶的部分越大。將C與當(dāng)前的長期記憶狀態(tài)ci-1相乘并輸出,即遺忘門的輸出表示對長期記憶狀態(tài)的記憶程度,如式(2)所示:

        接下來計算LSTM的輸入門部分,圖1中si表示輸入門的sigmoid神經(jīng)網(wǎng)絡(luò)層,符號×表示點乘運算操作,激活函數(shù)tanh將輸入的新信息歸一化到(-1,1),通過點乘運算對信息進行縮放,決定保留哪些新信息,如式(3)、式(4)所示:

        通過上述過程,LSTM模型可以完成對已有長期記憶元素的更新,如式(6)所示:

        其中,ci將被用于下一層LSTM的計算。與RNN相比,LSTM在輸出時也進行了一定的改進。LSTM在輸出時綜合考慮了當(dāng)前長期記憶和當(dāng)前輸入數(shù)據(jù)的影響,如式(7)所示:

        使用tanh函數(shù)激活當(dāng)前長期記憶結(jié)果的值,得到LSTM的實際輸出,yi-1表示當(dāng)前時刻的話題熱度。

        2.2 損失函數(shù)與優(yōu)化

        在訓(xùn)練模型時,需要將損失函數(shù)的值降至較低水平,以提高模型性能。損失函數(shù)是衡量神經(jīng)網(wǎng)絡(luò)性能的重要參考指標(biāo),通常損失函數(shù)在測試集上的結(jié)果越小,模型的性能越好。常用的損失函數(shù)有適用于回歸問題的均方誤差(mean square error,MSE)損失函數(shù)和適用于分類問題的交叉熵(cross entropy)損失函數(shù)等。對高校熱點輿情話題的預(yù)測屬于回歸問題,因此將MSE作為損失函數(shù),如式(9)所示:

        時序數(shù)據(jù)通常具有隱含關(guān)系。通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,挖掘數(shù)據(jù)的潛在特征,從而實現(xiàn)對數(shù)據(jù)的預(yù)測,即神經(jīng)網(wǎng)絡(luò)目標(biāo)是一個回歸任務(wù)。因此選擇MSE對損失函數(shù)進行優(yōu)化,提升模型性能。

        2.3 評價指標(biāo)

        除了M S E,還可將平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)作為模型的評價指標(biāo)。

        MAE表示預(yù)測值與真實值之間的誤差平均絕對值,如式(10)所示:

        MAE能更好地反映預(yù)測值誤差的實際情況(已經(jīng)經(jīng)過歸一化)。模型測試數(shù)據(jù)的MAE越大,預(yù)測誤差越大。MAPE表示預(yù)測值與真實值的平均差距百分比,如式(11)所示:

        值得注意的是,一個較好的評估模型的MAPE值應(yīng)該為0,其表示預(yù)測值與真實值之間沒有差別。

        3 實驗與分析

        3.1 數(shù)據(jù)集的獲取

        本研究使用的數(shù)據(jù)集來自新浪微博熱搜榜,由于微博是一個實時信息交流分享平臺,一旦輿情信息出現(xiàn),將在短時間內(nèi)迅速傳播,因此分析微博熱搜數(shù)據(jù)的熱度變化趨勢具有重要的研究意義。

        具體的熱度數(shù)據(jù)采集過程如下,首先通過Python框架對頁面內(nèi)容進行解析,并定義需爬取的字段,接著從某個時刻開始,每間隔15 min對熱搜榜數(shù)據(jù)進行一次爬取,例如從0:00起,采集0:00、0:15、0:30等時間點的數(shù)據(jù)。如果熱點話題仍在熱搜榜上,就繼續(xù)采集并添加熱度值;否則,將新上榜的熱搜數(shù)據(jù)添加至表中,最后保存所收集的數(shù)據(jù),用于后續(xù)實驗分析。熱搜榜每次顯示50個熱點話題,按照其搜索熱度進行排名。

        由于研究對象是包含時間序列關(guān)系的話題名和熱度值,因此將收集到的數(shù)據(jù)按照時間變化存儲,對于某時刻不在熱搜榜的話題,其在該時刻的熱度為空。最終用于實驗仿真的數(shù)據(jù)包含排名、關(guān)鍵詞、熱度、熱度標(biāo)識、時間5個維度,共15 000余條數(shù)據(jù)。整理收集到的數(shù)據(jù),部分熱搜數(shù)據(jù)示例見表1。

        表1 新浪微博部分熱搜數(shù)據(jù)示例

        3.2 數(shù)據(jù)集的處理

        3.2.1 降維

        本文針對話題熱度值進行預(yù)測,在獲得原始數(shù)據(jù)集后,首先對數(shù)據(jù)集進行降維處理,刪減與本文研究內(nèi)容無關(guān)的維度,去掉冗余變量,這有助于提高算法的準(zhǔn)確率。一方面,微博熱搜榜的“爆”“沸”“熱”等熱度標(biāo)識來源于實時熱度值高低,熱度標(biāo)識與熱度值意義重復(fù),關(guān)系冗余,因此將數(shù)據(jù)集的熱度標(biāo)識維度刪除。另一方面,微博話題熱度序號只顯示熱度排名前50的話題,而熱搜榜在實時變化,某一時刻的熱度排名只與該時刻的話題熱度有關(guān),在對熱度進行預(yù)測時,該時刻的相對排名對于研究意義不大,因此將熱度排名維度刪除。通過對數(shù)據(jù)集的降維處理,可以節(jié)約高校輿情熱點趨勢預(yù)測方法的訓(xùn)練時間。降維后的熱搜數(shù)據(jù)示例見表2。

        表2 降維后的熱搜數(shù)據(jù)示例

        3.2.2 升維

        在收集輿情數(shù)據(jù)時,按照15 min的間隔進行收集。熱點話題在熱搜榜不斷地出現(xiàn)或消失,在存儲某一時刻的熱搜榜數(shù)據(jù)時,下一時刻該話題的熱度數(shù)據(jù)可能消失,新的話題可能出現(xiàn),因此在數(shù)據(jù)的整合和存儲方面,需要考慮熱搜話題變化帶來的數(shù)據(jù)維度不一致問題。

        針對上述問題,對原數(shù)據(jù)集進行升維操作,在原始數(shù)據(jù)基礎(chǔ)上增加時間序列維度,按時間順序記錄每一數(shù)據(jù)爬取時刻的熱度值。若話題熱度不夠高,未進入熱搜榜或熱度已經(jīng)下降并離開熱搜榜,則該時刻的熱度值為空。升維后的熱搜數(shù)據(jù)示例見表3。

        表3 升維后的熱搜數(shù)據(jù)示例

        3.2.3 篩選

        微博熱搜榜的話題包含娛樂、體育、民生、時政等多個話題類型,本文針對高校輿情類話題進行研究,因此需要對熱搜話題進行篩選。針對與高校輿情相關(guān)的話題,通過關(guān)鍵詞方式進行篩選。在獲得的數(shù)據(jù)集中,將“高?!薄按髮W(xué)”“學(xué)院”等與高校相關(guān)的話題關(guān)鍵詞表示為集合K={k1,k2,k3,…},若話題與集合無交集,則為無關(guān)話題,對無關(guān)的話題進行忽略處理。對輿情話題進行分詞處理,分詞前后的話題見表4。

        表4 分詞前后的話題

        接著將分詞后的輿情話題與高校關(guān)鍵詞集合K進行匹配與篩選,保留與高校輿情相關(guān)的熱點話題以及熱度值變化情況,去除與高校輿情無關(guān)的數(shù)據(jù)信息,篩選后的高校熱點數(shù)據(jù)見表5。

        表5 篩選后的高校熱點數(shù)據(jù)

        3.3 時間編碼與歸一化

        在對數(shù)據(jù)進行歸一化處理之前,首先加入時間編碼,具體過程是對收集數(shù)據(jù)的每個時刻進行編碼,例如從0:00開始收集數(shù)據(jù),0:15的時間編碼參數(shù)是0.25,0:30的時間編碼參數(shù)是0.5,0:45的時間編碼參數(shù)為0.75……具體的時間編碼參數(shù)設(shè)置過程是將每小時分為4個部分,每部分占比為25%,若當(dāng)前時刻為H時M分,編碼參數(shù)設(shè)置為。對高校輿情數(shù)據(jù)進行時間編碼的優(yōu)勢是,若熱度持續(xù)時間大于或等于24 h,此時時間編碼大于或等于24,規(guī)定從0進行編碼。在時間編碼后,輿情數(shù)據(jù)之間的前后關(guān)系由于含有絕對時間的編碼參數(shù),輿情熱度會隨著時間發(fā)生變化,因此進一步結(jié)合不同時間段的輿情數(shù)據(jù)進行分析,可以提高輿情熱度預(yù)測的準(zhǔn)確率。接著對數(shù)據(jù)進行歸一化操作,對以十萬甚至百萬為單位的熱度數(shù)據(jù)進行歸一化處理,能加速模型收斂,提高模型精度。熱度數(shù)據(jù)歸一化可以對每個熱點話題的時間變化序列數(shù)據(jù)進行歸一化,也可以針對所有熱度值進行歸一化。考慮到每個話題的熱度變化范圍不同,某些話題的峰值熱度可能仍低于其他話題的中等熱度,導(dǎo)致歸一化后的相對熱度表示誤差較大,因此采用整體歸一化的思路進行處理。數(shù)據(jù)歸一化表示為:

        在式(12)中,x表示某一時刻的熱度值,xmin表示該話題的最小熱度值,xmax表示該話題的最大熱度值。通過熱度值的歸一化,有效地減小了熱度值范圍跨度。在后續(xù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練及預(yù)測時,數(shù)據(jù)不會因為微小擾動而產(chǎn)生巨大誤差,因此數(shù)據(jù)擬合與損失函數(shù)的收斂速度將進一步提高。

        3.4 RNN、SVM、LSTM和基于時間編碼的LSTM的輿情熱度預(yù)測

        首先將數(shù)據(jù)集分為訓(xùn)練集和測試集兩類,將數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為測試集。訓(xùn)練時設(shè)置學(xué)習(xí)批次大小為128,使用隨機梯度下降法對模型進行優(yōu)化,學(xué)習(xí)率設(shè)置為0.01,損失函數(shù)使用MSE。為了進一步對比驗證時間編碼的優(yōu)勢,與不含時間編碼的LSTM進行對比。

        實驗一共進行100輪訓(xùn)練,使用梯度下降法反向傳播誤差,更新隱含層權(quán)重

        經(jīng)過100輪訓(xùn)練,損失函數(shù)已經(jīng)趨于零,說明模型性能基本達到最優(yōu)。RNN、SVM、LSTM和基于時間編碼的LSTM在訓(xùn)練集上的預(yù)測效果分別如圖2、圖3、圖4、圖5所示。其中,SVM使用高斯核函數(shù),該核函數(shù)的參數(shù)gamma設(shè)置為0.1。

        圖2 RNN訓(xùn)練集預(yù)測效果

        圖3 SVM訓(xùn)練集預(yù)測效果

        圖4 LSTM訓(xùn)練集預(yù)測效果

        圖5 基于時間編碼的LSTM訓(xùn)練集預(yù)測效果

        從圖2~圖5可以看出,基于時間編碼的LSTM的預(yù)測性能略優(yōu)于普通的LSTM,同時預(yù)測結(jié)果也比SVM、RNN更加準(zhǔn)確,原因在于基于時間編碼的LSTM不僅對時間序列數(shù)據(jù)保持長期的記憶性,而且具有更新數(shù)據(jù)信息的能力。同時,加入時間編碼后,LSTM在輿情熱度值與絕對時間之間建立了相應(yīng)的聯(lián)系,因此其在輿情趨勢預(yù)測方面具有較好的性能。

        接著使用100輪訓(xùn)練后LSTM、RNN、SVM和基于時間編碼的LSTM模型,在測試集上進行預(yù)測,依次對每個話題的數(shù)據(jù)集進行測試,預(yù)測數(shù)據(jù)與真實數(shù)據(jù)的誤差在較低水平。RNN、SVM、LSTM和基于時間編碼的LSTM在測試集上的預(yù)測效果分別如圖6、圖7、圖8、圖9所示。

        圖6 RNN測試集預(yù)測效果

        圖7 SVM測試集預(yù)測效果

        圖8 LSTM測試集預(yù)測效果

        圖9 基于時間編碼的LSTM測試集預(yù)測效果

        對比4種模型在測試集上的預(yù)測效果,基于時間編碼的L STM性能最優(yōu)。SVM在熱度較低時的預(yù)測結(jié)果偏高,在熱度值最高點的預(yù)測結(jié)果偏低。由于熱度變化是有規(guī)律的,可以根據(jù)前序數(shù)據(jù)得到后序數(shù)據(jù),而SVM沒有考慮前序數(shù)據(jù)的變化特征,導(dǎo)致其回歸精度不夠高。出現(xiàn)高校輿情后,通過基于時間編碼的LSTM對輿情熱度趨勢進行預(yù)測,及時引導(dǎo)輿論發(fā)展的方向,將有利于高校對學(xué)生思想健康的管理,提升高校處理輿情事件的水平。

        4 模型評估

        4.1 基于時間編碼的LSTM模型真實集評估

        以某真實事件為例,對新浪微博中該事件的真實熱度數(shù)據(jù)每間隔15 min采集一次,并對收集到的數(shù)據(jù)進行整理保存。首先,對上述數(shù)據(jù)進行預(yù)處理歸一化,并加入時間編碼參數(shù),將前45 min的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測得到下一時刻的輸出。由于輿情數(shù)據(jù)受多種因素的影響,單獨使用模型進行預(yù)測的效果不理想,故需要結(jié)合輿情實時的動態(tài)變化性對評估參數(shù)進行調(diào)整。在預(yù)測下一時刻的熱度值時,可以根據(jù)輿情變化做出相應(yīng)的處理,在獲得真實數(shù)據(jù)后,結(jié)合真實熱度數(shù)據(jù)進行預(yù)測,即進行動態(tài)的校正與下一步預(yù)測,動態(tài)調(diào)整過程如圖10所示。

        圖10 動態(tài)調(diào)整評估參數(shù)

        結(jié)合動態(tài)調(diào)整策略,對真實事件持續(xù)處于熱搜榜的18.5 h(即74個時刻)進行預(yù)測,分別使用SVM、RNN、LSTM以及基于時間編碼的LSTM進行預(yù)測,結(jié)果分別如圖11、圖12、圖13、圖14所示。分析實驗結(jié)果可知,基于時間編碼的LSTM模型能得到事件在具體時刻的熱度,結(jié)合動態(tài)調(diào)整策略,其適應(yīng)性得到提高。與其他3種算法相比,基于時間編碼的LSTM的預(yù)測準(zhǔn)確率是最高的。當(dāng)高校輿情熱點趨勢即將進入爆發(fā)期時,相關(guān)部門及時響應(yīng)或調(diào)整策略,對輿情熱點發(fā)展趨勢進行管控,有助于高校完善輿情管理體系。

        圖11 SVM真實集預(yù)測效果

        圖12 RNN真實集預(yù)測效果

        圖13 LSTM 真實集預(yù)測效果

        圖14 基于時間編碼的LSTM真實集預(yù)測效果

        隨著時間推進,相關(guān)部門可根據(jù)預(yù)測結(jié)果,提前為輿情的發(fā)展做出判斷和回應(yīng)。然而,神經(jīng)網(wǎng)絡(luò)不能自動判斷預(yù)測停止時間。通過實驗和數(shù)據(jù)分析可以得出,當(dāng)熱度數(shù)據(jù)預(yù)測值低于最低話題熱度值時,可認(rèn)為話題熱度低于熱搜榜上榜要求,停止預(yù)測。

        4.2 誤差評估分析

        對基于時間編碼的LSTM、LSTM、RNN和SVM 4種模型在不同數(shù)據(jù)集上的MAPE和MAE進行對比,結(jié)果如圖15所示。從圖15可知,MAPE和MAE的數(shù)值越小,預(yù)測值與真實值的誤差越小,即預(yù)測結(jié)果越接近真實值。在4個模型中,基于時間編碼的LSTM的預(yù)測效果是比較準(zhǔn)確的。從MAPE對比實驗結(jié)果分析:基于時間編碼的LSTM在訓(xùn)練集和測試集上的預(yù)測效果明顯優(yōu)于其他3種模型。從MAE對比實驗結(jié)果分析,基于時間編碼的LSTM模型預(yù)測效果在訓(xùn)練集、測試集和真實集上明顯優(yōu)于RNN和SVM。但受到真實事件的動態(tài)變化性以及不確定因素的影響,基于時間編碼的LSTM模型在部分預(yù)測集上的效果略差,后續(xù)研究需進一步提升模型的穩(wěn)定性。綜合比較,基于時間編碼的LSTM還是具有明顯優(yōu)勢的,在測試集上的預(yù)測效果優(yōu)于其他模型。因此,使用基于時間編碼的LSTM對高校輿情熱點趨勢進行預(yù)測具有較高的準(zhǔn)確率,可以降低輿情帶來的不利影響。

        圖15 模型預(yù)測效果

        5 總結(jié)與展望

        本文通過爬取新浪微博中高校的輿情熱點數(shù)據(jù),使用基于時間編碼的LSTM學(xué)習(xí)輿情數(shù)據(jù)熱度的時序變化情況,并對時序數(shù)據(jù)進行建模。將經(jīng)過多輪訓(xùn)練和參數(shù)調(diào)優(yōu)的基于時間編碼LSTM的高校輿情熱點趨勢預(yù)測模型與RNN、SVM和LSTM 3種模型的預(yù)測結(jié)果進行對比分析,實驗結(jié)果表明,基于時間編碼的LSTM在訓(xùn)練集、測試集、真實集上的預(yù)測結(jié)果誤差較小,具有良好的實時預(yù)測效果。本文可為相關(guān)部門預(yù)測熱點事件的輿情趨勢變化提供一定的參考,從而及時做出相應(yīng)的決策。未來研究將從熱點問題的內(nèi)容與評論入手,進一步研究基于時間編碼的LSTM模型的穩(wěn)定性,建立更完善的輿情預(yù)測模型,挖掘更深層次的輿情趨勢的發(fā)展規(guī)律。

        猜你喜歡
        輿情編碼預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準(zhǔn)
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        不必預(yù)測未來,只需把握現(xiàn)在
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        真人新婚之夜破苞第一次视频| 久久国产精品国语对白| 午夜一区二区视频在线观看| 欧美村妇激情内射| 国产精品福利自产拍久久| 欧美成人片一区二区三区| 99久久免费看少妇高潮a片特黄| 国产一区二区精品在线观看 | 久久精品中文字幕有码| 免费观看18禁无遮挡真人网站| 国产亚洲精品久久久久秋霞| 最新在线观看精品国产福利片| 亚洲精品中文字幕91| 亚洲av无码一区二区三区网址| 亚洲精品久久久久久| 国产午夜精品美女裸身视频69 | 久久久精品人妻一区二区三区日本| 91九色国产老熟女视频| 欧美人与禽zozzo性伦交| 不卡高清av手机在线观看| 久久精品国产一区二区蜜芽| 最新国产精品国产三级国产av| 人妻一区二区三区av| 国产高清av首播原创麻豆| 国产午夜精品一区二区三区视频| 成人国产乱对白在线观看| 亚洲一区二区三区自拍麻豆| 亚洲av成人无码久久精品老人| 色翁荡息又大又硬又粗又视频图片| 免费 无码 国产精品| 国产精品一区二区韩国av| 精品香蕉一区二区三区| 日本又黄又爽gif动态图| 国产成人啪精品视频免费网| 日韩人妻久久中文字幕| 精品无码国产一区二区三区av| 亚洲成色在线综合网站| 国产免费三级三级三级| 日本精品视频二区三区| 国产又粗又猛又黄又爽无遮挡| 女同性黄网aaaaa片|