王茜儀,杜明坤,張 山
(江蘇警官學院,江蘇 南京 210031)
網(wǎng)絡輿情已成為熱門詞匯,現(xiàn)在的輿情傳播媒介層出不窮,網(wǎng)民隨時隨地都能在互聯(lián)網(wǎng)上發(fā)表自己的言論、觀點,分享自己的生活。有些能夠快速地引起群眾的強烈共鳴。還有一些通過刪減、惡意剪輯造成大眾誤解,歪曲事實博取眼球的做法,也極易引起輿情事件。因此對網(wǎng)絡輿情進行監(jiān)控和預警就顯得尤其重要。[1]
自動駕駛汽車(AV)、智能機器人、圖像和語音識別、自動翻譯、醫(yī)療和法律應用等的快速發(fā)展使得機器學習在過去十年中獲得了相當大的成就。深度學習基于機器學習算法,能夠通過反復的分析、訓練來學習,并隨著時間的推移不斷提高其性能。
深度學習中的LSTMs在時間序列數(shù)據(jù)處理方面有很大優(yōu)勢,然而自然語言正好是一種時間序列,前后有邏輯關系[2],所以本文基于LSTMs對輿情數(shù)據(jù)進行分析并預警。原始RNN對短時間的輸入有著有效的預測,但對于長時間的樣本數(shù)據(jù)處理準確率很低。LSTMs通過添加一個可以選擇留下或者遺忘某些狀態(tài)的長時間序列的細胞狀態(tài),來處理長時間的樣本序列。
本文用網(wǎng)絡爬蟲抓取美XXXX時間相關輿情數(shù)據(jù),共抓取從2020年5月28日至2020年7月3日共37天的文本數(shù)據(jù),通過篩選和過濾噪聲操作,將得到的數(shù)據(jù)進行預處理,輸入LSTMs模型中進行模型分類訓練,利用訓練好的模型對接下來的輿情數(shù)據(jù)進行分類分析預警。
首先選取這些結果中的一部分LSTMs預測模型進行訓練。訓練完成之后,再對剩下的數(shù)據(jù)進行輿情趨勢預測,若輸出的值超過設定的閾值,系統(tǒng)將進行警報,若不超過閾值則不進行警報(見表1)。
表1 部分數(shù)據(jù)
運行測試數(shù)據(jù)共37天不同內容的文本數(shù)據(jù),并做標準化處理,得到的數(shù)據(jù)越大,說明網(wǎng)民關注度越高,故輿情熱度越高。
從圖1中可以看出,從5月28日開始有關美XXXX的輿情出現(xiàn),也就是輿情的第一天,熱度直線上升,一直到第三天,輿情呈現(xiàn)最熱態(tài)勢,然后開始呈下降趨勢,第六天出現(xiàn)一個谷值。下降到第六天之后出現(xiàn)一個波動開始上升,升至第八天出現(xiàn)拐點又開始下降,第八天的輿情熱度并沒有超過第三天最熱情況,且第八天后面呈逐漸下降趨勢。預測值和實際值的峰值和谷值、拐點一致,由此可見LSTMs模型預測結果和真實輿情的發(fā)展趨勢基本一致。
圖1 輿情事件實際情況與預測情況對比
本文主要介紹了LSTMs網(wǎng)絡,對于數(shù)據(jù)處理與預測結果進行一定分析,值得關注的問題是輿情數(shù)據(jù)序列的隨機性,以及預測模型從數(shù)據(jù)噪聲中區(qū)分模式的能力,從而避免過擬合,最后一個問題可能是需要進行預處理,這需要每個人注意選擇最合適的轉換,消除一些無關因素以及趨勢。在預測應用中,規(guī)則未知,而且還可能發(fā)生變化,數(shù)據(jù)中存在結構不穩(wěn)定性,同時存在大量的不確定性和噪聲,這可能會使尋找最優(yōu)權重的過程變得混亂。此外,在某些應用中,預測本身可以影響甚至改變未來,擴大數(shù)據(jù)噪音水平和增加不確定性水平。因此,應該使算法適應這些條件,并確保不存在過擬合。從本文的結果來看,深度學習算法應用于預測可能需要更多的研究來進行創(chuàng)新思想的實驗和調整,以實現(xiàn)更準確的預測。