金慧峰,程振設
(浙江工貿職業(yè)技術學院,浙江溫州 325003)
互聯(lián)網運營模式的不斷創(chuàng)新、線上線下服務融合的加速、公共服務線上化步伐的加快,使得幾乎所有大學生成為網民。微博、微信、論壇、貼吧等社交網絡的繁榮發(fā)展,使得大學生在這些社交網絡上發(fā)帖、轉發(fā)、評論等行為已經成為常態(tài)。在傳統(tǒng)數(shù)據(jù)時代,研究者主要通過抽樣調查、內容分析等方法獲取有限的、有代表性的輿情樣本信息,并運用統(tǒng)計學方法進行分析。在大數(shù)據(jù)時代,隨著海量輿情信息的涌現(xiàn)和數(shù)據(jù)采集技術的進步,樣本分析被總體分析所取代,傳統(tǒng)的抽樣分析和檢測預警手段已無法適應大數(shù)據(jù)時代的發(fā)展趨勢,網絡輿情大數(shù)據(jù)的分析、檢測和預警成為社會管理的客觀需求。
目前關于大數(shù)據(jù)時代高校學生網絡輿情監(jiān)測和預警機制的研究成果較少,主要分為兩個層面。其一是理論層面,根據(jù)大學生網絡輿情傳播的特點和現(xiàn)狀,提出了高校網絡輿情管理的思路、策略和路徑[1-4];其二是技術層面,主要集中于網絡檢測系統(tǒng)的設計[5-8]、網絡輿情挖掘技術[9-10]等。不論理論層面還是技術層面,均沒有針對大學生網絡輿情的定量化監(jiān)測的成果,主要原因可能在于海量文本信息不但對當前計算機性能提出了較大挑戰(zhàn),而且對文本挖掘技術也提出了較高的要求。
目前,基于統(tǒng)計的文本挖掘方法[11-12]中,文本是以向量形式表示的,向量的分量是特征詞的頻數(shù),特征詞是根據(jù)文本挖掘的任務或目標來確定的,可以是名詞、動名詞或形容詞,等等。因此,要將文本表示為向量,首先就要將文本分詞。
目前國內常用的分詞方法[11-12]有:機械分詞法、詞庫匹配法、詞頻統(tǒng)計法、語義分析法、神經網絡分詞法、聯(lián)想-回朔法、聯(lián)想詞群法、知識與規(guī)則法等。這些分詞算法可以歸為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。本文采用中科院計算所的漢語詞法分析系統(tǒng)ICTCLAS進行分詞,該系統(tǒng)的功能有中文分詞、詞性標注、未登錄詞識別,分詞正確率高達97%以上,未登錄詞識別召回率均高于90%,其中中國人名的識別召回率接近98%,處理速度為31.5Kb/s。
所有文本分詞之后,形成詞語集,詞的總數(shù)通常都很大,這會使得表示文本的向量空間的維數(shù)也相當大,因此需要降維。降維技術有兩類:特征選擇和特征重構。
特征選擇是指去除冗余的和不能表達文本挖掘任務信息的詞,或者選擇那些能夠表達文本挖掘任務信息的詞(稱之為特征詞),從而減少詞語總量,達到降維目的。特征選擇的結果為原始詞語集的子集。特征選擇方法:根據(jù)詞頻來判斷,當詞頻小于或大于給定的閾值時就去掉。
特征重構是指將原始詞語集經過數(shù)學變換構造出新的詞語集,以此達到降維的目的。新的詞語集不是原始詞語集的子集。比較常用的特征重構方法是潛在語義分析。
本文以百度貼吧里近幾年浙江工貿職業(yè)技術學院(下稱學院)大學生網絡聊天的文本信息為研究對象,開展大學生網絡輿情的監(jiān)測和預警。相關工作主要有五步:第一,使用python爬蟲軟件從百度貼吧抓取近幾年的聊天帖子,數(shù)量將超過萬條。每個帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內容、跟帖作者、跟帖日期和時間。第二,對抓取到的文本信息作總體特征分析、熱門主題及其作者搜尋、熱門主題的內容分析等。第三,建立輿情指數(shù),度量網絡輿情的大小,形成動態(tài)直觀的網絡輿情走勢圖。第四,設置“黃色、橙色和紅色”三個預警級別,對網絡輿情進行預警。第五,建立特征詞指數(shù),實現(xiàn)對熱門主題的熱點關鍵詞的捕捉。
編寫python 爬蟲軟件,從浙江工貿百度貼吧(http://tieba.baidu.com/f?kw=浙江工貿)抓取到2007年5 月4 日到2018 年2 月28 日大學生的“精品”帖子,一共6551條文本評論。每個帖子的信息包括帖子ID、主題、作者、跟帖數(shù)量、跟帖內容、跟帖作者、跟帖日期和時間。
以天為計時單位。設ai表示第i天的衍生貼數(shù)量(個),表示第i天的歷史平均衍生貼數(shù)量(個),則第i天的輿情指數(shù)為
統(tǒng)計出每天的輿情指數(shù)u1,u2,...,就形成了動態(tài)指數(shù),如表1所示。
如果以時刻i為橫軸,以輿情指數(shù)為縱軸,可以畫出動態(tài)指數(shù)圖。
從2007年5月4日至2018年3月17日的動態(tài)指數(shù),如圖1所示(剔除了指數(shù)為0)。
另外,從2007年5月4日至2018年3月17日的最大指數(shù)是53.9,具體日期是2013年8月19日,意味著這一天的帖子數(shù)量是歷史平均值的53.9倍,其主題是“親,你遇到了么?”,進一步查看帖子內容(略),大部分是關于尋找在溫州的老鄉(xiāng)的帖子。中國人普遍具有濃重的老鄉(xiāng)情節(jié),當大學生收到錄取通知書之后,即將從全國各地來到陌生的溫州,此時如果能夠遇到老鄉(xiāng),那么就有了類似于親人一樣的、可以互相依賴和幫助的朋友,于是通過網絡查找老鄉(xiāng)就成為一條便捷的途徑。
為了預警,需要確定輿情指數(shù)的合理界限。如果輿情指數(shù)超過了這個界限,就發(fā)出預警信號。從表1和圖1可知,一方面,輿情指數(shù)為0的指數(shù)占比很大,是32.8%;另一方面,輿情指數(shù)的極差也很大,是53.9。于是將原指數(shù)中的0 指數(shù)剔除,并針對非0 指數(shù)實施以7 天為窗口的移動平均,再畫出輿情指數(shù)的直方圖,如圖2所示。
表1 部分輿情指數(shù)
圖1 2007/5/4—2018/3/17的輿情指數(shù)
從圖2 可知,非0 指數(shù)呈現(xiàn)負指數(shù)分布。給定顯著性水平α=0.01,估計其均值得μ=3.0475,指數(shù)分布的參數(shù)λ=1/μ≈0.328,指數(shù)分布的概率密度函數(shù)為
圖2 輿情指數(shù)直方圖
2.4.1 大學生網絡輿情預警級別的設置
本文將預警級別設定為“黃色、橙色和紅色”三個級別。
給定顯著性水平α,置信度1-α對應的分位數(shù)記作μα。如果輿情指數(shù)超過分位數(shù)μα,則發(fā)出預警信號。于是給定三個不同的顯著性水平α=0.1、0.05、0.01,預警級別的臨界值即可確定,如表2所示。
表2 預警級別臨界值
2.4.2 大學生網絡輿情預警級別的設置結果
不同顯著性水平下的指數(shù)分布檢驗、分位數(shù)和均值估計結果如表3所示。
表3 指數(shù)分布檢驗、分位數(shù)和均值估計
從表3 可知,在0.01 的顯著性水平下,非0 指數(shù)服從指數(shù)分布。于是,輿情指數(shù)預警的臨界值如表4所示。
表4 預警臨界值
從2017 年7 月1 日至2018 年3 月17 日的非0 輿情指數(shù)預警圖,如圖3所示。
圖3 2017/7/1—2018/3/17的輿情指數(shù)及預警線
從圖3和表1可知,在2017年8月15日和25日分別發(fā)出了橙色預警信號,需要引起關注。
查看2017年8月15日的發(fā)帖主題,分別是“畢業(yè)老學姐解答專升本疑惑”和“在浙工貿的70 件事”。查看2017 年8 月25 日的發(fā)帖主題,分別是“畢業(yè)老學姐解答專升本疑惑”、“開學騙術多——揭秘那些常見騙術”、“掉進染色桶里的工貿”和“在浙工貿的70件事”。
可見,跟帖增多的原因是學生對“專升本”話題很感興趣,對“開學騙術”和工貿學院話題很關注。究其原因,首先,大二學生即將升入大三,一部分學生開始考慮專升本的諸多問題了;其次,新生即將報到,為了防止被騙對開學騙術自然就很關注;第三,畢業(yè)生可以回顧在大學的三年期間發(fā)生的歷歷往事,記錄美好瞬間、回味幸福時刻、抒發(fā)離愁別緒,每一件事都成為工貿學院的特寫,也成為即將來到工貿學院的準大學生們感興趣的事件,引起他們的關注就不足為奇。
將觸發(fā)預警的主題稱為熱門主題。對于熱門主題,我們需要進一步確定吧友們討論的關鍵詞是什么,例如對于專升本這個熱門主題,關鍵詞是“輔導、考試、報志愿、高等數(shù)學”里的哪一個?因此需要建立關鍵詞搜尋模型。
2.5.1 文本預處理
采用中科院計算所的漢語詞法分析系統(tǒng)ICT?CLAS 對文本進行分詞,形成詞語集,然后選擇名詞、動詞和形容詞作為特征詞,一共340 6 個。以向量表示文本,設X表示一條文本,則
其中,wi表示第i個特征詞的頻數(shù),m是特征詞的個數(shù)。
2.5.2 特征詞指數(shù)
由于輿情指數(shù)反映了衍生貼的相對數(shù)量,而每一個衍生貼是由特征詞表示的,在熱點帖子已經確定的情況下,如何測量特征詞的熱度呢?本文使用特征詞指數(shù)來度量特征詞的熱度。
設有m個特征詞,有n個文本,第i個特征詞在 第j個文本中的頻數(shù)記作aij,aij≥0,i=1,2,...,m,j=1,2,...,n。
對于第i個特征詞,在第j個文本中出現(xiàn)的次數(shù)越多,說明其反映大學生的心理愿望越強烈,則熱度越大,于是第i個特征詞在第j個文本中的熱度使用頻率來度量,即
第i個特征詞的平均熱度為
對于第i個特征詞,在各個文本中出現(xiàn)的次數(shù)越多,說明討論它的大學生越多,則熱度越大,于是第i個特征詞的權系數(shù)為
其中,
第i個特征詞的加權熱度為
第i個特征詞的歸一化加權熱度為
歸一化加權熱度gi∈[0,1]。
稱歸一化加權熱度超過某閾值的特征詞為關鍵詞。于是,通過設置一個合適的閾值ε,可將關鍵詞篩選出來。
2.5.3 關鍵詞搜尋結果
以2017年8月15日引起橙色預警為例,針對主題“畢業(yè)老學姐解答專升本疑惑”,設置閾值ε=0,并刪除無意義的詞,關鍵詞搜尋結果如表5所示。
將表5 中這些關鍵詞聯(lián)系起來分析,可以推測吧友們討論的主要話題,比如:“專升本報考的學校和專業(yè)”“考試要求”“會計”“數(shù)學”“找到女朋友”“難易”,等等。作為即將專升本的學生,他們關心的話題自然是考試要求、考試內容、難易程度、報考學校以及專業(yè);由于工貿學院的會計專業(yè)學生的入門錄取分數(shù)高,學生基礎扎實,所以專升本的學生自然就多;在專升本的考試科目中,數(shù)學是關鍵,既容易得分又容易失分,區(qū)分度大,數(shù)學自然成為學生討論的話題;至于“找到女朋友”,可能是某些男生希望專升本之后快速的找到女朋友吧。
表5 關鍵詞搜尋結果
本文以百度貼吧里從2007年5月4日至2018年3月17日的學院大學生網絡聊天文本信息為研究對象,建立了網絡輿情檢測模型,實現(xiàn)了大學生網絡輿情的定量檢測。然后設置了三級預警反應機制,實現(xiàn)了網絡輿情異常狀況的預警和熱門主題的捕捉。最后,建立了特征詞指數(shù),實現(xiàn)了對熱門主題里的關鍵詞捕捉。獲得的結論如下:
(1)最大指數(shù)發(fā)生的日期是2013 年8 月19 日,其主題是“親,你遇到了么?”,帖子內容是尋找在溫州的老鄉(xiāng)。
(2)在2017 年8 月15 日和25 日分別發(fā)出了橙色預警信號,其中,2017年8月15日的發(fā)帖主題分別是“畢業(yè)老學姐解答專升本疑惑”和“在浙工貿的70 件事”;2017 年8 月25 日的發(fā)帖主題分別是“畢業(yè)老學姐解答專升本疑惑”、“開學騙術多——揭秘那些常見騙術”、“掉進染色桶里的工貿”和“在浙工貿的70件事”。
(3)搜尋熱門主題“畢業(yè)老學姐解答專升本疑惑”的關鍵詞,分別是“專升本報考的學校和專業(yè)”“考試要求”“會計”“數(shù)學”“找到女朋友”“難易”,等等。
綜上所述,通過研究高校網絡輿情,建立和健全輿情監(jiān)測和預警機制,可以實時掌握大學生的思想動態(tài),及早發(fā)現(xiàn)突發(fā)事件的苗頭,主動解決學生的思想問題,優(yōu)化高校思想政治教育方法,對于維護校園和諧發(fā)展,促進社會穩(wěn)定具有重要意義。