◆黃克敏 先 科 李 帥 魏洪凱 馮建鞏
?
網絡輿情熱點新聞發(fā)現(xiàn)技術研究
◆黃克敏 先 科 李 帥 魏洪凱 馮建鞏
(貴州航天計量測試技術研究所 貴州 550000)
隨著互聯(lián)網逐漸邁入移動化時代,智能手機和平板電腦等智能設備的廣泛使用成為移動互聯(lián)網時代的重要標志。網絡新聞在成為移動互聯(lián)時代重要信息來源的同時,網絡熱點新聞則成為網絡輿論和社會輿論的重要源泉。因此,對網站發(fā)布的網絡新聞內容進行監(jiān)管及時發(fā)現(xiàn)熱點新聞評論內容意見的傾向性,準確把握網絡輿論動向顯得尤為重要。為了實現(xiàn)熱點新聞的發(fā)現(xiàn)及對不同領域熱點新聞分級監(jiān)管的需求,需要建立熱點新聞發(fā)現(xiàn)規(guī)則及對熱點新聞按照報道內容的不同進行領域分類。熱點新聞發(fā)現(xiàn)及分類技術是網絡輿情檢測系統(tǒng)中的一項重要技術。本文在研究新聞結構及特點的基礎上,針對大眾和政府部門都比較關注的熱點新聞,在深入研究新聞結構和特點的基礎上改進熱點新聞發(fā)現(xiàn)算法,并通過大量實驗樣本對改進算法的有效性進行了驗證。
網絡輿情;新聞結構;熱點新聞;熱點新聞發(fā)現(xiàn)規(guī)則
互聯(lián)網是一把雙刃劍。一方面,互聯(lián)網為人們的生活、工作、學習、娛樂帶來巨大的便利;另一方面,一些不法分子利用熱點新聞事件的巨大影響力發(fā)表不當言論,煽動群眾情緒,制造社會動蕩,極大影響社會公共秩序和社會穩(wěn)定。因此,為互聯(lián)網建立一個合理的監(jiān)管機制,對非法的網絡言論進行監(jiān)管。通過對熱點新聞評論的內容進行意見挖掘進而掌握輿論傾向性,對不良的網絡輿論導向進行合理引流和正確引導,無論是對于維護社會穩(wěn)定,打擊利用網絡違法犯罪活動,還是對凈化網絡環(huán)境,保護公民的身心健康都具有重要意義。
當前,對網絡熱點事件發(fā)現(xiàn)及評論傾向性研究已成為信息安全研究中信息內容安全研究的一個重要部分。本文在研究網絡新聞結構和特點的基礎上建立熱點新聞特征規(guī)則,研究并改進熱點新聞發(fā)現(xiàn)算法,并對網絡熱點新聞進行發(fā)現(xiàn);為了方便對不同領域的熱點新聞事件進行分級監(jiān)管,需對發(fā)現(xiàn)的熱點新聞進行領域劃分,以方便輿情系統(tǒng)中對不同領域的熱點新聞事件的網絡評論做傾向性分析,掌握網民的網絡輿論傾向,對公共的輿論進行正確及時的引導,減少消極輿論傾向帶來的負面影響,從而確?;ヂ?lián)網內容安全,使互聯(lián)網這把雙刃劍真正做到趨利避害。
1.1網絡新聞結構
無論是網站根據(jù)用戶對新聞閱讀數(shù)或參與討論的評論數(shù),還是百度風云榜根據(jù)用戶搜索量作為判斷熱點新聞事件的標準都不能體現(xiàn)普通新聞事件轉換為熱點新聞事件的發(fā)展趨勢的強度及過程,因此存在一定的不合理性。由于本節(jié)針對手機客戶端的新聞APP產生的新聞進行熱點新聞的發(fā)現(xiàn),因此首先要分析新聞的結構。下面以鳳凰新聞APP新聞“大學生掏鳥案被告父親自首稱9次行賄辦案人員”為例,分析新聞結構,其新聞內容如圖1所示。
由圖1可知,新聞內容包括新聞標題、新聞來(轉載)源、新聞發(fā)布的時間、新聞評論數(shù)目、新聞正文內容等部分組成。
由圖2 可知,新聞評論包括熱門評論和最新評論。熱門評論主要是指評論點贊數(shù)超過一定數(shù)目的評論數(shù)。熱門評論包括熱門評論數(shù)、評論者的頭像、評論者的昵稱、評論距當前時間、評論內容、評論點贊數(shù),如果開啟允許地理位置分享的話,還會有地理位置信息。最新評論和熱門評論包括的部分幾乎相同,就不再做過多介紹。
1.2熱點新聞判別標準
由于熱點新聞能夠在短時間內吸引網民的關注、引起網絡輿論熱議,形成以一定的輿論傾向,因此對熱點新聞進行判斷檢測顯得尤為重要。根據(jù)哪些條件判斷當前新聞是否為熱點新聞。表1中選取部分參數(shù)作為判斷新聞是否為熱點新聞的參考標準:
圖1 新聞內容
圖2 新聞評論
表1 判斷熱點新聞的參考參數(shù)
1.3 熱點新聞發(fā)現(xiàn)算法
影響熱點新聞因素可以分為兩個方面:一個是從媒體角度考慮;另一個是從網民角度考慮。目前常用關注度來描述某事件當前的狀態(tài)和熱度,即某事件被關注的程度。百度借助百度指數(shù)描述某個關鍵詞用戶關注度(用戶熱度)和媒體關注度(媒體熱度)來表示某個關鍵詞的重要程度,因此本文借用百度指數(shù)的思想用熱點新聞的關注度描述當前新聞被關注的程度,用媒體關注度和網民關注度來表示熱點新聞關注度。本文提出的熱點新聞發(fā)現(xiàn)過程為:首先對參數(shù)進行定量化表示,在此基礎上提出熱點新聞發(fā)現(xiàn)算法,并用實驗對算法有效性進行檢驗。
1.3.1媒體關注度的數(shù)學描述
媒體關注度指新聞被媒體報道關注的程度。某一新聞被媒體報道越多或重復轉載性越高,說明該新聞受媒體關注程度越高;新聞只有被報道且為大眾所熟悉并引起廣泛關注才能成為熱點新聞,因此媒體對新聞從普通新聞到成為熱點新聞起著重要的推動作用,對于這種推動作用用媒體關注度表示。用來衡量媒體關注度的標準主要包括:單位時間新聞報道數(shù)(新聞報道頻率)、新聞報道持續(xù)時間、新聞報道總數(shù),以上三個標準都是針對某一段時間內的統(tǒng)計量或計算量。
在話題的熱度分析中,Khoo Khyou Bun提出TF*PDF(Term Frequency*Proportional Document Frequency)算法用于熱點話題的發(fā)現(xiàn),此種方法并沒有考慮特征項出現(xiàn)的頻率因素。因此本文在TF*PDF基礎上,將某一段時間內新聞報道時間越多則該新聞越重要這一事實考慮在內,提出改進媒體關注度計算方法,其方法的數(shù)學描述如下所示:T(i,t)為某段時間t內,信息i在網站上的媒體關注度。1式中指數(shù)描述的是某一信息報道數(shù)量越多,該新聞的PDF越大;新聞報道的時間越多則新聞越重要。公式如下:
RF(t)數(shù)學表達式為:
(2)
其中,時間t是任一時間段,如幾個小時、一天、一周等;RF(t)為在時間段t內新聞i的報道總數(shù),即新聞i報道的頻數(shù);RT(t)為在時間段t內報道的新聞i的總數(shù);TR(t)為時間t內有新聞i報道時間,以天為計算單位;TS(t)從第一條新聞報道到當前統(tǒng)計的時間間隔;N為新聞i報道總數(shù)。
1.3.2用戶關注度的數(shù)學描述
用戶關注度指新聞被用戶關注的程度。影響用戶關注度主要有三個參數(shù):新聞閱讀數(shù)、新聞評論數(shù)、單位時間評論數(shù)。新聞閱讀數(shù)用RN(Reader Number)表示,新聞評論數(shù)用CN(Comment Number)表示。新聞閱讀人數(shù)越多說明用戶對此新聞越感興趣。新聞評論人數(shù)越多說明新聞受關注程度和重要程度越高。
新聞評論數(shù)和新聞閱讀數(shù)對熱點新聞形成所起的作用大小不同,應該對其設定不同的權重。通常情況下如果用戶對某個新聞比較感興趣,則會在閱讀后對新聞進行評論,所以認為新聞評論人數(shù)對熱點新聞的形成比新聞閱讀數(shù)更要要,應賦以較高的權重。本文經過多次試驗發(fā)現(xiàn)新聞閱讀數(shù)的權重是新聞評論數(shù)兩倍時,熱點新聞的發(fā)現(xiàn)效果達到最佳。因此得到用戶關注度的計算公式如下3式所示:
其中a為:
(4)
計算公式為:
計算公式為:
(6)
其中: 表示在時間段t內用戶對新聞i的關注度;表示對新聞i評論人數(shù)所占的比例;λ為動態(tài)調整因子,用于平衡相關因子對公式的影響;表示新聞i閱讀人數(shù)所占的比例;CN為時間段t內新聞評論數(shù);時間段t為任意一段時間:可以為幾個小時、一天、一周等。
熱點新聞關注度用媒體關注度和用戶關注度表示。因上面討論媒體關注度和用戶關注度的數(shù)學描述,所以熱點新聞關注度應將媒體關注度計算公式和用戶關注度的計算公式結合起來。因此得到熱點新聞關注度的計算公式如下7式所示:
公式中參數(shù)a和b為調整參數(shù),主要作用是調整媒體關注度和用戶關注度的數(shù)值因子差異,防止出現(xiàn)因一方數(shù)值過大把另一方給淹沒的可能性。
1.3.3熱點新聞的獲取實驗
利用采集的新聞和評論數(shù)據(jù)作為實驗數(shù)據(jù)源,利用熱點新聞發(fā)現(xiàn)算法作為熱點新聞發(fā)現(xiàn)方法,通過實驗驗證熱點新聞發(fā)現(xiàn)算法的有效性。
(1)實驗數(shù)據(jù)源
實驗選擇從騰訊網站采集的2016年11月和12月兩個月的新聞數(shù)據(jù),其數(shù)據(jù)大小如表2所示。
表2 熱點新聞發(fā)現(xiàn)數(shù)據(jù)源
(2) 實驗方法和步驟
為了保證公式7中用戶關注度T(i,t)中的值隨著用戶閱讀數(shù)和評論數(shù)增加,用戶關注度呈現(xiàn)正相關變化,對數(shù)的底數(shù)a>1,此處λ值取λ=1。另外新聞的評論中并沒有直接給出評論閱讀數(shù),此處把新聞評論數(shù)和點贊數(shù)之和作為新聞的閱讀數(shù)。
首先需要對媒體關注度和用戶關注度的權值因子:即公式7中的a和b進行確定。通過隨機選取11月份和12月份各500條新聞數(shù)據(jù)及對應的評論,對式子中a、b值進行從[0,1]遍歷,遍歷步長為0.01,并對篩選出的結果進行統(tǒng)計,最終選擇篩選出結果時所對應的a和b值。
其次利用公式12對熱點新聞關注度計算,最后對實驗結果的結果進行統(tǒng)計分析,將得到的熱點新聞與同時間段內百度搜索風云榜新聞排行數(shù)據(jù)對比。
(3) 實驗結果
根據(jù)(2)的實驗方法,得出7式子中a=0.65,b=0.27,此時發(fā)現(xiàn)熱點新聞發(fā)現(xiàn)效果最佳。
按照上述實驗步驟,最終得到實驗數(shù)據(jù)如表3所示。
表3 熱點新聞發(fā)現(xiàn)結果統(tǒng)計表
將上述實驗發(fā)現(xiàn)的熱點新聞與同一時間段內的百度搜索風云榜排行新聞對比可知此種方法與百度風云榜熱點新聞的重合度在85%以上,說明此方法有效。
[1]劉星星,何婷婷等.網絡熱點事件發(fā)現(xiàn)系統(tǒng)的設計[J].中文信息學報,2008.
[2]宋雙永,李秋丹,路冬媛.面向微博客的熱點事件情感分析方法[J].計算機科學,2012.
[3]王國華,鄧海峰,王雅蕾等.網絡熱點事件中輿情關聯(lián)問題研究[J].情報雜志,2012.
[4]龔凱,唐明,尚明生等.在線熱點事件的時空演變規(guī)律[J].物理學報,2012.
[5]焦超,劉功申.網絡突發(fā)熱點事件的熱點分布[J].信息安全與通信保密,2012.