李成
摘要:由于各種事件的刺激而產(chǎn)生,并且通過互聯(lián)網(wǎng)傳播的人們對于各種事件的所有認(rèn)知、態(tài)度、情感和行為傾向的合集,稱為網(wǎng)絡(luò)輿情。隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以自由地在網(wǎng)絡(luò)新媒體中發(fā)表關(guān)于社會中各種現(xiàn)象和問題的態(tài)度與意見等,以論壇、微博、博客等為載體的網(wǎng)絡(luò)新媒體已日益成為輿論傳播和熱點聚集的重要源頭,輿論熱點的多發(fā)、突發(fā)、頻發(fā)也已成為常態(tài)。為了加強(qiáng)公共部門網(wǎng)絡(luò)的管理,開展公共部門輿情信息的監(jiān)測與分析,已經(jīng)成為目前亟需解決的現(xiàn)實問題。公共部門輿情監(jiān)測分析系統(tǒng)可以實現(xiàn)針對公共部門網(wǎng)絡(luò)海量輿情的實時監(jiān)測分析,有效地解決以傳統(tǒng)的人工方式進(jìn)行輿情監(jiān)測的很多難題。
關(guān)鍵詞:公共部門網(wǎng)絡(luò);輿情監(jiān)測;分布式;網(wǎng)絡(luò)爬蟲
1.引言
公共部門網(wǎng)絡(luò)上,網(wǎng)絡(luò)輿論主要是從新聞回帖、網(wǎng)絡(luò)論壇、博客、網(wǎng)民聊天室等反映來的。網(wǎng)絡(luò)論壇是這其中最主要的平臺,公共部門網(wǎng)絡(luò)中也已經(jīng)形成了一批著名論壇。論壇議題涉及到政府建設(shè)建設(shè)的各個方面,其中既有一些合理化的積極建議,還有是對公共部門不正?,F(xiàn)象的披露,另有一小部分是發(fā)泄對現(xiàn)狀的不滿情緒。研發(fā)從海量公共部門網(wǎng)絡(luò)信息中及時準(zhǔn)確地發(fā)現(xiàn)和搜集到工作需要的輿情信息的監(jiān)測系統(tǒng),可為政府部門提供了解百姓訴求的便捷渠道,可有效化解公共部門“網(wǎng)絡(luò)暴力”,有利于社會穩(wěn)定。
2.網(wǎng)絡(luò)輿情采集技術(shù)研究與實現(xiàn)
利用搜索技術(shù)自動地在網(wǎng)絡(luò)上采集信息,將節(jié)約大量的人力物力成文,大大提高輿情監(jiān)測的工作效率和時效。搜索引擎(search engine)是指根據(jù)一定策略、運用特定計算機(jī)程序從互聯(lián)網(wǎng)搜集信息,在對信息組織、處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展現(xiàn)給用戶的系統(tǒng)。
搜索引擎一般由索引器、檢索器、搜索器和用戶接口組成。搜索器的功能是在網(wǎng)絡(luò)中漫游,搜集和發(fā)現(xiàn)信息;檢索器的作用是根據(jù)用戶的查詢在索引庫中快速檢索,對將要輸出的結(jié)果排序,進(jìn)行相關(guān)度評價,并能按用戶的需求反饋合理信息;索引器的功能是根據(jù)搜索器搜到的信息結(jié)果,從中抽出索引項,用于生成文檔庫的索引表以及表示文檔;用戶接口的功能是接納用戶查詢、提供所需要的查詢項、顯示查詢結(jié)果等。
搜索引擎工作流程可分為三部分:爬取網(wǎng)頁、處理爬取的網(wǎng)頁、提供檢索服務(wù)。
(1)爬取網(wǎng)頁:每個獨立搜索引擎都有自己爬取網(wǎng)頁的程序(網(wǎng)絡(luò)爬蟲)。網(wǎng)絡(luò)爬蟲根據(jù)網(wǎng)頁中的超鏈接地址,不斷地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。因為互聯(lián)網(wǎng)中應(yīng)用超鏈接非常廣泛,理論上,給爬蟲一定范圍網(wǎng)頁,就能搜集到大部分的網(wǎng)頁。
(2)處理網(wǎng)頁:搜索引擎抓取到網(wǎng)頁后,還要做大量預(yù)處理工作,才能去提供檢索服務(wù)。其中最重要的就是建立索引文件,提取關(guān)鍵詞。其他還包括去除重復(fù)網(wǎng)頁、判別網(wǎng)頁類型、中文分詞、計算網(wǎng)頁的重要度、分析超鏈接。
(3)提供檢索服務(wù):戶輸入關(guān)鍵字進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找出匹配該關(guān)鍵字的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁地址和網(wǎng)頁標(biāo)題外,還會提供一段來自網(wǎng)頁的摘要及其他信息。
通用搜索引擎采用的方式是語義上的搜索,是通過關(guān)鍵字的方式實現(xiàn)的,返回的結(jié)果傾向于知識成果,比如新聞,論文,文章等等。大家經(jīng)常使用的搜索引擎如:谷歌、百度、雅虎等都是通用搜索引擎如今的杰出代表,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重大貢獻(xiàn)。搜索引擎所提供的網(wǎng)絡(luò)搜索服務(wù)目前是互聯(lián)網(wǎng)上最重要的網(wǎng)絡(luò)服務(wù)之一,搜索引擎也早已成為人們在網(wǎng)絡(luò)中的“導(dǎo)游”[5]。
3.話題追蹤技術(shù)
話題追蹤的目的就是,事先給出一個或幾個關(guān)于某話題的新聞報道,找出關(guān)于該話題相關(guān)的后續(xù)報道。它是TDT(話題檢測與追蹤)技術(shù)的重要子任務(wù)。它能夠在眾多的信息資源中,幫助人們節(jié)約查閱和瀏覽新聞的時間,掌握一個話題的來龍去脈。話題追蹤的定義是:根據(jù)文本的內(nèi)容,在給定的追蹤體系下,自動確定文本關(guān)聯(lián)的主題。用數(shù)學(xué)方法看,話題追蹤將未標(biāo)明主題的文本映射到已有主題中,是一個映射的過程,因為一篇文本可以同多個主題相關(guān)聯(lián),該映射可以一一映射,亦可是一對多映射。
3.1 文本分類技術(shù)
話題追蹤的基本思想是,把人工給定的幾篇報道作為訓(xùn)練樣本,采用一定的追蹤公式對訓(xùn)練樣本進(jìn)行計算和學(xué)習(xí);當(dāng)有新報道時,按公式計算報道的分?jǐn)?shù),根據(jù)指定的閾值,當(dāng)分?jǐn)?shù)大于閾值時,判定新報道屬于主題,否則判定報道不屬于原主題。我們可以把話題追蹤技術(shù)看為,加上以下三個約束條件的文本分類技術(shù):
1、把事先給定的某一主題的相關(guān)報道當(dāng)作訓(xùn)練樣本。
2、當(dāng)有新的新聞文本產(chǎn)生,對于給定的主題,系統(tǒng)將立即給出一個值(是/否)追蹤判定。
3、在系統(tǒng)假設(shè)對其它事件主題不知道的前提下,對某個事件主題進(jìn)行訓(xùn)練學(xué)習(xí)。
文本分類包括了文本表達(dá)、選擇與訓(xùn)練分類器、分類結(jié)果的評價等過程,當(dāng)中的文本表達(dá)又可劃分為文本預(yù)處理、特征抽取、統(tǒng)計和索引等步驟。
3.2 常用文本分類算法簡介
文本分類的算法多種多樣,下面我們簡單介紹幾種常見算法:
Rocchio(中心向量)算法,是出現(xiàn)較早的一種基于統(tǒng)計的文本分類方法,是經(jīng)典的向量空間模型中反饋學(xué)習(xí)算法。中心向量算法,首先為每個類建立一個原型向量(類所有樣本的平均向量),然后通過計算每一個原型向量與待分類文本向量的距離進(jìn)行分類。距離可以通過余弦距離、歐氏距離或內(nèi)積來計算。Rocchio算法的突出優(yōu)點是學(xué)習(xí)速度快,計算簡單,但效果比較差,因此分類系統(tǒng)采用這種算法較少,Rocchio算法更多的是作為衡量分類系統(tǒng)性能的基準(zhǔn)。
樸素貝葉斯(Naive Bayes)算法[19]是一種基于特征獨立性假設(shè)建立起來的,簡單有效的分類方法;其實質(zhì)是首先利用貝葉斯條件概率公式,計算在已經(jīng)知道文本文檔特征向量的條件下,該文檔屬于不同文本類別的后驗(條件)概率;最后,依據(jù)最大似然原理將該文檔歸結(jié)為具有最大條件概率的那一類;由于該算法假設(shè)構(gòu)成特征向量的各特征相互獨立,所以稱其為樸素的。
決策樹(DT)是一種數(shù)據(jù)分類技術(shù),它類似流程圖的樹結(jié)構(gòu)。決策樹每個內(nèi)部節(jié)點代表一個屬性測試,分枝代表一個測試輸出,每個樹葉存放一個類標(biāo),它的最頂層節(jié)點是根節(jié)點。在建立決策樹時,選擇樣本劃分成不同的類的屬性采用屬性選擇度量方法,一些分枝還能反映訓(xùn)練數(shù)據(jù)中的離群點或噪聲。采用樹剪枝可剪去這類分枝,從而提高未知數(shù)據(jù)分類的準(zhǔn)確率。
4.公共部門網(wǎng)絡(luò)輿情監(jiān)測與信息處理平臺總體結(jié)構(gòu)
4.1 分布式結(jié)構(gòu)介紹
分布式技術(shù)是一種基于網(wǎng)絡(luò)的,與集中式相對應(yīng)的計算機(jī)處理技術(shù)[25]。分布式結(jié)構(gòu),就是將各種應(yīng)用部署在不同的平臺和機(jī)器上,這些機(jī)器和平臺共同工作,相互之間通過網(wǎng)絡(luò)連在一起,并運行一系列相關(guān)功能的結(jié)構(gòu)[26]。采用分布式結(jié)構(gòu)的系統(tǒng),模糊了服務(wù)器和客戶端的概念,所有的應(yīng)用都被轉(zhuǎn)化成對象的概念,任一對象都可通過指定接口去調(diào)用其它對象所提供的服務(wù)[27];分布式結(jié)構(gòu)可以被看作是一種多層的C/S(客戶端/服務(wù)器)結(jié)構(gòu)。
在分布式系統(tǒng)中,對開發(fā)和使用者來說,網(wǎng)絡(luò)和傳輸?shù)募?xì)節(jié)是透明的,網(wǎng)絡(luò)資源可以被看作是龐大、統(tǒng)一的平臺;在這種環(huán)境下,對其它計算機(jī)資源的訪問與訪問本機(jī)上的資源沒有差別。由于分布式系統(tǒng)這種在位置、平臺和編程語言選擇等方面的獨立性,所以與集中式系統(tǒng)相比,它在可靠性、可擴(kuò)展性、經(jīng)濟(jì)型、速度等方面都有著顯著的優(yōu)點[28]。
4.2 分布式結(jié)構(gòu)層次劃分
分布式系統(tǒng)根據(jù)不同功能組件形成的層次,可劃分為三種模式:
C/S(客戶端/服務(wù)器)結(jié)構(gòu)。在這種模式下,客戶端是網(wǎng)絡(luò)的基礎(chǔ),服務(wù)器是網(wǎng)絡(luò)的核心。服務(wù)器為客戶機(jī)提供網(wǎng)絡(luò)必須的資源,而客戶機(jī)依靠服務(wù)器獲得所需要的網(wǎng)絡(luò)資源。隨著互聯(lián)網(wǎng)的飛速發(fā)展,C/S結(jié)構(gòu)也暴露出它的缺點:可擴(kuò)展性差、對客戶端操作系統(tǒng)要求比較嚴(yán)格以及高昂的投資和維護(hù)成本。
2、三層結(jié)構(gòu)。這種結(jié)構(gòu)下,分布式系統(tǒng)被劃分成三個邏輯層次:用戶界面層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層[29]。
在這種三層結(jié)構(gòu)下:用戶界面層和業(yè)務(wù)邏輯層之間可以相互訪問,業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層也能相互訪問,但用戶界面層和數(shù)據(jù)訪問層不能直接訪問;表明這種模式各個層次之間的隔離做得更出色。所以三層結(jié)構(gòu)模式在可擴(kuò)展性、靈活性、健壯性等方面都有很大的提高。
多層結(jié)構(gòu)分布式系統(tǒng)。就是在三層結(jié)構(gòu)基礎(chǔ)上,根據(jù)用戶需要,再設(shè)計出用于指定組件的層次。
4.3 常用分布式結(jié)構(gòu)
公共部門網(wǎng)絡(luò)輿情監(jiān)測與信息處理平臺結(jié)構(gòu)整體包括四個子系統(tǒng),即網(wǎng)絡(luò)爬蟲子系統(tǒng)(綠色部分)、網(wǎng)頁檢索子系統(tǒng)(紅色部分)、信息處理子系統(tǒng)(藍(lán)色部分)和實時顯示子系統(tǒng)(灰色部分)。四個子系統(tǒng)相互關(guān)聯(lián),形成有機(jī)整體。
網(wǎng)絡(luò)爬蟲根據(jù)配置信息捕獲指定網(wǎng)站網(wǎng)頁信息,將數(shù)據(jù)存儲于數(shù)據(jù)服務(wù)器。數(shù)據(jù)檢索程序?qū)?shù)據(jù)服務(wù)器信息進(jìn)行實時檢索,獲取當(dāng)前最新捕獲網(wǎng)頁,將網(wǎng)頁URL、本地存儲路徑、更新時間等信息發(fā)送到數(shù)據(jù)檢索程序服務(wù)端。服務(wù)端接收數(shù)據(jù)檢索信息,對其URL等進(jìn)行判斷,如果為用戶所需網(wǎng)頁,則將數(shù)據(jù)檢索信息存儲于指定文件。信息處理子系統(tǒng)對數(shù)據(jù)檢索信息進(jìn)行實時掃描,提取網(wǎng)頁標(biāo)題正文,進(jìn)行編碼轉(zhuǎn)換,并進(jìn)行標(biāo)題和正文進(jìn)行分詞,將處理結(jié)果寫入到數(shù)據(jù)庫。實時顯示子系統(tǒng)對數(shù)據(jù)庫信息進(jìn)行統(tǒng)計,并實時顯示。
參考文獻(xiàn)
[1]殷風(fēng)景.面向網(wǎng)絡(luò)輿情監(jiān)控的熱點話題發(fā)現(xiàn)技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué).2010
[2]齊海鳳.輿情熱點發(fā)現(xiàn)與事件跟蹤技術(shù)研究.哈爾濱[D]:哈爾濱工程大學(xué).2008
[3]李恒訓(xùn),張華平.基于主題詞的網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)[J].第五屆全國信息檢索學(xué)術(shù)會議(CCIR2009).上海.2009-11
(作者單位:鄭州市公安局公共信息網(wǎng)絡(luò)安全監(jiān)察支隊)