〔摘 要〕網(wǎng)絡(luò)輿情作為一種重要的輿情形式,具有形成速度快,受眾人群廣等特點,對國家和社會的影響越來越重大。互聯(lián)網(wǎng)用戶可以自由地在微博、論壇、博客等中發(fā)表有關(guān)社會中各類現(xiàn)實問題的態(tài)度和意見。監(jiān)測網(wǎng)絡(luò)輿情的主要手段就是利用網(wǎng)絡(luò)爬蟲對目標網(wǎng)絡(luò)的頁面數(shù)據(jù)進行挖掘,然后對挖掘的數(shù)據(jù)進行分類處理,并科學(xué)地統(tǒng)計輿情信息。本文主要分析網(wǎng)絡(luò)輿情的特征和處理對策,并利用網(wǎng)絡(luò)爬蟲、全文檢索、關(guān)鍵詞評分、以及科學(xué)數(shù)理統(tǒng)計等手段對網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的原理進行探索與系統(tǒng)實現(xiàn)。
〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;爬蟲;關(guān)鍵字排名
DOI:10.3969/j.issn.1008-0821.2013.11.009
〔中圖分類號〕TP301 〔文獻標識碼〕A 〔文章編號〕1008-0821(2013)11-0038-04
輿情是民眾關(guān)于現(xiàn)實社會中各種現(xiàn)象、問題所表達的政治信念、態(tài)度、意見和情緒的總和[1-2]。網(wǎng)絡(luò)輿情信息是指社會民眾通過互聯(lián)網(wǎng)這一媒介所表達的情緒、態(tài)度、信念、意識、思想、意見、要求和行為方式等方面的綜合表現(xiàn),是對現(xiàn)代社會物質(zhì)、政治、精神和社會4個文明建設(shè)活動的各種反映[3-5]《2012年互聯(lián)網(wǎng)輿情分析報告》藍皮書指出,2012年微博成為社會輿情的發(fā)動機,在本年網(wǎng)民重點關(guān)注的是社會轉(zhuǎn)型、環(huán)境問題、釣魚島問題、南海問題等熱點話題。據(jù)統(tǒng)計2012全年關(guān)于“釣魚島與反日游行”話題的網(wǎng)絡(luò)博文合計17 742萬篇,“倫敦奧運”話題博文7 583萬篇,“神舟九號與天宮一號對接”的話題博文3 923萬篇。由此可見,網(wǎng)絡(luò)輿情基本都是在短期爆發(fā)的,且影響范圍廣泛,都是些對國家、對社會意義深遠的熱門話題。因此,對網(wǎng)絡(luò)輿情進行監(jiān)測分析是十分必要的。隨著科技的發(fā)展,計算機技術(shù)的迅速普及與推廣,網(wǎng)絡(luò)為社會各階層的人們提供了廣闊、自由的交流平臺[6],互聯(lián)網(wǎng)成為了社會網(wǎng)絡(luò)輿情傳播的主要平臺。而網(wǎng)絡(luò)輿情主要來自于BBS、博客、微博、點評等,在網(wǎng)絡(luò)中網(wǎng)民平等的表達著自己的觀點,可以說真話,也可以說假話,言論相對自由,網(wǎng)絡(luò)的開放性直接決定了網(wǎng)絡(luò)輿情的直接性、突發(fā)性、偏差性。網(wǎng)絡(luò)輿情的獨立屬性,信息流和環(huán)境會影響輿論的傳播[7]。網(wǎng)絡(luò)輿情主要來自BBS、博客、微博、點評等,在網(wǎng)絡(luò)中網(wǎng)民平等的表達著自己的觀點,言論相對自由,網(wǎng)絡(luò)的開放性直接地決定了網(wǎng)絡(luò)輿情的直接性、突發(fā)性和偏差性。本文設(shè)計的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),主要考慮以下幾個方面:(1)對主流的社交網(wǎng)站、門戶網(wǎng)站的網(wǎng)頁、帖吧、文本文件、新聞評論、微博、博客等近期發(fā)布的信息,進行分類存儲處理。(2)對指定的網(wǎng)站上的近期信息,包括網(wǎng)頁、帖吧、文本文件、新聞評論、微博、博客等數(shù)據(jù)進行采集與歸類存儲處理。(3)對采集到的各種數(shù)據(jù)進行關(guān)鍵字分詞處理,分詞存儲,分詞評分,分詞排名等處理。(4)建設(shè)關(guān)鍵字檢索系統(tǒng),檢索的結(jié)果按照標題與內(nèi)容的綜合評分進行合理的排序。(5)本網(wǎng)絡(luò)檢測系統(tǒng),采用合理的框架,預(yù)留更多未來開發(fā)的擴展接口,方便開源與二次開發(fā)。
2013年11月第33卷第11期現(xiàn)?代?情?報Journal of Modern InformationNov.,2013Vol.33 No.112013年11月第33卷第11期網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的研究與實現(xiàn)Nov.,2013Vol.33 No.111 系統(tǒng)的主要功能模塊
1.1 網(wǎng)絡(luò)輿情的采集模塊根據(jù)設(shè)置的檢索條件,如限定域名的http:∥.sina.com/的所有頁面的信息,將采集的數(shù)據(jù)適當?shù)倪^濾,留下有用的關(guān)鍵數(shù)據(jù)。爬取的對象為重點新聞網(wǎng)站、知名社交網(wǎng)站、各大論壇,博客,以及政府網(wǎng)站等。
1.2 數(shù)據(jù)處理模塊對從網(wǎng)絡(luò)上采集而來的數(shù)據(jù)進行處理,處理的手段包括:歸類、分詞、標注、加權(quán)、存儲優(yōu)化等。
1.3 關(guān)鍵字檢索為本網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)提供一個搜索引擎的功能,方便對網(wǎng)絡(luò)蜘蛛爬取的數(shù)據(jù)進行查看管理。在一次檢索的基礎(chǔ)上,提供二次檢索。提供智能的檢索方案,按字索引、按詞索引以及字詞混合索引,對檢索結(jié)果進行排名與統(tǒng)計。
1.4 輿情分析與統(tǒng)計輿情分析是對輿情進行深層次的思維加工和分析研究。主要包括內(nèi)容分析法和實證分析法。內(nèi)容分析法對信息內(nèi)容進行客觀系統(tǒng)的定量分析,提示信息所含有的隱性情報內(nèi)容,對事物發(fā)展做情報預(yù)測。實證分析法是通過分析大量案例和相關(guān)數(shù)據(jù)從而得出結(jié)論的一種研究方法。經(jīng)過分析后,可以自動提取關(guān)鍵字,提取一段完整的內(nèi)容進行智能提取摘要,也可以根據(jù)已經(jīng)設(shè)置的檢索條件進行動態(tài)地提取摘要。對標題進行分詞檢索與排名。智能識別數(shù)據(jù)并歸檔到本地數(shù)據(jù)源。網(wǎng)上數(shù)據(jù)的表示可以采用“點”與“線”組成的模型圖,來表示互聯(lián)網(wǎng)中的各類數(shù)據(jù)。用“線”來表示各個頁面之間的URL鏈接關(guān)系,用“點”來表示網(wǎng)絡(luò)中的各個頁面。在這樣的一個由點線組成的網(wǎng)狀結(jié)構(gòu)的圖形中,每一個點與線都表達了非常重要的信息。所以互聯(lián)網(wǎng)中的文本類型的數(shù)據(jù)可以簡單的劃分成由頁面標題、頁面的內(nèi)容、頁面的超文本標記以及頁面之間的URL鏈接等構(gòu)成。一般的HTML頁面由Head標簽和Body表組成,主要的元素有標題Title,表格Table,層div等信息標簽組成。然而每當用戶瀏覽器收到數(shù)據(jù)時,去掉多媒體信息數(shù)據(jù),如視頻數(shù)據(jù)、flash動畫、圖片數(shù)據(jù)、音頻數(shù)據(jù)等非文本文件數(shù)據(jù),其余的文本文件所包含的信息可以分為兩類:一類是用于結(jié)構(gòu)控制的HTML標簽,HTML由“〈”和“〉”構(gòu)成一個標簽,如〈div〉、〈head〉等標簽;另外一類就是內(nèi)容信息了,這些信息就提供給我們可以直接閱讀的文字。也就是我們最終需要分詞處理,存儲處理的,建立索引的文本數(shù)據(jù)。在頁面設(shè)計的時候,為了方便搜索引擎搜錄其頁面的信息,通常會在頁面添加關(guān)鍵字,在頁面的〈head〉標簽中,可以添加〈meta name=”關(guān)鍵字1,關(guān)鍵字2,關(guān)鍵字3”content=”頁面摘要描述……”〉的標簽信息來描述本頁面的主要信息,方便搜索引擎的網(wǎng)絡(luò)蜘蛛爬取信息。
1.5 關(guān)鍵字高亮顯示在查詢檢索結(jié)果中,對關(guān)鍵字進行統(tǒng)計并高亮顯示,雖然是一個小功能,但是技術(shù)實現(xiàn)的難度大,對用戶體驗有較高的提升,使得在檢索結(jié)果中對關(guān)鍵的信息對用戶一目了然。
1.6 網(wǎng)絡(luò)輿情的預(yù)測通過分析近期捕獲的網(wǎng)絡(luò)輿情,對這些數(shù)據(jù)進行自動分類,進一步聚類,并統(tǒng)計出各個關(guān)鍵字的數(shù)據(jù)圖表,周期升降率,從而預(yù)測未來的輿情演化與趨勢。
2 系統(tǒng)架構(gòu)本網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)采用MVC的設(shè)計模式。MVC的全稱就是Model View Controller的縮寫,意思為模型model——視圖view——控制器controller,MVC是最常用的一種程序基本結(jié)構(gòu)的設(shè)計,使用MVC架構(gòu)可以使業(yè)務(wù)邏輯模塊、數(shù)據(jù)鏈路模塊、UI界面模塊具有良好的分層,這3個模塊在具體的實現(xiàn)內(nèi)容上彼此分離,在關(guān)系上又彼此調(diào)用,可以使各個模塊的負責人集中精力編寫各自的模塊,只需要對彼此的調(diào)用關(guān)系提供接口,以便降低程序關(guān)系的耦合度,達到高內(nèi)聚低耦合的目的,在MVC架構(gòu)發(fā)展的近些年中,許多有經(jīng)驗的程序員習(xí)慣用Java的反射特性來更好地控制UI界面模塊和業(yè)務(wù)邏輯模塊的耦合性。利用MVC獨特的界面層、控制層、數(shù)據(jù)模型層的良好解耦的特點,本系統(tǒng)基本架構(gòu)為:
圖1 MVC系統(tǒng)架構(gòu)示意圖
2.1 系統(tǒng)的功能架構(gòu)本網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)按功能模塊劃分,可大致劃分為網(wǎng)絡(luò)爬蟲采集模塊、中文分詞系統(tǒng)、UI界面管理模塊、索引文件管理模塊、內(nèi)容搜索及搜索顯示模塊、中文全文檢索系統(tǒng)、關(guān)鍵字智能評分系統(tǒng)、關(guān)鍵字高亮顯示模塊等八大模塊。
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)網(wǎng)絡(luò)爬蟲采集模塊中文分詞系統(tǒng)UI界面管理模塊索引文件管理模塊內(nèi)容搜索及搜索顯示模塊中文全文檢索系統(tǒng)關(guān)鍵字智能評分系統(tǒng)關(guān)鍵字高亮顯示模塊圖2 系統(tǒng)各個功能模塊
2.1.1 網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)蜘蛛(Web Spider),也翻譯為網(wǎng)絡(luò)爬蟲(Web Crawler),不管用其中的哪一個翻譯都是一個非常形象的名稱。其實,網(wǎng)絡(luò)就好比蜘蛛網(wǎng)一樣,上面有無數(shù)個節(jié)點,爬蟲Crawler就好比是在網(wǎng)絡(luò)中爬來爬去的一只蟲子。網(wǎng)絡(luò)蜘蛛在搜尋的網(wǎng)頁中檢索一個個超鏈接URL,再對各個URL進行判斷是否曾經(jīng)檢索過,如果沒有,則通過該鏈接進行信息爬取,并且一直循環(huán)爬取,一直到把該網(wǎng)站所有的頁面都爬取完為止。
2.1.2 中文分詞系統(tǒng)英文單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,惟獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多,困難的多。中文分詞系統(tǒng)用于將一個又一個的單個漢字進行分詞。一般中文分詞是先判斷前面和后面的幾個漢字能否和本漢字組成為一個詞語,并把前后連續(xù)的幾個漢字,按照一定的順序和語法進行重新排列或組合成為一個詞序列的過程。中文分詞最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。
2.1.3 中文全文檢索系統(tǒng)中文全文檢索是指把一個中文的文件中的全部的文本和檢索項,進行全文式的匹配檢索文本文件的方法。中文的全文檢索可以把一個數(shù)據(jù)庫或者一些文本文件,一個Web頁面的內(nèi)容進行全文查找檢索。該系統(tǒng)還能分析文中的相關(guān)字、詞、句、段、篇等內(nèi)容,并帶有統(tǒng)計功能,如果我們給一本書的每一個分詞都加上一個分字標簽,那么就可以統(tǒng)計分析全文的內(nèi)容了。比如,我們要統(tǒng)計“中國名著《西游記》這本書中,‘孫悟空’一詞在本書中共出現(xiàn)多少次”就可以通過這個檢索方法實現(xiàn)。
2.1.4 UI界面觸發(fā)的事件反射到邏輯的處理事件的反射處理是利用Java的反射原理將View層中的事件反射到邏輯中來執(zhí)行,UI響應(yīng)反射事件時,需要通過事件動作配置數(shù)據(jù)Relation.java類,判斷事件的類型,事件分為“無條件跳轉(zhuǎn)”和“執(zhí)行邏輯函數(shù)”兩種類型。
圖3 響應(yīng)事件流程圖
3 網(wǎng)絡(luò)輿情的統(tǒng)計與分析如果人工采集互聯(lián)網(wǎng)上的信息,這個工作量將會是巨大的,因此需要研究如何在網(wǎng)絡(luò)上進行自動實現(xiàn)信息采集,并及時的對采集來的信息進行處理,由人工采集信息的防擁塞,變?yōu)樽詣硬杉淖詣託w類,梳理,建立索引。圖4 中文分詞的輸入輸出
網(wǎng)絡(luò)輿情分析系統(tǒng)是處理已采集信息的核心功能模塊,具體功能如下:(1)可以對熱門話題與敏感詞匯進行標識。(2)可以根據(jù)新聞發(fā)布機構(gòu)的權(quán)威度、回復(fù)數(shù)量、評論的頻率,對信息進行評分加權(quán),使得檢索時排位靠前。(3)可以識別出采集的信息在某一段時間內(nèi)是否是最熱門的話題,使用關(guān)鍵字的分詞、排序、語法分析和語義分析,來辨別各類文章中是否包含敏感話題?;ヂ?lián)網(wǎng)頁面上的數(shù)據(jù)不僅包括頁面的內(nèi)容數(shù)據(jù),還含有一些HTML超文本標簽主要用來對網(wǎng)頁的結(jié)構(gòu)進行設(shè)計。目前,部分國際化組織制定HMTL5協(xié)議對頁面上的數(shù)據(jù)的格式進行統(tǒng)一的標記,但是這一類協(xié)議僅僅用于內(nèi)容信息的表述形式上,這樣做的原因是讓瀏覽頁面的用戶能夠更好地閱讀頁面信息。
4 結(jié) 論本文在現(xiàn)有網(wǎng)絡(luò)輿情研究的基礎(chǔ)上,依據(jù)系統(tǒng)性、科學(xué)性、可靠性及可操作性原則,對如何采集監(jiān)測網(wǎng)絡(luò)輿情信息進行深入剖析,這有助于了解網(wǎng)絡(luò)輿情發(fā)展規(guī)律,并據(jù)此設(shè)計了網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng),當然,該系統(tǒng)的功能還需進一步完善以便推廣使用。
參考文獻
[1]董亞倩,鄧尚民.基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情主體挖掘研究[J].情報資料工作,2011,(6):45-49.
[2]石彭輝.基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情實證研究[J].現(xiàn)代情報,2013,33(2):27-31.
[3]Xiao Qiang.The Rising Tide of Internet[R].International Journalism Nieman Reports,2004:103-104.
[4]Guo Liang.The Internet is Changing China[EB/OL].http:∥china.usc.edu/app-images/guoliang.Pdf.
[5]戴媛,姚飛.基于網(wǎng)絡(luò)輿情安全的信息挖掘及評估指標體系研究[J].情報理論與實踐,2008,31(6):873-876.
[6]陳新杰,呼雨,蘭月新.網(wǎng)絡(luò)輿情監(jiān)測指標體系構(gòu)建研究[J].現(xiàn)代情報,2012,32(5):4-7.
[7]Suo Shuguang,Chen Yu.The Dynamics of Public Opinion in Complex Networks[J].Journal of Artificial Societies and Social Simulation,2008,11(4):2.
(本文責任編輯:王 涓)