亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)輿情巡查系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2011-12-31 00:00:00吳方余蔣崯崯
        計(jì)算機(jī)時代 2011年8期

        摘要:網(wǎng)絡(luò)輿情作為社會輿論發(fā)展的新形式越來越受到社會的關(guān)注,對網(wǎng)絡(luò)輿情的收集、分析和研判也是今后掌控的社會輿情的重要途徑。網(wǎng)絡(luò)輿情巡查系統(tǒng)是網(wǎng)絡(luò)輿情采集分析和報(bào)送的重要工具。文章探討了網(wǎng)絡(luò)輿情巡查系統(tǒng)的設(shè)計(jì)思路和系統(tǒng)功能,給出了系統(tǒng)的框架,同時對系統(tǒng)實(shí)現(xiàn)中的關(guān)鍵技術(shù)進(jìn)行了闡述。

        關(guān)鍵詞:網(wǎng)絡(luò)輿情;巡查;采集;任務(wù)優(yōu)先

        中圖分類號:TP393.09

        文獻(xiàn)標(biāo)志碼:A

        文章編號:1006-8228(2011)08-56-03

        引言

        互聯(lián)網(wǎng)的發(fā)展,極大地拓寬了社會輿論空間。網(wǎng)絡(luò)媒體已經(jīng)被公認(rèn)為是繼報(bào)紙、電視、廣播之后的“第四媒體”,且其信息量和受關(guān)注度均遠(yuǎn)超過傳統(tǒng)的三大媒體。網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)背景之下,眾多網(wǎng)民關(guān)于社會(現(xiàn)實(shí)社會、虛擬社會)各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒的總和,或簡而言之為網(wǎng)絡(luò)輿論和民情。網(wǎng)絡(luò)具有掩蔽性、互動性、多元性,使得網(wǎng)絡(luò)輿情能真實(shí)、快速反應(yīng)社會輿情。特別是當(dāng)前互聯(lián)網(wǎng)上新聞、論壇、博客的普及更是推動了網(wǎng)絡(luò)輿情的發(fā)展,倍受政府、企業(yè)和各類社會機(jī)構(gòu)的關(guān)注。今后網(wǎng)絡(luò)空間將承載更多的社會輿論,網(wǎng)絡(luò)輿情將成為反映社情民意的重要形式。

        作為維護(hù)互聯(lián)網(wǎng)安全重要力量的網(wǎng)絡(luò)警察,對網(wǎng)絡(luò)輿情巡查是其主要職責(zé)之一。網(wǎng)警通過對互聯(lián)網(wǎng)輿情巡查及時發(fā)現(xiàn)和處置各類信息,為行政決策提供參考,同時為公安機(jī)關(guān)打擊違法犯罪提供重要案件來源。傳統(tǒng)網(wǎng)警巡查的方式主要依靠人工巡查和基于搜索引擎模式的采集一查詢巡查方式,兩者的最大不足是實(shí)時性不強(qiáng),容易錯失輿情危機(jī)的“黃金4小時媒體”寶貴時間。因此輿情巡查系統(tǒng)應(yīng)具備響應(yīng)快速、信息準(zhǔn)確和覆蓋范圍廣泛的特點(diǎn)。

        1、系統(tǒng)設(shè)計(jì)思路

        1.1 增量式巡查提高響應(yīng)速度

        互聯(lián)網(wǎng)巡查主要任務(wù)是采集、發(fā)現(xiàn)和處置各大網(wǎng)站出現(xiàn)的最新的、有價值的網(wǎng)絡(luò)輿情信息,已巡查過的非敏感網(wǎng)絡(luò)信息不是巡查重點(diǎn),而這部分信息內(nèi)容卻占據(jù)了網(wǎng)絡(luò)巡查處理數(shù)據(jù)的絕大部分資源。如巡警在日常巡邏中接觸到的絕大部分是守法公民,發(fā)現(xiàn)的違法犯罪人員只有極少數(shù)且都隱藏于大眾中。為加快響應(yīng)速度,提高巡查效率,避免系統(tǒng)陷入非新增的海量信息處理,必須保證系統(tǒng)資源有效用于對新增信息的巡查上。據(jù)此,系統(tǒng)設(shè)計(jì)的主要思路是:巡查各大網(wǎng)站新聞、博客、論壇內(nèi)容中的最近一個時段內(nèi)更新的信息內(nèi)容。有針對性地巡查不僅可以減少對同一個網(wǎng)站信息反復(fù)采集、處理的工作量,而且節(jié)約了時間,提高了巡查效率。在日常的互聯(lián)網(wǎng)巡查中我們發(fā)現(xiàn),所有的新聞、論壇、博客等信息的更新都在特定的網(wǎng)頁頁面以標(biāo)題列表的形式列出來,若從此類包含內(nèi)容列表的網(wǎng)頁入手,則可以很方便地獲取最新更新的信息。在巡查頻度方面,由于當(dāng)前各大網(wǎng)站的網(wǎng)頁都是由腳本動態(tài)生成的,隨著內(nèi)容的新增,已有信息不斷向后刷新,為防止對新增的內(nèi)容漏巡,必須保證在新增信息的內(nèi)容列表離開該頁面之前進(jìn)行一次巡查。

        巡查系統(tǒng)和傳統(tǒng)的搜索引擎不同。傳統(tǒng)的搜索引擎是對網(wǎng)站的內(nèi)容進(jìn)行采集,通過分詞、建立索引等處理后向用戶提供檢索服務(wù)。這能最大限度地采集該網(wǎng)站大部分信息并保存本地用于檢索,該方法是以犧牲時間和空間為代價來實(shí)現(xiàn)的。而巡查系統(tǒng)不需要采集網(wǎng)站的整站信息,只要采集該網(wǎng)站的過去某一時刻至現(xiàn)在的一個時段內(nèi)所有更新的信息即可(增量信息);同時為快速響應(yīng),系統(tǒng)爬蟲程序?qū)W(wǎng)頁進(jìn)行采集的同時負(fù)責(zé)網(wǎng)頁處理和關(guān)鍵字比對,這和搜索引擎中網(wǎng)絡(luò)爬蟲單一的網(wǎng)頁采集任務(wù)也有所區(qū)別。

        1.2 設(shè)置巡查級別優(yōu)化資源分配

        互聯(lián)網(wǎng)上不同的網(wǎng)站信息更新速度是不同的,在現(xiàn)有軟、硬件的條件下要發(fā)揮系統(tǒng)的最大功用,必須保證最大限度地覆蓋巡查范圍、減少漏巡與巡查盲區(qū)。對于不同的新聞、博客、論壇網(wǎng)站,根據(jù)人氣和信息量的不同,我們在系統(tǒng)中設(shè)置了不同的巡查優(yōu)先權(quán)。對于信息量大、更新速度快的網(wǎng)站加大巡查頻度,設(shè)置高優(yōu)先級別的巡查模式,反之則減少巡查頻度,設(shè)置低優(yōu)先級別的巡查模式。傳統(tǒng)平均分時巡查中假設(shè)一個巡查系統(tǒng)有n個任務(wù),執(zhí)行完任務(wù)的總時間為T巡l+T巡2+…+T巡n,假設(shè)某一任務(wù)對應(yīng)的網(wǎng)頁信息更新速度最快,每次更新時間為T更新。為保證系統(tǒng)在該網(wǎng)頁信息更新前對其進(jìn)行巡查必須滿足T巡1+T巡2+……+T巡n<T更新。由此可知系統(tǒng)每次巡查周期須小于該網(wǎng)頁的更新周期,否則將造成漏巡。據(jù)此平均分時巡查的缺點(diǎn)凸顯出來:一是當(dāng)總巡查時間達(dá)到一定值后不能增加新的巡查內(nèi)容;二是某些信息更新周期慢的網(wǎng)頁易重復(fù)巡查造成資源浪費(fèi)。采用加權(quán)優(yōu)先級式分配巡查任務(wù)根據(jù)權(quán)值大小按不同頻度對網(wǎng)頁進(jìn)行巡查,可以很好地解決上述問題,大大提高巡查范圍和巡查響應(yīng)速度。

        1.3 分類報(bào)送

        通過增量式巡查篩選出來的網(wǎng)絡(luò)輿情包含了各種各樣的信息,這些信息中有急需處置并馬上向用戶報(bào)告的,有可暫緩處置稍后報(bào)告的,也有不需處理不報(bào)告的。系統(tǒng)需對這部分信息建立一套合理的分級研判制度和報(bào)告制度,其中關(guān)鍵字是分級的重要依據(jù)。系統(tǒng)根據(jù)關(guān)鍵字的緊急程度不同依次為分為五個級別。

        在關(guān)鍵字設(shè)置上系統(tǒng)根據(jù)網(wǎng)站地域性和網(wǎng)站針對網(wǎng)民群體的不同而設(shè)置不同的關(guān)鍵字。對于地域性廣、網(wǎng)民來源分散的,要設(shè)置相對具體的關(guān)鍵字以求捕獲信息的準(zhǔn)確性;對于地域性窄、網(wǎng)民來源集中的,可以設(shè)置相對模糊關(guān)鍵字,以求獲取最大限度的信息量。對于特定行業(yè)、特定網(wǎng)民群體相關(guān)的網(wǎng)站,多設(shè)置特定關(guān)鍵字而少設(shè)置通用關(guān)鍵字,這樣可以提高信息篩選的效率。

        2、系統(tǒng)框架

        輿情巡查系統(tǒng)主要有任務(wù)調(diào)度模塊、信息采集處理分析比對和結(jié)果處理三個模塊組成,如圖1所示。

        任務(wù)調(diào)度模塊負(fù)責(zé)巡查任務(wù)的分配,它通過任務(wù)調(diào)度策略從任務(wù)池中選擇一個或多個優(yōu)先級別相同的任務(wù)進(jìn)入就緒隊(duì)列等待執(zhí)行;信息采集處理分析比對模塊是系統(tǒng)核心所在,它利用多線程技術(shù)對所要巡查的網(wǎng)頁信息進(jìn)行采集分析研判,獲取與預(yù)設(shè)關(guān)鍵字相關(guān)的內(nèi)容,該模塊是系統(tǒng)資源的主要使用單元;結(jié)果處理模塊對巡查結(jié)果予以顯示、存儲并根據(jù)關(guān)鍵字中包含的不同分類信息采取不同的報(bào)送方式向用戶報(bào)送。

        3、 系統(tǒng)的實(shí)現(xiàn)

        3.1 任務(wù)調(diào)度

        系統(tǒng)對一個網(wǎng)站(專題、版塊)的巡查對應(yīng)一個任務(wù),并有一套機(jī)制保證任務(wù)的合理執(zhí)行。任務(wù)調(diào)度主要的功能是對巡查優(yōu)先級進(jìn)行調(diào)度,對信息量大、更新頻繁的網(wǎng)站增加巡查次數(shù)以求及時獲取最新輿情動態(tài),達(dá)到資源的優(yōu)化配置目的。

        任務(wù)的數(shù)據(jù)結(jié)構(gòu)如圖2所示,url是待采集網(wǎng)頁標(biāo)題列表的所在網(wǎng)頁的鏈接地址,通常是一個新聞專題入口、論壇的版塊、博客目錄;domain是URL中包含的域名,該標(biāo)識不僅用于在提取網(wǎng)頁URL過程中過濾非本網(wǎng)站域名的鏈接達(dá)到爬蟲匯聚的目的,還用于將相對鏈接地址組合成絕對鏈接地址;權(quán)值是任務(wù)調(diào)度的核心,權(quán)值大小反映了任務(wù)被執(zhí)行的頻度,它由用戶根據(jù)某一待巡查內(nèi)容的信息量和信息更新速度以及人氣等綜合因素而設(shè)定。網(wǎng)頁信息更新速度快應(yīng)設(shè)置較小權(quán)值。反之設(shè)置較大權(quán)值。任務(wù)每執(zhí)行一次,其次數(shù)標(biāo)識加1,累計(jì)值=權(quán)值×次數(shù),累計(jì)值的大小作為任務(wù)調(diào)度時決定哪個任務(wù)選中執(zhí)行的依據(jù)。任務(wù)調(diào)度時任務(wù)管理器首先在任務(wù)列表中查找累計(jì)值最小的任務(wù),找到后將其加入到就緒任務(wù)列表中等待執(zhí)行。某一時刻有多個相同最小累計(jì)值時按照先后順序依次加入到就緒任務(wù)列表。當(dāng)任務(wù)執(zhí)行完成后,該任務(wù)的累計(jì)值和執(zhí)行次數(shù)標(biāo)識值都會增加,任務(wù)從就緒任務(wù)列表中移除,待執(zhí)行完所有就緒任務(wù)列表中的任務(wù)后,任務(wù)管理器再次查找執(zhí)行累計(jì)值最小的任務(wù),如此循環(huán)。

        3.2 輿情信息采集

        (1)網(wǎng)頁抓取系統(tǒng)爬蟲采用廣度優(yōu)先的方式對網(wǎng)頁進(jìn)行抓取。當(dāng)一個任務(wù)(網(wǎng)頁URL)被調(diào)度進(jìn)入執(zhí)行狀態(tài)時,系統(tǒng)利用HTTP協(xié)議訪問該網(wǎng)頁URL(新聞專題、論壇版塊等)并將該頁面下載到本地,網(wǎng)絡(luò)爬蟲首先提取該網(wǎng)頁包含的一條URL,然后對提取的URL按事先設(shè)置好的策略進(jìn)行過濾,過濾的策略是基于該網(wǎng)頁所在的網(wǎng)站域名符合一定規(guī)則,即提取的URL包含所對應(yīng)的域名時予以保留,反之予以丟棄,系統(tǒng)通過查詢確認(rèn)隊(duì)列中未收錄該URL,否則予以丟棄,最后對過濾后的URL加入待下載全連接隊(duì)列并重復(fù)前面的步驟直到提取完該網(wǎng)頁內(nèi)所有URL。系統(tǒng)采用正則表達(dá)式提取網(wǎng)頁所包含的所有URL,不同網(wǎng)站的網(wǎng)頁中包含的URL格式有所不同,有絕對超級鏈接和相對超級鏈接之分,對于后者必須添加網(wǎng)站的域名使之成為一個絕對超級鏈接以方便后續(xù)網(wǎng)頁采集。待該網(wǎng)頁內(nèi)所有的URL提取完并按唯一性加入到待下載隊(duì)列后,爬蟲程序采用多線程方式對隊(duì)列中的URL進(jìn)行網(wǎng)頁內(nèi)容抓取。

        (2)網(wǎng)頁處理 在抓取網(wǎng)頁后,要經(jīng)過網(wǎng)頁預(yù)處理這一步驟。該步驟的主要功能是去除與輿情處理無關(guān)的內(nèi)容,包括網(wǎng)頁中重復(fù)的內(nèi)容和其他與輿情無關(guān)的信息。經(jīng)過處理后就可以對網(wǎng)頁的標(biāo)題和文本內(nèi)容進(jìn)行提取。不同的網(wǎng)站生成的網(wǎng)頁結(jié)構(gòu)不同,要提取不同網(wǎng)站內(nèi)的網(wǎng)頁不能通過單一的模板。系統(tǒng)采用正則表達(dá)式對網(wǎng)頁的標(biāo)題和內(nèi)容進(jìn)行提取。如在標(biāo)題提取時根據(jù)HTML語法使用正則表達(dá)式提取和</title>之間的字符,同樣正文內(nèi)容的抽取可以提取<body>和</body>之間的字符實(shí)現(xiàn)。</body>

        (3)關(guān)鍵字比對系統(tǒng)是基于關(guān)鍵字預(yù)設(shè)的巡查系統(tǒng),不同的任務(wù)(巡查內(nèi)容)對應(yīng)不同關(guān)鍵字列表。當(dāng)準(zhǔn)備運(yùn)行的任務(wù)被加載后,任務(wù)管理器根據(jù)當(dāng)前任務(wù)從關(guān)鍵字庫中查找并加載與之對應(yīng)的關(guān)鍵字列表,關(guān)鍵字列表中不同關(guān)鍵字包含不同的分類級別、報(bào)送等級信息。網(wǎng)頁經(jīng)過預(yù)處理后就與關(guān)鍵字列表中的關(guān)鍵字逐一進(jìn)行碰撞比對。當(dāng)比對成功時,關(guān)鍵字和網(wǎng)頁中特定部分信息被加入到報(bào)告隊(duì)列中的待系統(tǒng)依據(jù)關(guān)鍵字包含的信息作相應(yīng)的處理。

        3.3 巡查結(jié)果的顯示、報(bào)送與存儲

        對于巡查中發(fā)現(xiàn)的有價值的網(wǎng)絡(luò)輿情信息,系統(tǒng)要及時向用戶顯示報(bào)告。輿情顯示內(nèi)容包括信息級別、URL、主題、內(nèi)容摘要以及涉及的敏感詞匯等。通過這些內(nèi)容,用戶就能對當(dāng)前所巡查的網(wǎng)站輿情信息有全面的掌握這有利于下一步分析研判。在所有采集到的網(wǎng)絡(luò)輿情中,部分信息級別較高、包含敏感話題關(guān)鍵字的輿情要第一時間向用戶報(bào)告的,系統(tǒng)采用短信報(bào)警的方式對這部分重要的信息實(shí)現(xiàn)報(bào)送。此外,系統(tǒng)采用XML格式對巡查結(jié)果予以存儲,將巡查結(jié)果存儲的目的是防止相同內(nèi)容輿情的重復(fù)采集報(bào)送,使間隔性的巡查在信息獲取方面整體上保持連續(xù)性。

        4、結(jié)束語

        網(wǎng)絡(luò)輿情越來越受到社會的關(guān)注,及時準(zhǔn)確的網(wǎng)絡(luò)輿情不僅是今后各類機(jī)構(gòu)決策的重要參考,也是各類機(jī)構(gòu)判斷決策施行的效果的依據(jù),這對網(wǎng)絡(luò)輿情監(jiān)測提出了更高的要求,將促進(jìn)網(wǎng)絡(luò)巡查手段的發(fā)展。我們在輿情巡查系統(tǒng)實(shí)現(xiàn)的過程中遇到了一些難點(diǎn),包括:網(wǎng)頁結(jié)構(gòu)復(fù)雜,特別是包含大量Frame和采用JavaScript生成的網(wǎng)頁在網(wǎng)頁信息采集上有所限制;還有系統(tǒng)是基于關(guān)鍵字巡查的,雖然對關(guān)鍵字組合出現(xiàn)的各種可能作了預(yù)測,但是在表達(dá)式設(shè)定捕獲范圍上難以掌控,容易造成捕獲范圍過大和過小的問題。本文針對網(wǎng)絡(luò)輿情巡查系統(tǒng)的功能和設(shè)計(jì)過程作了研究,具體的算法和實(shí)現(xiàn)方式還有待進(jìn)一步優(yōu)化和深入研究。

        參考文獻(xiàn):

        [1]周靖.VisualC#2010從入門到精通[M].清華大學(xué)出版社,2010.

        [2]潘正高.基于主題關(guān)鍵詞的網(wǎng)絡(luò)輿情分析研究[J].宿州學(xué)院學(xué)報(bào),2010.5.

        [3]何佳,周長勝,石顯鋒,等.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2010.3.

        亚洲色爱免费观看视频| 成人无码区免费AⅤ片WWW| 亚洲AV秘 无码一区二区三区臀| 精品 无码 国产观看| 阿v视频在线| 亚洲国产精品一区二区第一| 一区二区三区日本久久| 色呦呦九九七七国产精品| 少妇夜夜春夜夜爽试看视频| 国产精品中文久久久久久久 | 亚洲精品suv精品一区二区| 国语少妇高潮对白在线| 欧美va免费精品高清在线| av无码精品一区二区乱子| 黄色中文字幕视频网站| 深夜福利国产精品中文字幕| a级国产乱理伦片| 人妻被黑人粗大的猛烈进出| 成人无码激情视频在线观看| 大红酸枝极品老料颜色| 亚洲一区二区三区熟妇| 中文字幕人成人乱码亚洲av| 精品深夜av无码一区二区| 亚洲的天堂av无码| 国产粉嫩嫩00在线正在播放| 国产性虐视频在线观看| 国产精品麻豆va在线播放| 日本japanese丰满多毛| 国产成人+亚洲欧洲+综合| 精品国偷自产在线不卡短视频| 男生自撸视频在线观看| 91自拍视频国产精品| 久久久国产精品黄毛片| 国产一级三级三级在线视| 日本中文字幕一区二区视频| 东京热日本道免费高清| 狼人伊人影院在线观看国产| 国产一区二区女内射| 精品国产免费Av无码久久久 | 日本激情网址| 蜜乳一区二区三区亚洲国产|