亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校BBS輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2012-07-25 03:19:50陳立章陳曉鵬
        微處理機(jī) 2012年1期
        關(guān)鍵詞:數(shù)據(jù)項(xiàng)帖子數(shù)據(jù)流

        陳立章,李 斌,陳曉鵬

        (哈爾濱工業(yè)大學(xué),威海264209)

        1 引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)為我國(guó)鍛造出一個(gè)全新的輿情傳播機(jī)制。截止到2010年底,我國(guó)互聯(lián)網(wǎng)網(wǎng)民學(xué)生總數(shù)占到總網(wǎng)民數(shù)的30.6%[1],對(duì)于這么一個(gè)龐大的一個(gè)高校大學(xué)生群體,他們對(duì)社會(huì)諸多現(xiàn)象、現(xiàn)實(shí)和問(wèn)題等反映最為敏感,各種思潮交流相對(duì)活躍,喜歡通過(guò)BBS對(duì)一些社會(huì)焦點(diǎn)和熱點(diǎn)問(wèn)題以及國(guó)際國(guó)內(nèi)的一些重大問(wèn)題以及高校內(nèi)的一些事情展開(kāi)討論,產(chǎn)生較大的影響,形成洶涌的網(wǎng)絡(luò)輿情越來(lái)越多。面向高校大學(xué)生的網(wǎng)絡(luò)輿情安全預(yù)警與控制手段的不足導(dǎo)致由高校為源頭而引發(fā)的重大網(wǎng)絡(luò)輿情事件激增,并有愈演愈烈的趨勢(shì),如2008年引起巨大轟動(dòng)的“學(xué)位門(mén)”事件等。因此有必要建設(shè)高校輿情監(jiān)測(cè)系統(tǒng),通過(guò)輿情監(jiān)測(cè)系統(tǒng),高校管理者可以準(zhǔn)確把握本校校園網(wǎng)整體輿情動(dòng)態(tài),及時(shí)了解輿情信息,密切關(guān)注校園網(wǎng)動(dòng)態(tài),敏銳捕捉一些苗頭性、傾向性、群體性問(wèn)題,提出正確引導(dǎo)大學(xué)生輿論的對(duì)策建議,及時(shí)化解輿情危機(jī)。

        2 高校BBS輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)

        傳統(tǒng)的輿情熱點(diǎn)發(fā)現(xiàn)技術(shù),通常是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取Web頁(yè)面,利用自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)對(duì)Web頁(yè)面進(jìn)行聚類分析,進(jìn)而在結(jié)果中識(shí)別熱點(diǎn)話題[2]。爬蟲(chóng)開(kāi)始設(shè)計(jì)的初衷,其目的是在給定爬行周期內(nèi),盡可能多地下載Web網(wǎng)頁(yè),并且需要消耗大量的系統(tǒng)資源和網(wǎng)絡(luò)帶寬,爬蟲(chóng)策略的選取對(duì)于爬蟲(chóng)的效率有很大的影響,同時(shí)爬蟲(chóng)獲取網(wǎng)頁(yè)的實(shí)時(shí)性有一定限制,周期太短系統(tǒng)負(fù)擔(dān)太重,周期太長(zhǎng)獲取信息內(nèi)容滯后。通過(guò)改進(jìn)爬蟲(chóng)策略算法進(jìn)行主題爬取,在一定程度上提高了爬蟲(chóng)爬取網(wǎng)頁(yè)的質(zhì)量[3]。但是如果論壇中的帖子在爬行周期內(nèi)被論壇管理員或者作者本人刪除,爬蟲(chóng)無(wú)法獲知這些內(nèi)容的具體信息。有些論壇還可以對(duì)某些討論主題加以權(quán)限要求,爬蟲(chóng)由于權(quán)限的原因,也無(wú)法獲知討論主題的具體內(nèi)容。而通過(guò)旁路模式,可以監(jiān)控一切發(fā)表的主題內(nèi)容,不會(huì)因?yàn)橛捎谀承┬畔@取不到而導(dǎo)致輿情信息分析不周全。

        系統(tǒng)在高校網(wǎng)絡(luò)的出入口處,通過(guò)旁路方式實(shí)時(shí)捕獲高校論壇的網(wǎng)絡(luò)流量,還原出用戶訪問(wèn)高校論壇的Web內(nèi)容,用戶IP、論壇的版塊、主題、訪問(wèn)時(shí)間、以及用戶提交的帖子內(nèi)容等相關(guān)信息,將分析出的帖子的URL作為輸入數(shù)據(jù)流,利用改進(jìn)型LC算法分析出當(dāng)前訪問(wèn)最頻繁的網(wǎng)頁(yè),也就是高校學(xué)生訪問(wèn)的關(guān)注重點(diǎn)內(nèi)容。系統(tǒng)將論壇用戶發(fā)表的帖子內(nèi)容還原出來(lái),通過(guò)層次增量聚類算法進(jìn)行聚類,實(shí)時(shí)精準(zhǔn)地分析出高校論壇輿情熱點(diǎn)話題以及話題的關(guān)鍵詞集。系統(tǒng)還提供管理接口支持自定義關(guān)鍵字來(lái)控制論壇內(nèi)容的訪問(wèn)范圍、訪問(wèn)時(shí)間限制等,聚類出來(lái)的某些關(guān)鍵詞也可以動(dòng)態(tài)添加到系統(tǒng)中。

        高校BBS輿情監(jiān)測(cè)系統(tǒng)主要由四大部分組成,數(shù)據(jù)采集、還原部分、數(shù)據(jù)分析挖掘部分以及系統(tǒng)管理部分。系統(tǒng)架構(gòu)及工作流圖如圖1所示。系統(tǒng)基于哈爾濱工業(yè)大學(xué)(威海)觀海聽(tīng)濤論壇為研究基礎(chǔ),該論壇采用基于 php語(yǔ)言開(kāi)發(fā)的開(kāi)源系統(tǒng)Discuz,國(guó)內(nèi)許多高校論壇均采用此系統(tǒng)。

        圖1 系統(tǒng)結(jié)構(gòu)圖

        3 高校BBS輿情監(jiān)測(cè)系統(tǒng)的具體實(shí)現(xiàn)

        3.1 數(shù)據(jù)采集模塊

        由于高校學(xué)生教師人數(shù)眾多,有的高校同時(shí)在線用戶達(dá)到幾萬(wàn)人,因此高校的網(wǎng)絡(luò)鏈路帶寬都比較大,來(lái)滿足校內(nèi)教職員工的上網(wǎng)需求,鏈路帶寬從100M-3G左右不等。系統(tǒng)采用旁路模式來(lái)進(jìn)行數(shù)據(jù)分析,這么大的流量如果采用傳統(tǒng)的捕包方式肯定不能滿足系統(tǒng)要求,傳統(tǒng)的報(bào)文捕獲方式是網(wǎng)卡從網(wǎng)絡(luò)上捕獲報(bào)文后,會(huì)通過(guò)中斷告知主機(jī)CPU,CPU會(huì)把報(bào)文拷貝到操作系統(tǒng)的協(xié)議棧,協(xié)議棧經(jīng)過(guò)層層分析,最后把報(bào)文提交給應(yīng)用程序,這個(gè)過(guò)程會(huì)消耗大量的CPU資源,在小包情況下,一般千兆網(wǎng)卡很難實(shí)現(xiàn)線速捕包。本系統(tǒng)采用了零拷貝技術(shù)[4],網(wǎng)卡收到的報(bào)文不再經(jīng)過(guò)操作系統(tǒng)協(xié)議棧的層層拷貝,而是直接DMA到應(yīng)用緩沖區(qū)中,避免了數(shù)據(jù)拷貝的開(kāi)銷(xiāo)。系統(tǒng)通過(guò)更改網(wǎng)卡的驅(qū)動(dòng)程序,將網(wǎng)絡(luò)中的數(shù)據(jù)報(bào)文直接DMA到系統(tǒng)用戶區(qū),給上層應(yīng)用系統(tǒng)提供讀取接口,直接調(diào)用報(bào)文的具體內(nèi)容。

        3.2 數(shù)據(jù)還原模塊

        根據(jù)Discuz論壇的特點(diǎn),每一個(gè)討論板塊的鏈接地址:bbs.ghtt.net/forum-1-1.html,其中 bbs.ghtt.net表示站點(diǎn)名,forum表示板塊,第一個(gè)1表示板塊編號(hào)、第二個(gè)1表示對(duì)應(yīng)板塊的頁(yè)面編號(hào)。一個(gè)討論主題的連接地址:bbs.ghtt.net/thread-269118-1-1.html,其中thread表示帖子標(biāo)識(shí),269118表示帖子編號(hào),第一個(gè)1表示帖子的第一頁(yè),最后的1無(wú)實(shí)際意義。通過(guò)分析論壇的URL,可以很方便的得到用戶訪問(wèn)的板塊編號(hào)、主題ID等等信息。

        數(shù)據(jù)還原模塊調(diào)用數(shù)據(jù)捕獲模塊提供的接口,將網(wǎng)絡(luò)中的數(shù)據(jù)報(bào)文進(jìn)行TCP重組還原。通過(guò)HTTP協(xié)議分析、URL編解碼、字符集編解碼轉(zhuǎn)換等等步驟,將論壇中用戶發(fā)表的帖子內(nèi)容還原并保存。由于本系統(tǒng)主要處理文字相關(guān)的信息內(nèi)容,因此在保存之前還需要做一步數(shù)據(jù)凈化,過(guò)濾系統(tǒng)中用不到的數(shù)據(jù)部分,如圖像、視頻、聲音、樣式表等數(shù)據(jù),避免給系統(tǒng)產(chǎn)生干擾數(shù)據(jù)。數(shù)據(jù)過(guò)濾后,還原用戶訪問(wèn)論壇的雙向數(shù)據(jù),上行數(shù)據(jù)處理部分主要包括獲取用戶名和密碼,發(fā)表帖子的內(nèi)容。根據(jù)主題、作者、作者的IP、發(fā)布時(shí)間、發(fā)布內(nèi)容等相關(guān)項(xiàng)生成xml格式的文件,文件名稱為論壇帖子的ID號(hào)。下行數(shù)據(jù)主要根據(jù)系統(tǒng)需要記錄訪問(wèn)者IP地址、訪問(wèn)頁(yè)面、訪問(wèn)頁(yè)面的標(biāo)題、訪問(wèn)時(shí)間、訪問(wèn)頁(yè)面的內(nèi)容等等進(jìn)行存儲(chǔ),以供數(shù)據(jù)分析模塊使用。

        3.3 數(shù)據(jù)分析模塊

        數(shù)據(jù)分析模塊主要由三部分組成,高頻訪問(wèn)分析模塊、高頻討論分析模塊、熱門(mén)話題分析模塊。這部分是系統(tǒng)的關(guān)鍵部分。高頻訪問(wèn)分析模塊,主要分析出當(dāng)前用戶訪問(wèn)最多的網(wǎng)絡(luò)頁(yè)面,高頻討論分析模塊主要分析當(dāng)前最熱門(mén)的討論話題,熱門(mén)話題分析模塊主要分析出當(dāng)前討論的主題熱門(mén)詞集。

        3.3.1 高頻訪問(wèn)分析模塊

        如果將訪問(wèn)高校論壇的網(wǎng)頁(yè)流看成數(shù)據(jù)流,將熱門(mén)的主題看作頻繁項(xiàng)。那么從實(shí)時(shí)的網(wǎng)絡(luò)流中可以發(fā)現(xiàn),高校論壇中大家訪問(wèn)的熱門(mén)主題的問(wèn)題本質(zhì)上就是數(shù)據(jù)流中的頻繁模式挖掘問(wèn)題,訪問(wèn)頁(yè)面的URL即是頻繁集中的數(shù)據(jù)流。

        數(shù)據(jù)流頻繁模式挖掘指,給定支撐度閾值s∈[0,1],對(duì)輸入數(shù)據(jù)流 X=(x1,x2,……,xi,……),在任意時(shí)刻都能輸出當(dāng)前出現(xiàn)頻率超過(guò)s·n的數(shù)據(jù)項(xiàng)列表,其中n是當(dāng)前數(shù)據(jù)流的長(zhǎng)度。通常的挖掘策略有[5]:抽樣法、滑動(dòng)窗口法、直方圖法、哈希法、計(jì)數(shù)法和Sketch法。計(jì)數(shù)策略中的LC(Lossy Counting)[6]算法是目前最為有效的方法之一,Lossy Counting算法的基本思想是:在主存中維護(hù)數(shù)據(jù)流的一個(gè)樣本集合,每當(dāng)數(shù)據(jù)流到來(lái)一個(gè)數(shù)據(jù)項(xiàng),若其值已經(jīng)出現(xiàn)在樣本集合中,則將相應(yīng)的計(jì)數(shù)器加1;否則,將新到的數(shù)據(jù)項(xiàng)以及該數(shù)據(jù)項(xiàng)此前在數(shù)據(jù)流中出現(xiàn)頻率的上界(估計(jì)值)加入到樣本集合中.數(shù)據(jù)流每到來(lái)1/ε個(gè)數(shù)據(jù)項(xiàng),Lossy Counting算法對(duì)樣本集合進(jìn)行一次掃描,刪除其中頻率低于εN的樣本。Lossy Counting算法的空間復(fù)雜度為 O(1/εlogεN)[6]。本系統(tǒng)在 LC 算法基礎(chǔ)上,設(shè)計(jì)了改進(jìn)型LC算法,采用差值編碼的有序雙向鏈表,其中差值編碼雙向鏈表的數(shù)據(jù)結(jié)構(gòu)包括一張散列表和一條雙向鏈表。散列表中每個(gè)節(jié)點(diǎn)存儲(chǔ)一個(gè)計(jì)數(shù)器指針,雙向鏈表中每個(gè)節(jié)點(diǎn)包含兩部分:一部分存儲(chǔ)與前一節(jié)點(diǎn)計(jì)數(shù)差值,但首節(jié)點(diǎn)存儲(chǔ)實(shí)際計(jì)數(shù)值;另一部分存儲(chǔ)一條計(jì)數(shù)器隊(duì)列,且隊(duì)列中的計(jì)數(shù)器具有相等計(jì)數(shù)值。計(jì)數(shù)器按升序在鏈表中排列,頭結(jié)點(diǎn)的計(jì)數(shù)器存儲(chǔ)數(shù)據(jù)項(xiàng)實(shí)際出現(xiàn)的次數(shù),其他結(jié)點(diǎn)的計(jì)數(shù)器存儲(chǔ)和前一結(jié)點(diǎn)的計(jì)數(shù)器的差值,這樣只需要修改頭結(jié)點(diǎn)的計(jì)數(shù)器值就可以在常數(shù)時(shí)間內(nèi)將所有的計(jì)數(shù)器減1。從而整個(gè)算法的時(shí)間復(fù)雜性就變成了O(1),相比LC的O(log(εN)),有了極大地提升。算法描述如下:

        把持續(xù)到來(lái)的數(shù)據(jù)流分成若干個(gè)桶,每個(gè)桶的大小相等w=「1/ε?,對(duì) bucket從1開(kāi)始編號(hào),Bcurrent表示當(dāng)前桶編號(hào)。ε是預(yù)先定義的誤差界,s是用戶指定的支撐度閾值,n表示當(dāng)前數(shù)據(jù)流的長(zhǎng)度,f表示數(shù)據(jù)項(xiàng)e的計(jì)數(shù)器,fe表示e的真實(shí)頻率,(e,f)表示數(shù)據(jù)項(xiàng)e在內(nèi)存中的摘要數(shù)據(jù)結(jié)構(gòu),D為摘要數(shù)據(jù)結(jié)構(gòu)的集合。

        Procedure改進(jìn)型LC

        (1)初始化 D=φ,n=0,w=「1/ε?

        (2)For(每一個(gè)數(shù)據(jù)項(xiàng)e){

        (3)總數(shù)據(jù)長(zhǎng)度n加1

        (4)If(數(shù)據(jù)項(xiàng)e在數(shù)據(jù)集合D中){

        (5)數(shù)據(jù)項(xiàng)e的計(jì)數(shù)器f加1

        (6)}Else{

        (7)將數(shù)據(jù)項(xiàng)e加入到集合D中,e的計(jì)數(shù)器加1

        (8)}

        (9)If數(shù)據(jù)項(xiàng)長(zhǎng)度n與桶w大小相等){(10)數(shù)據(jù)集合D中每一個(gè)元素的計(jì)數(shù)器減1

        (11)移除數(shù)據(jù)集合D中所有計(jì)數(shù)器為0的元素(12)}

        (13)If(如果查詢集合中高頻元素){

        (14)返回集合D中所有頻率f≥(s-ε)·n的元素

        (15)}

        (16)}

        3.3.2 高頻討論分析模塊

        高頻分析討論模塊調(diào)用數(shù)據(jù)分析還原模塊的生成的xml文件,按照自定義xml文件的格式,將用戶Ip、訪問(wèn)時(shí)間、帖子主題、帖子內(nèi)容等等信息存入數(shù)據(jù)庫(kù)中。通過(guò)Mysql數(shù)據(jù)庫(kù)的觸發(fā)器和存儲(chǔ)過(guò)程可以從數(shù)據(jù)庫(kù)很方便的得出當(dāng)前論壇中一定時(shí)間周期如小時(shí)、天、周、月、年內(nèi)論壇用戶討論最積極的帖子編號(hào),回帖數(shù)目等等相關(guān)信息,以及發(fā)帖量最多的用戶,通過(guò)這些信息,高校的學(xué)生工作者可以很方便的得到當(dāng)前熱點(diǎn)討論話題、或者論壇上最活躍的用戶,來(lái)確定下一步需要重點(diǎn)跟蹤的話題或者用戶。

        3.3.3 熱門(mén)話題分析模塊

        熱門(mén)話題分析模塊主要由分詞部分和主題聚類兩部分組成。

        分詞部分采用中科院的ICTCIAS(Institute of Computing Technology,Chinese Lexical Analysis System)分詞系統(tǒng)。ICTCLAS采用了層疊隱馬爾可夫模型[7](Hierarchical Hidden Markov Model),將漢語(yǔ)詞法分析的所有環(huán)節(jié)都統(tǒng)一到一個(gè)完整的理論框架中,該系統(tǒng)支持自定義詞典,為了讓系統(tǒng)的分詞系統(tǒng)分詞更加準(zhǔn)確,系統(tǒng)將學(xué)校的院系、教師、專業(yè)、地名等等信息加入自定義詞典。通過(guò)讀取數(shù)據(jù)還原部分生成的xml文件,將每個(gè)帖子的內(nèi)容進(jìn)行分詞和詞性標(biāo)記,并且通過(guò)對(duì)詞性的過(guò)濾,只保留名詞和動(dòng)詞,來(lái)盡可能縮小程序所占用的存儲(chǔ)空間,并且盡量保留原句的涵義,下一步對(duì)剩余詞語(yǔ)進(jìn)行分析。并且根據(jù)論壇帖子編號(hào)進(jìn)行索引文檔的建立,建立正序索引和倒序索引。

        正序索引:帖子中出現(xiàn)詞語(yǔ)1帖子中出現(xiàn)詞語(yǔ)2……帖子中出現(xiàn)的詞語(yǔ)n。

        倒序索引:詞語(yǔ)出現(xiàn)在帖子中的編號(hào)ID1、ID2。

        然后通過(guò)增量層次聚類的方式將帖子中的詞語(yǔ)進(jìn)行聚類得到論壇中討論的熱門(mén)話題詞集。增量層次聚類算法描述如下。

        (1)聚類部分算法描述

        步驟一、通過(guò)對(duì)一部分固定帖子進(jìn)行聚類,產(chǎn)生聚類結(jié)果,并產(chǎn)生高頻詞集。同時(shí),存儲(chǔ)每個(gè)類別所產(chǎn)生的所有詞語(yǔ)和對(duì)應(yīng)詞頻,存儲(chǔ)到外存之中。

        步驟二、增量獲取帖子內(nèi)容,放入待處理帖子集中。對(duì)待處理帖子集中的文本設(shè)置處理閾值,文本集中的文本數(shù)量到達(dá)閾值的時(shí)候,開(kāi)始處理集合中的文本。首先,按照以往的模塊將文本預(yù)處理,包括分詞,詞性過(guò)濾等步驟。然后將每個(gè)帖子與已經(jīng)產(chǎn)生的類別的高頻詞集中的詞語(yǔ)進(jìn)行匹配。當(dāng)帖子與高頻詞集中部分或者全部詞語(yǔ)相匹配時(shí),計(jì)算匹配詞語(yǔ)的皮爾遜相似度。

        假設(shè)帖子中的詞語(yǔ)(a1,……ai)與高頻詞集中的(b1,……bi)相匹配,它們對(duì)應(yīng)的詞頻值為(va1,……vai)和(vb1,……vbi),那么采用皮爾遜距離的相似度計(jì)算公式就是:

        為其設(shè)定閾值為α,當(dāng)r≥α?xí)r,就要將該帖子放入已經(jīng)存在類別當(dāng)中,如果r<α,就要將其放入待聚類的集合中。

        步驟三、當(dāng)匹配完所有的待處理帖子集合中的所有帖子之后,就可以來(lái)處理待聚類集合中的帖子。將這個(gè)集合中的帖子采用層次聚類算法進(jìn)行聚類,這樣會(huì)產(chǎn)生新的類別,同時(shí),將新產(chǎn)生的類別中的高頻集與之前類別的高頻詞集放在一起,完成本次增量聚類。

        (2)更新部分算法描述

        步驟一、將新加入該類別的帖子的詞語(yǔ)和高頻集合有序放入該類別原始的詞語(yǔ)權(quán)重集合中,如果符合高頻詞標(biāo)準(zhǔn)的詞語(yǔ)有變化,更新高頻詞集。

        步驟二、對(duì)有帖子加入原始類別的,需要將新加入類別的貼子所有詞語(yǔ)和對(duì)應(yīng)詞頻加入到原始類別的詞語(yǔ)集合中,并按照高頻詞集選取的方法,更新原有的高頻詞集。

        通過(guò)上述算法、就能夠得到討論話題對(duì)應(yīng)主題的高頻詞集。

        3.4 系統(tǒng)監(jiān)控管理模塊

        系統(tǒng)監(jiān)控管理模塊主要控制某部分主題的訪問(wèn)范圍,達(dá)到話題裁剪的目的。

        系統(tǒng)監(jiān)控管理模塊通過(guò)web界面提供人機(jī)交互界面,管理員可以自己添加自定義的關(guān)鍵字、也可以從聚類分析中分析出來(lái)的高頻詞中選擇,關(guān)鍵字內(nèi)容可以為網(wǎng)頁(yè)的URL、也可以為具體的詞語(yǔ)。由于論壇討論的主題具有時(shí)間性,系統(tǒng)可以通過(guò)關(guān)鍵字添加附加屬性如關(guān)鍵字生效的時(shí)間、生效的范圍(校內(nèi)或者校外)來(lái)限制帖子中包含有相關(guān)關(guān)鍵字內(nèi)容的訪問(wèn)范圍。

        為了能夠快速地在大流量的網(wǎng)絡(luò)數(shù)據(jù)中檢測(cè)出敏感信息,并且及時(shí)進(jìn)行限制或者阻斷敏感信息,系統(tǒng)采用多模快速的字符串匹配技術(shù),掃描一遍數(shù)據(jù)流就能判斷是否有敏感信息出現(xiàn),從而可以快速發(fā)送阻斷數(shù)據(jù)包,保證了限制帖子訪問(wèn)的有效性。此管理模塊由協(xié)議分析還原模塊調(diào)用,系統(tǒng)在作分析還原時(shí)進(jìn)行關(guān)鍵字匹配。此模塊構(gòu)造了兩個(gè)自動(dòng)機(jī)匹配模塊,第一個(gè)是帖子的URL地址、主要用于對(duì)論壇進(jìn)行URL過(guò)濾;第二個(gè)是帖子中具體的關(guān)鍵字內(nèi)容,主要用于討論主題具體內(nèi)容過(guò)濾。當(dāng)系統(tǒng)匹配到敏感關(guān)鍵字時(shí)系統(tǒng)根據(jù)關(guān)鍵字預(yù)指定的策略采用相應(yīng)的措施,放行或阻止。并且記錄該行為的日志,可以通過(guò)這些日志分析出論壇中那些用戶訪問(wèn)敏感信息最頻繁,那些主題信息被訪問(wèn)頻繁,給管理員管理論壇提供更直觀的數(shù)據(jù),更好的管理好論壇數(shù)據(jù)。

        4 系統(tǒng)運(yùn)行結(jié)果與分析

        系統(tǒng)運(yùn)行的操作系統(tǒng)為Red Hat Enterprise5,機(jī)器配置,CPU為 P4雙核處理器,硬盤(pán)320G,內(nèi)存4G,數(shù)據(jù)庫(kù)為Mysql5.3,編程語(yǔ)言為C語(yǔ)言。

        系統(tǒng)檢測(cè)環(huán)境為觀海聽(tīng)濤論壇。系統(tǒng)在4月份開(kāi)始運(yùn)行,能夠準(zhǔn)確分析出當(dāng)前論壇中討論的熱點(diǎn)話題,每天訪問(wèn)討論的熱點(diǎn)話題。比如我校在4.26日宣布對(duì)院系進(jìn)行合并,主要關(guān)系到幾個(gè)院系的合并。接下來(lái)的兩三天,學(xué)校論壇討論的熱點(diǎn)話題都是圍繞院系合并來(lái)進(jìn)行。系統(tǒng)對(duì)這些天的帖子聚類結(jié)果為:Cluster 1:計(jì)算機(jī)學(xué)院/un、軟件學(xué)院/un、學(xué)位證/n、學(xué)費(fèi)/n、畢業(yè)證/n、排序/n、合并/v、廣電/un、計(jì)算機(jī)/un;

        聚類結(jié)果跟實(shí)際主題中討論的內(nèi)容基本一致。系統(tǒng)能夠準(zhǔn)確發(fā)現(xiàn)每天論壇訪問(wèn)的熱點(diǎn)主題和討論的最熱門(mén)主題,同時(shí)能夠聚類出討論的關(guān)鍵詞集。

        對(duì)于系統(tǒng)管理部分,為了測(cè)試系統(tǒng)的管理功能,分別設(shè)置了50個(gè)過(guò)期頁(yè)面的URL和100個(gè)關(guān)鍵字、在學(xué)校內(nèi)部進(jìn)行了測(cè)試、對(duì)于URL的訪問(wèn)、系統(tǒng)均能夠成功阻斷、阻斷率為97%左右,而對(duì)于關(guān)鍵字的阻斷由于系統(tǒng)工作于旁路模式、關(guān)鍵字在頁(yè)面中出現(xiàn)的位置以及網(wǎng)絡(luò)速度的影響,阻斷成功率在95%左右,說(shuō)明系統(tǒng)管理模塊功能非常有效。阻斷成功后,用戶通常在瀏覽器看到的結(jié)果有:空白的頁(yè)面遲遲打不開(kāi)、顯示連接被重置、顯示頁(yè)面無(wú)法打開(kāi)等。

        5 結(jié)束語(yǔ)

        針對(duì)傳統(tǒng)采用爬蟲(chóng)的高校BBS輿情發(fā)現(xiàn)技術(shù)實(shí)時(shí)性和精準(zhǔn)性差、開(kāi)銷(xiāo)大的缺點(diǎn),提出了基于旁路模式分析還原BBS論壇帖子及URL數(shù)據(jù)作為論壇熱點(diǎn)發(fā)現(xiàn)數(shù)據(jù)源,設(shè)計(jì)了一套輿情監(jiān)測(cè)管理系統(tǒng),有效分析出論壇的熱點(diǎn)討論內(nèi)容。系統(tǒng)經(jīng)過(guò)試運(yùn)行,系統(tǒng)能夠準(zhǔn)確發(fā)現(xiàn)論壇中的熱點(diǎn)話題,并且有效控制主題的訪問(wèn)范圍。如果系統(tǒng)稍作適當(dāng)修改,可以應(yīng)用到別的類型的論壇、微博、博客等系統(tǒng)的輿情分析和管理、具有一定的通用性。

        [1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第27次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:CNNIC,2011.http://www.cnnic.cn/research/bgxz/tjbg/201101/P020110221534255749405.pdf.

        [2] Mark Levene,George Loizou.Zipf's Law for Web Surfers[J].Knowledge and Information Systems,2001(3):120-129.

        [3] 葛玲,蔣宗禮.基于共現(xiàn)詞查詢的主題爬蟲(chóng)研究[J].計(jì)算機(jī)工程,2010(4):286-288.

        [4] 王佰玲,方濱興,云曉春.零拷貝報(bào)文捕獲平臺(tái)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2005(1):46-52.

        [5] 屠莉.流數(shù)據(jù)的頻繁項(xiàng)挖掘及聚類的關(guān)鍵技術(shù)研究[D].南京:南京航空航天大學(xué),2009:8-11.

        [6] G S Manku,R Motwani.Approximate Frequency Counts Over Data Streams.Proceedings of the 28th International Conference on VLDB[C].Hong Kong,China,2002(8):346-357.

        [7] Zhang Hua-Ping,Liu Qun,Cheng Xue-Qi,et al.Chinese lexical analysis using hierarchical hidden Markov model:Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17[C].Sapporo,Japan,2003.Association for Computational Linguistics,2003:63-70.

        猜你喜歡
        數(shù)據(jù)項(xiàng)帖子數(shù)據(jù)流
        汽車(chē)維修數(shù)據(jù)流基礎(chǔ)(下)
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫(kù)Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        暴力老媽
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        北醫(yī)三院 數(shù)據(jù)流疏通就診量
        情事圈點(diǎn)
        女性天地(2012年11期)2012-04-29 00:44:03
        多數(shù)據(jù)項(xiàng)請(qǐng)求的多信道并行廣播調(diào)度算法
        國产一二三内射在线看片| 制服丝袜人妻中出第一页| 国产成人激情视频在线观看| 一区二区三区国产色综合| 亚洲国产欧美在线观看| 国产suv精品一区二区69| 亚洲欧洲AV综合色无码| 国产精品麻豆一区二区三区| 亚洲av熟女中文字幕| 色哟哟亚洲色精一区二区| 亚洲中文久久精品无码| 国产久视频国内精品999| 久久99热精品免费观看麻豆| 精品亚洲国产亚洲国产| 新婚少妇无套内谢国语播放| 一本加勒比hezyo无码人妻| 亚洲爆乳大丰满无码专区| 麻豆成人久久精品二区三区91| 无码伊人66久久大杳蕉网站谷歌| 精品成在人线av无码免费看| 亚洲色精品aⅴ一区区三区| 日韩免费小视频| 久久久人妻一区精品久久久| 日本一区二区三区视频在线观看| 国产精品视频露脸| 亚洲精品成AV无在线观看| 国产午夜三级精品久久久| 丝袜美腿视频一区二区| 成年女人粗暴毛片免费观看| 亚洲免费视频播放| 伊人久久大香线蕉综合av| 国产成人av三级在线观看韩国| 中文字幕av久久亚洲精品| 精品麻豆国产色欲色欲色欲www | 国产人成无码视频在线观看 | 久久综合这里只有精品| 亚洲av无码乱码国产麻豆| 丰满少妇被猛烈进入| 国产9 9在线 | 免费| 国产饥渴的富婆一凶二区| 少妇太爽了在线观看免费视频|