亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡輿情的云計算監(jiān)測模式分析與實現(xiàn)

        2013-09-28 03:23:42吳建軍
        電訊技術 2013年4期
        關鍵詞:局域網(wǎng)日志輿情

        吳建軍

        (浙江財經(jīng)學院現(xiàn)代教育技術中心,杭州310018)

        1 引 言

        隨著國民素質的不斷提高,網(wǎng)民的社會責任感和政治參與熱情也日漸增強,他們往往對社會事件有著較高的敏感性和參與度,因而把握網(wǎng)絡輿情對于控制社會情緒、正確引導社會中堅力量有著極其重要的意義?,F(xiàn)有的輿情監(jiān)測技術大都存在監(jiān)測盲點較多、準確率不高等問題,而隨著云計算技術的發(fā)展,對較大網(wǎng)絡范圍內(nèi)的大數(shù)據(jù)量進行獲取和分析成為可能。通過對傳統(tǒng)輿情監(jiān)測技術的問題剖析,結合目前較為成熟的云計算技術架構,本文提出了網(wǎng)絡輿情的云計算監(jiān)測模式,并分析和給出了一種具體實現(xiàn)。該模式的核心是近兩年興起的大數(shù)據(jù)獲取、存儲及分析技術,將大數(shù)據(jù)技術用于輿情監(jiān)測目前仍然是一個較新的應用研究領域。

        2 網(wǎng)絡輿情監(jiān)測的現(xiàn)狀和問題

        輿情監(jiān)測是對網(wǎng)絡熱點輿論在一定時間內(nèi)發(fā)生的頻率及趨勢的監(jiān)測和分析。隨著網(wǎng)絡和信息技術發(fā)展,網(wǎng)絡輿情在監(jiān)測方式方法、分析數(shù)據(jù)量等方面已經(jīng)發(fā)生很大變化。

        2.1 網(wǎng)絡輿情的主要監(jiān)測方法

        輿情監(jiān)測的要點是信息的采集和分析,按信息來源和采集方式的不同,網(wǎng)絡輿情主要有下列主要監(jiān)測方法。

        (1)網(wǎng)頁抓取和分析[1]

        這是目前網(wǎng)絡輿情最主流的監(jiān)測方法,該方法通常采用網(wǎng)絡爬蟲類軟件對互聯(lián)網(wǎng)信息進行抓取、清洗和歸并,并給出綜合分析結果。信息源通常為論壇、博客、微博、貼吧等交友、互動類網(wǎng)站。對于信息源范圍,也就是爬蟲檢索和抓取對象的確定,一種方式是通過搜索引擎得出[2],另一種是人工搜集的網(wǎng)站,兩種方式各有優(yōu)劣。

        (2)日志分析

        在大型網(wǎng)絡和電信運營商的出口部位截取網(wǎng)絡設備日志并加以分析,這是另一種常見的網(wǎng)絡輿情分析方法。由于網(wǎng)絡日志相當龐大,并且記錄了流經(jīng)網(wǎng)絡出口的所有信息,信息內(nèi)容雜亂,需要采用高性能、大容量設備和系統(tǒng)進行層層過濾和分析,才能獲得和輿情相關的價值信息,因此時間和軟硬件成本都較高,目前采用并不廣泛。該方式最大的優(yōu)點是對某段網(wǎng)絡內(nèi)產(chǎn)生的輿情信息能完全截獲。

        (3)特殊客戶端及人工監(jiān)測

        將具備監(jiān)測甚至控制功能的客戶端安裝在特定人群或場合內(nèi)的上網(wǎng)計算機上,以達到對該類人群進行輿情監(jiān)測甚至控制的目的。該方式監(jiān)測面較窄,并且客戶端的安裝本身已經(jīng)在心理上對上網(wǎng)者產(chǎn)生約束,不能體現(xiàn)上網(wǎng)者的真實心理情緒,因此管理和控制的色彩更濃,只在特殊情況下使用,類似的如2008年國家教育部面向青少年推廣的“綠壩-花季護航”軟件。傳統(tǒng)的人工監(jiān)測具有靈活、快速等優(yōu)點,但面對浩如煙海的互聯(lián)網(wǎng),目前只作為輿情監(jiān)測手段的補充在特殊情況下采用。

        2.2 現(xiàn)有網(wǎng)絡輿情監(jiān)測模式的問題

        通過對網(wǎng)絡輿情主要監(jiān)測方法的分析可以看到,相關網(wǎng)站日志分析和網(wǎng)頁抓取等互聯(lián)網(wǎng)手段的監(jiān)測方法實施較為簡便,但普遍存在信息來源不精確問題,無論是通過人工還是搜索引擎,都無法確定輿情的準確來源,在這種情況下,輿情的漏報和誤報就幾率較高,得出的監(jiān)測結果事實上并不能完全表現(xiàn)輿情發(fā)展趨勢,有時輿情可能會在監(jiān)測系統(tǒng)所不熟知的網(wǎng)站中傳播;在現(xiàn)有技術條件下,只能在大型網(wǎng)絡和電信運營商的出口部位截取網(wǎng)絡設備日志并加以監(jiān)測才能較為準確地反應輿情信息,但是軟硬件投資代價又太高,而且監(jiān)測數(shù)據(jù)量的增長速率遠遠超出現(xiàn)有硬件處理能力的增長。

        3 網(wǎng)絡輿情云計算監(jiān)測模式的提出

        針對現(xiàn)有網(wǎng)絡輿情監(jiān)測模式的不足,業(yè)界迫切需要一種既能較準確監(jiān)測輿情,又具有大數(shù)據(jù)處理能力、較大樣本集合,具備一定普遍性,同時又有一定可操作性的輿情監(jiān)測方案,在此思路指導下,本文提出一種新的網(wǎng)絡輿情的云計算監(jiān)測模式。輿情云計算并非是一個新名詞,但以往提出的這個概念通常是指在輿情的分析階段基于大數(shù)據(jù)技術,采集和存儲階段使用傳統(tǒng)方式,并且深入進行理論和實踐研究的學者也很少,而采集反而是輿情監(jiān)測是否準確的重要環(huán)節(jié)。本文提出的模式將在輿情數(shù)據(jù)的采集、存儲和分析各個環(huán)節(jié)采用成熟的云計算技術,是一套較為完整和具有新思路的輿情監(jiān)測解決方案。

        3.1 云計算監(jiān)測模式的導出

        網(wǎng)絡輿情的監(jiān)測對象是全體網(wǎng)民,對應的網(wǎng)絡概念是廣域網(wǎng)(Wide Aera Network,WAN)。廣域網(wǎng)由眾多局域網(wǎng)(Local Aera Network,LAN)組成,橫向來看有多種主要的局域網(wǎng),例如各大型企業(yè)局域網(wǎng)、各科研機構局域網(wǎng)、各級政府政務網(wǎng)、各學校校園網(wǎng)及各城區(qū)電信城域網(wǎng)等;而從縱向來看,很多局域網(wǎng)在自身體系內(nèi)擁有相近的技術架構及行政管理機構,例如各級政府政務網(wǎng)、各學校校園網(wǎng)及各城區(qū)電信城域網(wǎng)。各局域網(wǎng)橫向縱向結合,構成了廣域網(wǎng),云計算監(jiān)測模式因此將重點放在各局域網(wǎng)的輿情監(jiān)測和監(jiān)測結果的整合,只要解決了這個關鍵問題,推廣到全部局域網(wǎng)只是系統(tǒng)堆疊和行政管理機制的問題,這里將拋開行政管理許可問題而重點討論其技術實現(xiàn)。

        圖1 廣域網(wǎng)中包含的主要局域網(wǎng)類型Fig.1 The main types of LAN included in wide area network

        3.2 云計算監(jiān)測模式的基本架構

        網(wǎng)絡輿情云計算監(jiān)測模式是在出口日志監(jiān)測方式基礎上的架構擴展。本文在架構上設計了對多個局域網(wǎng)網(wǎng)絡出口數(shù)據(jù)的監(jiān)測,這個設計較好地解決了監(jiān)測網(wǎng)絡單一、樣本集合較小的問題,可以對某省甚至更大區(qū)域內(nèi)的局域網(wǎng)進行數(shù)據(jù)的集中監(jiān)測分析。為實現(xiàn)良好的擴展性、可用性,對整個架構模式提出了更高的要求,即要求日志數(shù)據(jù)分布式獲取、海量存儲及分布式計算分析,因此在監(jiān)測中心引入了云計算平臺架構設計。

        輿情云計算監(jiān)測模式的基本架構如圖2所示。

        圖2 輿情云計算監(jiān)測模式架構示意圖Fig.2 The architecture of network public opinion monitoring based on cloud computing

        3.3 監(jiān)測所采用的信息來源

        監(jiān)測所采用的信息來源是各局域網(wǎng)出口網(wǎng)絡日志。輿情監(jiān)測是政府主導的穩(wěn)定企事業(yè)單位、穩(wěn)定社會的行為,縱向看很多相同管理體系內(nèi)的局域網(wǎng)所屬相同行政管理部門,因此通過行政管理途徑集中、統(tǒng)一獲得區(qū)域內(nèi)多局域網(wǎng)日志信息來監(jiān)測網(wǎng)路輿情在信息來源上是可行的。

        按照中華人民共和國公安部2005年頒布的《互聯(lián)網(wǎng)安全保護技術措施規(guī)定(公安部令第82號)》,規(guī)模局域網(wǎng)必須提供網(wǎng)絡日志記錄功能。經(jīng)過近幾年的發(fā)展建設,具備一定規(guī)模的局域網(wǎng)網(wǎng)絡出口都已經(jīng)配備了網(wǎng)絡日志記錄和上網(wǎng)行為審計設備。網(wǎng)絡日志為文本流格式并遵循一定的國際標準,是輿情監(jiān)測相較為可靠的信息源[3]。上網(wǎng)行為審計系統(tǒng)近年來也發(fā)展較快,該設備能提供更多、更靈活的日志及內(nèi)容審計信息,包括記錄web訪問、郵件、聊天等多種協(xié)議和行為,并可以根據(jù)需要調節(jié)審計粒度,但由于其審計內(nèi)容較豐富,目前各廠家大多采用自定義格式保存日志,而另一方面國家公安等有關部門正在對行為審計設備制定相關標準,相信更豐富的審計日志在將來也會形成相對統(tǒng)一的數(shù)據(jù)格式,成為輿情監(jiān)控更豐富的信息源。

        3.4 海量分布式日志數(shù)據(jù)的獲取和傳輸

        局域網(wǎng)出口日志,在1 Gb/s出口鏈路,記錄常規(guī)日志情況下,按經(jīng)驗值每天產(chǎn)生日志量約為5 GB,對于數(shù)萬人中等規(guī)模局域網(wǎng)每日日志量約為10 GB,該數(shù)值在出口帶寬充裕的大型網(wǎng)絡中可能會達到上百GB。為穩(wěn)定、可靠地采集、傳輸海量日志,我們引入分布式、高可用的海量日志收集系統(tǒng)Flume。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),并對數(shù)據(jù)進行清洗、加密等處理,寫入到定制的數(shù)據(jù)接收端。在局域網(wǎng)出口日志記錄設備上進行配置,讓日志數(shù)據(jù)流轉存到網(wǎng)內(nèi)服務器上,同時在服務器上安裝Flume的Agent代理客戶端,即可以將數(shù)據(jù)流分別傳送到Flume日志收集器,實現(xiàn)分布式的數(shù)據(jù)收集。

        3.5 模式所依據(jù)的云計算模型

        處理幾十GB數(shù)據(jù),對于單臺大中型服務器來說,效率已顯不足,而當我們需要同時處理一個地區(qū)幾十個甚至更多局域網(wǎng)的日志數(shù)據(jù)時,面對每天上百GB的數(shù)據(jù)規(guī)模,單臺設備在存儲和計算能力上已經(jīng)完全失去擴展能力。針對海量數(shù)據(jù)存儲和處理,我們引入Apache Hadoop即HDFS(Hadoop Distributed Filesystem)分布式存儲及MapReduce分布式計算模型[4]。

        完整的輿情云計算監(jiān)測架構如圖3所示。

        圖3 基于Hadoop、Flume的輿情云計算監(jiān)測架構Fig.3 The architecture of network public opinion monitoring based on Hadoop and Flume

        模式采用業(yè)界主流開源Hadoop云計算架構,Flume也是Hadoop生態(tài)圖譜中非結構化數(shù)據(jù)收集的典型系統(tǒng)(Flume的最新分支版本在架構上有所改變,但尚未穩(wěn)定推廣)[5]。整個日志數(shù)據(jù)處理過程可以描述如下。

        受監(jiān)測局域網(wǎng)出口處需配備行為審計等日志記錄設備,并將日志數(shù)據(jù)引出到網(wǎng)內(nèi)服務器上,該服務器預裝Flume的代理(Agent),這些代理由輿情監(jiān)測中心的Flume主控制器(Master)進行管理和配置,代理每5 s與Master進行通信一次交換管理信息。Flume代理將日志數(shù)據(jù)進行格式轉化、壓縮、加密等預處理后,通過教科網(wǎng)、因特網(wǎng)等線路傳輸?shù)酵瑯邮躆aster管理的日志收集器(Collector)集群內(nèi),收集器根據(jù)接收監(jiān)測目標數(shù)據(jù)量情況可以設置多個,以保證數(shù)據(jù)處理速度。最終所有日志由收集器集群并行寫入HDFS分布式文件系統(tǒng),寫入時可以設置按照數(shù)據(jù)大小、行數(shù)或者間隔時間自動分割為多個文件。

        HDFS分布式文件系統(tǒng)對于日志數(shù)據(jù)這樣一次寫入不必更改的大文件是理想的存儲架構,HDFS主要由NameNode和DataNode組成。NameNode是HDFS的管理者,提供數(shù)據(jù)存取的查詢、寫入和刪除等管理操作,DataNode是數(shù)據(jù)服務器集群,所有數(shù)據(jù)默認被切分成 64 MB,并復制 3份分布存放在DataNode中。系統(tǒng)數(shù)據(jù)因此具有網(wǎng)絡冗余功能,集群數(shù)據(jù)節(jié)點越多,節(jié)點同時損壞的幾率越低,數(shù)據(jù)安全性則越高。分布式存儲容量可以通過簡單增加DataNode數(shù)據(jù)節(jié)點幾乎無限制擴展。

        MapReduce是基于HDFS的分布式計算架構。他根據(jù)數(shù)據(jù)存放地就近進行計算作業(yè),是典型的把計算帶給數(shù)據(jù)的云計算架構。日志數(shù)據(jù)分布在DataNode中,Hadoop會在包含指定日志文件數(shù)據(jù)塊的多個數(shù)據(jù)節(jié)點中啟動MapReduce計算,因為每個文件有3個副本,文件塊分散度又大,因此能最大限度減少數(shù)據(jù)復制傳輸量。每個DateNode節(jié)點在MapReduce階段可以變成計算節(jié)點,在自行編制的輿情分析算法導引下,經(jīng)過Map、Shuffle and Sort及Reduce 3個步驟后形成演算結果保存在HDFS中。

        監(jiān)測中心編寫的輿情監(jiān)測分析程序可根據(jù)監(jiān)測周期要求由Hadoop定期加載和運算,例如在每天夜間HDFS文件系統(tǒng)相對空閑時開始對過去一天收集到的日志數(shù)據(jù)進行統(tǒng)計分析,運算時間視分析的數(shù)據(jù)量和分析所包含的程序及代碼數(shù)量而定,通常在數(shù)十分鐘到數(shù)小時之間。

        4 云計算監(jiān)測模式的關鍵問題及實踐

        4.1 信息源的法律問題

        輿情監(jiān)測的信息源是局域網(wǎng)日志數(shù)據(jù),與之相關的法律法規(guī)主要有《互聯(lián)網(wǎng)安全保護技術措施規(guī)定(公安部令第82號)》、《計算機信息網(wǎng)絡國際聯(lián)網(wǎng)安全保護管理辦法(公安部令第33號)》等,這幾個法規(guī)主要從網(wǎng)絡安全角度規(guī)范了網(wǎng)絡建設、維護方記錄上網(wǎng)信息的責任和義務,但并未在網(wǎng)絡日志等信息的使用管理上做更細致的規(guī)定;從網(wǎng)絡隱私權角度來看,我國的立法也相對欠缺,在實際運用當中則把網(wǎng)絡隱私權部分作為隱私權并劃歸為名譽權進行保護,部分則歸入一般財產(chǎn)侵權案件進行保護[6]。綜合來看,在日志數(shù)據(jù)上進行商業(yè)和非商業(yè)統(tǒng)計分析尚沒有相關法律的約束,前提是不利用數(shù)據(jù)泄露和追溯個人敏感信息,否則會陷于民事糾紛當中。但商業(yè)性質的統(tǒng)計分析從一定角度上來說無法保障數(shù)據(jù)的安全,因此網(wǎng)絡輿情分析應該由非商業(yè)團體即政府相關部門或研究機構開展,其數(shù)據(jù)源的獲取和分析才能得到政策和數(shù)據(jù)上的安全保障。

        4.2 數(shù)據(jù)的傳輸和處理

        一方面基于法律問題,另一方面也為降低數(shù)據(jù)傳輸量,對于日志數(shù)據(jù)不論在傳輸環(huán)節(jié)和處理環(huán)節(jié)都需要進行一定的技術過濾。我們建議在海量日志收集系統(tǒng)Flume的Agent在傳輸前就應該對數(shù)據(jù)進行初步的清洗和過濾,例如過濾明文登錄、網(wǎng)上銀行以及支付系統(tǒng)等訪問信息,甚至郵件信息,過濾程度取決于各局域網(wǎng)管理者與輿情監(jiān)測中心的合作和信任程度,畢竟很多個人信息對于輿情監(jiān)測的統(tǒng)計分析還是具有一定價值的。

        不同局域網(wǎng)所采用的日志記錄設備不盡相同,并且不同審計深度其數(shù)據(jù)格式也不盡相同,雖然遵循一定的標準,但在日志格式細節(jié)上仍然會有差異,Flume Agent在傳輸前也可以進行一些格式的清洗和轉換,以盡量消除格式差異的困擾,并在傳輸時對數(shù)據(jù)進行壓縮和加密。

        4.3 輿情監(jiān)測中心的建設

        輿情監(jiān)測中心應在政府相關部門或所屬研究機構主導下進行建設。政府應與各局域網(wǎng)所屬人達成較深層次的合作并聽取和參考局域網(wǎng)信息化相關部門意見和建議,形成嚴格的數(shù)據(jù)獲取、傳輸及處理等環(huán)節(jié)的規(guī)章制度和流程。數(shù)據(jù)的收集和傳輸應以盡量減少對局域網(wǎng)影響為原則,并充分考慮各網(wǎng)絡信息化建設的實際情況,例如在東部較發(fā)達地區(qū),大多數(shù)多出口鏈路企事業(yè)單位租用電信運營商出口鏈路作為網(wǎng)絡主出口,而其他鏈路相對較為空閑,這時可以選擇空閑鏈路傳輸數(shù)據(jù)。

        監(jiān)測中心的Hadoop集群應根據(jù)輿情監(jiān)測的要求建設。典型地,當接入20個局域網(wǎng)時,我們預計日數(shù)據(jù)量約為200 GB,年數(shù)據(jù)量約為75 TB,按冗余3個副本計算,共需磁盤空間225 TB,按兩年建設容量配置為450TB。單臺數(shù)據(jù)節(jié)點服務器按照Hadoop推薦配置比值:1磁盤+2CPU內(nèi)核+6~8 GB內(nèi)存來配比,則可以測算出每服務器建議配置為:8×2 TB硬盤+2顆8核CPU+64 GB內(nèi)存,根據(jù)目標容量該2U機架式服務器共需28臺。具體配置可根據(jù)服務器參數(shù)、性價比和需要的總容量進行調整,數(shù)量則需根據(jù)計算復雜度和分析時間要求進行調整,如果一段時間后如系統(tǒng)容量不足,或希望提高計算效率,只需向集群添加服務器即可。輿情監(jiān)測中心服務器及配置可按表1進行初步測算。

        表1 監(jiān)測中心服務器配置測算表Table 1 Server of the monitoring center configuration schedule

        4.4 輿情監(jiān)測報告

        輿情監(jiān)測固然是滯后于已經(jīng)發(fā)生的輿論的,但仍具有一定的實時性,這取決于監(jiān)測分析的間隔和效率。不同間隔的輿情報告其著重點是不同的,例如人民網(wǎng)輿情監(jiān)測室按年發(fā)布《中國互聯(lián)網(wǎng)輿情分析報告》,報告以年為單位分析中長期輿情的產(chǎn)生、發(fā)展和處理及平息的趨勢,意在總結整個輿情周期的發(fā)展規(guī)律和處理經(jīng)驗,對于以月、周甚至日為周期的分析,重點在于觀測短期輿情的爆發(fā)情況和趨勢,以應對和預防為主。在我們的云計算監(jiān)測模式中,利用云計算和云存儲平臺將日志數(shù)據(jù)作為寶貴的資源不斷積累,既可以做按天為單位的短期應對和預測研究,也可以做長周期的經(jīng)驗總結研究。

        由于數(shù)據(jù)量較大,同時為保持一定的實時性,輿情監(jiān)測通常會按日計算??紤]在每天流量較小的午夜12點至早晨6點之間對前一日的累積數(shù)據(jù)做演算,根據(jù)不同監(jiān)測指標和要求,基于同一批數(shù)據(jù)可能需要進行多次演算,典型的算法有每日網(wǎng)站按訪問量排序,涉及詞匯(話題)排序,搜索引擎關鍵字排序,用戶活動頻繁度按時間變化曲線等,每個算法耗時因程序效率、Hadoop集群大小等因素而有顯著不同[7]。

        4.5 輿情云計算監(jiān)測數(shù)據(jù)分析效率實驗

        為了對監(jiān)測中心集群建設規(guī)模、監(jiān)測報告出具的時間等方面的初步測算及規(guī)律提供參考,在實驗室中進行了初步的模擬計算。實驗環(huán)境如下:單機配置為1個Intel雙核CPU,2 GB內(nèi)存,1 TB SATA硬盤,系統(tǒng)環(huán)境為CentOS 6,Hadoop 0.20.2,Java 1.6.0。實驗1以500 MB日志數(shù)據(jù)為分析對象,計算前100個訪問量最大的網(wǎng)站并排序,考察集群在不同節(jié)點數(shù)量下的演算效率變化情況,實驗結果如圖4所示。

        圖4 Hadoop集群日志分析效率隨節(jié)點數(shù)量變化情況Fig.4 Log analysis efficiency varies with the number of nodes in Hadoop cluster

        由該實驗可以觀察到Hadoop集群的日志分析效率并非簡單隨節(jié)點增加而線性增加,當集群計算量足夠大時,繼續(xù)增加節(jié)點數(shù)量已基本不能對集群效率產(chǎn)生較大影響,這時數(shù)據(jù)從磁盤存取的時間成為集群分析時間的重要組成部分,無論如何增加節(jié)點數(shù)量也無法超越和降低該基本時間。

        實驗2以不同大小的日志數(shù)據(jù)為分析對象,計算前100個訪問量最大的網(wǎng)站并排序,考察集群在不同分析數(shù)據(jù)量情況下的演算效率變化情況,實驗結果如圖5所示。

        圖5 Hadoop集群日志分析效率隨數(shù)據(jù)量變化情況Fig.5 Log analysis efficiency varies with the amount of data in Hadoop cluster

        由實驗2可以觀察到,集群效率隨著處理數(shù)據(jù)量增長其效率增長可能會降低,但節(jié)點數(shù)量越大,其效率下降相對平緩。這個實驗給我們的啟示是Hadoop集群處理效率與節(jié)點數(shù)量、處理數(shù)據(jù)量及單機配置都有關聯(lián),而且隨著節(jié)點數(shù)量增大其增加的處理效能并不一定能被充分利用,但是Hadoop集群對未來可能無限增大的數(shù)據(jù)提供了處理的可行性[8]。

        4.6 輿情云計算監(jiān)測在校園網(wǎng)中的應用

        選取本校校園網(wǎng)絡日志數(shù)據(jù)進行了應用實踐。學校教學區(qū)校園網(wǎng)擁有電信、移動、聯(lián)通及教科網(wǎng)4個出口,總出口帶寬1.5 GB,校園網(wǎng)全體師生用戶約1.5萬個。在實驗室條件下,獲取了1個月的校園網(wǎng)日志文件約500 GB,編制了關鍵字(話題)每日排名、用戶訪問最多網(wǎng)站每日排名、用戶每日活躍趨勢等若干與網(wǎng)絡輿情相關的統(tǒng)計分析程序。通過分析,可以清晰地觀察到關鍵字(話題)每天的活躍度發(fā)展趨勢,如果有較大量的歷史數(shù)據(jù)積累,應該可以判斷話題活躍到何種程度是為輿情發(fā)展的何種階段,當然為避免片面性,需要多個局域網(wǎng)在較長的歷史時間內(nèi)的數(shù)據(jù)積累,樣本數(shù)據(jù)越豐富,輿情監(jiān)測越全面和準確。除此之外,還能觀察到一些有意思的現(xiàn)象,例如教師用戶在近中午時段較為活躍,而學生用戶通常在下午2~3點到達活躍高峰,這些數(shù)據(jù)對于分析引導用戶行為有很好的參考價值。

        5 結束語

        整合行政區(qū)域各局域網(wǎng)開展輿情研究,可以建立各省市輿情監(jiān)測中心,如果將各中心數(shù)據(jù)進行貫通,則完全可以形成全國輿情監(jiān)測系統(tǒng),這種監(jiān)測模式對象清晰,監(jiān)測較為全面,且利用最新的云計算平臺處理海量數(shù)據(jù),較好地解決了現(xiàn)有網(wǎng)絡輿情分析模式的諸多缺陷,是目前相對完整和徹底的網(wǎng)絡輿情監(jiān)測解決方案,值得深入研究和探討。

        另一方面,當數(shù)據(jù)積累到一定程度時,數(shù)據(jù)價值已遠遠不局限于輿情監(jiān)測研究了。可以深入開展不同行業(yè)網(wǎng)絡活動的分析研究,這對于了解、掌握當代網(wǎng)民從生活、學習習慣到思維、心理及世界觀,以及這些情況與所在企事業(yè)單位及行業(yè)的規(guī)模、信息化程度等的關系,都具有很好的參考價值,同時對把握各行業(yè)的發(fā)展和趨勢也具有較大的現(xiàn)實意義。

        [1]郝文江,武捷.互聯(lián)網(wǎng)輿情監(jiān)管與應對技術探究[J].信息網(wǎng)絡安全,2012(3):1-4.HAO Wen-jiang,WU Jie.Internet Public Opinion Supervision and Relevant Technical Research[J].Netinfo Security,2012(3):1-4.(in Chinese)

        [2]葉昭暉,曾瓊,李強.基于搜索引擎的網(wǎng)絡輿情監(jiān)控系統(tǒng)設計與實現(xiàn)[J].廣西大學學報(自然科學版),2011,36(10):303-307.YE Zhao-hui,ZENG Qiong,LI Qiang.Design and implementation of network monitoring and analyzing system of public opinion based on search engine[J].Journal ofGuangxi U-niversity(Natural Science Edition),2011,36(10):303-307.(in Chinese)

        [3]張兵.一種網(wǎng)絡日志挖掘的高效算法[J].廣西師范大學學報(自然科學版),2006,24(1):26-29.ZHANG Bing.An Efficient Algorithm with Incremental Data Mining for Web Usage Mining[J].Journal of GuangxiNormal University(Natural Science Edition),2006,24(1):26-29.(in Chinese)

        [4]李建江,崔健,王聃,等.MapReduce并行編程模型研究綜述[J].電子學報,2011,39(11):2635-2641.LI Jian-jiang,CUI Jian,WANG Dan,et al.Survey of MapReduce Parallel Programming Model[J].Acta Electronica Sinica,2011,39(11):2635-2641.(in Chinese)

        [5]Cloudera,Inc.Flume User Guide[EB/OL].2012-08.http://archive.cloudera.com/cdh/3/flume/UserGuide/.

        [6]劉琳.論網(wǎng)絡隱私權保護及其完善[J].四川教育學院學報,2012,28(7):48-49.LIU Lin.On Internet Privacy Protection and Its Perfection[J].Journal of Sichuan College of Education,2012,28(7):48-49.(in Chinese)

        [7]朱薔薔,張桂蕓,劉文龍.基于MapReduce框架一種文本挖掘算法的設計與實現(xiàn)[J].鄭州大學學報(工學版),2012,33(5):110-113.ZHU Qiang-qiang,ZHANG Gui-yun,LIU Wen-long.The Design and Implemention of a Text Mining Algorithm Based onMapReduce Framework[J].Journal of Zhengzhou University(Engineering Science),2012,33(5):110-113.(in Chinese)

        [8]李彬,劉莉莉.基于MapReduce的Web日志挖掘[J].計算機工程與應用,2012,48(22):95-98.LI Bin,LIU Li-li.Weblog mining based onMapReduce[J].Computer Engineering andApplications,2012,48(22):95-98.(in Chinese)

        猜你喜歡
        局域網(wǎng)日志輿情
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        基于VPN的機房局域網(wǎng)遠程控制系統(tǒng)
        電子制作(2019年16期)2019-09-27 09:35:04
        基于802.1Q協(xié)議的虛擬局域網(wǎng)技術研究與實現(xiàn)
        電子制作(2017年17期)2017-12-18 06:40:48
        游學日志
        局域網(wǎng)性能的優(yōu)化
        電子制作(2017年8期)2017-06-05 09:36:15
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        一種基于粗集和SVM的Web日志挖掘模型
        亚洲一区二区三区一站| 国产精品亚洲专区无码web | 欧美自拍区| 国产在线视欧美亚综合| 欧美—iGAO视频网| 日韩一区二区三区天堂| 亚洲精品一品区二品区三区| 手机在线中文字幕av| 亚洲熟妇一区二区蜜桃在线观看| 风骚人妻一区二区三区| 国产成人精品免费视频大全软件| 国产xxx69麻豆国语对白| 成av免费大片黄在线观看| 少妇人妻在线视频| 伊人久久亚洲综合影院首页| yw193.can尤物国产在线网页| 亚洲精品国产第一区三区| 国产三级精品三级在线专区2| 美女露出自己的性感大胸一尤内衣| 艳妇臀荡乳欲伦69调教视频| 久久久av精品波多野结衣| 久久人人97超碰超国产| 福利视频一二区| 丝袜美腿一区二区在线观看| 少妇被啪出水在线视频| av大全亚洲一区二区三区| 国产免费拔擦拔擦8x高清在线人| 国产suv精品一区二人妻| 久久精品无码专区免费青青| 高清国产美女一级a毛片在线| 日本骚色老妇视频网站| 三级国产精品久久久99| 777米奇色狠狠俺去啦| 国产成人乱色伦区| 欧美人与动zozo| 中文字幕麻豆一区二区| 青青草是针对华人绿色超碰| 国产精品美女久久久网站三级| 久久99国产精品久久99果冻传媒| 亚洲中文字幕无码久久| 99国产精品无码专区|