亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop云計算模式網(wǎng)絡輿情監(jiān)控的探索

        2015-10-21 05:32:54曾嘉
        2015年37期
        關鍵詞:網(wǎng)絡輿情大數(shù)據(jù)

        曾嘉

        摘 要:社交網(wǎng)站、微博、在線社區(qū)的社會網(wǎng)絡的快熟發(fā)展,一個新媒體的大數(shù)據(jù)時代在誕生,每個網(wǎng)民都能創(chuàng)造自己的內(nèi)容,大量網(wǎng)絡數(shù)據(jù)的產(chǎn)生,給網(wǎng)絡輿情監(jiān)控帶來了嚴峻的挑戰(zhàn),本文根據(jù)云計算中的Hadoop大數(shù)據(jù)處理模式研究出能夠大規(guī)模采集數(shù)據(jù)進行挖掘、分析模式,實現(xiàn)對網(wǎng)絡輿情熱點話題的社會網(wǎng)絡分析,并且將分析結果可視化,為執(zhí)政黨發(fā)現(xiàn)敏感話題,掌握網(wǎng)絡輿情熱點,把握輿情趨勢提供科學化的技術支持。

        關鍵詞:網(wǎng)絡輿情;大數(shù)據(jù);Hadoop;輿情監(jiān)控

        1.大數(shù)據(jù)時代對網(wǎng)絡輿情監(jiān)控的影響

        大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無法在一定時間內(nèi)用通常的軟件工具進行收集、分析、管理的大量數(shù)據(jù)的集合。但隨著信息技術的進步,工程師們采用了分布式架構,進行分布式數(shù)據(jù)挖掘, 依托云計算的分布式處理、分布式數(shù)據(jù)庫和云儲存、虛擬化技術等, 實現(xiàn)了對海量數(shù)據(jù)的處理?!笆澜绲谋举|是數(shù)據(jù),大數(shù)據(jù)將開啟一次重大的時代轉型”[1],數(shù)據(jù)使社會輿情治理形態(tài)和監(jiān)測方式發(fā)生重大改變,開啟了社會輿情治理的新時代擁有了對社會海量數(shù)據(jù)的占有,控制,分析,處理的主導權,對社會輿情治理和預測有重要的意義。

        2 我國目前的網(wǎng)絡輿情監(jiān)控技術分類

        網(wǎng)絡輿情對社會有著很深遠的影響,政府為了提高輿論監(jiān)控的能力,要做到能及時的向公眾提供權威全面和真實的信息,目前我國的主要網(wǎng)絡輿情監(jiān)控技術分為以下幾種

        2.1網(wǎng)絡輿情采集與提取技術

        網(wǎng)絡輿情主要數(shù)據(jù)來源于,征服新聞網(wǎng)站,新聞媒體網(wǎng)站,大型商業(yè)門戶網(wǎng)站,代表性地方網(wǎng)絡,論壇BBS,博客和個人空間等渠道形成和傳播,這些數(shù)據(jù)信息的主要來源于動態(tài)網(wǎng)頁和局域網(wǎng),使得輿情信息抽取很有難度。

        (1)網(wǎng)絡采集爬蟲技術

        又稱做Robots(機器人)、Spiders(蜘蛛)、Wanders(漫游者),是一種駐留于主機上的程序軟件。網(wǎng)絡爬蟲通過網(wǎng)絡鏈接的拓撲結構自動漫游于所能遍歷到的所有網(wǎng)站[2]。在Web上按某種策略進行遠程數(shù)據(jù)(如HTML文檔、圖像、文本等多種資源)搜索,并建立本地索引,產(chǎn)生一個本地數(shù)據(jù)庫,以便能根據(jù)用戶的查詢快速搜索到所需結果并反饋給用戶。

        (2)網(wǎng)絡垂直搜索技術

        主要是自動對網(wǎng)絡數(shù)據(jù)進行監(jiān)控和采集專業(yè)領域相關的 Web 網(wǎng)絡數(shù)據(jù),垂直網(wǎng)絡搜索能專注于某一主題和領域,對網(wǎng)頁信息進行預測和數(shù)據(jù)的提取,保存和話題相關的網(wǎng)頁信息內(nèi)容。

        (3)需求配置采集技術

        根據(jù)實際需要,可對數(shù)據(jù)采集系統(tǒng)設計靈活配置的 Web Robot 的數(shù)據(jù)搜索策略,并應用面向輿情需求對象的方法,對Robot系統(tǒng)設計用戶服務接口層、應用程序接口層和核心層來實現(xiàn)對數(shù)據(jù)的獲取。

        2.2 網(wǎng)絡輿情的分析處理技術

        (1)網(wǎng)絡輿情話題發(fā)現(xiàn)和追蹤技術

        熱點話題發(fā)現(xiàn)與追蹤技術將internet網(wǎng)上大量的信息進行檢查與歸類,檢測出某一段時間用戶特別感興趣的話題,并且對話題能夠進行持續(xù)的追蹤。[3]熱點話題可以給政府的輿情管理帶來新的控制手段,并且可以用可視化的方式呈現(xiàn)給執(zhí)政者,這個技術突破了原來人工的篩選話題,不僅提高了可信度而且大大降低了政府治理的反應時間。主要的工作原理是在系統(tǒng)的預制模塊里,分詞系統(tǒng)把整個文檔進行整理后形成特征項,然后使用聚類算法SHDC進行話題分類,最后通過整理的話題進行追蹤觀察。

        (2)網(wǎng)民觀點傾向向分析技術

        這種方法通過設計問卷、抽樣調查、統(tǒng)計分析等一整套科學程序,能夠客觀地推論社情民意。這種方法已經(jīng)開始廣泛的應用,比如一些熱點新聞的網(wǎng)頁下方有評論的功能,近幾年來在召開大會的時候也會對網(wǎng)名關注的熱點問題在網(wǎng)絡上例如微博、各大門戶網(wǎng)站進行調查。

        (3)情威脅估計技術

        在國內(nèi),中科天璣公司的“天璣輿情監(jiān)測系統(tǒng)”具有很強的輿情信息分析能力,但是輿情信息的采集能力比較弱[3]思公司(TRS)的網(wǎng)絡輿情監(jiān)測系統(tǒng),具有極好的輿情信息整體檢索能力,但是輿情信息的內(nèi)容分析能力不足[4],中科點擊的“軍犬輿情監(jiān)控系統(tǒng)”具有最好的數(shù)據(jù)挖掘和收集能力,無需規(guī)則就能自動采集多種文本格式的輿情信息,但是輿情信息的內(nèi)容分析功能不突出[5],王鐵套,基于BP神經(jīng)網(wǎng)絡的網(wǎng)絡輿情威脅估計技術,BP 神經(jīng)網(wǎng)絡具有自適應、自學習能力,能夠處理不完整的數(shù)據(jù),并找到輸入與輸出之間的,絡輿情威脅估計是一個威脅度的界定過程,通過定性到定量再到定性的結合分析,將網(wǎng)絡輿情威脅度分為四個等級:藍色預警(級)、黃色預警(級)、橙色預警(級)和紅色預警(級)。[6]

        3.大數(shù)據(jù)處理hadoop云計算模式的構建

        Hadoop來源于google公司,是處理大數(shù)據(jù)的技術,而目前該技術大多用于企業(yè)的管理,而應用于突發(fā)事件的網(wǎng)絡輿情監(jiān)控的卻十分少,網(wǎng)絡輿情監(jiān)控的范圍是廣域網(wǎng)(Wide Aera Network, WAN) 。廣域網(wǎng)由眾多局域網(wǎng)組成, 橫向來看有多種主要的局域網(wǎng), 例如各大型企業(yè)局域網(wǎng)、各科研機構局域網(wǎng)、各級政府政務網(wǎng)、各學校校園網(wǎng)及各城區(qū)電信城域網(wǎng)等; 而從縱向來看, 很多局域網(wǎng)在自身體系內(nèi)擁有相近的技術架構,例如各級政府政務網(wǎng)、各學校校園網(wǎng)及各城區(qū)電信、城域網(wǎng)。各局域網(wǎng)橫向縱向結合, 構成了廣域網(wǎng), 云計算hadoop監(jiān)測因此將重點放在各局域網(wǎng)的輿情監(jiān)測數(shù)據(jù)收集和監(jiān)測結果的整合。

        Hadoop由開源社區(qū)Apache負責,并且由Yahoo公司支持該項目。Hadoop采用Java語言開發(fā),其中的HDFS、MapReduce、HBase分別是來自Google云計算中最核心技術的GFS、MapReduce、BigTable的開源實現(xiàn)。而Hadoop的云計算網(wǎng)絡輿情監(jiān)控模式構建就是通過Flume Master對各個局域網(wǎng)的數(shù)據(jù)收集分析再整合成Hadoop分布式文件系統(tǒng)HDFS,再通過MapReduce并行處理框架,采集到的Web數(shù)據(jù)經(jīng)預處理后存儲到數(shù)據(jù)庫,為輿情分析提供高質量的數(shù)據(jù)源。

        Flume日志收集,F(xiàn)lume是一個分布式、可靠、和高可用的海量日志聚合的系統(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)時[7],,對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方能力。需要在被監(jiān)控的機器上安裝Flume,agent的作用是將數(shù)據(jù)源的數(shù)據(jù)發(fā)送給collector。這里的agent代表的是各個局域網(wǎng)。

        HDFS分布式文件系統(tǒng),Hadoop 的分布式文件系統(tǒng)(Hadoop Distribution File System,簡稱 HDFS)起初是為了滿足Apache旗下的網(wǎng)絡爬蟲項目Nutch的大量網(wǎng)絡數(shù)據(jù)存儲而設計開發(fā),屬于Hadoop項目的一部分。HDFS具備的高容錯性是以往任何存儲系統(tǒng)所不具備的,它為上層應用程序提供的接口能夠進行高吞吐量數(shù)據(jù)訪問,且能夠滿足超大數(shù)據(jù)集存儲的需求。它可以和MapReduce編程模型很好的結合,能夠為應用程序提供高吞吐量的數(shù)據(jù)訪問,適用大數(shù)據(jù)集應用程序。

        MapReduce 是 Google 的核心計算模型是一種編程模式,MapReduce致力于解決大規(guī)模數(shù)據(jù)處理的問題,因此在設計之初就考慮了數(shù)據(jù)的局部性原理,利用局部性原理將整個問題。數(shù)據(jù)再處理之前就已經(jīng)分布到各個節(jié)點上,處理的時候就近讀取本地存儲數(shù)據(jù)來進行簡Map處理,將Map處理后的數(shù)據(jù)進行合并排序再分發(fā)到Reduce節(jié)點。主要運用的技術是把數(shù)據(jù)處理拆解成MAP(映射)和REDUCE(化簡)的方式,這是該操作的核心,MAP把數(shù)據(jù)映射成不同的版塊,分配給計算機運算,再通過REDUCE程序將結果整合,輸出開發(fā)者需要的結果。

        4.基于Hadoop 云計算模式網(wǎng)絡輿情監(jiān)控模式構建

        大數(shù)據(jù)時代下云計算的提出給政府的網(wǎng)絡輿情監(jiān)控也帶來了機遇,云計算中主要的Hadoop處理大數(shù)據(jù)著稱,他的運行模式主要是在監(jiān)控各種局域網(wǎng)Hadoop的技術也日漸成熟,隨著web2.0時代,數(shù)據(jù)的迅猛增加,計算機硬件的革新也是給這個模式構建提供了有力的條件,綜上所述,我根據(jù)Hadoop云計算模式構建了一套我國的網(wǎng)絡輿情監(jiān)控模式,見這一套是從收集到分析網(wǎng)絡輿情信息提出一整套輿論監(jiān)控模式,整合了如今已經(jīng)有的Hadoop云計算計算模式,針對是對某一區(qū)域或多個地區(qū)的海量數(shù)據(jù)處理,但是這對大數(shù)據(jù)也提出了一下問題,例如信息源的法律問題、數(shù)據(jù)的傳輸和處理硬件支持、網(wǎng)絡輿情中心的建設。

        技術的不斷創(chuàng)新給網(wǎng)絡輿情的治理帶來了機遇也帶來了挑戰(zhàn),面對當今數(shù)億網(wǎng)民的網(wǎng)絡環(huán)境,我們需要不斷提高網(wǎng)絡輿情監(jiān)控和分析的技術,自動化的數(shù)據(jù)分析要對大數(shù)據(jù)進行處理,為了保障網(wǎng)絡輿情安全科持續(xù)發(fā)展,面對可能涉及的信息隱私問題和數(shù)據(jù)的公開和共享,還有模式的應用都是,大數(shù)據(jù)對輿情分析的潮流和趨勢。(作者單位:天津工業(yè)大學管理學院)

        參考文獻:

        [1] 宋翎丹.大數(shù)據(jù)背景下的新媒體發(fā)展. 消費電子,2014.08

        [2] 互聯(lián)網(wǎng)主題信息定向采集研究.http://www.doc88.com/p-2758103157528.html

        [3] 天璣輿情監(jiān)測系統(tǒng)[EB/OL]. http://www.golaxy.cn/pro/index.html. 2011

        [4] TRS 互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)白皮書[EB/OL].http://www.trs.com.cn/products/wse/om. 2011.

        [5] 軍犬輿情監(jiān)控系統(tǒng)[EB/OL]. http://www.54yuqing.com/yuqing_16.html. 2011.

        [6] 王鐵套. 突發(fā)事件網(wǎng)絡輿情分析與威脅估計方法研究.解放軍信息工程大學,2012

        [7] Flume日志收集-互聯(lián)網(wǎng)和電子商務數(shù)據(jù).http://www.dataguru.cn/thread-477981-1-1.html

        猜你喜歡
        網(wǎng)絡輿情大數(shù)據(jù)
        “互聯(lián)網(wǎng)+”背景下高校平安校園建設研究
        中國市場(2016年38期)2016-11-15 23:42:46
        淺析網(wǎng)絡輿情治理
        基于社會穩(wěn)定視角的網(wǎng)絡輿情預警機制構建的思考
        今傳媒(2016年9期)2016-10-15 22:02:52
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        突發(fā)事件網(wǎng)絡輿情的演化規(guī)律與監(jiān)控
        国产日产免费在线视频| 国内揄拍国内精品少妇| 日本高清无卡一区二区三区| 91青青草免费在线视频| 日本免费大片一区二区三区| 日本亚洲精品一区二区三| 人妻少妇精品视频三区二区一区| 又污又爽又黄的网站| 亚洲第一无码精品久久| 日本最新一区二区三区视频| 国产精品一区二区三区四区亚洲 | 国产精品一区二区三区蜜臀| 亚洲丰满熟女一区二亚洲亚洲 | 蜜臀aⅴ国产精品久久久国产老师 国产精品久久婷婷六月丁香 | 精品国产福利片在线观看| 少妇人妻出水中文字幕乱码| 亚洲日本人妻少妇中文字幕| 国产精品久久久久9999| 97se亚洲国产综合自在线 | 91久久精品人妻一区二区| 白白色发布在线观看视频| 中文字幕亚洲综合久久| 亚洲乱码中文字幕综合| 日本a在线播放| 一级a免费高清免在线| 久久天堂一区二区三区av| 色综合久久88色综合天天| 中日韩精品视频在线观看| 亚洲午夜看片无码| 日本顶级片一区二区三区| 在线观看午夜视频一区二区| 亚洲精品成人网线在线播放va| 精品人妻中文av一区二区三区| 杨幂二区三区免费视频| 99久久99久久久精品蜜桃| 久久精品中文字幕大胸| 国产欧美日韩视频一区二区三区| 麻豆av一区二区天堂| 开心激情视频亚洲老熟女| 人妻无码中文字幕| 中国极品少妇videossexhd|