亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下網(wǎng)絡輿情預警機制的建立

        2016-11-22 04:44:46季英偉
        中文信息 2016年8期
        關鍵詞:大數(shù)據(jù)

        摘 要: 大數(shù)據(jù)背景下,傳統(tǒng)網(wǎng)絡輿情預警技術(shù)已經(jīng)表現(xiàn)出不能適應大數(shù)據(jù)4V特性的局限性,基于Web挖掘的網(wǎng)絡輿情分析和預警技術(shù)可以有效的解決這一問題,Web挖掘憑借在內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用挖掘的信息分析優(yōu)勢,是構(gòu)建及時、高效、全面和動態(tài)的網(wǎng)絡輿情預警系統(tǒng)的路徑選擇。

        關鍵詞:大數(shù)據(jù) 網(wǎng)絡輿情 信息分析

        中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2016)08-0013-02

        一、大數(shù)據(jù)及網(wǎng)絡輿情概述

        所謂大數(shù)據(jù)(Big date),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)堪稱是一座有待挖掘的數(shù)字金山,因為根據(jù)研究機構(gòu)Gaetner的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

        大數(shù)據(jù)的技術(shù)的戰(zhàn)略意義不僅在于對龐大信息量的掌握,而且在于對這些含有意義的數(shù)據(jù)進行專業(yè)、有效的處理。換句話說,如果把大數(shù)據(jù)比毛胚,經(jīng)過專業(yè)加工后的大數(shù)據(jù)成品,其市場價值和應用價值獲得了增值,而且這種增值的市場前景是不可限量的。

        網(wǎng)絡輿情就是人類在互聯(lián)網(wǎng)上所產(chǎn)生的原創(chuàng)數(shù)據(jù),對網(wǎng)絡輿情的有效治理離不開對大數(shù)據(jù)的挖掘和應用。當前我國網(wǎng)絡輿情數(shù)據(jù)愈來愈呈現(xiàn)出大數(shù)據(jù)的特征,形成了體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)、處理快速(Velocity)的4V特點。[1]

        如果說以往是抽樣數(shù)據(jù)分析計算的話,那么大數(shù)據(jù)為人們帶來的是信息全覆蓋的相對全體數(shù)據(jù)的計算。社會信息化的這種發(fā)展將給人類社會帶來諸多的變化。在小數(shù)據(jù)時代,相關關系也是有用的,但在大數(shù)據(jù)的背景下,相關關系大放異彩。通過相關關系,我們可以比以前更容易、更快捷、更清楚地分析事物,而且不易受偏見的影響。[2]“大數(shù)據(jù)時代將推動我們從根本上改變企業(yè)的運作方式,以及我們宰社會中的生活方式。”[3]大數(shù)據(jù)不僅對互聯(lián)網(wǎng)的規(guī)模、性能、能耗和安全等有著巨大影響,同時也對人類的思維方式具有顛覆性作用,尤其對政府的信息公開和決策構(gòu)成了新的挑戰(zhàn)。

        傳統(tǒng)的政府信息采集、分析、公開和決策是建立在有限、少量、二維、靜態(tài)的數(shù)據(jù)基礎上,依賴采樣和精確的方式獲得數(shù)據(jù)。而大數(shù)據(jù)時代的到來,將改變政府的這一數(shù)據(jù)獲取方式,代之以在宏觀、碎片化、模糊、多維的數(shù)據(jù)上,通過微觀洞察、定量分析、挖掘有效數(shù)據(jù)和尋找“相關性”,從而作出高效率和高質(zhì)量的決策。

        在信息時代,如何在海量、雜亂以基于互聯(lián)網(wǎng)的網(wǎng)絡媒體數(shù)據(jù)中進行科學、有效的信息分析,為政府決策提供智力支持和權(quán)威數(shù)據(jù),有賴于在大數(shù)據(jù)背景下建立和完善網(wǎng)絡輿情預警機制。美國學者馬丁——哈利森分析了在社交情報的大數(shù)據(jù)中如何進行引導決策的信息分析,他認為可以從識別數(shù)據(jù)到劃分組群和交談信息、從數(shù)據(jù)收集到預設和跟蹤、從分析和整合到建構(gòu)和挖掘、從報道到管理和嵌入等方法和路徑入手。[4]本文就是從馬丁——哈利森的社交情報信息分析方法和路徑入手探討在數(shù)據(jù)背景下網(wǎng)絡輿情預警機制的建立。

        二、大數(shù)據(jù)背景下傳統(tǒng)網(wǎng)絡輿情分析和預警機制存在的問題

        在大數(shù)據(jù)背景下,傳統(tǒng)的基于小樣本和定性分析的輿情分析技術(shù)在海量的數(shù)據(jù)面前愈發(fā)體現(xiàn)出局限性,其存在的問題主要體現(xiàn)在以下三點:

        1.數(shù)字信息的海量和高分散度增大了網(wǎng)絡輿情分析和預警的困難

        據(jù)CNNIC《第32次互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》統(tǒng)計,我國網(wǎng)民規(guī)模達5.91億,網(wǎng)站和網(wǎng)絡論壇達294萬個,手機上網(wǎng)用戶4.64億,全民網(wǎng)絡普及率達44.1%,其中博客、論壇和微博使用人數(shù)分別為4.01億、1.41億和3.31億。如此數(shù)量巨大的網(wǎng)民和網(wǎng)絡媒體勢必會產(chǎn)生海量的數(shù)字信息,而且這些數(shù)字信息呈現(xiàn)高分散度,固定互聯(lián)網(wǎng)(以電腦為載體的互聯(lián)網(wǎng))和移動互聯(lián)網(wǎng)(以智能手機為載體的互聯(lián)網(wǎng))使得數(shù)字信息的產(chǎn)生源呈現(xiàn)高度分散分布的特征。這些大大增加了研究者收集和采集信息的難度。結(jié)果就囿于信息數(shù)量以及信息搜集難度的極度擴張和研究手段的相對萎縮,使得研究者得出結(jié)論愈發(fā)帶有主觀性、片面性、臨時性、階段性、閃爍性,從而使得輿情分析的質(zhì)量呈現(xiàn)相對下降的趨勢,借助這樣的輿情分析帶來形勢誤判的風險呈現(xiàn)不斷加大的趨勢,從而也就增大了網(wǎng)絡輿情分析和預警的困難。[5]

        2.傳統(tǒng)網(wǎng)絡輿情分析方法的局限性

        傳統(tǒng)的網(wǎng)絡輿情分析方法主要有網(wǎng)絡調(diào)查方法、基于統(tǒng)計規(guī)則的模式識別方法、基于內(nèi)容挖掘的主題監(jiān)測方法。這些傳統(tǒng)網(wǎng)絡輿情分析方法在大數(shù)據(jù)背景下存在著不足和問題。

        2.1網(wǎng)絡調(diào)查方法是基于采樣分析的調(diào)查方法,其有效性主要與樣本的隨機性和樣本數(shù)量有關,而受制于大數(shù)據(jù)背景下的海量和復雜,基于小樣本和“最優(yōu)抽樣”的網(wǎng)絡調(diào)查方法其信度和效度都值得商榷。

        2.2基于統(tǒng)計規(guī)則的模式識別方法其有效性囿于特定對象,而大數(shù)據(jù)的信息源廣泛、多元、分散和復雜,基于統(tǒng)計規(guī)則的模式識別方法表現(xiàn)出很大的局限性。

        2.3基于內(nèi)容挖掘的主題監(jiān)測方法雖然能突破傳統(tǒng)網(wǎng)絡輿情分析的技術(shù)窠臼,主要體現(xiàn)在當前語義分析技術(shù)的準確度和效率在面對復雜的人類語言和快速發(fā)展的網(wǎng)絡語言時,顯得滯后和不足,主要體現(xiàn)為精確度不高以及大量的人工分析所帶來的主觀誤差問題,因此這一方法在大數(shù)據(jù)背景下也顯得差強人意。

        3.傳統(tǒng)網(wǎng)絡輿情信息分析研判和預警能力不足

        傳統(tǒng)網(wǎng)絡輿情信息分析研判能力不足主要體現(xiàn)在以下幾點:一是信息來源較為單一,整合力度不夠。目前網(wǎng)絡輿情分析的信息源主要來源于搜索數(shù)據(jù)、點擊數(shù)據(jù)、關鍵詞頻率、網(wǎng)民個人身份數(shù)據(jù)等,但是信息源一般是來源其中的一部分或幾部分,囿于技術(shù)、成本限制,很少有全網(wǎng)采集數(shù)據(jù)并進行整體關聯(lián)性分析,也就難以深度挖掘有價值的信息,從而制約了網(wǎng)絡輿情分析的研判能力。二是現(xiàn)有網(wǎng)落輿情信息分析人工智能程度不高,主要還是依靠人工和統(tǒng)計學的手段進行信息分析,未能深入挖掘信息“隱性”的深層含義。三是預警判斷能力弱,現(xiàn)有的網(wǎng)絡輿情體系缺乏科學的預警指標體系,主要依靠人工智能與人工相結(jié)合的方式,一定程度上導致預警缺乏客觀性、科學性,不能及時滿足決策需要。

        鑒于在大數(shù)據(jù)背景下現(xiàn)有網(wǎng)絡輿情分析和預警系統(tǒng)已不能滿足網(wǎng)絡輿情預警的現(xiàn)實需要,本文提出以基于Web挖掘的網(wǎng)絡輿情信息分析和預警技術(shù)。

        三、大數(shù)據(jù)背景下網(wǎng)絡輿情預警機制的建立——基于Web挖掘的網(wǎng)絡輿情信息分析和預警

        1.Web挖掘簡介

        Web挖掘是數(shù)字挖掘在Web?的應用,它綜合使用數(shù)字挖掘、機器學習、自然語言處理和人工智能等智能信息處理技術(shù)從WWW的資源、Web 文檔和行為、Web 服務中自動發(fā)現(xiàn)并提取人們感興趣的、有用的模式和隱含的信息。根據(jù)挖掘?qū)ο蟮牟煌琖eb?挖掘可以分為Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web使用挖掘。與傳統(tǒng)的網(wǎng)絡輿情分析方法(抽象分析、比較分析、相關分析和內(nèi)容分析法)相比,Web挖掘可以得到指定時間段內(nèi)網(wǎng)絡輿情的狀況和走向以及與之關聯(lián)的熱點,為網(wǎng)絡輿情的狀況和走向以及與之相關聯(lián)的熱點問題,為網(wǎng)絡輿情的深層次分析和智能化預警提供了技術(shù)支持和解決方案。[6]

        2.大數(shù)據(jù)背景下Web挖掘的優(yōu)勢

        大數(shù)據(jù)背景下,基于Web挖掘的網(wǎng)絡輿情分析可以突破傳統(tǒng)網(wǎng)絡輿情分析技術(shù)小樣本、精確性低、維度單一、偏重靜態(tài)分析等局限性,發(fā)揮其從內(nèi)容挖掘、結(jié)構(gòu)挖掘到使用挖掘全方位、多維度、全時性和動態(tài)追蹤的優(yōu)勢,能完全適應大數(shù)據(jù)背景下信息體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)、處理快速(Velocity)的4V特點,能有效地解決傳統(tǒng)網(wǎng)絡輿情分析技術(shù)滯后和落后的問題,能充分滿足大數(shù)據(jù)背景下網(wǎng)絡輿情預警及時、高效、全面和動態(tài)的要求。

        3.Web挖掘內(nèi)容簡介

        依據(jù)在挖掘過程中使用的數(shù)據(jù)類別,Web挖掘任務可以被劃分為三種主要類型:Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘:

        3.1Web內(nèi)容挖掘:Web內(nèi)容挖掘是指對Web頁面內(nèi)容及后臺交易數(shù)據(jù)庫進行挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有用知識的過程。同時還可以對Web的組織結(jié)構(gòu)和鏈接關系進行挖掘,從人為的鏈接結(jié)構(gòu)中獲取有用的知識。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進行排序,發(fā)現(xiàn)重要的頁面。

        3.2Web內(nèi)容挖掘:Web內(nèi)容挖掘從網(wǎng)頁內(nèi)容中抽取有用的信息和知識。例如:根據(jù)網(wǎng)頁的主題,可以進行自動的聚類和分類。雖然這些任務與傳統(tǒng)數(shù)據(jù)挖掘的任務相似,但是依然可以為了各種不同的目的從網(wǎng)頁中根據(jù)模式抽取有用的信息,例如商品描述、論壇回帖等。而這些信息可以被用作進一步分析來挖掘用戶態(tài)度。這些任務也不是傳統(tǒng)的數(shù)據(jù)挖掘任務。

        3.3Web使用挖掘:Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。這項任務也使用了許多數(shù)據(jù)挖掘的算法。其中一項重要的議題是點擊流數(shù)據(jù)的預處理,以便生成可以用來挖掘的合適數(shù)據(jù)。

        Web挖掘的目標是從Web的超鏈接結(jié)構(gòu)、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數(shù)據(jù)挖掘技術(shù),但它并不僅僅是傳統(tǒng)數(shù)據(jù)挖掘的一個簡單應用。[7]

        3.4Web挖掘預警的流程

        Web挖掘預警流程是對以上Web挖掘技術(shù)的綜合使用,Web挖掘預警的流程一般包含以下五個步驟:

        ①設定輿情預警主題: 根據(jù)網(wǎng)絡輿情預警需求設定主題目標,并根據(jù)主題目標設定所要采集的信息源和主題。

        ②輿情信息采集:根據(jù)主題從目標Web文檔中獲得要采集的輿情數(shù)據(jù),對Web上的數(shù)據(jù)進行信息檢索和信息抽取。挖掘Web上的超鏈接結(jié)構(gòu),挖掘超文本結(jié)構(gòu)中的信息。通過Web使用挖掘獲取一切用戶與站點之間可能的交互記錄。

        ③輿情信息預處理:利用基于Robot的檢索模型,掃描Web上的所有文檔,并建立索引,從檢索后的Web文檔中剔除無用和不相關的輿情信息和將信息進行必要的整理。

        ④輿情信息分析:用Web挖掘算法對預處理后的網(wǎng)絡輿情數(shù)據(jù)進行分析,挖掘有價值的信息。

        ⑤輿情信息預警:對挖掘出的輿情信息進行最終處理,并參照網(wǎng)絡輿情預警等級分類指標,生成網(wǎng)絡輿情預警報告。

        3.5 Web挖掘網(wǎng)絡輿情預警模型策略簡介

        Web挖掘網(wǎng)絡輿情預警模型主要包括輿情采集層、輿情挖掘?qū)?、輿情分析層和輿情研判層。限于篇幅本文僅Web挖掘網(wǎng)絡輿情預警模型的策略進行簡介。

        ①輿情采集層

        輿情采集層是網(wǎng)絡輿情預警的模型的最底層,主要任務是負責網(wǎng)絡輿情信息的采集和預處理。Web挖掘可以使輿情信息源突破Web文本的局限,深入到Web網(wǎng)絡結(jié)構(gòu)和Web用戶偏好中,并在整合的基礎尋找其中隱藏的關聯(lián),從而能挖掘出深度和有價值的信息。

        ②輿情挖掘?qū)?/p>

        輿情挖掘?qū)邮抢肳eb內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘?qū)σ呀?gòu)的輿情信息庫進行多維挖掘和處理。綜合使用Web文本挖掘、Web多媒體挖掘、PAGERANK、ClEVER、挖掘算法等技術(shù)對信息庫進行深度挖掘,以更好對網(wǎng)絡輿情進行監(jiān)控和預警。

        ③輿情分析層

        輿情分析層是網(wǎng)絡輿情預警系統(tǒng)中的關鍵層。網(wǎng)絡輿情分析層包含著靜態(tài)分析和動態(tài)分析兩個方面。輿情靜態(tài)分析包含對網(wǎng)絡輿情高頻詞匯聚類、輿情情感傾向、敏感信息關聯(lián)等分析。網(wǎng)絡輿情動態(tài)分析包含著實體數(shù)據(jù)態(tài)勢、引用關系變化、用戶聚類模式等動態(tài)數(shù)據(jù)。靜態(tài)分析與動態(tài)分析相結(jié)合從而預測網(wǎng)絡輿情現(xiàn)狀發(fā)展和趨勢進行分析和預測。

        ④輿情研判層

        輿情研判層主要是根據(jù)輿情分析層所生成的輿情分析報告進行綜合輿情研判和預警。主要是根據(jù)網(wǎng)絡輿情的熱度、特性、敏感性、危險性,并參照網(wǎng)絡輿情預警級別分類指標決定是否發(fā)布網(wǎng)絡輿情預警以及所發(fā)布的網(wǎng)絡輿情預警的層級。

        參考文獻

        [1]朱曉明.“大、云、平、移”助力上海創(chuàng)新[N].解放日報,2013-3-10(9)

        [2]盛楊,周濤,譯.維克多-邁爾-舍恩伯格,肯尼斯-庫克耶著.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:71,75

        [3]維克多-邁爾-舍恩伯格.大數(shù)據(jù)時代停業(yè)帶來更理性、更可靠的決策[N].文匯報,20213-3-11

        [4]唐濤:網(wǎng)絡輿情治理研究[M]上海:上海社會科學出版社,2014.9:10

        [5]唐濤:網(wǎng)絡輿情治理研究[M]上海:上海社會科學出版社,2014.9:184.

        [6]張玉峰、何超:基于Web挖掘的網(wǎng)絡輿情智能分析研究[J]情報科學,2011.4:64-68.

        [7]什么是Web挖掘?[EB/OL]http://server.zzidc.com/fwqcjwt/web/633.html

        作者簡介:1季英偉:(1980-)吉林大學行政管理博士,廣東海洋大學政治與行政學院講師。

        2援引維基百科對“大數(shù)據(jù)”的定義

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        国产亚洲精品久久午夜玫瑰园| 999精品免费视频观看| 国产精品爽爽VA吃奶在线观看| 成人水蜜桃视频在线观看| 亚洲熟女精品中文字幕| 国产精品成人国产乱| 国产无套视频在线观看香蕉| 自拍偷拍一区二区三区四区| 日韩精品第一区二区三区 | 国产精品髙潮呻吟久久av| 亚洲国产av无码精品| 日韩成人极品在线内射3p蜜臀| 99精品久久久中文字幕| 国产影片免费一级内射| 成人欧美一区二区三区在线| 亚洲av无码日韩精品影片| 女同性恋精品一区二区三区| 最新日本女优中文字幕视频| 丰满人妻被两个按摩师| 午夜福利电影| 无码国产精品一区二区免费式芒果 | 久久精品国产99精品国偷| 日本精品一区二区三区在线播放| 日本二一三区免费在线| 又粗又粗又黄又硬又深色的| 国产精品久久1024| 亚洲女人天堂成人av在线| 久久中文骚妇内射| 亚洲欧美国产双大乳头| 亚洲精品天堂在线观看| 亚洲综合日韩一二三区| 正在播放东北夫妻内射| 久久国产欧美日韩高清专区| 国产麻豆国精精品久久毛片| 日韩夜夜高潮夜夜爽无码| 国精产品一品二品国在线| 国产西西裸体一级黄色大片| 日本伊人精品一区二区三区| 四虎影视永久地址www成人| 国产女奸网站在线观看| 蜜乳一区二区三区亚洲国产|