亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究

        2017-10-21 00:15:49劉洪霞
        科技信息·中旬刊 2017年7期
        關(guān)鍵詞:大數(shù)據(jù)技術(shù)

        劉洪霞

        摘要:本文對大數(shù)據(jù)、網(wǎng)絡(luò)輿情信息相關(guān)特征進行分析,并以大數(shù)據(jù)為基礎(chǔ)構(gòu)建模塊對網(wǎng)絡(luò)輿情相關(guān)文本進行挖掘,同時對預(yù)警模型進行構(gòu)建。此外,還使關(guān)系型、分布式兩種數(shù)據(jù)庫得到融合,使其能夠?qū)牟杉敛樵兎治鋈^程進行適應(yīng),并擴展了Map Reduce這一核心技術(shù)。

        關(guān)鍵詞:大數(shù)據(jù)技術(shù);網(wǎng)絡(luò)輿情文本;挖掘研究

        引言

        Web時代不斷推進,使國內(nèi)網(wǎng)絡(luò)以較快速度進行普及。現(xiàn)階段公眾通過互聯(lián)網(wǎng)這一平臺對信息進行獲取與表達(dá),此外還是相關(guān)部門對公眾輿情進行獲取與了解的關(guān)鍵窗口。若想對網(wǎng)絡(luò)輿情進行準(zhǔn)確獲取,必須配以相應(yīng)信息技術(shù)。例如,可以對輿情預(yù)警模塊利用數(shù)學(xué)模型進行構(gòu)建,使輿情預(yù)警可以實現(xiàn)定量分析。此外,外國學(xué)者對輿情傳播更為關(guān)注,而國內(nèi)更多重視輿情本質(zhì)及其預(yù)警的相關(guān)研究。下面通過利用大數(shù)據(jù)在處理數(shù)據(jù)方面的優(yōu)勢來對輿情文本進行挖掘,同時以其為基礎(chǔ)對預(yù)警模型進行構(gòu)建。

        一、大數(shù)據(jù)基本概述

        1、大數(shù)據(jù)、網(wǎng)絡(luò)輿情相應(yīng)特征簡述

        大數(shù)據(jù)并不僅限于海量數(shù)據(jù),其還包含對于數(shù)據(jù)處理的相應(yīng)方式。網(wǎng)絡(luò)輿情也沒有在網(wǎng)絡(luò)中直接存在,需要配套技術(shù)對其從網(wǎng)絡(luò)數(shù)據(jù)當(dāng)中進行提取、分析。輿情獲取與大數(shù)據(jù)相關(guān)思想十分契合。例如,大數(shù)據(jù)“4V”這一特征便和輿情聯(lián)系十分密切。如下表所示。二者特征十分契合,很大程度上因為二者分析目標(biāo)一致,也就實現(xiàn)更為準(zhǔn)確預(yù)測。這便使大數(shù)據(jù)相關(guān)思想、技術(shù)等與輿情預(yù)警相契合這一猜想得到理論論證。但輿情輿情更多側(cè)重與發(fā)現(xiàn)輿情的及時性,其準(zhǔn)確度與數(shù)據(jù)、算法模型相關(guān),及時度則取決于相應(yīng)平臺處理的效率。而傳統(tǒng)技術(shù)更多關(guān)注準(zhǔn)確度,對時間并未有更多要求,因此無法與輿情預(yù)警相契合。

        2、關(guān)系型、分布式兩類數(shù)據(jù)庫優(yōu)缺點

        數(shù)據(jù)庫主要有關(guān)系型、分布式兩類,前者(RDB)發(fā)展較久,因此其在對數(shù)據(jù)管理、分析等方面較為成熟,但其擴展性受到較大限制,并不能對大數(shù)據(jù)進行有效分析。后者(HBase)不論是擴展性還是容錯性等較高,其可以實現(xiàn)規(guī)?;牟⑿刑幚?,可以適應(yīng)諸多數(shù)據(jù)領(lǐng)域,例如Map Reduce便是其中代表。RDB特征是其SQL語言較為標(biāo)準(zhǔn)并且約束較為完整,因此其在處理性能以及確保數(shù)據(jù)完成等方面較強。而HBase對擴展性有著較好考慮,其發(fā)展初期便對TB或者是PB等級別的數(shù)據(jù)進行存儲、讀寫等進行設(shè)計。而RDB則受到理論、實現(xiàn)等方面限制,其擴展性方面最多為擺個服務(wù)器的節(jié)點。而網(wǎng)絡(luò)輿情相關(guān)數(shù)據(jù)源自整個網(wǎng)絡(luò),同時要確保各部門對檢測信息進行共享,若僅依賴RDB無法高效實現(xiàn)上述目標(biāo)。二者優(yōu)缺點如下表所示。

        二、構(gòu)建模塊對網(wǎng)絡(luò)輿情文本進行挖掘

        1、使數(shù)據(jù)庫向著混合型發(fā)展

        由于HBase在擴展性或者使對數(shù)據(jù)進行多樣化地存儲方面優(yōu)勢較強,而RDB可以有效實現(xiàn)對后期數(shù)據(jù)進行查詢等目的,所以對構(gòu)建模塊時應(yīng)將二者進行結(jié)合,使其呈現(xiàn)混合化,該混合系統(tǒng)應(yīng)包含關(guān)系型(RDBMS)、分布式(HDFS)兩類管理系統(tǒng)。這種混合系統(tǒng)較為明確地分為兩層,下層主要利用HDFS來分解、調(diào)度相關(guān)任務(wù),上層則通過RDBMS來對數(shù)據(jù)進行查詢、處理。該系統(tǒng)可通過HDFS這一調(diào)度機制來提升自身擴展、容錯性,從而在對規(guī)模較大的數(shù)據(jù)進行分析時橫向擴展等問題進行解決,使多部分間信息得以共享。此外,通過RDBMS可以對數(shù)據(jù)進行存儲與查詢,從而使其查詢分析等性能得到提升。

        2、對Map Reduce進行擴展

        Map Reduce這一技術(shù)主要處理海量數(shù)據(jù),而對以該技術(shù)為基礎(chǔ)的具有相關(guān)文本特征的向量進行提取則是預(yù)處理的重要步驟。Map任務(wù)中對文件的輸入操作可當(dāng)做多元素(一篇文檔)構(gòu)成,而其數(shù)據(jù)塊則是較多元素構(gòu)成的集合,同時一個元素不可以跨越數(shù)據(jù)塊進行存儲。系統(tǒng)內(nèi)全部Map輸入預(yù)計Reduce輸出都需要以key-value對形式進行,該方式可以確保后續(xù)過程可構(gòu)成組合器。

        Map函數(shù)能夠?qū)ξ臋n進行轉(zhuǎn)換,并且以key-value對來輸出,而鍵、值類型不定,同時鍵并不唯一,一個Map內(nèi)可以存在多個key-value對含有相同鍵。

        在全部Map任務(wù)完成之后,主控程序便分類聚合文件(一般以一個Reduce文件為基準(zhǔn)),同時對各鍵k進行輸入,其中處理鍵輸入為,其中都來自Map中輸出結(jié)果是k的key-value對。

        三、對預(yù)警模型進行構(gòu)建

        1、對系統(tǒng)功能相關(guān)框架進行構(gòu)建

        對其功能架構(gòu)進行構(gòu)建,該預(yù)警模型主要以三層結(jié)構(gòu)為基礎(chǔ)進行設(shè)計,其邏輯為服務(wù)層、處理層以及查詢層。而其中一般將服務(wù)與處理層分開進行設(shè)計,從而對采集以及存儲等細(xì)節(jié)進行評比,確保輿情數(shù)據(jù)可以得到有效共享,實現(xiàn)大區(qū)域橫向形式的組合。此外,該模型把查詢層進行了獨立處理,確保模型在使用、查詢時更為靈活,便于信息共享的跨區(qū)域、部門目標(biāo)的實現(xiàn)。

        2、對功能模塊進行設(shè)計

        該模型一般由數(shù)據(jù)采集、處理以及輿情分析和查詢?nèi)矫娼M成。其中采集模塊主要源于海量網(wǎng)頁,給模型輿情分析以數(shù)據(jù)支持。該模型通常對門戶網(wǎng)站以及微博等大流量網(wǎng)站進行監(jiān)控。為使采集效率得以提升,該系統(tǒng)以MapReduce中的多個任務(wù)進程概念為基礎(chǔ),進行了采集器任務(wù)的設(shè)計,各任務(wù)對單網(wǎng)頁進行采集,同時分別構(gòu)成數(shù)據(jù)塊。該形式能夠確保數(shù)據(jù)由服務(wù)層至處理層時不必對數(shù)據(jù)進行重新分配,從而時時間得到極大節(jié)約。

        處理模塊則主要對數(shù)據(jù)進行預(yù)處理,并對向量進行提取,計算各類輿情參數(shù)并對詞庫進行及時更新。數(shù)據(jù)清洗則對網(wǎng)頁內(nèi)無用數(shù)據(jù)進行去除操作,一般通過DOM樹解析,而后對HTML標(biāo)記進行瀏覽,從而得到所需網(wǎng)頁,并將其以文本進行保存。網(wǎng)絡(luò)話題所對應(yīng)的輿情指數(shù)一利用矩陣-向量這一乘法來達(dá)到。對詞庫進行更新不但能夠備份數(shù)據(jù),還可以給以后輿情評判作參考。

        分析和查詢這一模塊極為關(guān)鍵,它以上述乘法為基礎(chǔ)對VSM進行計算,同時挖掘相關(guān)輿情信息,對輿情熱點進行有效識別并實現(xiàn)即時預(yù)警。

        【總結(jié)】

        大數(shù)據(jù)相關(guān)模型較為簡單,其不論是擴展性還是容錯性、并行性都較好,可以對網(wǎng)絡(luò)輿情進行有效處理。本文則以大數(shù)據(jù)為基礎(chǔ)來構(gòu)建模塊對網(wǎng)絡(luò)輿情文本進行挖掘,其優(yōu)勢如下:首先,混合數(shù)據(jù)庫能夠?qū)鹘y(tǒng)系統(tǒng)擴展性以及可靠性等問題進行處理,同時解決處理性能以及無法保持?jǐn)?shù)據(jù)完整等問題。其次,通過對Map Reduce這一技術(shù)進行改進,可以將向量從大量文本中進行提取,其匹配的乘法能夠?qū)Ω呔SVSM快速計算。該模型相對傳統(tǒng)方式而言,其準(zhǔn)確性大致相同,但其時效性優(yōu)勢顯著,因為大數(shù)據(jù)給網(wǎng)絡(luò)數(shù)據(jù)的處理帶來較大優(yōu)勢,對其進行合理應(yīng)用必然是未來趨勢。

        參考文獻:

        [1]張紅軍. 面向網(wǎng)絡(luò)輿情的文本分類系統(tǒng)研究與實現(xiàn)[D].電子科技大學(xué),2017.

        [2]陳雪剛. 基于大數(shù)據(jù)技術(shù)的微博輿情快速自聚類方法研究[J]. 情報雜志,2017,36(05):113-117.

        [3]何凌南,賴凱聲. 大數(shù)據(jù)時代的網(wǎng)絡(luò)輿情研究范式變革[J]. 現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2017,39(05):160-162.

        [4]王志國. 網(wǎng)絡(luò)輿情監(jiān)控過程中微博文本分類處理的實現(xiàn)方法[J]. 圖書情報導(dǎo)刊,2016,1(12):129-133.

        [5]王高飛,李明. 我國網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 現(xiàn)代情報,2016,36(05):172-176.

        [6]李金海,何有世,熊強. 基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究[J]. 情報雜志,2014,33(10):1-6+13.

        猜你喜歡
        大數(shù)據(jù)技術(shù)
        善用“互聯(lián)網(wǎng)+” 提升政府善治能力
        前線(2016年12期)2017-01-14 03:54:04
        大數(shù)據(jù)技術(shù)之一“數(shù)據(jù)標(biāo)識”
        科技資訊(2016年25期)2016-12-27 18:38:16
        大數(shù)據(jù)技術(shù)在霧霾治理中的應(yīng)用
        淺談大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)金融中的應(yīng)用
        大數(shù)據(jù)技術(shù)在電子商務(wù)中的應(yīng)用
        大數(shù)據(jù)技術(shù)對新聞業(yè)務(wù)的影響研究
        論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
        高校檔案管理信息服務(wù)中大數(shù)據(jù)技術(shù)的應(yīng)用
        大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
        大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
        一本久久a久久免费综合| 99精品久久久中文字幕| 亚洲一区二区三区在线中文| 成人国产一区二区三区av| 日韩夜夜高潮夜夜爽无码 | 最新亚洲人成网站在线观看| 亚洲无码专区无码| 免费中文熟妇在线影片| 成人全视频在线观看免费播放 | 国产av精品麻豆网址| 97精品超碰一区二区三区| 91视频88av| 热门精品一区二区三区| 综合国产婷婷精品久久99之一| 国产丝袜在线精品丝袜| 国产又黄又大又粗视频| 欧美h久免费女| 亚洲一区二区三区麻豆| 日本刺激视频一区二区| 五月天国产成人av免费观看| 精品国产a∨无码一区二区三区| 日韩精品中文字幕综合| 免费国产在线精品一区二区三区免| 亚洲精品美女久久久久久久| 国产成人国产在线观看| 国产好片日本一区二区三区四区 | 国产av精品一区二区三区久久| 一夲道无码人妻精品一区二区| 精品无码AⅤ片| 亚洲精品国产av成人网| 十四以下岁毛片带血a级| 国产主播一区二区三区在线观看| 亚洲中文字幕精品一区二区| 日本熟女人妻一区二区| 亚洲av无码一区二区三区人妖| 日本a在线播放| 在线精品亚洲一区二区三区| 日韩欧美一区二区三区免费观看| 日本精品人妻无码77777| 人妻中文字幕不卡精品| 24小时免费在线观看av|