亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

        2020-05-03 14:05:35胡治宇
        公關(guān)世界 2020年6期
        關(guān)鍵詞:爬蟲關(guān)鍵字輿情

        胡治宇

        摘要:Hadoop作為數(shù)據(jù)分析的重要系統(tǒng),已經(jīng)廣泛應(yīng)用于數(shù)據(jù)監(jiān)控領(lǐng)域當(dāng)中。因此,本文將網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控作為研究?jī)?nèi)容,簡(jiǎn)單介紹Hadoop平臺(tái)的基本概念,分析基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心技術(shù),如網(wǎng)絡(luò)爬蟲技術(shù)、文本挖掘技術(shù)以及關(guān)鍵詞檢索技術(shù),再圍繞著網(wǎng)絡(luò)輿論數(shù)據(jù)收集、網(wǎng)絡(luò)輿情數(shù)據(jù)處理、網(wǎng)絡(luò)輿情數(shù)據(jù)分析以及網(wǎng)絡(luò)輿情監(jiān)控測(cè)試四個(gè)方面進(jìn)行考慮,深入探討基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的體系,發(fā)現(xiàn)基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的體系具有較強(qiáng)的可靠性,僅供參考。

        關(guān)鍵詞:網(wǎng)絡(luò)輿情 關(guān)鍵詞 監(jiān)控體系

        目前,截止2019年底,我國(guó)網(wǎng)絡(luò)用戶已經(jīng)超過(guò)10億,已成為全球網(wǎng)絡(luò)用戶最多的國(guó)家。在互聯(lián)網(wǎng)環(huán)境下,網(wǎng)民可以自主了解不同的新聞,并能夠在不同的平臺(tái)中發(fā)表自己的言論觀點(diǎn),這就逐漸提高了網(wǎng)絡(luò)輿情的影響力。為了更好的對(duì)網(wǎng)絡(luò)輿情進(jìn)行控制,就需要加強(qiáng)對(duì)網(wǎng)絡(luò)輿情的監(jiān)控。Hadoop平臺(tái)屬于分布式系統(tǒng),可通過(guò)編程模型對(duì)龐雜海量的數(shù)據(jù)進(jìn)行有效的分布式處理。因此,構(gòu)建基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控系統(tǒng)已成為未來(lái)發(fā)展趨勢(shì)。

        一、Hadoop平臺(tái)概述

        Hadoop平臺(tái)屬于分布式系統(tǒng),可通過(guò)編程模型對(duì)龐雜海量的數(shù)據(jù)進(jìn)行有效的分布式處理。目前,Hadoop平臺(tái)的主要子項(xiàng)目就是HDFS,憑借HDFS可以對(duì)大型數(shù)據(jù)進(jìn)行有效存儲(chǔ),并具有容錯(cuò)性較高的特點(diǎn),能夠通過(guò)較高的吞吐量對(duì)數(shù)據(jù)進(jìn)行大規(guī)模的訪問(wèn)。同時(shí),Hadoop平臺(tái)還具有四大優(yōu)勢(shì),分別是可靠性、效率性、低廉性以及擴(kuò)展性,可以對(duì)數(shù)據(jù)進(jìn)行穩(wěn)定高效快速的處理,并能減少軟件的應(yīng)用成本。

        二、基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心技術(shù)

        (一)網(wǎng)絡(luò)爬蟲技術(shù)

        網(wǎng)絡(luò)爬蟲作為一種依照特定規(guī)則在網(wǎng)絡(luò)平臺(tái)上抓取重要信息的程序,通常應(yīng)用于關(guān)鍵詞搜索引擎當(dāng)中,能夠穩(wěn)定有效的抓取網(wǎng)絡(luò)信息的關(guān)鍵詞,屬于構(gòu)建網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心工具。一般來(lái)講, 種子URL集合都會(huì)存放一些URL,包括門戶網(wǎng)站網(wǎng)頁(yè)以及論壇主頁(yè)網(wǎng)頁(yè)等,這些都是網(wǎng)絡(luò)爬蟲的運(yùn)行起點(diǎn)。因此,網(wǎng)絡(luò)爬蟲首先都是從種子URL集合進(jìn)行爬取,將種子URL頁(yè)面中存放的URL全部放入到待抓取隊(duì)列當(dāng)中,再?gòu)膸ёト×嘘?duì)當(dāng)中準(zhǔn)確獲取一個(gè)URL,并對(duì)網(wǎng)址進(jìn)行有效訪問(wèn),從而將網(wǎng)頁(yè)內(nèi)容抓取到本地文件系統(tǒng)當(dāng)中,最后對(duì)已經(jīng)抓取的網(wǎng)頁(yè)進(jìn)行快速解析,以便提取一些能夠指向其他網(wǎng)頁(yè)的有效連接。目前,網(wǎng)絡(luò)爬蟲技術(shù)主要分為兩種,分別是通用型網(wǎng)絡(luò)爬蟲以及聚集型網(wǎng)絡(luò)爬蟲。其中,通用型網(wǎng)絡(luò)爬蟲的應(yīng)用范圍相對(duì)較廣,主要應(yīng)用于門戶搜索引擎;聚集型網(wǎng)絡(luò)爬蟲更多應(yīng)用于與主題相關(guān)的網(wǎng)頁(yè)類型,主要應(yīng)用于校園網(wǎng)絡(luò)輿情監(jiān)控。

        (二)文本挖掘技術(shù)

        文本挖掘?qū)儆跀?shù)據(jù)挖掘中最為常見(jiàn)的一項(xiàng)技術(shù),主要由三個(gè)模塊組成,分別是文本預(yù)處理、文本分類以及文本聚類。首先,文本預(yù)處理作為文本挖掘的基礎(chǔ),直接決定了文本挖掘的效率、精度以及模型。文本預(yù)處理主要涉及到中文分詞以及文本特征表示兩大內(nèi)容。對(duì)于中文分詞而言,主要就是將漢字序列精確有效的劃分為單個(gè)的詞,如jieba就是常見(jiàn)的中文分詞工具;對(duì)于文本特征表示而言,主要就是將人類能夠理解的文本信息進(jìn)行有效轉(zhuǎn)化,使其成為能夠被計(jì)算機(jī)精確有效識(shí)別的一種格式,如概率模型以及空間向量模型就是常見(jiàn)的表示模型。其次,文本分類主要涉及到監(jiān)督式學(xué)習(xí)算法,如支持向量機(jī)以及樸素葉貝斯就是常見(jiàn)的分類算法,往往能夠有效確定分類的具體類別,包括經(jīng)濟(jì)、房產(chǎn)、娛樂(lè)以及體育等類別,并依照分類文本的實(shí)際內(nèi)容以及具體含義進(jìn)行深度計(jì)算,從而將文本有效歸入到對(duì)應(yīng)的類別當(dāng)中。最后,文本聚類主要涉及到無(wú)監(jiān)督式機(jī)器學(xué)習(xí)算法,通常會(huì)自動(dòng)將文本進(jìn)行有效歸類,使同一類別的文本內(nèi)容更加接近,而不同類別的文本內(nèi)容則會(huì)相差較大。

        (三)關(guān)鍵詞檢索技術(shù)

        由于互聯(lián)網(wǎng)儲(chǔ)存了大量數(shù)據(jù),如果選擇整體檢索的方式,不僅會(huì)消耗較多時(shí)間,還不能有效保證檢索的準(zhǔn)確性。關(guān)鍵詞檢索技術(shù)已成為信息檢索的主要方式,能夠有效保證信息檢索的時(shí)效性。目前,在網(wǎng)絡(luò)輿情監(jiān)控體系中,關(guān)鍵詞檢索技術(shù)已成為核心部分,而關(guān)鍵詞檢索主要有三種方式,一是依照預(yù)先設(shè)定的語(yǔ)義分析來(lái)抓取關(guān)鍵詞,二是通過(guò)大數(shù)據(jù)技術(shù)進(jìn)行統(tǒng)計(jì)來(lái)抓取關(guān)鍵詞,三是借助機(jī)器學(xué)習(xí)法來(lái)抓取關(guān)鍵詞。由于關(guān)鍵詞檢索技術(shù)在實(shí)際應(yīng)用中面臨較多流程,可通過(guò)簡(jiǎn)化來(lái)完成相關(guān)操作。例如,首先,對(duì)信息內(nèi)容的主題詞進(jìn)行有效分析,篩選出含義更為貼近的主題詞,以便構(gòu)建一個(gè)標(biāo)準(zhǔn)的主題詞表。其次,對(duì)這個(gè)主題詞表進(jìn)行有效處理,提取文本中的關(guān)鍵詞。最后,根據(jù)權(quán)重比例來(lái)抓取關(guān)鍵詞,進(jìn)而將關(guān)鍵詞有效篩選出來(lái)。

        三、基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

        (一)網(wǎng)絡(luò)輿論數(shù)據(jù)收集

        數(shù)據(jù)收集作為實(shí)現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第一步,具有奠定基礎(chǔ)的作用。在數(shù)據(jù)收集過(guò)程中,應(yīng)根據(jù)數(shù)據(jù)來(lái)源采取對(duì)應(yīng)的收集方式。例如,網(wǎng)絡(luò)輿情的主要數(shù)據(jù)信息通常來(lái)源于各大網(wǎng)絡(luò)平臺(tái),包括搜狐新聞、網(wǎng)易新聞、新浪微博以及騰訊微博等平臺(tái)。如果數(shù)據(jù)信息來(lái)源于新聞網(wǎng)站,主要借助Nutch來(lái)完成數(shù)據(jù)采集。目前,Nutch主要由兩種類別,分別是分布式以及非分布式。由于分布式系統(tǒng)在實(shí)際運(yùn)行中效率以及穩(wěn)定性均優(yōu)于非分布式系統(tǒng),通常選擇分布式Nutch,具體的數(shù)據(jù)收集過(guò)程如下:首先將URL列表準(zhǔn)確添加到系統(tǒng)當(dāng)中,并在URL列表中進(jìn)行相應(yīng)的操作;其次,創(chuàng)建一個(gè)Fetchlist,再通過(guò)內(nèi)容解析器將收集的大量數(shù)據(jù)進(jìn)行有效分析。最后,提取一個(gè)全新的URL,并對(duì)CrawIDB進(jìn)行有效更新,以此完成數(shù)據(jù)收集工作。如果數(shù)據(jù)信息來(lái)源于微博網(wǎng)站,主要借助API接口來(lái)完成數(shù)據(jù)采集,并在此期間確保客戶端能夠通過(guò)微博平臺(tái)的真實(shí)授權(quán),再對(duì)相關(guān)應(yīng)用進(jìn)行開放。

        (二)網(wǎng)絡(luò)輿情數(shù)據(jù)處理

        數(shù)據(jù)處理作為實(shí)現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第二步,具有承上啟下的作用。目前,相關(guān)技術(shù)還不能直接對(duì)收集的數(shù)據(jù)進(jìn)行處理,必須采取數(shù)字化處理措施。在對(duì)數(shù)據(jù)進(jìn)行數(shù)字化處理過(guò)程中,由于國(guó)內(nèi)網(wǎng)絡(luò)輿情數(shù)據(jù)大部分都是中文數(shù)據(jù),這就與英文數(shù)據(jù)的處理方式存在一定差異,再加上中文分詞的具體界限較為模糊,應(yīng)重點(diǎn)加強(qiáng)對(duì)中文分詞的預(yù)處理。在數(shù)據(jù)預(yù)處理過(guò)程中,還應(yīng)重點(diǎn)構(gòu)建文本向量空間模型,使該模型具有基本元素,包括詞頻、詞義、詞性以及標(biāo)題等內(nèi)容,并對(duì)不同類型的特征詞設(shè)置對(duì)應(yīng)的權(quán)重比。在數(shù)據(jù)預(yù)處理結(jié)束后,還應(yīng)對(duì)數(shù)據(jù)進(jìn)行有效聚類,并設(shè)置相應(yīng)的數(shù)據(jù)聚類模塊,再借助層次聚類算法進(jìn)行有序處理。在使用層次聚類算法時(shí),應(yīng)將各種因素作為實(shí)際考量標(biāo)準(zhǔn),包括處理高維數(shù)據(jù)的穩(wěn)定性、對(duì)參數(shù)的依賴性以及抗干擾性等,確保層次聚類算法能夠發(fā)揮實(shí)際作用。

        (三)網(wǎng)絡(luò)輿情數(shù)據(jù)分析

        數(shù)據(jù)分析作為實(shí)現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第三步,具有決定性作用。在整個(gè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)當(dāng)中,核心部分就是輿情分析模塊,只有輿情分析模塊能夠穩(wěn)定運(yùn)行,就能對(duì)網(wǎng)絡(luò)輿情關(guān)鍵字進(jìn)行強(qiáng)力有效的監(jiān)控。一般來(lái)講,網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控主要有三種形式,分別是敏感話題關(guān)鍵字監(jiān)控、熱點(diǎn)話題關(guān)鍵字監(jiān)控以及內(nèi)容傾向性監(jiān)控。其中,敏感話題關(guān)鍵字監(jiān)控就是對(duì)于一些具有敏感特征的字詞進(jìn)行監(jiān)控,如法輪功、邪教等敏感詞。目前,國(guó)內(nèi)網(wǎng)絡(luò)具有較強(qiáng)的開放性,網(wǎng)民可以通過(guò)網(wǎng)絡(luò)將自己的各種意見(jiàn)以及各種看法發(fā)布到網(wǎng)絡(luò)平臺(tái)當(dāng)中,但在交互傳播中難免會(huì)出現(xiàn)一些具有敏感性的關(guān)鍵字,為了避免這類敏感話題對(duì)社會(huì)造成影響,監(jiān)控系統(tǒng)就會(huì)借助敏感詞詞庫(kù)進(jìn)行充分有效地匹配,如果發(fā)現(xiàn)網(wǎng)絡(luò)傳播的關(guān)鍵字與敏感詞詞庫(kù)中的字詞明顯匹配,就能及時(shí)進(jìn)行監(jiān)控;熱點(diǎn)話題關(guān)鍵字監(jiān)控就是對(duì)于一些當(dāng)前社會(huì)熱議的內(nèi)容進(jìn)行監(jiān)控,并借助數(shù)據(jù)聚類技術(shù)對(duì)網(wǎng)絡(luò)傳播的熱門話題、熱門文章以及熱門評(píng)論進(jìn)行有效分析,分別統(tǒng)計(jì)出這些熱門話題、熱門文章以及熱門評(píng)論的關(guān)注度,并將其按照數(shù)值大小依次進(jìn)行排列,以便對(duì)一定時(shí)期內(nèi)的社會(huì)熱議的內(nèi)容進(jìn)行準(zhǔn)確有效識(shí)別;內(nèi)容傾向性監(jiān)控就是根據(jù)信息發(fā)布者的自身主觀情感進(jìn)行研究,以此得出信息發(fā)布者個(gè)人關(guān)于信息內(nèi)容的立場(chǎng)以及態(tài)度,并借助數(shù)據(jù)聚類技術(shù)對(duì)于情感詞進(jìn)行有效匹配,并根據(jù)相應(yīng)的權(quán)重進(jìn)行準(zhǔn)確計(jì)算。

        (四)網(wǎng)絡(luò)輿情監(jiān)控測(cè)試

        實(shí)驗(yàn)測(cè)試作為實(shí)現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的最后一步,能夠了解監(jiān)控系統(tǒng)的實(shí)際運(yùn)行效果。為此,本實(shí)驗(yàn)采用6臺(tái)戴爾服務(wù)器,以此作為監(jiān)控系統(tǒng)的硬件設(shè)施,并采用64位CentOS6.4以及64位jdk1.7,以此作為監(jiān)控系統(tǒng)的軟件設(shè)施。同時(shí),將TDT作為本次實(shí)驗(yàn)測(cè)試的評(píng)估標(biāo)準(zhǔn),對(duì)高校網(wǎng)絡(luò)輿情的實(shí)際發(fā)展趨勢(shì)進(jìn)行評(píng)估,并將誤報(bào)率以及漏報(bào)率作為評(píng)估指標(biāo)。其中,誤報(bào)率=監(jiān)控到與主題有關(guān)的信息量/監(jiān)控到與關(guān)鍵詞有關(guān)的信息量,漏報(bào)率=未監(jiān)控到與主題有關(guān)的信息量/監(jiān)控到與關(guān)鍵詞有關(guān)的信息量。在實(shí)驗(yàn)測(cè)試結(jié)束后,得出由網(wǎng)絡(luò)爬蟲技術(shù)抓取的實(shí)際數(shù)量達(dá)到6160條,并得出以下五個(gè)關(guān)鍵字,包括兼職、考研、飲食、旅游以及就業(yè),這意味著高校學(xué)生在一段時(shí)期內(nèi)對(duì)這些內(nèi)容較為關(guān)注,同時(shí)發(fā)現(xiàn)誤報(bào)率、漏報(bào)率以及識(shí)別代價(jià)等指標(biāo)數(shù)值均處于較低狀態(tài),表明本次實(shí)驗(yàn)測(cè)試結(jié)果較為準(zhǔn)確,體現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)控的實(shí)際效果顯著。

        結(jié)語(yǔ):

        綜上所述,基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系主要應(yīng)用到網(wǎng)絡(luò)爬蟲技術(shù)、文本挖掘技術(shù)以及關(guān)鍵詞檢索技術(shù),并且涵蓋了網(wǎng)絡(luò)輿論數(shù)據(jù)收集、網(wǎng)絡(luò)輿情數(shù)據(jù)處理、網(wǎng)絡(luò)輿情數(shù)據(jù)分析以及網(wǎng)絡(luò)輿情監(jiān)控測(cè)試四個(gè)步驟,在實(shí)際應(yīng)用中具有良好的關(guān)鍵字監(jiān)控效果。

        課題項(xiàng)目:江西省教育廳科學(xué)技術(shù)研究項(xiàng)目《基于Hadoop的高校網(wǎng)絡(luò)輿情引導(dǎo)研究》項(xiàng)目編號(hào):181120。

        參考文獻(xiàn):

        [1]唐存琛,王極可. 一種結(jié)合模型集成的輿情管理模型的研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(06):31-34+92.

        [2]江瑾. 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J]. 信息與電腦(理論版),2019(13):63-65.

        [3]高為民. 微時(shí)代背景下高校大學(xué)生網(wǎng)絡(luò)輿情預(yù)警研究[J]. 教育現(xiàn)代化,2017,4(13):90-91.

        [4]聶瓊,陶杰,吳凡. 淺談高職網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)[J]. 現(xiàn)代計(jì)算機(jī),2019(32):88-90.

        猜你喜歡
        爬蟲關(guān)鍵字輿情
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        成功避開“關(guān)鍵字”
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        輿情
        輿情
        輿情
        微博的輿情控制與言論自由
        日韩av在线毛片| 日本视频二区在线观看| 精品午夜一区二区三区| 三级国产自拍在线观看| 男人添女人囗交做爰视频| 成av免费大片黄在线观看| 亚洲欧洲精品成人久久曰影片| 在线视频一区二区三区中文字幕| 日韩在线精品视频一区| 丁香六月久久婷婷开心| 欧美日韩人妻| 国产精品国产三级国产一地| 国产视频一区二区在线免费观看| 成人国产精品一区二区视频| 亚洲精品456| 免费av网址一区二区| 国产免费三级av在线| 亚洲色欲久久久综合网| 亚洲一区二区三区av链接| 无码区a∨视频体验区30秒| 国产高清女主播在线观看| 又大又粗欧美黑人aaaaa片| 精品久久久久久中文字幕大豆网| 最新国产成人综合在线观看| 日韩精品一区二区三区影音视频| 国产精品天干天干综合网| 国产一区二区不卡老阿姨| 91精品国产无码在线观看| 久久精品国产亚洲av热东京热| www夜片内射视频在观看视频 | 国产成人综合在线视频| 亚洲加勒比无码一区二区在线播放 | Jizz国产一区二区| 美丽小蜜桃1一3在线观看| 少妇被粗大的猛烈进出免费视频| 国产精品久久国产精品99gif| 精品国产三级国产av| 野花香社区在线视频观看播放| 国产嫖妓一区二区三区无码| 精品丝袜国产在线播放| 97中文字幕精品一区二区三区|