亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式存儲(chǔ)和并行計(jì)算的海量輿情數(shù)據(jù)分析方法研究

        2023-10-21 06:10:22邱國婷
        電子設(shè)計(jì)工程 2023年20期
        關(guān)鍵詞:分析方法

        邱國婷

        (西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

        隨著計(jì)算機(jī)技術(shù)與通信網(wǎng)絡(luò)的持續(xù)發(fā)展與完善,電子化、信息化媒體社交已更加深入人們的日常生活,且各大社交平臺(tái)也在不斷產(chǎn)生海量的數(shù)據(jù)[1]。信息的高速通達(dá)有利有弊,尤其對(duì)于某些突發(fā)事件,快速的網(wǎng)絡(luò)傳播極易引發(fā)網(wǎng)絡(luò)輿情。若不對(duì)其進(jìn)行正確的預(yù)警及引導(dǎo),可能會(huì)造成一系列不可控的局面[2-3]。因此在大數(shù)據(jù)環(huán)境背景下,通過對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)加以采集、分析、檢測(cè)與預(yù)警,以實(shí)現(xiàn)對(duì)突發(fā)事件輿情的有效管控,同時(shí)引導(dǎo)并控制突發(fā)事件的態(tài)勢(shì)走向,對(duì)應(yīng)急決策均具有關(guān)鍵性的作用[4]。

        目前國內(nèi)對(duì)于輿情分析已有一定的研究,基于大數(shù)據(jù)環(huán)境的有灰色系統(tǒng)理論(Grey System Theory)、支持向量機(jī)(Support Vector Machine,SVM)等算法可用于數(shù)據(jù)分析,同時(shí)還考慮了分布式系統(tǒng)來提高數(shù)據(jù)的處理效率[5-7]。但對(duì)于海量且動(dòng)態(tài)變化的輿情數(shù)據(jù),現(xiàn)有大部分方法均存在數(shù)據(jù)分析時(shí)間較長(zhǎng)或分析結(jié)果不理想等問題。因此,該文基于分布式存儲(chǔ)及并行計(jì)算技術(shù)設(shè)計(jì)了一種適用于海量網(wǎng)絡(luò)輿情數(shù)據(jù)的分析方法。該方法結(jié)合了Hadoop 分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)與Spark并行化計(jì)算,以實(shí)現(xiàn)對(duì)輿情數(shù)據(jù)的可靠分析。

        1 系統(tǒng)設(shè)計(jì)

        海量數(shù)據(jù)分析系統(tǒng)包括數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層和數(shù)據(jù)顯示層,其整體架構(gòu)如圖1所示。

        圖1 數(shù)據(jù)分析系統(tǒng)的整體架構(gòu)

        其中,數(shù)據(jù)采集層用于接收系統(tǒng)的各類日志數(shù)據(jù),并將收集的數(shù)據(jù)存儲(chǔ)在Hadoop 分布式文件系統(tǒng),即數(shù)據(jù)存儲(chǔ)層中[8]。在數(shù)據(jù)分析層,可通過Spark SQL查詢數(shù)據(jù),且Spark 能夠利用其彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)與數(shù)據(jù)庫可用性組(Database Availability Group,DAG)機(jī)制將日志數(shù)據(jù)分發(fā)到集群,并實(shí)現(xiàn)并行計(jì)算和基于隨機(jī)森林算法(Random Forest,RF)的數(shù)據(jù)分析,再將分析結(jié)果進(jìn)行顯示,同時(shí)還可以支持查詢。

        2 分布式存儲(chǔ)系統(tǒng)架構(gòu)

        Hadoop 作為分布式計(jì)算平臺(tái)主要功能是對(duì)大數(shù)據(jù)的存儲(chǔ)及分析[9]。而HDFS 是Hadoop 的關(guān)鍵技術(shù),其具備較高的可擴(kuò)展性、容錯(cuò)性、可靠性以及高吞吐率等優(yōu)勢(shì)[10]。典型的HDFS 集群包括一個(gè)主節(jié)點(diǎn)和若干個(gè)數(shù)據(jù)節(jié)點(diǎn),具體的模塊闡述如下:

        1)NameNode:作為集群中的主節(jié)點(diǎn),其位于Master 服務(wù)器中,主要負(fù)責(zé)管控文件命名空間、調(diào)控和調(diào)節(jié)Client 端的訪問文件,且維護(hù)系統(tǒng)內(nèi)部的相關(guān)文件信息。同時(shí)在系統(tǒng)內(nèi)還配備了一個(gè)備份節(jié)點(diǎn),即Secondary NameNode,可用于存儲(chǔ)NameNode 的元數(shù)據(jù),并與之通信。

        2)DataNode:作為集群內(nèi)的數(shù)據(jù)節(jié)點(diǎn),其位于Slave 服務(wù)器中,文件數(shù)據(jù)經(jīng)劃分后存儲(chǔ)在各個(gè)DataNode 中。

        此外,當(dāng)進(jìn)行數(shù)據(jù)讀寫時(shí),Client端需先從Name Node中獲取存儲(chǔ)的元數(shù)據(jù)信息,才能與其建立通信,并進(jìn)行相應(yīng)的讀寫操作。由于數(shù)據(jù)讀寫過程中,傳統(tǒng)的數(shù)據(jù)緩存方法不適用于分布式存儲(chǔ)系統(tǒng),為此設(shè)計(jì)了一種基于熱點(diǎn)檢測(cè)的緩存方法。該方法充分利用了分布式系統(tǒng)的訪問模式,從而提升了緩存池中數(shù)據(jù)的命中率,并加快了緩存進(jìn)度。

        基于熱點(diǎn)檢測(cè)的緩存方法是將冷熱數(shù)據(jù)進(jìn)行區(qū)分,緩存架構(gòu)如圖2 所示。其中,采用固態(tài)存儲(chǔ)硬盤構(gòu)成熱數(shù)據(jù)緩存池,并利用普通磁盤存儲(chǔ)冷數(shù)據(jù)。

        圖2 基于熱點(diǎn)檢測(cè)的緩存架構(gòu)

        當(dāng)Client 端需要讀寫的數(shù)據(jù)在緩存池中命中時(shí),則直接展開讀寫操作,且無需訪問普通存儲(chǔ)磁盤;若沒有命中,則需要把請(qǐng)求轉(zhuǎn)至存儲(chǔ)池以完成Client 端的讀寫。此外,F(xiàn)ilter 模塊可用于發(fā)掘熱數(shù)據(jù)。若某一數(shù)據(jù)被反復(fù)訪問,則由Promotion 模塊將其轉(zhuǎn)移至緩存池;若該數(shù)據(jù)沒有被反復(fù)訪問,則不轉(zhuǎn)至緩存池,即處于候選狀態(tài)。當(dāng)緩存池的使用率大于某一限定值時(shí),Agent 模塊會(huì)把無效數(shù)據(jù)轉(zhuǎn)移至存儲(chǔ)池,或是將冷數(shù)據(jù)予以剔除,進(jìn)而釋放緩存空間。

        3 基于并行計(jì)算的數(shù)據(jù)分析

        傳統(tǒng)的Spark 并行化計(jì)算中,其數(shù)據(jù)處理方法大多基于統(tǒng)計(jì)分析而展開。但對(duì)于海量數(shù)據(jù)而言,其分析效果并不理想。因此利用隨機(jī)森林算法對(duì)區(qū)塊內(nèi)的數(shù)據(jù)進(jìn)行分類,并通過Spark 架構(gòu)實(shí)現(xiàn)數(shù)據(jù)的快速分析。

        3.1 基于Spark的并行化計(jì)算框架

        Spark 是一個(gè)基于內(nèi)存計(jì)算的并行框架,其可有效地支撐交互式查詢等計(jì)算方式[11-13]。Spark 采用了Master/Slave 的計(jì)算架構(gòu),其中Master 和Slave 分別存儲(chǔ)Master 節(jié)點(diǎn)與Worker 節(jié)點(diǎn)的內(nèi)容。Master 是集群的控制核心,負(fù)責(zé)系統(tǒng)的穩(wěn)定運(yùn)轉(zhuǎn);而Worker 則是集群的計(jì)算節(jié)點(diǎn),負(fù)責(zé)接收Master 的指令并上傳自身計(jì)算狀況,然后再觸發(fā)Executor 或者Driver。Executor 與Driver 分別負(fù)責(zé)執(zhí)行、派發(fā)任務(wù),且Driver通過創(chuàng)建Spark Context 對(duì)象來訪問Spark。而Client作為用戶的客戶端,負(fù)責(zé)提交應(yīng)用。

        3.2 隨機(jī)森林算法

        隨機(jī)森林算法的主要思想是將多個(gè)決策樹分類器模型相結(jié)合[14-16],即將Bagging 與隨機(jī)子空間合并進(jìn)行決策,并通過投票決策得到最終結(jié)果。

        隨機(jī)森林算法主要包括決策樹生長(zhǎng)與投票過程,而生長(zhǎng)過程又分成隨機(jī)選取訓(xùn)練集、構(gòu)建隨機(jī)森林及分割節(jié)點(diǎn)。在節(jié)點(diǎn)分割過程中,選擇系數(shù)φ最小的特征作為分割特征,計(jì)算過程如下:

        首先,計(jì)算樣本系數(shù):

        式中,Pi為樣本集S中類別i的概率,類別總數(shù)為m。

        然后,計(jì)算分割節(jié)點(diǎn)的系數(shù):

        式中,Ω為分割節(jié)點(diǎn)集,|S|為樣本集中的樣本數(shù),|S1|、|S2|分別為子集S1和S2的樣本數(shù)。

        隨機(jī)森林算法中訓(xùn)練集與特征集的選擇方式,使得其具有較好的魯棒性及容錯(cuò)性。因此,將其應(yīng)用于海量數(shù)據(jù)的分析與分類中是可行的。

        3.3 基于隨機(jī)森林算法的數(shù)據(jù)分析方法

        將隨機(jī)森林算法融入基于Spark 的并行化計(jì)算,以實(shí)現(xiàn)海量數(shù)據(jù)的高質(zhì)量分析,其流程如圖3 所示。

        圖3 隨機(jī)森林算法并行化計(jì)算流程

        首先將輸入的數(shù)據(jù)抽象為RDD 并分發(fā)到Spark的Worker 節(jié)點(diǎn)上,且每個(gè)Worker 節(jié)點(diǎn)均利用隨機(jī)森林算法進(jìn)行數(shù)據(jù)分析歸類,同時(shí)利用廣播的方法在全部Worker 節(jié)點(diǎn)上共享隨機(jī)森林算法分割節(jié)點(diǎn)的系數(shù);然后經(jīng)Spark 的Map Partitions 函數(shù)得到各個(gè)Worker 節(jié)點(diǎn)上的數(shù)據(jù)類別,并對(duì)其進(jìn)行累加;最后更新各個(gè)決策樹直至滿足迭代終止條件,即可輸出海量數(shù)據(jù)的類型及數(shù)量。

        4 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)中所構(gòu)建的HDFS 集群配備了9 臺(tái)操作系統(tǒng)為Ubuntu 14.04 的服務(wù)器,且Hadoop 版本為2.6.0,Spark 版本為1.5.0。該文將基于Matlab 平臺(tái)訓(xùn)練隨機(jī)森林算法用于輿情數(shù)據(jù)分析,并從微博選取2021年國慶節(jié)前后一周的話題評(píng)論、關(guān)注數(shù)據(jù)。

        4.1 并行計(jì)算速度分析

        在所提方法中,使用Hadoop 分布式方法存儲(chǔ)輿情數(shù)據(jù),并基于Spark 并行方式分析數(shù)據(jù)。為驗(yàn)證其有效性,使用傳統(tǒng)或分布式方式存儲(chǔ)及查詢輿情數(shù)據(jù),即通過Hive 或Spark 從HDFS 查詢一定數(shù)量的評(píng)論記錄。查詢不同數(shù)量的評(píng)論數(shù)據(jù)時(shí),各方法的響應(yīng)時(shí)間如圖4 所示。

        圖4 不同方法的數(shù)據(jù)查詢響應(yīng)時(shí)間

        由圖4可知,隨著查詢?cè)u(píng)論記錄數(shù)量的增加,兩種方式的響應(yīng)時(shí)間均有不同程度的上升。但Spark查詢方法的響應(yīng)時(shí)間較短,即速度較快。以查詢30 000條評(píng)論記錄為例,Spark查詢方法的響應(yīng)時(shí)間約為7.8 s,而Hive 查詢方法的響應(yīng)時(shí)間接近于12.5 s。此外隨著查詢數(shù)據(jù)量的增多,基于Spark 查詢方法的響應(yīng)速度也更快,故其在并行計(jì)算方面的優(yōu)勢(shì)更為顯著。

        4.2 分布式存儲(chǔ)效率分析

        基于熱點(diǎn)檢測(cè)的緩存機(jī)制能夠較好地處理冷數(shù)據(jù),并減少存儲(chǔ)開銷。其與傳統(tǒng)緩存方法的數(shù)據(jù)讀寫速率如表1 所示。

        表1 不同緩存機(jī)制的數(shù)據(jù)讀寫速率

        從表中可以看出,相比于傳統(tǒng)緩存機(jī)制,基于熱點(diǎn)檢測(cè)的緩存機(jī)制具有更優(yōu)的讀寫速率。隨著請(qǐng)求數(shù)據(jù)大小的增加,傳統(tǒng)緩存機(jī)制的讀寫速率出現(xiàn)了快速上升,這是由于傳統(tǒng)緩存機(jī)制將大量冷數(shù)據(jù)放入緩存池,既占用了容量又影響了讀寫效果。以4 MB和16 MB 為例,傳統(tǒng)方法增加了54 MB/s,而該文機(jī)制僅增加39 MB/s。原因是該文機(jī)制利用數(shù)據(jù)訪問熱度進(jìn)行排序,能更好地利用緩存池容量。此外還可提高讀寫性能,從而實(shí)現(xiàn)了高效的分布式數(shù)據(jù)存儲(chǔ)。

        4.3 輿情分析準(zhǔn)確率對(duì)比

        輿情分析結(jié)果的準(zhǔn)確性對(duì)數(shù)據(jù)使用者至關(guān)重要,并直接影響了相關(guān)措施的實(shí)施。為論證所提方法的分析性能,將其與文獻(xiàn)[4]、文獻(xiàn)[5]、文獻(xiàn)[7]進(jìn)行對(duì)比分析,不同方法的分析準(zhǔn)確率如圖5 所示。

        圖5 不同方法的數(shù)據(jù)分析準(zhǔn)確率

        從圖5 可以看出,該文方法的分析準(zhǔn)確率相比于其他方法最高,且當(dāng)其趨于穩(wěn)定時(shí),準(zhǔn)確率可達(dá)96%。由于該方法結(jié)合了Hadoop 分布式存儲(chǔ)及Spark 并行計(jì)算,并采用隨機(jī)森林算法進(jìn)行數(shù)據(jù)的分析匯總,較大程度地保證了數(shù)據(jù)分析結(jié)果的可靠性。而文獻(xiàn)[7]基于灰色系統(tǒng)理論進(jìn)行數(shù)據(jù)分析,單一的分析模型難以保證海量數(shù)據(jù)分析準(zhǔn)確率,因此其值低于80%。同樣,文獻(xiàn)[5]僅考慮R+Hadoop 框架實(shí)現(xiàn)輿情分析,缺乏有效的數(shù)據(jù)分析算法,故其準(zhǔn)確率也并不理想。文獻(xiàn)[4]則采用高性能的支持向量機(jī)模型進(jìn)行數(shù)據(jù)分類,雖然提高了分析準(zhǔn)確率,但由于缺乏并行計(jì)算的支持,相比于該文方法的分塊處理,其結(jié)果仍有待進(jìn)一步提升。

        5 結(jié)束語

        隨著移動(dòng)互聯(lián)技術(shù)的不斷發(fā)展,社交媒體成為了公眾表達(dá)觀點(diǎn)的關(guān)鍵平臺(tái),因此實(shí)時(shí)了解并掌握輿情動(dòng)態(tài)也較為重要。為此,該文提出了一種基于分布式存儲(chǔ)和并行計(jì)算的海量網(wǎng)絡(luò)輿情數(shù)據(jù)分析方法。其將采集的輿情數(shù)據(jù)存儲(chǔ)于HDFS 中,并基于Spark 框架對(duì)數(shù)據(jù)進(jìn)行隨機(jī)森林并行化分析,且支持系統(tǒng)查詢分析結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于Spark 查詢方法的響應(yīng)速度更快,且數(shù)據(jù)分析準(zhǔn)確率超過了90%,并在保證數(shù)據(jù)分析可靠性的同時(shí)加快了響應(yīng)速度。然而由于條件有限,該實(shí)驗(yàn)僅配備了9 臺(tái)服務(wù)器。因此在接下來的研究中,將擴(kuò)展節(jié)點(diǎn)、完善軟硬件設(shè)施,以提高所提方法的普適性。

        猜你喜歡
        分析方法
        隱蔽失效適航要求符合性驗(yàn)證分析
        學(xué)習(xí)方法
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        日本五十路熟女在线视频| 老色鬼永久精品网站| 国产av国片精品有毛| 8av国产精品爽爽ⅴa在线观看| 亚洲国产A∨无码影院| 国产av一区二区内射| 一区二区三区在线观看视频精品| 无码国内精品人妻少妇蜜桃视频 | japanese无码中文字幕| 国产小车还是日产的好| 日本人妻精品有码字幕| 色综合久久蜜芽国产精品| 国产va在线观看免费| 国产精品亚洲午夜不卡| 国产西西裸体一级黄色大片| 国产视频一区二区三区观看| 男人扒开添女人下部免费视频| 色老汉免费网站免费视频| 999精品免费视频观看| 加勒比熟女精品一区二区av| 丝袜美腿视频一区二区| 色avav色av爱avav亚洲色拍| 人妻妺妺窝人体色www聚色窝| 国产av无码专区亚洲草草| 精品一区二区三区老熟女少妇| 久久亚洲中文字幕精品熟| 伊人久久大香线蕉综合影院首页| 三上悠亚av影院在线看| 亚洲AⅤ永久无码精品AA| 午夜无码国产18禁| 亚洲国产中文字幕一区| 亚洲国产精品ⅴa在线观看| 久久久久欧洲AV成人无码国产| av成人资源在线观看| 日本精品久久久久中文字幕 | 精品人妻一区三区蜜桃| 深夜福利啪啪片| 国产精品熟妇视频国产偷人 | 女人一级特黄大片国产精品| 国产精品国产三级国产密月| 国产精品va无码一区二区|