亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的Flume的實時數(shù)據(jù)采集系統(tǒng)

        2021-08-09 00:35:53朱濤孫知信宮婧
        科技資訊 2021年11期
        關(guān)鍵詞:實時性分布式

        朱濤 孫知信 宮婧

        摘? 要:任意一個分布式系統(tǒng)都必須滿足CAP理論,在數(shù)據(jù)分析分析系統(tǒng)中,最為重要的是效率以及可靠性,而數(shù)據(jù)采集時整個分析系統(tǒng)的基石,構(gòu)建基于改進的Flume的實時數(shù)據(jù)采集系統(tǒng),通過flume采集數(shù)據(jù),采用復合型Channel與flume相結(jié)合,在保證數(shù)據(jù)源的豐富性和可靠性的前提下,提高采集的效率。實驗結(jié)果表明,該系統(tǒng)的各項功能符合預期結(jié)果,F(xiàn)lume使用復合型Channel可以提高采集效率。

        關(guān)鍵詞:Flume? CAP? 實時性? 分布式

        中圖分類號:TP273.5? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A文章編號:1672-3791(2021)04(b)-0073-04

        Real Time Data Acquisition System Based on Improved Flume

        ZHU Tao? ?SUN Zhixin*? GONG Jing

        (Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu Province, 210023 China)

        Abstract:? Any distributed system must meet the CAP theory. In a data analysis system, the most important thing is efficiency and reliability. The cornerstone of the entire analysis system for data collection is to build a real-time data collection system based on improved Flume. Collect data through flume, and use the combination of composite channel and flume to improve the efficiency of collection while ensuring the richness and reliability of the data source. The experimental results show that the functions of the system meet the expected results. Flume uses the composite channel can improve the collection efficiency.

        Key Words: Flume; CAP; Real-time; Distributed

        隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,各種網(wǎng)絡應用呈現(xiàn)爆發(fā)式增長,同時用戶使用量也急劇增加,這也意味著各種智能終端產(chǎn)生的日志數(shù)據(jù)與日俱增,如何更好地管理以及更快地采集日志數(shù)據(jù),成了一個亟待解決的問題,而數(shù)據(jù)是實現(xiàn)大數(shù)據(jù)研究的基礎,傳統(tǒng)的數(shù)據(jù)采集技術(shù)方案己經(jīng)難以滿足快速采集高質(zhì)量的數(shù)據(jù)集的需求。

        1? 相關(guān)技術(shù)研

        hossam hakeem[1]在基于對當前的國內(nèi)外的大數(shù)據(jù)環(huán)境進行的深度剖析的基礎之上,提出基于大數(shù)據(jù)的數(shù)據(jù)分析的軟件架構(gòu),并針對于自己需要處理的數(shù)據(jù)類型提出一種基于分層的數(shù)據(jù)分析的模型。尚凱[2]基于對國內(nèi)運營商數(shù)據(jù)的復雜性以及數(shù)據(jù)采集時的困難的研究,提出一種新的方案,其規(guī)定數(shù)據(jù)采集的來源均來源于企業(yè)B域、O域、M域以及企業(yè)外部,采用高可用、高可靠、分布式的數(shù)據(jù)采集方法,并對這些數(shù)據(jù)進行清洗、處理后,將數(shù)據(jù)存儲于運營商的數(shù)據(jù)庫當中,此方案在對于海量的結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)進行采集時可以提供很好的實時性。

        于秦[3]通過開源軟件Flume設計實現(xiàn)一款分布式多平臺多系統(tǒng)收集多種日志的系統(tǒng),此系統(tǒng)具有高吞吐量、可擴展性強、高聚合等特征。在提供高速數(shù)據(jù)采集解決方案方面, 李祥等[4]研究者中同時使用這兩個組件,系統(tǒng)的整體架構(gòu)分為數(shù)據(jù)采集層、數(shù)據(jù)分析層、Web界面展示組成,而數(shù)據(jù)分析采用了Hadoop和Strom分別實現(xiàn)數(shù)據(jù)的離線和實時計算,數(shù)據(jù)采集層采用Flume來實時地采集數(shù)據(jù)。陳飛等[5]研究者采用Flume的數(shù)據(jù)采集框架和ElasticSearch組合來對Nginx的日志進行數(shù)據(jù)采集,并對這些數(shù)據(jù)進行分析,從而完成對整個系統(tǒng)的實現(xiàn)。Hadoop是一般是用作離線處理的,而Strom則是一個很好的實時計算框架。

        通過上述分析,該文將構(gòu)建基于改進的Flume的實時數(shù)據(jù)采集系統(tǒng),在提高數(shù)據(jù)的采集效率同時采用分布式系統(tǒng)滿足高可用性,提高了分析系統(tǒng)的分析效率。

        2? 基于改進的Flume的實時數(shù)據(jù)采集系統(tǒng)

        現(xiàn)如今的研究更多地關(guān)注動態(tài)實時數(shù)據(jù),而不是靜態(tài)數(shù)據(jù),這提出了更高的技術(shù)要求。要處理流數(shù)據(jù),第一步是收集大規(guī)模實時流數(shù)據(jù)[6]。由于實時數(shù)據(jù)傳輸?shù)牟环€(wěn)定性,流數(shù)據(jù)的收集與傳統(tǒng)方法大不相同。隨著數(shù)據(jù)種類變得復雜且框架自帶的Memory Channel和File Channel都會有各種各樣的問題,無法提高更好地實時數(shù)據(jù)采集[7]。下面提出對Flume框架的改進。

        Flume自身提供了Memory Channel和File Channel。當相關(guān)人員使用Memory Channel,它會將events存放于內(nèi)存的隊列中保證它的效率,它的優(yōu)點就是高效、高吞吐量,但是缺點也很明顯,當機器宕機或者服務死掉的時候,內(nèi)存中的數(shù)據(jù)都會丟失,從而導致分析得不到準確的數(shù)據(jù)。而File Channel卻相反,它是將所有的events被保存在本地的磁盤文件中,優(yōu)點是容量較大且發(fā)生故障時數(shù)據(jù)可恢復,缺點就是速度較慢。

        為了充分利用這兩種channel的優(yōu)勢,該文引入復合型channel,復合型channel根據(jù)其內(nèi)在的每個channel的使用情況以及下游Sink的處理情況,來自主地選擇下次使用哪種channel來進行數(shù)據(jù)的存儲。Sink的接收速度很快,當Sink接收器處理速度夠快,并且Channel沒有存放過多數(shù)據(jù)的時候,相關(guān)人員可以采用Memory Channel,從而使得整個的系統(tǒng)的傳輸效率最大化;反之,當Sink接收器處理速度跟不上,同時希望Channel可以暫時存儲采集到的數(shù)據(jù)時,相關(guān)人員可以采用File Channel來減少下游數(shù)據(jù)處理的壓力。因此,需要實現(xiàn)complex Channel,即就能智能地在兩個Channel之間切換。復合channel的運行流程圖見圖1。

        步驟1:flume從磁盤實時采集數(shù)據(jù),經(jīng)過攔截器對數(shù)據(jù)進行一些預處理。

        步驟2:經(jīng)過預處理的數(shù)據(jù)通過選擇器,選擇復合型的channel。

        步驟3:定義兩個原子布爾型變量(putToMemCh-

        annel、takeFromMemChannel)作為標志位,分別表示是否寫入MemChannel和是否從MemChannel中取出。

        步驟4:執(zhí)行put方法,判斷是否可以往內(nèi)存MemChannel寫入數(shù)據(jù),如果可以,則轉(zhuǎn)到步驟5,否則,轉(zhuǎn)到步驟7。

        步驟5:對數(shù)據(jù)的put事務性的判斷,是否滿足要求,如果滿足,則轉(zhuǎn)至步驟6,否則,轉(zhuǎn)至步驟5。

        步驟6:將數(shù)據(jù)寫入內(nèi)存,并且為下次的寫入做準備,判斷MemChannel是否為空或者FileChannel現(xiàn)在大小是否超過100,二者只要滿足其一,就將putToMemChannel置為false。

        步驟7:對數(shù)據(jù)進行put進行事務性的判斷,是否滿足要求,如果滿足,則將數(shù)據(jù)通過寫入FileChannel,如果不滿,則轉(zhuǎn)至步驟7。

        步驟8:執(zhí)行take方法,判斷是從哪個類型的channel獲取數(shù)據(jù),如果是MemChannel,則轉(zhuǎn)至步驟9,否則轉(zhuǎn)至步驟11。

        步驟9:對數(shù)據(jù)的take事務性進行判斷,判斷是否滿足要求,如果滿足,則轉(zhuǎn)至步驟10,否則,轉(zhuǎn)至步驟9。

        步驟10:對數(shù)據(jù)進行事務性的取出,并判斷數(shù)據(jù)是否為空,如果為空,代表內(nèi)存中無數(shù)據(jù),將takeFromMemChannel設為false,意味著下次將從FileChannel中獲取數(shù)據(jù)。

        步驟11:對數(shù)據(jù)進行事務性的取出,并判斷數(shù)據(jù)是否為空,如果為空,代表文件系統(tǒng)中沒有數(shù)據(jù),則將takeFromMemChannel和putToMemChannel設為true,意味著下次將從內(nèi)存中讀取和寫入數(shù)據(jù)。

        3? 系統(tǒng)實現(xiàn)與測試

        在構(gòu)建該系統(tǒng)中,該文基于E5-2667CPU(20處理器)、128內(nèi)存和25T硬盤的服務器上利用VM-ware 虛擬化5臺服務器,利用這5臺服務器進行綜合評測。集群安裝組件配置如表1所示。

        該文設計的系統(tǒng)模型與傳統(tǒng)的Flume-HDFS模型在同一大小數(shù)據(jù)的分析耗時對比見圖2,該系統(tǒng)的傳輸效率以及在數(shù)據(jù)的分析實時性要高于原系統(tǒng)。

        4? 結(jié)語

        該文構(gòu)建了基于改進的Flume的實時數(shù)據(jù)采集系統(tǒng),通過實現(xiàn)數(shù)據(jù)采集框架與復合Channel選擇技術(shù)相結(jié)合,對數(shù)據(jù)采集環(huán)節(jié)做出了改進。實驗測試了數(shù)據(jù)采集的效率。由實驗結(jié)果表明,相比于傳統(tǒng)的數(shù)據(jù)

        分析系統(tǒng),該系統(tǒng)在數(shù)據(jù)采集效率和時性方面有明顯的提升。綜合分析可得,該文平臺可以更加高效地、穩(wěn)定地完成數(shù)據(jù)的實時采集。

        參考文獻

        [1] Hossam Hakeem.Layered Software Partterns for Data Analysis in Big Data Environment[J].International Journal of Automation and Computing,2017,14(6):650-660.

        [2] 尚凱.企業(yè)數(shù)據(jù)中心數(shù)據(jù)采集與建模[D].山東大學,2017.

        [3] 于秦.基于Apache Flume的大數(shù)據(jù)日志收集系統(tǒng)[J].中國新通信,2016,18(18):41.

        [4] 李洋,呂家恪.基于Hadoop與Storm的日志實時處理系統(tǒng)研究[J].西南師范大學學報:自然科學版,2017,42(4):119-126.

        [5] 陳飛,艾中良.基于Flume的分布式日志采集分析系統(tǒng)設計與實現(xiàn)[J].軟件,2016,37(12):82-88.

        [6] M.Rashid,A.Hamid,N.Ahmad,et al. Novel Machine Learning Approach for Sentiment Analysis of Real Time Twitter Data with Apache Flume[C]//2020 Sixth International Conference on Parallel,Distributed and Grid Computing (PDGC).2020:336-340.

        [7] A.Kanavos,G.Vonitsanos,A.Mohasseb,et al. An Entropy-based Evaluation for Sentiment Analysis of Stock Market Prices using Twitter Data[C]//2020 15th International Workshop on Semantic and Social Media Adaptation and Personalizatio.2020:1-7.

        猜你喜歡
        實時性分布式
        基于規(guī)則實時性的端云動態(tài)分配方法研究
        分布式光伏發(fā)展的四大矛盾
        能源(2017年7期)2018-01-19 05:05:03
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        基于虛擬局域網(wǎng)的智能變電站通信網(wǎng)絡實時性仿真
        基于預處理MUSIC算法的分布式陣列DOA估計
        制導與引信(2017年3期)2017-11-02 05:16:56
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        航空電子AFDX與AVB傳輸實時性抗干擾對比
        一種滿足實時性需求的測發(fā)控軟件改進技術(shù)
        航天控制(2016年6期)2016-07-20 10:21:36
        網(wǎng)絡演算理論下的工業(yè)以太網(wǎng)的實時性分析
        西門子 分布式I/O Simatic ET 200AL
        精品乱码一区二区三区四区| 亚洲无码在线播放| 成人av在线久色播放| 产美女被爽到高潮免费a| 日本二一三区免费在线| 东北女人啪啪对白| 免费大片黄国产在线观看| 鸭子tv国产在线永久播放| 亚洲色欲色欲www| 亚洲永久无码7777kkk| 国产亚洲视频在线观看网址| 久久天天躁狠狠躁夜夜爽| 国产精品大屁股1区二区三区| 亚洲精品无码成人a片| 日本乱人伦在线观看| 国产老妇伦国产熟女老妇高清| 亚洲中文一本无码AV在线无码| 日本嗯啊在线观看| 综合激情中文字幕一区二区| 国产av一区二区三区狼人香蕉| 在线不卡精品免费视频| 亚洲精品女同一区二区三区| 日韩美女亚洲性一区二区| 亚洲处破女av日韩精品中出| 亚洲中文字幕无码中文字| 国产二级一片内射视频插放| 乱码精品一区二区三区| 国产亚洲AV无码一区二区二三区| 最大色网男人的av天堂| 青青草在线公开免费视频| 国产人妖视频一区二区| 91在线视频在线视频| 欧美另类人妖| 三男一女吃奶添下面| 无码丰满少妇2在线观看| 美女超薄透明丝袜美腿| 激情亚洲综合熟女婷婷| 视频一区视频二区亚洲| 亚洲av综合色一区二区| 亚洲日韩激情无码一区| 亚洲精品suv精品一区二区|