亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Spark on Yarn模式的電信大數(shù)據(jù)處理平臺

        2023-07-17 09:30:30紀貴
        計算機應(yīng)用文摘·觸控 2023年13期
        關(guān)鍵詞:電信

        摘要:針對電信大數(shù)據(jù)處理系統(tǒng)中存在的問題,文章提出一種基于Spark on Yarn模型的SY-TPP。在SY-TPP平臺上,應(yīng)用Hadoop2.0 Yarn標準,并利用Spark分布式存儲技術(shù),將SY-TPP系統(tǒng)的數(shù)據(jù)在內(nèi)存中進行集中處理。以分級聚類算法為案例,對SY-TPP平臺的開發(fā)過程進行了詳細的分析。實驗結(jié)果表明,TPP平臺上的GB級用戶可以在半個工作日內(nèi)完成數(shù)據(jù)處理,而32個實體節(jié)點的sYTPP系統(tǒng)的速度比相同配置下的Map Rcduce平臺提高了10.25倍。

        關(guān)鍵詞:電信;大數(shù)據(jù)處理;Spark on Yarn模式

        中圖法分類號:TP311 文獻標識碼:A

        1 引言

        Map Reduce 的首個版本是MRvl, 而Yarn(Yeanother resource negotiator) 在一定程度上彌補了MRv1 的不足。MRv2 的Yarn 可以被看作是一個專門針對大數(shù)據(jù)處理的資源分享架構(gòu), Yarn 的一個更好的實現(xiàn)方式是Spark On Yarn,這是由于Spark OnYarn 能夠最大限度地存儲數(shù)據(jù),發(fā)揮Spark 的分布式存儲能力。本文對其設(shè)計思路和具體實施流程進行了詳細的介紹,其在通信領(lǐng)域中的應(yīng)用性能優(yōu)于以往的串行運算和Map Reduce。

        2 SY?TPP 平臺的設(shè)計思路

        2.1 總體設(shè)計思想

        SY?TPP 是一個云計算平臺,若要實現(xiàn)服務(wù)理念,則必須將互聯(lián)網(wǎng)上的虛擬資源按照租用的形式提供給用戶,盡可能地將大數(shù)據(jù)碎片集中到存儲器或本地磁盤上,并減少子任務(wù)重啟或存取磁盤的I/ O 開銷。

        在功能實現(xiàn)上,將SY?TPP 分為4 個模塊:存儲和訪問、資源分配和調(diào)度、應(yīng)用執(zhí)行、用戶。其主要功能包括在自治區(qū)域中共享閑置計算資源、處理電信大數(shù)據(jù)應(yīng)用、電信數(shù)據(jù)分級聚類算法、電信數(shù)據(jù)分類算法等。

        2.2 大數(shù)據(jù)存儲與訪問模塊

        該模塊充分發(fā)揮了Hadoop 框架的優(yōu)點,由于Hadoop 的分布式檔案管理系統(tǒng)能夠儲存大量的資料,使得大量的資料能夠跨越多個實體的節(jié)點。但Hadoop 中的MapReduce 規(guī)格也有一些限制,即每次啟動都需要消耗大量的磁盤資源,導致系統(tǒng)的運行速度會越來越慢,而Spark 的內(nèi)存架構(gòu)則會讓整個系統(tǒng)的數(shù)據(jù)存儲和存取能力得到極大的提升。

        2.3 資源分配與調(diào)度模塊

        基于上述分析,由于云計算采用了虛擬化技術(shù),在資源分配和調(diào)度方面,其子任務(wù)以一種虛擬機形式存在,在一些文獻中被稱為“工作單位”,它可以在實際的實體節(jié)點上運行多臺虛擬機器(工作單位),因此需要考慮調(diào)度策略、容錯策略等。

        調(diào)度策略所要解決的問題就是如何將虛擬機分配到最適合的實體節(jié)點上,并需要采用某種策略。比如,要考慮物理節(jié)點的負載最小、物理節(jié)點的可靠性最高、物理節(jié)點的硬件配置最高、CPU 使用率最小等。

        最好的效果是通過虛擬機器,可以讓SY?TPP 平臺在最需要的實體上進行動態(tài)的定位。因此,在SY?TPP環(huán)境中,虛擬機的排程是一個非常關(guān)鍵的問題。

        在SY?TPP 系統(tǒng)中,一些物理節(jié)點由于故障而退出,因此需要進行資源配置和調(diào)度,以保證系統(tǒng)整體的正常運轉(zhuǎn)。基于此,SY?TPP 平臺采用了冗余的方法和高效的策略,即數(shù)據(jù)的冗余度和分布式存儲,以確保數(shù)據(jù)的可靠性。

        3 平臺業(yè)務(wù)功能需求說明

        3.1 解析數(shù)據(jù)說明

        在這個平臺中,最主要的輸入文件就是大量的LTEMR 測試報告,其描述如下。

        在TD?LTE 系統(tǒng)中,3 GPP 技術(shù)標準作為一個系統(tǒng)的重要組成部分,它的作用是顯而易見的。這種測量報告可以定期上報,也可以根據(jù)事件向系統(tǒng)匯報,定期上報的話,會根據(jù)時間的長短自動上報,若以事件為基礎(chǔ),則不會給出這樣的定義。測量報告是由真正的使用者提供的,這樣可以讓使用者更好地掌握網(wǎng)絡(luò)的運作。通過對數(shù)據(jù)的統(tǒng)計與挖掘,可以對大量的網(wǎng)絡(luò)問題進行分析。測量數(shù)據(jù)比路測有較多優(yōu)勢,其采集費用低,且數(shù)據(jù)量大,即使是在不能到達的地方,也能得到相應(yīng)的信息。

        測量報告中所使用的數(shù)據(jù),一般都是從手機和社區(qū)中收集到的,或者是系統(tǒng)計算出來的。初步收集的測量報告資料在傳送至OMC?R 后,將對其進行一系列的處理,以產(chǎn)生MRO 及MRS 檔案。

        3.2 數(shù)據(jù)解析功能模塊

        數(shù)據(jù)分析模塊包含2 部分。(1)指定城市的名字和時間,然后從相應(yīng)的hdfs 文件中提取出相應(yīng)的Mro文件,并進行分析,以便于后續(xù)的數(shù)據(jù)分析,在分析時,還會進行一些簡單的運算。(2)在確定城市的名字和時間后,從相應(yīng)的hdfs 目錄中提取該地區(qū)的mrs 文件,并根據(jù)需求生成相應(yīng)的文件,將相應(yīng)的數(shù)據(jù)存儲在目錄中。2種功能均由spark 集群直接完成,所有的文件資料都存儲在hdfs 集群中,并使用scala 程序進行分析。

        4 基于復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)處理

        4.1 靜態(tài)數(shù)據(jù)研究

        電信業(yè)務(wù)的數(shù)據(jù)結(jié)構(gòu)是隨時間而變化的,是一種典型的多維數(shù)據(jù),其主要目的是使某一段時間內(nèi)某一城市、某一地區(qū)的通話形成一個典型的網(wǎng)絡(luò)。本文從度與度分布、平均路徑長度、群集系數(shù)3 個方面展開。

        “度”的含義是指與這個網(wǎng)頁節(jié)點相關(guān)聯(lián)的其他網(wǎng)頁節(jié)點的數(shù)量。在實際的通信數(shù)據(jù)研究中,主要是指一個人與另一個人通話的數(shù)量。在一個用戶節(jié)點中,呼出和呼入的次數(shù)可以劃分為出度和入度。所有用戶節(jié)點的平均值叫做網(wǎng)絡(luò)的平均度。從復(fù)雜網(wǎng)絡(luò)的角度來看,不管是出度還是入度的大小,都與用戶的重要程度有直接關(guān)系。每個用戶節(jié)點都具有很高的輸出和進入度,是網(wǎng)絡(luò)中的核心節(jié)點,需要通過這些節(jié)點把其他用戶連接起來[1] 。

        在復(fù)雜網(wǎng)絡(luò)中,平均路徑是衡量網(wǎng)絡(luò)中2 個節(jié)點間最小邊數(shù)目的一個重要指標。平均路徑長度是衡量網(wǎng)絡(luò)傳送能力的一個重要指標,擁有更短的路徑長度可以減少發(fā)送時延,并在網(wǎng)站查詢中起著關(guān)鍵的作用,以上所述的網(wǎng)絡(luò)平均路徑長度為4.2,平均每月的網(wǎng)絡(luò)直徑約20,而總網(wǎng)絡(luò)直徑約為15,這就說明此網(wǎng)絡(luò)的結(jié)構(gòu)緊湊,能夠確保使用者在最短時間內(nèi)找到所需之物。

        聚類系數(shù)用來表示一個網(wǎng)絡(luò)連結(jié)的集合程度,即網(wǎng)絡(luò)連結(jié)的密集程度。在網(wǎng)絡(luò)連結(jié)中存在多個鄰近節(jié)點時,其鄰近節(jié)點間亦有可能為鄰居。Watts 和Strogatz 首先發(fā)現(xiàn)很多網(wǎng)絡(luò)的聚集系數(shù)遠大于相同節(jié)點規(guī)模的隨機網(wǎng)絡(luò)。

        4.2 動態(tài)數(shù)據(jù)研究

        電信企業(yè)的大數(shù)據(jù)分析具有獨有的特色,即用戶行為具有強烈的“生命周期”特性,而時間演進是通信業(yè)務(wù)數(shù)據(jù)復(fù)雜網(wǎng)絡(luò)化的內(nèi)在特性,任何一個網(wǎng)絡(luò)都會隨著時間的推移而發(fā)生變化,但數(shù)據(jù)分析不能以秒、分、時等單位來進行。由于單位數(shù)據(jù)的數(shù)量是非常有限的,因此要把握客戶的核心業(yè)務(wù)價值,并制定出相應(yīng)的市場戰(zhàn)略,從而對每一個通話所產(chǎn)生的數(shù)據(jù)進行分析。

        將以上資料輸入到一個復(fù)雜的網(wǎng)絡(luò)分析軟件中,包含通話日期、通話時長及基地臺信息。經(jīng)計算后,可以得到許多使用者對網(wǎng)絡(luò)資料使用者的分析。首先,其具有明顯的聚集效應(yīng),他們的通話概率是普通用戶的2~3 倍,活躍程度越高,在網(wǎng)好友數(shù)量越多,離網(wǎng)的可能性就越低。其次,挖掘出用戶的一些特點和喜好,有利于了解用戶的消費習慣,制定不同的套餐,減少運營成本。最后,根據(jù)基站數(shù)據(jù)資料,可以判斷出使用者的活動區(qū)域及負荷情況,從而為電信公司做好基站的建設(shè)規(guī)劃。

        4.3 社團挖掘研究

        復(fù)合網(wǎng)絡(luò)社團是指,在一個網(wǎng)絡(luò)中可以把1 個頂點劃分為若干個群,其中1 個頂點之間的聯(lián)系比較緊密,而多個頂點之間的聯(lián)系非常少。在通信企業(yè)的數(shù)據(jù)分析中,社團組織是一個非常關(guān)鍵的環(huán)節(jié),是理解通信企業(yè)整體結(jié)構(gòu)與功能的一個重要手段。對于通信運營商來說,盡管組織規(guī)模和數(shù)量都不清楚,而且成員數(shù)量也會隨著時間的推移而發(fā)生變化,但是網(wǎng)絡(luò)的組織結(jié)構(gòu)具有明顯的層次性,可以看到高、低密度的社團組織。

        當前,很多基于復(fù)雜網(wǎng)絡(luò)的社團網(wǎng)絡(luò)分割算法都是在K?means 的基礎(chǔ)上發(fā)展起來的。K?means 經(jīng)典算法的基本思路是:將k 個點集中在一個空間上,然后根據(jù)距離最近的物體進行分類。采用迭代法,對各個簇中心進行逐次更新,直到獲得最佳的聚類效果。在通信大數(shù)據(jù)環(huán)境中,K?means 算法在分類效果、實際運行時間等方面具有很好的應(yīng)用價值。根據(jù)以上資料對K?means 算法的社團劃分進行分析,得出3 個包含59 個、29 個和6 個用戶的明確組織[2] 。

        5 SY?TPP 平臺的設(shè)計

        5.1 Spark 內(nèi)存計算框架的選取

        在SY?TPP 平臺上進行模塊的設(shè)計,需要選用適當?shù)某绦蚰P蛠硗瓿?,本文選取雅恩(Map ReduceMRv2)和Spark 存儲器的運算方式。

        Spark 架構(gòu)和Hadoop Yarn 的組合使得大數(shù)據(jù)處理的效率更高。關(guān)于Spark 網(wǎng)絡(luò),目前已經(jīng)有了大量的文獻描述。Spark 是一個開放源碼的云計算平臺,其核心部分可以和Yarn 云平臺結(jié)合。其工作原理是將Spark 作為一個應(yīng)用程序在Yarn 平臺上運行。要注意的是, Map Reduce 只是與DryaLINQ 以及Google的Map Reduce 一起使用云計算程序,但其源代碼通常不對外公開。

        5.2 SY?TPP 各個模塊的實現(xiàn)

        在海量數(shù)據(jù)的存儲和存取方面, Yarn 將利用HDFS 技術(shù)對電信大數(shù)據(jù)進行存儲,Hadoop2.0 保留了命名節(jié)點和數(shù)據(jù)服務(wù)器節(jié)點。

        完成任務(wù)的分配和調(diào)度,SY?TPP 平臺還參照Yarn的規(guī)格,使用RM,Application Master (AM)和Yarn 技術(shù)報告的細節(jié)。在Yarn 的規(guī)格中,應(yīng)用程序執(zhí)行模塊的實現(xiàn)是Yarn 規(guī)范中的節(jié)點管理器NodeManager 和容器管理器Container,具體的說明請參閱Yarn 的網(wǎng)站。

        Yarn 的應(yīng)用程序控制器Master 還負責監(jiān)視和追蹤應(yīng)用的運行狀況,同時還負責客戶機模塊的工作。

        5.3 大數(shù)據(jù)處理工作機制

        以電信大數(shù)據(jù)分類聚類算法為實例,對SY?TPP系統(tǒng)的工作過程和代碼進行了分析。假定相似度分類聚類的迭代次數(shù)為K 次。

        由于SY?TPP 平臺存儲計算Spark 架構(gòu),因此還需要考慮Spark 和Yarn 的融合問題。Spar 在資源管理與作業(yè)調(diào)度中的一個模式就是Spark on Yarn,使用Yarn 模型來實現(xiàn)它也很簡單。

        Spark on Yarn 模式也包括主控和工作人員。用戶編寫是將Spark 作為Yarn 平臺的一種特定的應(yīng)用,通過Spark 將其與Master 相連接,并對每個RDD 進行操作[3] 。

        6 SY?TPP 平臺的實現(xiàn)

        6.1 大數(shù)據(jù)應(yīng)用的選取

        在通信大數(shù)據(jù)中,很難在一定的時間內(nèi)對用戶的行為進行分析,因此,可采用Spark on Yarn 模式下的SY?TPP 進行計算,并將其與傳統(tǒng)的單機串行運算和Map Reduce 算法相比較。

        6.2 硬件環(huán)境的配置

        基于對SY?TPP 系統(tǒng)的設(shè)計及實施和HadoopYarn 架構(gòu)的研究,本文采用基于網(wǎng)絡(luò)中心的PC 平臺,其具有較高的帶寬、穩(wěn)定性和空閑率,非常適合大數(shù)據(jù)處理的測試。

        在硬件配置上,SY?TPP 有33 個真實PC 的物理節(jié)點,其中Intel 3.0 GHz 4 核心,8 GB 內(nèi)存,l TB 硬盤,2?千兆網(wǎng)絡(luò)端口;工作機節(jié)點CPU 型號是3.0GHz,8 GB 內(nèi)存。硬盤的容量是1 TB,而交換機是每秒1 000 兆字節(jié)。

        6.3 軟件環(huán)境的配置

        在軟件配置上,部署Master 機1 個、Worker 機32個。在安裝好操作系統(tǒng)后,會對Spark on Yarn 模式進行JRE1.6 版和1.4 版Spark 配置。該軟件完成了HDFS 文件和Yamn 的規(guī)格[4] 。

        6.4 實驗結(jié)果與討論

        一份15 GB 的文件,13 250 秒的通信運營商的用戶行為數(shù)據(jù),能夠滿足科研人員的工作時間,并且超過了Map Reduce 的舊軟件。加速速度隨工作臺數(shù)目(n)平穩(wěn)上升,盡管與線性增長還有一段距離,但計算速度卻小于Map Reduce。

        在SY?TPP 中,多個物理節(jié)點可以有效降低數(shù)據(jù)傳輸速度,這表明SY?TPP 在通信領(lǐng)域中的數(shù)據(jù)處理速度快,優(yōu)于Map Reduce。這是因為Spark 的存儲器運算大部分都是為高數(shù)據(jù)應(yīng)用而設(shè)計的,這樣可以降低MapReduce 中的存取硬盤和虛擬機的啟動費用。

        7 結(jié)束語

        本文SY?TPP 并不是為通信產(chǎn)業(yè)的具體應(yīng)用而設(shè)計,其他高效能的數(shù)據(jù)密集型應(yīng)用也可以在SY?TPP平臺上進行。在Hadoop2.0 的Yarn 技術(shù)規(guī)范中,還需進一步對其進行優(yōu)化,將SY?TPP 平臺配置到廣域網(wǎng)或者因特網(wǎng)中進行測試。

        參考文獻:

        [1] 張瑞.基于復(fù)雜網(wǎng)絡(luò)的電信大數(shù)據(jù)處理研究[J].現(xiàn)代情報,2014,34(6):66?69+74.

        [2] 楊玉,張遠夏.Spark on Yarn 模式的電信大數(shù)據(jù)處理平臺[J].福建電腦,2019,35(3):34?38.

        [3] 曲榮波.基于復(fù)雜網(wǎng)絡(luò)的電信大數(shù)據(jù)處理研究[J].信息記錄材料,2016,17(6):19?21.

        [4] 張思航.基于Hadoop 的電信大數(shù)據(jù)處理的研究及應(yīng)用[D].北京:華北電力大學,2017.

        作者簡介:紀貴( 1975—), 本科, 研究方向: 大數(shù)據(jù)技術(shù)、云計算技術(shù)。

        猜你喜歡
        電信
        基于IMS的電信網(wǎng)融合
        中國新通信(2017年8期)2017-05-26 16:03:30
        IMS MGCF對接企業(yè)TDM—PBX實現(xiàn)機制的原理分析
        基于LoadRunner技術(shù)的簡易電信受理方案的研究
        電信通信建設(shè)工程項目管理探討
        電信充值卡有期限,違法么?
        淺談“營改增”擴圍后對電信的影響
        財會學習(2016年19期)2016-11-10 05:04:15
        城市傳媒集團在文化產(chǎn)業(yè)發(fā)展中的定位與經(jīng)營管理創(chuàng)新
        淺談光纖駐地網(wǎng)的發(fā)展與應(yīng)用
        電信運營中的維護服務(wù)外包模式研究
        淺析電信行業(yè)在互聯(lián)網(wǎng)+時代的微信維系與營銷新模式
        一区二区三区日韩蜜桃| 国产精品视频二区不卡| 爱我久久国产精品| 伊人色综合视频一区二区三区 | 激情文学婷婷六月开心久久| 精品久久久久久久久午夜福利| 99久久久无码国产精品试看 | 日本高清中文字幕二区在线| 亚洲女同恋中文一区二区| 日本三区在线观看视频| 亚洲一区二区日韩精品在线| 午夜男女很黄的视频| 成人免费视频在线观看| 四虎永久在线精品免费观看地址| 国产尤物二区三区在线观看| 青青草久久久亚洲一区| 一区二区国产av网站| 免费a级毛片18以上观看精品| 双腿张开被9个黑人调教影片| 日韩熟妇精品视频一区二区| 欧美巨大xxxx做受中文字幕| 国产精品亚洲综合久久| 亚洲人成国产精品无码果冻| 久久夜色精品国产| 天天做天天爱天天综合网| 特一级熟女毛片免费观看| 国产激情免费观看视频| 精品精品久久宅男的天堂| 香港日本三级亚洲三级| 国产精品天天看大片特色视频| 免费女女同黄毛片av网站| 精品国产一区二区三区三级| 专干老熟女视频在线观看| av无码精品一区二区三区四区| 日产精品一区二区三区免费| 久久婷婷综合色一区二区| 欧美激情在线播放| 國产一二三内射在线看片| 国产一区二区三区色区| 少妇被猛烈进入到喷白浆| 末发育娇小性色xxxxx视频|