亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)在電信行業(yè)的應用研究

        2015-12-21 02:41:22丁亦志李邵平牛瑛霞DingYizhiLiShaopingNiuYingxia
        互聯(lián)網(wǎng)天地 2015年6期
        關鍵詞:海量結(jié)構化分布式

        丁亦志,李邵平,牛瑛霞/Ding Yizhi,Li Shaoping,Niu Yingxia

        (中國移動通信集團設計院有限公司 北京100080)

        1 引言

        大數(shù)據(jù)(Big Data)技術或稱巨量資料,是指所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。自2012年以來,大數(shù)據(jù)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。數(shù)據(jù)已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。

        作為云計算、物聯(lián)網(wǎng)后IT 行業(yè)又一顛覆性的技術革命,大數(shù)據(jù)隨著近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們的廣泛關注,本文旨在對電信行業(yè)中的大數(shù)據(jù)應用進行研究探討。

        2 大數(shù)據(jù)發(fā)展趨勢及應用場景

        2.1 大數(shù)據(jù)發(fā)展趨勢

        通過對互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)的研究,歸納出以下4 項發(fā)展趨勢。

        (1)去小型機化

        “傳統(tǒng)數(shù)據(jù)庫+小型機+高端陣列”的模式在性價比上很難再延續(xù),SMP的擴展能力接近上限。

        (2)計算與數(shù)據(jù)處理一體機化

        軟硬件垂直整合帶來高性能優(yōu)勢和高集成度。

        (3)內(nèi)存和多核計算的崛起

        磁盤已經(jīng)落伍,內(nèi)存才是王道;1 TB RAM PC已可行,新的壓縮算法允許在內(nèi)存里完整儲存大量數(shù)據(jù);16 核擴充至64 核,為CPU 提供足夠的指令和數(shù)據(jù)是高效處理數(shù)據(jù)的關鍵。

        (4)MPP/列存儲,Hadoop 低成本海量分布式架構強勢

        通用x86 服務器+Linux+高速網(wǎng)絡+SSD 存儲、MPP+列存儲集群的Scale Out 和OLAP 高性能、Hadoop 生態(tài)圈的蓬勃發(fā)展。

        2.2 大數(shù)據(jù)應用場景

        洛杉磯警察局和加利福尼亞大學合作利用大數(shù)據(jù)預測犯罪的發(fā)生,Google 流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布,統(tǒng)計學家內(nèi)特·西爾弗(Nate Silver)利用大數(shù)據(jù)預測2012年美國選舉結(jié)果。類似的應用在互聯(lián)網(wǎng)行業(yè)不勝枚舉,對運營商來說,大數(shù)據(jù)又有哪些方面的價值?本文總結(jié)出以下6 種典型的應用場景,見表1 所列。

        3 大數(shù)據(jù)的平臺架構

        3.1 運營商大數(shù)據(jù)價值體系

        本文提出移動互聯(lián)網(wǎng)時代運營商的大數(shù)據(jù)價值體系,包括客戶研究、精準營銷、智能管道、全業(yè)務融合和新業(yè)務模式等,如圖1所示。

        客戶研究包括用戶內(nèi)容偏好、用戶行為偏好、用戶位置軌跡、用戶交往圈、用戶分群。精準營銷包括內(nèi)容偏好營銷、事件營銷、位置營銷、業(yè)務交叉推薦、渠道協(xié)同營銷、體驗式營銷。智能管道包括管道可視化、差分服務、公平使用、策略計費、信息與內(nèi)容過濾、競爭/替代業(yè)務監(jiān)控分析。全業(yè)務融合包括統(tǒng)一客戶信息提升管理水平、統(tǒng)一產(chǎn)品信息提升優(yōu)化程度、統(tǒng)一服務信息改善客戶體驗、統(tǒng)一資源信息保障協(xié)同調(diào)度。新商業(yè)模式包括后向收費模式支撐、合作產(chǎn)品引入分析、新流量產(chǎn)品引入分析、行業(yè)分析報告發(fā)布、數(shù)據(jù)服務開放共享。

        表1 運營商典型應用場景

        圖1 運營商大數(shù)據(jù)價值體系

        圖2 割裂式混搭架構

        圖3 混搭架構+深度定制化部件架構

        3.2 大數(shù)據(jù)平臺架構

        大數(shù)據(jù)平臺架構主要包括割裂式混搭架構、混搭架構+深度定制化部件、Hadoop 深度定制架構和自主研發(fā)新架構4 類架構。

        (1)割裂式混搭架構

        割裂式混搭架構模式是Hadoop+MPP RDB/SMP RDB,以Hadoop 處理非結(jié)構化為輔,RDB 處理結(jié)構化為主。主要應用于eBay、KDDI、中國移動省級經(jīng)分等,架構如圖2所示。

        (2)混搭架構+深度定制化部件

        混搭架構+定制化部件是Hadoop+MPP RDB+NoSQL/MyFox/Prom/glider/OceanBase、Hadoop 海量結(jié)構化/非結(jié)構化存儲、ETL 和離線計算基礎;MPP DB面向高速訪問存儲和部分實時計算; 專用場景部件,例如基于NoSQL的Prom/OceanBase,解決特定業(yè)務場景問題(全屬性查詢)和復雜的實時計算。阿里巴巴和淘寶是此架構最好的代表,如圖3所示。

        (3)Hadoop 深度定制架構

        Hadoop 深度定制架構即Hadoop Enhanced,圍繞Hadoop 生態(tài)圈進行深度定制和優(yōu)化。騰訊和百度是此架構的代表,如圖4所示。

        (4)自主研發(fā)新架構

        自主研發(fā)架構包括Caffeine、Pregel、Dremel、Power Drill、Storm、Qubole、RCFile 等,擁有核心知識產(chǎn)權和創(chuàng)新技術驅(qū)動業(yè)務革新。Google、Twitter、Facebook 都是基于自主研發(fā)的新架構,如圖5 和圖6所示。

        (5)運營商平臺架構的演進

        在大數(shù)據(jù)中,運營商在3~5年內(nèi)仍然是以結(jié)構化數(shù)據(jù)處理為主。但今后的趨勢是往混合結(jié)構方向演進。當前建設方案應采取Hadoop+MPP RDB 集群的混搭模式,為使上層應用平滑過渡,需要在混搭的架構上建設透明訪問層,以屏蔽數(shù)據(jù)源的異構、多實例特性。Hadoop平臺承擔了原始海量數(shù)據(jù)的抽取、轉(zhuǎn)換、加載和輕度匯總等計算任務。同時新建MPP RDB 集群的深度分析庫,支撐查詢模型復雜、多變的自助分析應用。具體架構演進示意如圖7所示。

        圖4 Hadoop 深度定制架構

        圖5 自主研發(fā)新架構示意

        ①專用數(shù)據(jù)倉庫(如TD)+MPP RDB 集群混搭模式,支撐傳統(tǒng)的固定查詢,如報表類應用等。

        ②用Hadoop平臺支撐流量清單查詢,這需要對Hadoop 進行深度定制、改造。否則需要將清單數(shù)據(jù)加載到MPP RDB 集群的數(shù)據(jù)倉庫中支撐查詢。

        ③MPP RDB 集群支撐自助分析類應用,此類查詢模型復雜、多變,且要求實時展現(xiàn)。

        4 關鍵技術

        大數(shù)據(jù)涉及的關鍵技術主要包括流數(shù)據(jù)處理、費關系型數(shù)據(jù)庫技術、MPP DB 和文件型分布式存儲。

        4.1 流數(shù)據(jù)處理

        為應對海量數(shù)據(jù)實時處理的需求,業(yè)界引入了流處理的機制。在數(shù)據(jù)流動的過程中分析和計算,分析只對一定時間段內(nèi)(Δt)的數(shù)據(jù)進行處理,事件/數(shù)據(jù)觸發(fā)分析,分析過程始終在線,流處理又分為狹義流處理和廣義流處理兩大類。

        狹義流處理為ESP(Event Stream Process,事件流處理)和CEP(Complex Event Process,復雜事件處理)。

        廣義流處理不但提供結(jié)構化數(shù)據(jù)的離散事件流處理能力,同時提供非結(jié)構數(shù)據(jù)的連續(xù)流處理,如Video、Image、Text。對非結(jié)構化數(shù)據(jù)一般主要提供分布式計算機制。

        4.2 非關系型數(shù)據(jù)庫技術

        相比于RDBMS,NoSQL 數(shù)據(jù)存儲不需要固定的表結(jié)構,通常也不存在連接操作,在解決大規(guī)模數(shù)據(jù)的可擴展性上有獨到的解決方案,因此,在大數(shù)據(jù)存取上具備RDBMS 無法比擬的性能優(yōu)勢,非常適合超大規(guī)模和高并發(fā)的SNS 型Web2.0 網(wǎng)站;但在一致性方面,則不如RDBMS,不適用于企業(yè)的關鍵應用。

        圖7 由混搭架構向深度定制架構演進

        NoSQL 一般與具體應用強綁定,主要由開源項目推動,F(xiàn)acebook、Digg、Twitter、Amazon 等都是NoSQL的推動者,其中,F(xiàn)acebook的Cassandra、Google的Big Table、Amazon的Dynamo 等都是非常成功的NoSQL商業(yè)實現(xiàn)。

        目前,NoSQL家族中應用較為廣泛的有HBase(Hadoop的衍生項目,類似Google的Big Table)、Cassandra(由Facebook 開發(fā),用于存儲特別大的數(shù)據(jù),是網(wǎng)絡社交云計算方面理想的數(shù)據(jù)庫)、MongoDB(功能最豐富、最像關系型數(shù)據(jù)庫的非關系型數(shù)據(jù)庫,可存儲比較復雜的數(shù)據(jù)類型)。

        4.3 MPP DB

        MPP DB 是指大規(guī)模并行處理(Massive Parallel Processing)數(shù)據(jù)庫,有兩種基本形式:Share Disk 和Share Nothing。

        Share Disk:性能比較高,由于需要在節(jié)點間共享鎖和緩存,可擴展性受到一定限制。適合高并發(fā)的OLTP 應用和數(shù)據(jù)量較小的OLAP 應用。

        Share Nothing:每個節(jié)點的存儲、計算、內(nèi)存完全獨立,數(shù)據(jù)分區(qū)存放,可擴展性好。適合大數(shù)據(jù)量的OALP 引用,但計算設備不容易做到熱備,可用性級別略低。

        兩種基本形態(tài)都比較適合大數(shù)據(jù)的處理。考慮到擴展性,主存儲和ETL 數(shù)據(jù)加工應首選Share Nothing。數(shù)據(jù)分析要求靈活,擴容壓力不大,自定義數(shù)據(jù)處理的應用建議采用Share Disk,局域網(wǎng)絡帶寬在不斷提升,Share Disk 前景同樣很好,與Share Nothing 適用不同的場景。

        4.4 大數(shù)據(jù)的存儲—文件型分布式存儲

        對比MPP DB,文件型分布式存儲的優(yōu)點主要有以下幾個方面:

        ①基本實現(xiàn)了RAID 所具備的數(shù)據(jù)高可用性要求;

        ②比RAID 自愈能力更強;

        ③沒有數(shù)據(jù)庫冗余開銷。

        對比MPP DB,文件型分布式存儲的缺點主要有以下幾個方面:

        ①基于指定的Key 散列分布,對數(shù)據(jù)運用限制很大;

        ②Key Value 方式連續(xù)讀寫效率不高;

        ③沒有事務、關聯(lián)、數(shù)據(jù)版本控制等數(shù)據(jù)庫特性。

        5 相關應用與實踐

        針對大數(shù)據(jù),運營商進行了相關嘗試,下面以BSS 云化ETL、融合通信、某省日志詳單系統(tǒng)為案例進行簡單的介紹。

        5.1 BSS 云化ETL

        移動數(shù)據(jù)業(yè)務和流量的爆發(fā)式增長,帶來了網(wǎng)絡建設和維護費用的成倍增加。數(shù)據(jù)業(yè)務中大量的非價值業(yè)務占據(jù)了60%以上的流量總帶寬。低價值業(yè)務造成收入與業(yè)務量失去關聯(lián)性,原有技術方式不能支撐數(shù)據(jù)業(yè)務盈利,使高價值業(yè)務的服務質(zhì)量難以保證,最終導致終端用戶的體驗和滿意度下降。

        流量經(jīng)營分析對云化ETL 和數(shù)據(jù)挖掘的要求:對各個數(shù)據(jù)源的日志進行轉(zhuǎn)換裝載,將海量數(shù)據(jù)存儲在分布式存儲中,基于這部分數(shù)據(jù)能夠進行匯總等計算。對于ETL的訴求,要求能夠基于海量數(shù)據(jù)做E-T-L 操作,同時能夠做相應的關聯(lián)匯總統(tǒng)計等功能。

        5.2 融合通信SmartCare

        SmartCare 為用戶提供Network Insight解決方案,包括業(yè)務質(zhì)量、用戶體驗、網(wǎng)絡性能等。網(wǎng)絡及業(yè)務信令實時流入,一方面被存儲下來作為詳單存儲和查詢;另一方面被匯總計算得到統(tǒng)計結(jié)果,用于OLAP 分析和報表查詢。Infosea HDFS 和HBase 被用于詳單存儲,MR 被用于匯總計算。

        其中,HBase 單點入庫1.3 萬條/s(4.5 MB/s),MR 服務器單點入庫1.2 萬條/s,單點存儲空間為9.6 T(2 T×8 塊),xDR 單據(jù)產(chǎn)生速率為28.1 萬條/s,每條362 Byte。

        圖8 日志詳單系統(tǒng)模型

        5.3 某省日志詳單系統(tǒng)

        日志詳單類數(shù)據(jù)云存儲系統(tǒng)基于x86 PC 服務器集群,通過軟件系統(tǒng)實現(xiàn)高性能和海量存儲,具體如圖8所示。

        設計目標如下。

        ①高可靠性,通過數(shù)據(jù)和服務冗余、分布式鎖系統(tǒng)來解決PC 硬件故障率較高的問題。

        ②高可伸縮性,系統(tǒng)可以容易地增加或者減少容量和性能。

        業(yè)務描述如下。

        ①基于HDFS的數(shù)據(jù)存儲服務:為數(shù)據(jù)庫系統(tǒng)提供海量結(jié)構化數(shù)據(jù)的存儲服務,通常使用具備冗余存儲、自動負載均衡能力的云計算分布式文件系統(tǒng)。

        ②基于MR 和Hive的數(shù)據(jù)查詢服務: 完成用戶查詢的分解、轉(zhuǎn)換、執(zhí)行、結(jié)果收集和優(yōu)化工作,由于數(shù)據(jù)可能被分配在很多存儲服務節(jié)點上,數(shù)據(jù)查詢服務必須具備分布式查詢執(zhí)行和結(jié)果收集能力,同時考慮到硬件的不可靠性,數(shù)據(jù)查詢服務需要具備很高的容錯能力。

        ③數(shù)據(jù)接口和訪問層:連接應用程序和數(shù)據(jù)查詢服務。主要對應用提供兩類接口:數(shù)據(jù)存取接口,如針對非結(jié)構化數(shù)據(jù)的HDFS 接口; 數(shù)據(jù)查詢分析接口,MR 接口、標準JDBC/SQL 接口等。

        6 結(jié)束語

        隨著互聯(lián)網(wǎng)業(yè)務的高速發(fā)展,大數(shù)據(jù)的廣泛應用是業(yè)務發(fā)展的趨勢。運營商需要加強對大數(shù)據(jù)的管理,對網(wǎng)絡和業(yè)務系統(tǒng)進行全方位覆蓋,深刻理解業(yè)務,精確洞察數(shù)據(jù),充分發(fā)揮數(shù)據(jù)價值。后續(xù),大數(shù)據(jù)技術與流量經(jīng)營相結(jié)合,對大數(shù)據(jù)應用價值探索,構建大數(shù)據(jù)流量增值體系將是研究的重點。

        猜你喜歡
        海量結(jié)構化分布式
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        促進知識結(jié)構化的主題式復習初探
        結(jié)構化面試方法在研究生復試中的應用
        計算機教育(2020年5期)2020-07-24 08:53:00
        海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
        當代陜西(2019年14期)2019-08-26 09:42:00
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        一個圖形所蘊含的“海量”巧題
        基于DDS的分布式三維協(xié)同仿真研究
        雷達與對抗(2015年3期)2015-12-09 02:38:50
        基于圖模型的通用半結(jié)構化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        西門子 分布式I/O Simatic ET 200AL
        青青草97国产精品免费观看| 成人免费播放视频影院| 人妻精品视频一区二区三区| 美女把尿囗扒开让男人添| 亚洲乱亚洲乱妇| 免费无码av片在线观看| 国产综合精品久久久久成人| 亚洲伊人成综合人影院| 国产精品精品国产色婷婷| 亚洲加勒比久久88色综合| 精品久久久噜噜噜久久久| 精品福利一区| 国产精品国产三级国产一地 | 国产精品福利自产拍久久 | 久久日本三级韩国三级| 成人无码激情视频在线观看| 女女同女同一区二区三区| 免费看又色又爽又黄的国产软件| 国产精品制服| 日本午夜国产精彩| 日本加勒比一道本东京热| 日本一区二区在线高清| 国产午夜伦鲁鲁| 国产在线一区观看| 色婷婷亚洲一区二区在线| 无套无码孕妇啪啪| 久久久久久久岛国免费观看| 亚洲无码夜夜操| 亚洲丝袜美腿精品视频| 亚洲国产成人精品无码区在线秒播| 久久综合九色综合网站| 午夜家庭影院| 日本午夜理伦三级好看| 亚洲精品成人无百码中文毛片| 少妇扒开毛茸茸的b自慰| 妓院一钑片免看黄大片| 无遮挡十八禁在线视频国产制服网站 | 一区二区三区内射美女毛片| 2021国产精品国产精华| 日韩永久免费无码AV电影| 亚洲天堂线上免费av|