亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代下提升數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)處理能力的變革

        2016-05-14 01:19:44
        信息通信技術(shù) 2016年4期
        關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)處理數(shù)據(jù)中心

        中國(guó)聯(lián)通上海分公司 上海 200050

        引言

        伴隨著運(yùn)營(yíng)商企業(yè)分析粒度和維度的不斷擴(kuò)大,對(duì)企業(yè)經(jīng)營(yíng)的分析已轉(zhuǎn)換到數(shù)據(jù)價(jià)值的提升,隨著數(shù)據(jù)信息采集范圍的擴(kuò)大、時(shí)效性要求的提升、數(shù)據(jù)量級(jí)從MB上升到TB、PB的范圍,諸多方面的變化使得傳統(tǒng)IT技術(shù)架構(gòu)支撐有些力不從心。

        云計(jì)算技術(shù)的興起,給傳統(tǒng)企業(yè)數(shù)據(jù)中心一個(gè)突破的契機(jī),時(shí)下有關(guān)數(shù)據(jù)的海量處理和存儲(chǔ)的研究正處于熱潮,分布式并行處理技術(shù)日益成熟,使得Hadoop平臺(tái)脫穎而出,成為分布式處理的寵兒 。

        運(yùn)營(yíng)商的IT系統(tǒng)確定未來的發(fā)展方向,是以“集中大數(shù)據(jù)為核心,頂層設(shè)計(jì)引領(lǐng)IT建設(shè),服務(wù)下沉,助力客戶感知”為總體戰(zhàn)略。改變?cè)瓉砻總€(gè)系統(tǒng)從應(yīng)用到數(shù)據(jù),全部是煙囪式的建設(shè)模式。未來要全部轉(zhuǎn)變?yōu)椤捌脚_(tái)+應(yīng)用”的模式,構(gòu)建唯一、集中、開放的大數(shù)據(jù)平臺(tái),并在這個(gè)平臺(tái)上構(gòu)建各種各樣的應(yīng)用。上海聯(lián)通數(shù)據(jù)中心也意識(shí)到這個(gè)生態(tài)環(huán)境的變化,并在逐步推進(jìn)改革。

        1 傳統(tǒng)經(jīng)分架構(gòu)的解析

        1.1 上海聯(lián)通傳統(tǒng)經(jīng)分業(yè)務(wù)架構(gòu)

        上海聯(lián)通傳統(tǒng)經(jīng)營(yíng)分析數(shù)據(jù)倉庫建設(shè)項(xiàng)目從2009年開始建設(shè),采用傳統(tǒng)IOE技術(shù)架構(gòu),整合BSS移動(dòng)業(yè)務(wù)計(jì)費(fèi)系統(tǒng)、CRM客戶關(guān)系管理系統(tǒng)、客戶服務(wù)系統(tǒng)等省份生產(chǎn)系統(tǒng)數(shù)據(jù),同時(shí)補(bǔ)充了集團(tuán)統(tǒng)一下發(fā)的移動(dòng)用戶互聯(lián)網(wǎng)標(biāo)簽數(shù)據(jù)、集團(tuán)數(shù)據(jù)挖掘模型標(biāo)簽數(shù)據(jù)、電子渠道受理數(shù)據(jù)。按照三個(gè)統(tǒng)一(統(tǒng)一指標(biāo)名稱、統(tǒng)一指標(biāo)口徑、統(tǒng)一指標(biāo)加工)的要求,將各種數(shù)據(jù)做標(biāo)準(zhǔn)抽取、轉(zhuǎn)換、加工,搭建企業(yè)級(jí)數(shù)據(jù)倉庫。通過數(shù)據(jù)倉庫的建立打破信息孤島,對(duì)數(shù)據(jù)進(jìn)行集中管理,使各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)相互共享。上海聯(lián)通數(shù)據(jù)倉庫目前主要支撐企業(yè)報(bào)表、專題分析、營(yíng)銷維系活動(dòng)等應(yīng)用,基于準(zhǔn)確的歷史數(shù)據(jù)提供專題分析報(bào)告為企業(yè)營(yíng)銷活動(dòng)的開展提供決策支持[1]。

        1.2 上海聯(lián)通傳統(tǒng)數(shù)據(jù)倉庫的技術(shù)結(jié)構(gòu)

        上海聯(lián)通傳統(tǒng)數(shù)據(jù)倉庫以關(guān)系型數(shù)據(jù)庫Oracle為基礎(chǔ),以ETL為樞紐連接ODS接口層、DWA/DWD數(shù)據(jù)匯總層、DM數(shù)據(jù)集市層,經(jīng)由聯(lián)機(jī)分析處理工具、數(shù)據(jù)挖掘工具以及決策人員的專業(yè)知識(shí),運(yùn)用OLAP和數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)倉庫加工好的單用戶進(jìn)行多維分析和挖掘。其技術(shù)結(jié)構(gòu)體系如圖1所示。

        圖1 技術(shù)結(jié)構(gòu)體系

        2 傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)加工瓶頸及云化探索

        2.1 傳統(tǒng)數(shù)據(jù)倉庫加工瓶頸

        隨著3G、4G業(yè)務(wù)的快速發(fā)展,數(shù)據(jù)量不斷增大,導(dǎo)致數(shù)據(jù)中心數(shù)據(jù)分析的處理量劇增,傳統(tǒng)數(shù)據(jù)倉庫加工出現(xiàn)瓶頸,IOE環(huán)境的負(fù)載隨業(yè)務(wù)規(guī)模及建設(shè)內(nèi)容增長(zhǎng)會(huì)逐步達(dá)到極限,基于IOE環(huán)境可擴(kuò)展性差,從歷史經(jīng)驗(yàn)看可以通過對(duì)現(xiàn)有IOE環(huán)境進(jìn)行擴(kuò)容或?qū)ΜF(xiàn)有加工內(nèi)容進(jìn)行遷移重構(gòu)的方式來降低IOE環(huán)境負(fù)載。同時(shí)由于數(shù)據(jù)采集內(nèi)容的擴(kuò)展,例如互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù),信令數(shù)據(jù)已經(jīng)打破原有數(shù)據(jù)格式內(nèi)容,IOE架構(gòu)已經(jīng)達(dá)到極限[2]。

        2.2 運(yùn)營(yíng)商對(duì)云化的探索

        隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代到來及云計(jì)算的興起,傳統(tǒng)的IOE技術(shù)架構(gòu)正在逐漸演化成為新一代的X86,閃存、開源應(yīng)用平臺(tái)、數(shù)據(jù)平臺(tái)等技術(shù)為基礎(chǔ)的新一代技術(shù)架構(gòu)[3]。

        所謂的“IOE”是指,IBM是服務(wù)器提供商,Oracle是數(shù)據(jù)庫軟件提供商,EMC則是存儲(chǔ)設(shè)備提供商,三者構(gòu)成了一個(gè)從軟件到硬件的企業(yè)數(shù)據(jù)庫系統(tǒng),IOE架構(gòu)的特點(diǎn):基于向上擴(kuò)展(Scale-up)技術(shù)的高端設(shè)備以及圍繞著它們開發(fā)的專有硬件、大型數(shù)據(jù)庫和商業(yè)中間件(IOE的框架如圖2所示)。而對(duì)于運(yùn)營(yíng)商而言,因?yàn)槠錁I(yè)務(wù)的爆炸式增長(zhǎng),原有的擴(kuò)展方式從技術(shù)及投入上均已不能滿足業(yè)務(wù)發(fā)展趨勢(shì)。

        圖2 IOE的框架圖

        去IOE的難點(diǎn)核心是去Oracle數(shù)據(jù)庫,由于其與運(yùn)營(yíng)商業(yè)務(wù)密切關(guān)聯(lián),去IOE的本質(zhì)是“分布式+開源”架構(gòu)替代“集中式+封閉”架構(gòu),變成徹底的云計(jì)算服務(wù)模式。IOE環(huán)境與Hadoop環(huán)境架構(gòu)擴(kuò)容特點(diǎn)比較見圖3。

        圖3 擴(kuò)展性比較

        2.3 大數(shù)據(jù)的特點(diǎn)

        大數(shù)據(jù)是一個(gè)比較寬泛的概念,它包含大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算,其中大數(shù)據(jù)計(jì)算可大致分為計(jì)算邏輯相對(duì)簡(jiǎn)單的大數(shù)據(jù)統(tǒng)計(jì)、以及計(jì)算邏輯相對(duì)復(fù)雜的大數(shù)據(jù)預(yù)測(cè)。大數(shù)據(jù)存儲(chǔ)解決了大數(shù)據(jù)技術(shù)中的首要問題,即海量數(shù)據(jù)首先要能保存下來,才能有后續(xù)的處理。因此毫無疑問大數(shù)據(jù)存儲(chǔ)是非常重要的[4]。

        關(guān)系型數(shù)據(jù)庫擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù),且成本比較昂貴。非結(jié)構(gòu)化數(shù)據(jù)由Hadoop加工處理解決成本問題。同時(shí)為了應(yīng)對(duì)數(shù)據(jù)量大、實(shí)時(shí)性要求高的數(shù)據(jù)處理需求,引入流處理機(jī)制,常見的流數(shù)據(jù)如信令數(shù)據(jù)和微博信息。流數(shù)據(jù)強(qiáng)調(diào)的是實(shí)時(shí)處理與分析而非數(shù)據(jù)存儲(chǔ),所以一般只在內(nèi)存中處理,不落地存儲(chǔ)在磁盤上,但必要時(shí)也可以持久化。

        業(yè)內(nèi)對(duì)大數(shù)據(jù)技術(shù)架構(gòu)進(jìn)行了詳細(xì)對(duì)比,包括Hadoop大數(shù)據(jù)處理平臺(tái)與傳統(tǒng)MPP數(shù)據(jù)庫架構(gòu)及技術(shù)的優(yōu)劣比較,在業(yè)內(nèi)的經(jīng)驗(yàn)基礎(chǔ)上對(duì)于此應(yīng)用的技術(shù)實(shí)現(xiàn)方式最終決定采用“數(shù)據(jù)庫混搭架構(gòu)”來支撐公司的大數(shù)據(jù)處理分析(表1為大數(shù)據(jù)平臺(tái)架構(gòu)對(duì)比)。

        表1 大數(shù)據(jù)平臺(tái)架構(gòu)對(duì)比

        2.4 云化的意義

        針對(duì)上海聯(lián)通結(jié)構(gòu)化數(shù)據(jù)量大、數(shù)據(jù)模型復(fù)雜的特點(diǎn),采取異構(gòu)混搭的技術(shù)架構(gòu),可以縮短統(tǒng)一數(shù)據(jù)加工時(shí)間、同時(shí)升級(jí)現(xiàn)有系統(tǒng)數(shù)據(jù)處理能力,使得信息及時(shí)傳遞,同時(shí)進(jìn)行全量數(shù)據(jù)管理,實(shí)現(xiàn)高可擴(kuò)展性[5]。采用分布式集群技術(shù),適合數(shù)據(jù)快速地寫入和快速檢索,可滿足海量數(shù)據(jù)的加工需求。云化之后利用分布式并行處理技術(shù)減小數(shù)據(jù)倉庫的擴(kuò)容壓力;提升數(shù)據(jù)作業(yè)的處理速度及系統(tǒng)的響應(yīng)速度。

        3 基于混搭架構(gòu)支撐能力解決方案

        3.1 大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)

        采用混搭結(jié)構(gòu)的大數(shù)據(jù)分析平臺(tái),對(duì)不同的數(shù)據(jù)采用不同的數(shù)據(jù)處理技術(shù),應(yīng)用不同的場(chǎng)景。分布式處理平臺(tái)來處理大量低價(jià)值、低密度的數(shù)據(jù),經(jīng)過處理、加工后,得出高價(jià)值、高聚合數(shù)據(jù),通過Oracle或者M(jìn)Y SQL、MPP數(shù)據(jù)庫提供業(yè)務(wù)進(jìn)行使用[6]。這樣既能滿足數(shù)據(jù)的處理性能,又能滿足業(yè)務(wù)使用的響應(yīng)。如圖4所示。

        大數(shù)據(jù)平臺(tái)可以加強(qiáng)數(shù)據(jù)與系統(tǒng)管理的功能,如元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、系統(tǒng)管理。1)數(shù)據(jù)質(zhì)量管理建立數(shù)據(jù)質(zhì)量變更協(xié)同管理,補(bǔ)充數(shù)據(jù)質(zhì)量稽核規(guī)則,優(yōu)化質(zhì)量監(jiān)控和評(píng)估功能,逐步實(shí)現(xiàn)企業(yè)全程數(shù)據(jù)的監(jiān)管,以輔助數(shù)據(jù)質(zhì)量提升。2)元數(shù)據(jù)管理提升元數(shù)據(jù)的獲取、存儲(chǔ)、分析和維護(hù)。3)利用系統(tǒng)管理在數(shù)據(jù)分析系統(tǒng)中扮演著面向全局總體控制、總體協(xié)調(diào)及總體管理的核心管理角色,保證數(shù)據(jù)分析系統(tǒng)能夠安全和穩(wěn)定地運(yùn)行。

        應(yīng)用層在系統(tǒng)功能架構(gòu)上進(jìn)行了適度的解耦,提升了基礎(chǔ)功能復(fù)用能力,并要求提供系統(tǒng)應(yīng)用的角色適配能力。應(yīng)用層在技術(shù)上要求逐步以組件化方式實(shí)現(xiàn)KPI、多維分析、即席查詢、報(bào)表分析等基礎(chǔ)功能,并通過調(diào)用和編排基礎(chǔ)功能組件集中解決各類業(yè)務(wù)問題[7]。

        圖4 大數(shù)據(jù)分析平臺(tái)技術(shù)架構(gòu)

        3.2 大數(shù)據(jù)平臺(tái)數(shù)據(jù)架構(gòu)

        數(shù)據(jù)層架構(gòu)涵蓋上海聯(lián)通數(shù)據(jù)分析系統(tǒng)從各業(yè)務(wù)源系統(tǒng)中將相關(guān)業(yè)務(wù)數(shù)據(jù)(省分B域數(shù)據(jù)、集團(tuán)橫向系統(tǒng)數(shù)據(jù)、O域互聯(lián)網(wǎng)詳單數(shù)據(jù))進(jìn)行抽取、清洗、加工、整理并加載到數(shù)據(jù)倉庫的全過程;數(shù)據(jù)層通過文件處理或流處理,提高集中數(shù)據(jù)分析系統(tǒng)獲取數(shù)據(jù)的及時(shí)性,為企業(yè)應(yīng)用提供技術(shù)支撐[7]。

        數(shù)據(jù)層實(shí)現(xiàn)對(duì)企業(yè)數(shù)據(jù)倉庫和元數(shù)據(jù)的集中存儲(chǔ)與管理,并根據(jù)需求建立面向業(yè)務(wù)應(yīng)用的數(shù)據(jù)集市。數(shù)據(jù)層既是數(shù)據(jù)和信息集中管理的存儲(chǔ)中心,也是數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)加工中心,經(jīng)過數(shù)據(jù)匯總、數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘等技術(shù)手段對(duì)企業(yè)數(shù)據(jù)進(jìn)行提煉和精加工,形成指標(biāo)、多維數(shù)據(jù)、報(bào)表數(shù)據(jù)、挖掘結(jié)果和知識(shí)數(shù)據(jù)等各類信息。大數(shù)據(jù)分析平臺(tái)引入Hadoop、HBase等分布式處理技術(shù),并結(jié)合原有的事務(wù)性數(shù)據(jù)庫Oracle,組合成為分布式混搭結(jié)構(gòu),將不同的技術(shù)運(yùn)用到其適合的應(yīng)用場(chǎng)景和業(yè)務(wù)場(chǎng)景,讓各類技術(shù)在其優(yōu)勢(shì)能力方面充分發(fā)揮,以整體上提升企業(yè)數(shù)據(jù)中心、業(yè)務(wù)分析等平臺(tái)應(yīng)用的服務(wù)能力[8]?;齑罴軜?gòu)的大數(shù)據(jù)平臺(tái)中,Hadoop負(fù)責(zé)海量數(shù)據(jù)的長(zhǎng)久存儲(chǔ)、清洗、邏輯處理、海量數(shù)據(jù)挖掘等工作;Hbase承擔(dān)海量數(shù)據(jù)快速查詢的任務(wù);Oracle則肩負(fù)事物數(shù)據(jù)處理、應(yīng)用高并發(fā)、高效事物訪問等使命。

        綜合考慮上海聯(lián)通的業(yè)務(wù)數(shù)據(jù)特點(diǎn),采用Hadoop+Oracle的混搭架構(gòu),構(gòu)建分布式云化大數(shù)據(jù)平臺(tái),可以解決目前企業(yè)數(shù)據(jù)中心迫切需要解決的諸多問題。

        3.3 平臺(tái)混搭架構(gòu)的優(yōu)勢(shì)

        為適應(yīng)不同的場(chǎng)景、不同的應(yīng)用需要,深度定制的混搭結(jié)構(gòu),

        3.4 上海聯(lián)通大數(shù)據(jù)分析平臺(tái)實(shí)施方案

        1)總體架構(gòu)。經(jīng)過對(duì)上海聯(lián)通的業(yè)務(wù)特點(diǎn)以及數(shù)據(jù)處理的要求,采用Oracle、Hadoop結(jié)合在一起的混搭架構(gòu),Hadoop負(fù)責(zé)基礎(chǔ)數(shù)據(jù)加工,主要針對(duì)處理邏輯復(fù)雜但不需深度關(guān)聯(lián)數(shù)據(jù)處理工作;Oracle負(fù)責(zé)深度關(guān)聯(lián)數(shù)據(jù)處理,并統(tǒng)一對(duì)外提供數(shù)據(jù)服務(wù)[9]。

        2)技術(shù)架構(gòu)。上海聯(lián)通大數(shù)據(jù)平臺(tái)根據(jù)不同技術(shù)的優(yōu)越特性,以不同的技術(shù)相結(jié)合方式,應(yīng)用在平臺(tái)的不同層次中,解決不同數(shù)據(jù)以及應(yīng)用場(chǎng)景不同的數(shù)據(jù)分層分級(jí)服務(wù)的能力,通過各層的數(shù)據(jù)能力的劃分、合理使用,提升系統(tǒng)的服務(wù)能力,如表2所示。大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)如圖5所示。

        3)應(yīng)用架構(gòu)。通過對(duì)混搭平臺(tái)優(yōu)勢(shì)的研究以及云化大數(shù)據(jù)平臺(tái)的經(jīng)典架構(gòu)理論探討,結(jié)合中國(guó)聯(lián)通大數(shù)據(jù)平臺(tái)建設(shè)總體指導(dǎo)建議,上海聯(lián)通基于X86 PC Server、DCN網(wǎng)絡(luò)等硬件環(huán)境,構(gòu)建了基礎(chǔ)省分二級(jí)大數(shù)據(jù)平臺(tái)IaaS基礎(chǔ)環(huán)境。部署搭建基于Hadoop分布式運(yùn)算環(huán)境的大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)企業(yè)數(shù)據(jù)中心的云化,以提升企業(yè)數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)能力、邏輯運(yùn)算能力、數(shù)據(jù)挖掘能力、快速響應(yīng)能力、業(yè)務(wù)支撐能力、平臺(tái)管理能力[10]。

        依托大數(shù)據(jù)平臺(tái)的優(yōu)越性,豐富經(jīng)營(yíng)分析、企業(yè)管理、業(yè)務(wù)分析挖掘等方面的優(yōu)質(zhì)應(yīng)用,使得多維度、多系統(tǒng)的數(shù)據(jù)通過大數(shù)據(jù)分析平臺(tái)進(jìn)行整合,形成數(shù)據(jù)合力,提升數(shù)據(jù)的應(yīng)用價(jià)值,如圖6所示。

        表2 大數(shù)據(jù)平臺(tái)能力表

        圖5 大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)圖

        圖6 大數(shù)據(jù)平臺(tái)業(yè)務(wù)架構(gòu)圖

        3.5 大數(shù)據(jù)處理平臺(tái)模型

        1)基本原則。上海聯(lián)通大數(shù)據(jù)平臺(tái)數(shù)據(jù)模型設(shè)計(jì)采用自頂向下與自底向上相結(jié)合的方法進(jìn)行設(shè)計(jì)。以企業(yè)級(jí)數(shù)據(jù)模型為指導(dǎo),結(jié)合生產(chǎn)系統(tǒng)相關(guān)規(guī)范,參考業(yè)界標(biāo)桿SID、行業(yè)成熟模型,先建立概念模型,再在概念模型的基礎(chǔ)上進(jìn)行細(xì)化設(shè)計(jì)邏輯模型。

        2)平臺(tái)分層架構(gòu)。大數(shù)據(jù)分析平臺(tái)實(shí)施參照數(shù)據(jù)倉庫技術(shù),通過建立企業(yè)級(jí)數(shù)據(jù)中心,通過分層分域的管理,一方面實(shí)現(xiàn)KPI、報(bào)表、主題分析、專題分析、數(shù)據(jù)挖掘等分析功能,滿足總部、省分、地市、區(qū)縣、一線營(yíng)銷人員的數(shù)據(jù)分析需求;另一方面與生產(chǎn)系統(tǒng)進(jìn)行信息互動(dòng),可以為生產(chǎn)系統(tǒng)提供各類信息的反饋和互動(dòng)。大數(shù)據(jù)平臺(tái)數(shù)據(jù)分層架構(gòu)如圖7所示。

        圖7 大數(shù)據(jù)平臺(tái)數(shù)據(jù)分層架構(gòu)圖

        4 平臺(tái)能力在生產(chǎn)應(yīng)用效果提升

        經(jīng)過半年的實(shí)施周期,上海聯(lián)通從控制成本、保證業(yè)務(wù)需求的支撐、能夠適應(yīng)新形勢(shì)的要求下,搭建了混搭結(jié)構(gòu)的大數(shù)據(jù)分析平臺(tái)。支撐海量數(shù)據(jù)的處理、提升數(shù)據(jù)能力,使數(shù)據(jù)中心由原來提供單一的企業(yè)經(jīng)分分析決策的架構(gòu)能力轉(zhuǎn)變到適應(yīng)大數(shù)據(jù)的處理的能力,從數(shù)據(jù)價(jià)值出發(fā),為大數(shù)據(jù)變現(xiàn)提供豐富的能力支撐。

        4.1 數(shù)據(jù)源拓展

        大數(shù)據(jù)分析平臺(tái)的建設(shè)完成,全面進(jìn)行了數(shù)據(jù)的整合能力的提升,將B域、M域、O域、其他外部數(shù)據(jù)統(tǒng)一進(jìn)行數(shù)據(jù)的管理,在規(guī)劃數(shù)據(jù)的采集能力、數(shù)據(jù)的生產(chǎn)加工能力、數(shù)據(jù)架構(gòu)的治理方面提供了有力抓手。從原來的單一B域的數(shù)據(jù)來源,逐步豐富到了16個(gè)數(shù)據(jù)采集源的擴(kuò)充;數(shù)據(jù)采集方案由原來的DBLINK方式調(diào)整為文件級(jí)的入庫方式,減輕了多點(diǎn)訪問生產(chǎn)庫的壓力,提升了數(shù)據(jù)的入庫和處理效率[11]。

        4.2 數(shù)據(jù)存儲(chǔ)能力提升

        大數(shù)據(jù)平臺(tái)采用3 1臺(tái)P C Server構(gòu)建HDFS分布式文件系統(tǒng),借助于HDFS分布式文件系統(tǒng)的數(shù)據(jù)文件自動(dòng)備份策略,在低廉的硬件投資下有效提升了數(shù)據(jù)存儲(chǔ)周期,為長(zhǎng)周期數(shù)據(jù)分析和挖掘提供可靠的數(shù)據(jù)保證,投資成本得到控制,數(shù)據(jù)存儲(chǔ)能力得到提升。

        HDFS分布式文件系統(tǒng)具備良好擴(kuò)展能力,企業(yè)數(shù)據(jù)中心中數(shù)據(jù)存儲(chǔ)量達(dá)到預(yù)設(shè)警戒值后,可以通過添加PC Server進(jìn)行快速水平擴(kuò)展,以提升大數(shù)據(jù)平臺(tái)的數(shù)據(jù)存儲(chǔ)能力和邏輯運(yùn)算能力。

        4.3 邏輯運(yùn)算能力提升

        采用業(yè)內(nèi)的Hadoop分布式計(jì)算框架MapReduce為大數(shù)據(jù)平臺(tái),確保了平臺(tái)的高效運(yùn)算能力,基于MapReduce運(yùn)算能力的類SQL數(shù)據(jù)倉庫Hive,提升了SQL的高效處理能力,其海量數(shù)據(jù)處理卓越的性能讓大數(shù)據(jù)平臺(tái)增色不少。較原有小機(jī)+Oracle架構(gòu)的數(shù)據(jù)中心,Hive數(shù)據(jù)處理能力上有了質(zhì)的提升,數(shù)據(jù)處理速度普遍提升3到6倍[11]。如表4所示。

        4.4 數(shù)據(jù)導(dǎo)出效率提升

        大數(shù)據(jù)分析平臺(tái)對(duì)外數(shù)據(jù)的輸出和服務(wù)是最常用的手段之一,為實(shí)現(xiàn)快速的數(shù)據(jù)文件共享,則需要要求平臺(tái)中數(shù)據(jù)能夠快速導(dǎo)出成指定格式的文本文件。

        表5實(shí)例驗(yàn)證了Hive數(shù)據(jù)文件導(dǎo)出和Oracle數(shù)據(jù)文件導(dǎo)出的效率比較。

        依托于大數(shù)據(jù)平臺(tái)快速的數(shù)據(jù)導(dǎo)出能力,可以有效提升總部縱向明細(xì)數(shù)據(jù)生成和上傳的工作效率以及上海聯(lián)通內(nèi)各系統(tǒng)間數(shù)據(jù)文件共享和傳遞,極大地縮短外圍系統(tǒng)等待企業(yè)數(shù)據(jù)中心數(shù)據(jù)生成的時(shí)間,加速各系統(tǒng)間的數(shù)據(jù)共享。

        4.5 平臺(tái)管理能力提升

        大數(shù)據(jù)平臺(tái)端到端的數(shù)據(jù)管控體系,管理數(shù)據(jù)采集、加工、存儲(chǔ)、應(yīng)用、歸檔、刪除等一系列環(huán)節(jié),完成端到端的數(shù)據(jù)管控。光有平臺(tái)能力,沒有相應(yīng)的監(jiān)控工具,就不能同步發(fā)揮平臺(tái)的能力,因此相應(yīng)匹配了平臺(tái)的管理功能[11]。可視化的平臺(tái)管理工具,極大地提升了大數(shù)據(jù)平臺(tái)的管理能力,為日常生產(chǎn)、維護(hù)、數(shù)據(jù)質(zhì)量提供了保障。

        端到端的數(shù)據(jù)管控體系采用體系化的、標(biāo)準(zhǔn)的、可重復(fù)的監(jiān)管機(jī)制和執(zhí)行流程,保證數(shù)據(jù)加工的統(tǒng)一及數(shù)據(jù)流程的透明性,保障數(shù)據(jù)質(zhì)量及數(shù)據(jù)可用性,促進(jìn)企業(yè)數(shù)據(jù)共享、業(yè)務(wù)支撐和數(shù)據(jù)價(jià)值提升。利用業(yè)務(wù)流程驅(qū)動(dòng)機(jī)制,使各個(gè)節(jié)點(diǎn)的控制要素有機(jī)地實(shí)現(xiàn)鏈?zhǔn)接|發(fā),提升企業(yè)數(shù)據(jù)管控的運(yùn)營(yíng)能力和效率。打破信息孤島,提升數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)發(fā)揮出公司核心資源的效用,實(shí)現(xiàn)數(shù)據(jù)的增值。

        表4 抽樣部分核心業(yè)務(wù)數(shù)據(jù)處理邏輯在兩個(gè)架構(gòu)上的效率對(duì)比

        表5 導(dǎo)出效率比較

        4.5.1 生產(chǎn)流程可視化

        大數(shù)據(jù)平臺(tái)生產(chǎn)流程的可視化,使平臺(tái)運(yùn)維人員清晰明了的觀察到平臺(tái)數(shù)據(jù)處理的各個(gè)環(huán)節(jié),及時(shí)發(fā)現(xiàn)生產(chǎn)流程中的異常信息并進(jìn)行干預(yù),以減輕運(yùn)維人員處理后臺(tái)代碼問題的繁雜工作。通過靈活的、跨平臺(tái)、可配置的流程定義、流程調(diào)度、流程管理實(shí)現(xiàn)基于異構(gòu)數(shù)據(jù)庫的混搭架構(gòu)平臺(tái)全流程的可視化ETL調(diào)度。

        4.5.2 日常運(yùn)維可視化

        大數(shù)據(jù)平臺(tái)運(yùn)維可視化,可提升平臺(tái)運(yùn)維人員的工作效率和監(jiān)控環(huán)境,使運(yùn)維人員簡(jiǎn)單、清楚地了解到大數(shù)據(jù)平臺(tái)各節(jié)點(diǎn)軟、硬件的運(yùn)行情況,掌握大數(shù)據(jù)平臺(tái)的健康運(yùn)行狀況,快速鎖定平臺(tái)問題點(diǎn)和問題原因,為平臺(tái)修復(fù)提供依據(jù)。

        通過運(yùn)維監(jiān)控頁面,時(shí)刻了解大數(shù)據(jù)平臺(tái)資源使用情況,設(shè)置資源利用峰值預(yù)警、智能監(jiān)控報(bào)警等措施,提升大數(shù)據(jù)平臺(tái)運(yùn)維管理能力。

        4.5.3 元數(shù)據(jù)管理可視化

        通過元數(shù)據(jù)資源管理、數(shù)據(jù)掃描、數(shù)據(jù)語義定義等功能,實(shí)現(xiàn)基于元數(shù)據(jù)的海量異構(gòu)數(shù)據(jù)管理。

        通過統(tǒng)一元數(shù)據(jù)管理,實(shí)現(xiàn)應(yīng)用與數(shù)據(jù)之間的解耦,即應(yīng)用不需要關(guān)心數(shù)據(jù)存儲(chǔ)在什么地方,只需要通過統(tǒng)一的元數(shù)據(jù)開放接口就能獲取數(shù)據(jù),為應(yīng)用的百花齊放提供數(shù)據(jù)支撐基礎(chǔ)。

        4.5.4 數(shù)據(jù)質(zhì)量管理可視化

        通過基于元數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)源、系統(tǒng)內(nèi)以及對(duì)外服務(wù)的數(shù)據(jù)進(jìn)行規(guī)則配置,并產(chǎn)生稽核結(jié)果,進(jìn)而生成處理工單并觸發(fā)工單處理流程,以此形成問題預(yù)防—發(fā)現(xiàn)—處理—總結(jié)—反饋的模式,推進(jìn)數(shù)據(jù)質(zhì)量的提升,稽核規(guī)則的完善。

        4.6 用戶查詢的快速響應(yīng)能力提升

        采用分布式列存數(shù)據(jù)庫Hbase,實(shí)現(xiàn)上海聯(lián)通用戶的全生命周期軌跡快速查詢,為客服等業(yè)務(wù)部門提供快速查詢服務(wù)。以Hive為生產(chǎn)系統(tǒng)的用戶生命軌跡數(shù)據(jù)進(jìn)行歸集和預(yù)處理,Hbase列式存儲(chǔ)提供快速點(diǎn)查詢支撐,達(dá)到10億記錄的生命周期軌跡倉庫中,單一用戶查詢響應(yīng)速度不超過3秒。

        5 總結(jié)

        通過對(duì)傳統(tǒng)數(shù)據(jù)倉庫的技術(shù)變革,實(shí)現(xiàn)了數(shù)據(jù)中心由傳統(tǒng)的IOE技術(shù)支撐架構(gòu)向大數(shù)據(jù)分析平臺(tái)的混搭式分布式計(jì)算架構(gòu)的轉(zhuǎn)變,在技術(shù)支撐能力方面邁進(jìn)了一步[12]。

        在數(shù)據(jù)倉庫的技術(shù)變革過程中依據(jù)運(yùn)營(yíng)商的數(shù)據(jù)特點(diǎn),采用分布式數(shù)據(jù)庫與oracle數(shù)據(jù)庫混搭架構(gòu)模式來支撐帶來如下好處。1)突破了傳統(tǒng)商業(yè)智能分析系統(tǒng)側(cè)重結(jié)構(gòu)化數(shù)據(jù)的局限,實(shí)現(xiàn)數(shù)據(jù)源的拓展,不同的數(shù)據(jù)源采集方式為后續(xù)的數(shù)據(jù)源的擴(kuò)充提供了基礎(chǔ)。2)利用Hadoop+Hbase+MapReduce的數(shù)據(jù)處理能力,極大的提升了數(shù)據(jù)生產(chǎn)加工的效率,為數(shù)據(jù)中心生產(chǎn)加工能力的提升奠定了基礎(chǔ)。3)采用混搭架構(gòu)的衍進(jìn)策略使得傳統(tǒng)數(shù)據(jù)中心的各種應(yīng)用能平滑的過度,避免數(shù)據(jù)應(yīng)用模式較大的改變。4)很好利用了混搭架構(gòu)中,Hadoop的快速處理能力以及oracle的數(shù)據(jù)多維度聯(lián)機(jī)分析的處理能力,使得應(yīng)用的支撐更為豐富和多樣。5)大數(shù)據(jù)分析處理平臺(tái)的可擴(kuò)展能力強(qiáng),給數(shù)據(jù)的存儲(chǔ)提供了新的方向,讓歷史數(shù)據(jù)的信息可以有效保存,形成不同的生命周期的數(shù)據(jù),進(jìn)一步提升數(shù)據(jù)的價(jià)值。

        6 展望

        新型大數(shù)據(jù)分析處理平臺(tái)的搭建,為后續(xù)大數(shù)據(jù)應(yīng)用支撐以及數(shù)據(jù)價(jià)值的變現(xiàn)方面,提供了強(qiáng)有力的支撐。對(duì)于大數(shù)據(jù)處理來說,數(shù)據(jù)是素材,平臺(tái)是工具。工欲善其事,必先利其器。大數(shù)據(jù)各個(gè)層次的平臺(tái)已經(jīng)日臻成熟,我們對(duì)其原理與架構(gòu)也清晰明了。而海量數(shù)據(jù)中蘊(yùn)含的巨大價(jià)值能否被有效挖掘,在我們提供很好的平臺(tái)架構(gòu)的同時(shí),還需要共同著力大數(shù)據(jù)應(yīng)用的開發(fā)。

        [1]王連月.BI平臺(tái)下的運(yùn)營(yíng)分析系統(tǒng)研究[EB/OL].[2016-1-22].http://articles.e-works.net.cn/BI/Article116402.htm,2014/5/23

        [2]張曉萌.分布式不可行?去IOE的道路到底能走多遠(yuǎn)![EB/OL].[2015-12-20].http://servers.pconline.com.cn/503/5033277.html

        [3]老魚.大尺度剖析電信運(yùn)營(yíng)商"去I O E"之“去O”[EB/OL].[2015-12-20].http://tech.it168.com/a2015/0417/1720/000001720950.shtml

        [4] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013

        [5] 姚宏宇,田溯寧.云計(jì)算:大數(shù)據(jù)時(shí)代的系統(tǒng)工程[M].北京:電子工業(yè)出版社,2013

        [6]祁偉.云計(jì)算:從基礎(chǔ)架構(gòu)到最佳實(shí)踐[M].北京:清華大學(xué)出版社,2013

        [7]部署大數(shù)據(jù)?請(qǐng)參考大數(shù)據(jù)分析平臺(tái)架構(gòu)(Big Data Analytics)[EB/OL].[2016-01-22].http://www.36dsj.com/archives/27047

        [8]康楠.數(shù)據(jù)中心系統(tǒng)工程及應(yīng)用[M].北京:人民郵電出版社,2013

        [9]Alex Holmes.Hadoop硬實(shí)戰(zhàn)[M].北京:電子工業(yè)出版社,2015

        [10]阿爾杰.大數(shù)據(jù)云計(jì)算時(shí)代數(shù)據(jù)中心經(jīng)典案例賞析[M].曾少寧,于佳,譯. 北京:人民郵電出版社,2014

        [11]鄭葉來,陳世峻.分布式云數(shù)據(jù)中心的建設(shè)與管理[M].北京:清華大學(xué)出版社,2013

        [12]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].南寧:廣西師范大學(xué)出版社,2015

        猜你喜歡
        數(shù)據(jù)倉庫數(shù)據(jù)處理數(shù)據(jù)中心
        酒泉云計(jì)算大數(shù)據(jù)中心
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        民航綠色云數(shù)據(jù)中心PUE控制
        分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
        基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
        欧美精品videosse精子| 一区二区三无码| 激情在线视频一区二区三区| 亚洲一区二区三区日本久久九| 久久久www成人免费毛片| 亚洲欧美日本| 制服无码在线第一页| av在线一区二区三区不卡| 人成午夜大片免费视频77777| 国产亚洲人成a在线v网站| 91精品国产免费青青碰在线观看| 中文字幕乱码在线婷婷| 98色婷婷在线| 丰满岳乱妇久久久| 久久夜色精品国产噜噜噜亚洲av| 亚洲国产精品激情综合色婷婷| 国产欧美精品一区二区三区四区 | 久久亚洲中文字幕乱码| 亚洲国产成人片在线观看| 99热这里只有精品国产99热门精品| 日本av在线精品视频| 美女用丝袜脚玩我下面| 国产精品熟女视频一区二区 | 成人特黄特色毛片免费看| 日本精品久久不卡一区二区| 韩国三级中文字幕hd| 夜夜综合网| 国产少妇一区二区三区| 国产精品亚洲一区二区三区| 亚洲国产无套无码av电影| 日韩精品永久免费播放平台| 亚州av高清不卡一区二区| 久久久久免费看成人影片| 久久精品无码鲁网中文电影| av永远在线免费观看| 亚洲人成在久久综合网站| 中文字幕精品一二三四五六七八 | 亚洲gv白嫩小受在线观看| 69搡老女人老妇女老熟妇 | 亚洲sm另类一区二区三区| 双腿张开被9个黑人调教影片|