亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本地化數(shù)據(jù)空間集中調(diào)度的海量數(shù)據(jù)平臺(tái)優(yōu)化策略

        2019-10-18 11:48:08溫立輝
        關(guān)鍵詞:分片數(shù)據(jù)源海量

        溫立輝

        基于本地化數(shù)據(jù)空間集中調(diào)度的海量數(shù)據(jù)平臺(tái)優(yōu)化策略

        溫立輝

        (河源職業(yè)技術(shù)學(xué)院 電子與信息工程學(xué)院,廣東 河源 517000)

        針對(duì)海量數(shù)據(jù)在傳統(tǒng)數(shù)據(jù)集成方式中性能不佳、效率低下問(wèn)題,提出了一種集中式基于數(shù)據(jù)空間的優(yōu)化方案.首先,把平臺(tái)數(shù)據(jù)歸類(lèi)為靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù),以解決傳統(tǒng)集成方式中數(shù)據(jù)量過(guò)大、數(shù)據(jù)種類(lèi)混亂,不利平臺(tái)的實(shí)時(shí)響應(yīng);其次,通過(guò)主/從分離的讀寫(xiě)方式有效降低靜態(tài)數(shù)據(jù)機(jī)器上的節(jié)點(diǎn)負(fù)載,有效提升讀寫(xiě)能力;再次,集群分片存儲(chǔ)方式極大改善了平臺(tái)對(duì)動(dòng)態(tài)數(shù)據(jù)處理能力.與聯(lián)機(jī)事務(wù)分析(OLAP)集成方式相比,本方案依托數(shù)據(jù)切片、配置式數(shù)據(jù)源管理,更加靈活、輕巧,能更好地適應(yīng)復(fù)雜的數(shù)據(jù)環(huán)境,適合中小企業(yè)對(duì)海量數(shù)據(jù)運(yùn)維的需求.

        大數(shù)據(jù);水平切片;時(shí)間維度;主/從;讀寫(xiě)分離;連接工廠

        隨著互聯(lián)網(wǎng)、云計(jì)算發(fā)展,信息數(shù)據(jù)快速增長(zhǎng),數(shù)據(jù)的價(jià)值越來(lái)越吸引人們的視線,成為當(dāng)下主流、火熱的主題[1].海量數(shù)據(jù)時(shí)代的到來(lái)對(duì)企業(yè)來(lái)說(shuō)既是一個(gè)挑戰(zhàn)也是一個(gè)機(jī)遇,大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析帶來(lái)了極大的挑戰(zhàn)[2,3].海量據(jù)時(shí)代,人們能從數(shù)據(jù)中獲得可轉(zhuǎn)化為推動(dòng)人類(lèi)生活方式變革的有價(jià)值知識(shí),它將成為下一個(gè)科技創(chuàng)新、市場(chǎng)競(jìng)爭(zhēng)與生產(chǎn)力提高的前沿[4].傳統(tǒng)的OLAP數(shù)據(jù)集成方式采用的是數(shù)據(jù)倉(cāng)庫(kù)模式,分為4層:數(shù)據(jù)源、數(shù)據(jù)集市、分析服務(wù)、前端展現(xiàn),數(shù)據(jù)源的數(shù)據(jù)通過(guò)ETL工具轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫(kù)中, 然后分析工具從數(shù)據(jù)倉(cāng)庫(kù)中讀取數(shù)據(jù), 生成數(shù)據(jù)立方體(MOLAP)供前端進(jìn)行多種形式的數(shù)據(jù)展現(xiàn)[5].這種集成方式周期長(zhǎng),且不靈活,不利于行業(yè)的變化發(fā)展.

        利用云計(jì)算平臺(tái)搭建Hadoop計(jì)算框架是當(dāng)前集成大數(shù)據(jù)平臺(tái)的主要方式步[6],然而以此種方式搭建起來(lái)的數(shù)據(jù)平臺(tái)仍有如下幾大方面的問(wèn)題:1)整個(gè)框架結(jié)構(gòu)特別臃腫,不利于日后平臺(tái)的維護(hù)與擴(kuò)充;2)成本過(guò)于高昂,無(wú)法滿足中小企業(yè)對(duì)大數(shù)據(jù)建模的要求;3)由于云計(jì)算的開(kāi)放式與Hadoop應(yīng)用的分布式特性,不可避免的帶來(lái)平臺(tái)運(yùn)營(yíng)上的安全風(fēng)險(xiǎn)[6];4)對(duì)于敏感數(shù)據(jù),運(yùn)營(yíng)于開(kāi)放平臺(tái)上,容易遭受黑客攻擊,而泄露用戶隱私[7].針對(duì)以上海量數(shù)據(jù)平臺(tái)的集成問(wèn)題,本文探討一種安全、高效、靈活的集成、運(yùn)維大數(shù)據(jù)平臺(tái)架構(gòu)方式,特別適合于中小企業(yè)對(duì)大數(shù)據(jù)的建模、運(yùn)維的要求.

        1 整體架構(gòu)

        海量數(shù)據(jù)的核心作用是統(tǒng)計(jì)分析,統(tǒng)計(jì)分析的關(guān)鍵步驟則在于數(shù)據(jù)建模[8],而建模過(guò)程直接跟平臺(tái)集成架構(gòu)方式相耦合[9],因而平臺(tái)的架構(gòu)方式合理與否直接影響到大數(shù)據(jù)的功能價(jià)值.海量數(shù)據(jù)平臺(tái)的架構(gòu)要考慮的因素有多方面,其中一個(gè)很重要的方面是數(shù)據(jù)負(fù)載[10].大數(shù)據(jù)平臺(tái)的重要特征就是海量數(shù)據(jù),且數(shù)據(jù)類(lèi)型有:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等形式[11],因此數(shù)據(jù)負(fù)載是大數(shù)據(jù)架構(gòu)的核心要點(diǎn).

        傳統(tǒng)海量數(shù)據(jù)集成采用分布的結(jié)構(gòu)[12],本數(shù)據(jù)集成架構(gòu)方式則采用集中式中央處理,如圖1所示,整個(gè)平臺(tái)簡(jiǎn)單的劃分為3層,分別為:Web應(yīng)用層、數(shù)據(jù)庫(kù)接口層、數(shù)據(jù)層.Web應(yīng)用層為APP應(yīng)用,由Java或其他面向?qū)ο笳Z(yǔ)言編寫(xiě)的B/S服務(wù),本層與業(yè)務(wù)相關(guān)并非我們的關(guān)注點(diǎn),我們重點(diǎn)關(guān)注數(shù)據(jù)庫(kù)接口層與數(shù)據(jù)層.

        1.1 數(shù)據(jù)庫(kù)接口層

        數(shù)據(jù)庫(kù)接口層有兩臺(tái)服務(wù)器組成,一臺(tái)為接口服務(wù)主機(jī),負(fù)責(zé)響應(yīng)Web層的數(shù)據(jù)業(yè)務(wù)請(qǐng)求,另一臺(tái)為接口服務(wù)熱備主機(jī),通過(guò)心跳檢測(cè)的方式相連,當(dāng)服務(wù)主機(jī)出現(xiàn)故障時(shí),熱備主機(jī)能自動(dòng)檢測(cè)到,并自動(dòng)替代服務(wù)主機(jī)提供相應(yīng)的接口服務(wù),Web應(yīng)用層與此層之間是REST方式:http+json進(jìn)行接口通信.REST是一種與WebService相似的通信方式,其復(fù)雜度比WebService要小,靈活性與擴(kuò)展性比WebService更強(qiáng)大,實(shí)現(xiàn)方式更簡(jiǎn)單,很多插件都提供對(duì)REST的完美支持,如Java語(yǔ)言的Spring框架.

        1.2 數(shù)據(jù)層

        數(shù)據(jù)層由若干臺(tái)數(shù)據(jù)庫(kù)服務(wù)器主機(jī)與備份機(jī)組成,主機(jī)與備份機(jī)之間通過(guò)心跳檢測(cè)方式相連.在本層中數(shù)據(jù)庫(kù)服務(wù)器分成2組,一組處理平臺(tái)業(yè)務(wù)數(shù)據(jù),一組處理平臺(tái)系統(tǒng)數(shù)據(jù).因應(yīng)用數(shù)據(jù)具有動(dòng)態(tài)性強(qiáng),數(shù)據(jù)量大的特征,處理平臺(tái)應(yīng)用數(shù)據(jù)的服務(wù)器應(yīng)該占絕大多數(shù),平臺(tái)系統(tǒng)數(shù)據(jù)是系統(tǒng)的管理數(shù)據(jù),如系統(tǒng)的組織結(jié)構(gòu)數(shù)據(jù)、系統(tǒng)用戶數(shù)據(jù)、系統(tǒng)配置數(shù)據(jù)等,此類(lèi)數(shù)據(jù)具有相對(duì)穩(wěn)定、數(shù)據(jù)量相對(duì)較小等特征,因而這一組應(yīng)該占用相對(duì)少的數(shù)據(jù)庫(kù)服務(wù)器即可.應(yīng)用數(shù)據(jù)組的數(shù)據(jù)庫(kù)服務(wù)器按某一維度進(jìn)行水平切片,一般是按時(shí)間順序維度進(jìn)行分片,方便數(shù)據(jù)的管理,同時(shí)對(duì)每一臺(tái)服務(wù)主機(jī)配備一臺(tái)備份機(jī),用心跳的方式進(jìn)行相連.平臺(tái)系統(tǒng)數(shù)據(jù)組的數(shù)據(jù)庫(kù)服務(wù)器采用主/從(Master/Slaver)方式進(jìn)行連接,讀/寫(xiě)實(shí)行分離的方式進(jìn)行運(yùn)作,以提高讀/寫(xiě)的響應(yīng)速度,當(dāng)DB接口層有基礎(chǔ)數(shù)據(jù)寫(xiě)操作的請(qǐng)求時(shí),直接把數(shù)據(jù)寫(xiě)入Master主機(jī),后臺(tái)再異步把數(shù)據(jù)同步到Slaver從機(jī),同步過(guò)程視服務(wù)器的忙碌程度會(huì)有一定的時(shí)間滯后,一般很短,DB接口層有基礎(chǔ)數(shù)據(jù)的讀請(qǐng)求時(shí),直接從Slaver從機(jī)中讀取相關(guān)數(shù)據(jù),從而實(shí)現(xiàn)讀/寫(xiě)操作的分離,減輕服務(wù)器負(fù)載,加快了響應(yīng)的速度.由于平臺(tái)的基礎(chǔ)數(shù)據(jù)相對(duì)穩(wěn)定,動(dòng)態(tài)變化程度相對(duì)較小,因而主/從數(shù)據(jù)同步的滯后時(shí)間對(duì)其的影響可以忽略.

        圖1 大數(shù)據(jù)整體架構(gòu)

        2 實(shí)現(xiàn)原理

        海量數(shù)據(jù)處理是利用強(qiáng)大的支持平臺(tái),分析數(shù)據(jù)的潛在價(jià)值[13].海量數(shù)據(jù)在實(shí)際應(yīng)用中,包含多個(gè)環(huán)節(jié)的處理,最終形成監(jiān)控運(yùn)行狀態(tài)、支撐方案決策的數(shù)據(jù)應(yīng)用,在數(shù)據(jù)分析的全鏈條中,比較關(guān)鍵的2個(gè)環(huán)節(jié)是數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算[14],與本文所討論的架構(gòu)體系相對(duì)應(yīng)即為:數(shù)據(jù)層與數(shù)據(jù)庫(kù)接口層.

        2.1 主從雙機(jī)熱備

        在主從模式工作中,數(shù)據(jù)庫(kù)接口層兩臺(tái)主備服務(wù)器以同一個(gè)虛擬IP響應(yīng)對(duì)外服務(wù),WEB應(yīng)用層請(qǐng)求發(fā)送給主服務(wù)器,備份服務(wù)器通過(guò)心跳線偵測(cè)主服務(wù)器的運(yùn)行狀態(tài),若主服務(wù)器因硬件、軟件、資源等方面的原因出現(xiàn)故障而不能正常響應(yīng)外部服務(wù),備份服務(wù)器感知到后迅速啟動(dòng)本機(jī)上的服務(wù)資源,接管主機(jī)上的服務(wù),從而完成從備份服務(wù)器到主服務(wù)器的角色轉(zhuǎn)換,如圖2所示.因?yàn)樵鞣?wù)器與原備份服務(wù)器兩臺(tái)服務(wù)器使用的是同一套APP,所以主備服務(wù)器切換后不影響原來(lái)的功能服務(wù).

        2.2 數(shù)據(jù)計(jì)算

        數(shù)據(jù)庫(kù)接口層結(jié)構(gòu)如圖3所示,其由兩功能模塊組成,為:DAO持久化模塊、連接工廠模塊.持久化模塊負(fù)責(zé)數(shù)據(jù)表的增、刪、改、查等持久化操作的業(yè)務(wù)實(shí)現(xiàn),接口向Web應(yīng)用層暴露,接口層用REST的方式架構(gòu),以Http超文本傳輸協(xié)議進(jìn)行通訊,以Json作為報(bào)文格式,通信非常簡(jiǎn)單、靈活、輕巧.連接工廠模塊只負(fù)責(zé)生產(chǎn)對(duì)應(yīng)的數(shù)據(jù)層的數(shù)據(jù)庫(kù)連接(Connection),每一個(gè)連接為APP操作數(shù)據(jù)庫(kù)的橋梁,供持久化模塊調(diào)用,當(dāng)持久化模塊進(jìn)行DAO的業(yè)務(wù)操作時(shí),首先應(yīng)該通過(guò)連接工廠取得DB節(jié)點(diǎn)的連接,進(jìn)而才能進(jìn)行CRUD:Create、Retrieve、Update、Delete操作.

        數(shù)據(jù)層有眾多的DB節(jié)點(diǎn),連接工廠能通過(guò)數(shù)據(jù)庫(kù)接口層中的專(zhuān)門(mén)的配置文件(Excel格式)準(zhǔn)確的創(chuàng)建對(duì)應(yīng)業(yè)務(wù)所需的DB節(jié)點(diǎn)數(shù)據(jù)源,在整個(gè)連接工廠中有三種類(lèi)型的數(shù)據(jù)配置文件,分別是:數(shù)據(jù)源參數(shù)配置文件、讀寫(xiě)分離配置文件、時(shí)間維度配置文件.

        連接工廠的數(shù)據(jù)源參數(shù)配置文件為Excel配置文件,具體格式及配置參數(shù)見(jiàn)表1.其中,“實(shí)例號(hào)”為每個(gè)數(shù)據(jù)源實(shí)例的唯一標(biāo)識(shí),“文件路徑”為每一個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)的連接配置文件(配置:訪問(wèn)帳號(hào)、密碼、連接池等相關(guān)資源信息)所在的位置,“主機(jī)節(jié)點(diǎn)”為每臺(tái)數(shù)據(jù)庫(kù)服務(wù)器的IP地址.每一行代表一個(gè)數(shù)據(jù)源實(shí)例,Excel配置文件中可以無(wú)限擴(kuò)展數(shù)據(jù)源實(shí)例.

        在平臺(tái)服務(wù)啟動(dòng)時(shí),接口層會(huì)從Excel配置文件讀取每一行的參數(shù)信息并事先建好對(duì)應(yīng)的數(shù)據(jù)源實(shí)例,存儲(chǔ)在緩存中,在需要用到相關(guān)實(shí)例時(shí)直接從緩存中取得相關(guān)實(shí)例.

        連接工廠的讀寫(xiě)分離參數(shù)配置信息同樣存儲(chǔ)到Excel文件中,具體格式及配置參數(shù)見(jiàn)表2.其中,“數(shù)據(jù)表”是指數(shù)據(jù)庫(kù)中的某一張系統(tǒng)表,“讀/寫(xiě)操作”表示請(qǐng)求的性質(zhì)是讀操作還是寫(xiě)操作,“實(shí)例號(hào)”就是數(shù)據(jù)源號(hào),與表1相對(duì)應(yīng).

        圖2 雙機(jī)熱備模式

        圖3 數(shù)據(jù)庫(kù)接口層內(nèi)部結(jié)構(gòu)及交互原理

        表1 數(shù)據(jù)源參數(shù)配置

        表2 讀寫(xiě)分離參數(shù)配置

        當(dāng)Web節(jié)點(diǎn)層向DB接口請(qǐng)求平臺(tái)中的系統(tǒng)數(shù)據(jù)時(shí),連接工廠會(huì)根據(jù)此表的配置信息找到對(duì)應(yīng)相匹配的數(shù)據(jù)源.首先,根據(jù)操作請(qǐng)求的表名,找到對(duì)應(yīng)的數(shù)據(jù)行,然后再根據(jù)操作性質(zhì)確定唯一的數(shù)據(jù)源實(shí)例號(hào).如,請(qǐng)求操作要查詢?nèi)罩颈淼娜罩拘畔?,則根據(jù)表名“sys_log”,操作性質(zhì)“read”,可以在此配置表中確定“DS_001”數(shù)據(jù)源實(shí)例,然后再與表1相匹配,找到已經(jīng)在緩存中創(chuàng)建好的數(shù)據(jù)源實(shí)例,再通過(guò)數(shù)據(jù)源實(shí)例可構(gòu)建出相應(yīng)的數(shù)據(jù)庫(kù)連接,響應(yīng)Web節(jié)點(diǎn)查詢?nèi)罩镜恼?qǐng)求.如果是寫(xiě)日志的請(qǐng)求操作,則會(huì)在些配置表中找到“DS_002”的數(shù)據(jù)源,即實(shí)現(xiàn)了讀與寫(xiě)操作服務(wù)器節(jié)點(diǎn)相分離,達(dá)到減輕服務(wù)器負(fù)載,加快響應(yīng)的速度的目的.

        連接工廠的時(shí)間維度參數(shù)配置信息也是存儲(chǔ)在Excel文件中,具體格式及配置參數(shù)見(jiàn)表3.其中,“數(shù)據(jù)表”是指數(shù)據(jù)庫(kù)中的某一張業(yè)務(wù)表,“起始日期”業(yè)務(wù)數(shù)據(jù)發(fā)生的開(kāi)始日期,“結(jié)束日期”業(yè)務(wù)數(shù)據(jù)發(fā)生的結(jié)束日期,“實(shí)例號(hào)”就是數(shù)據(jù)源號(hào),與表1相對(duì)應(yīng).

        表3 時(shí)間維度參數(shù)配置

        當(dāng)Web節(jié)點(diǎn)層向DB接口請(qǐng)求平臺(tái)中的業(yè)務(wù)數(shù)據(jù)時(shí),連接工廠會(huì)根據(jù)此表的配置信息找到對(duì)應(yīng)相匹配的數(shù)據(jù)源.首先與業(yè)務(wù)表匹配,再與開(kāi)始、結(jié)束時(shí)間相匹配,最后確定唯一的數(shù)據(jù)源實(shí)例號(hào).如,Web節(jié)點(diǎn)層要請(qǐng)求查詢2018年6到8月的訂單數(shù)據(jù)時(shí),根據(jù)業(yè)務(wù)表名“order”,開(kāi)始時(shí)間“2018年6月”,結(jié)束時(shí)間“2018年8月”可確定唯一的數(shù)據(jù)源實(shí)例號(hào)“DS_005”,再與表1相關(guān)聯(lián)找到對(duì)應(yīng)的數(shù)據(jù)源,這樣就避免了在所有服務(wù)器節(jié)點(diǎn)上掃描訂單數(shù)據(jù),只需在“DS_005”數(shù)據(jù)源對(duì)應(yīng)的服務(wù)器節(jié)點(diǎn)上檢索相關(guān)的訂單數(shù)據(jù)即可.

        2.3 數(shù)據(jù)存儲(chǔ)

        數(shù)據(jù)層由若干臺(tái)服務(wù)器主機(jī)集群組成,其中集群機(jī)器分成2大片,一組主機(jī)處理平臺(tái)的系統(tǒng)數(shù)據(jù),另一組集群主機(jī)處理平臺(tái)的應(yīng)用數(shù)據(jù).

        2.3.1 基礎(chǔ)數(shù)據(jù)存儲(chǔ)

        2.3.1.1 主從結(jié)構(gòu)

        系統(tǒng)數(shù)據(jù)方面,原理結(jié)構(gòu)如圖4所示,服務(wù)主機(jī)采取主/從結(jié)構(gòu)的形式搭配,由Master主機(jī)處理寫(xiě)操作,Slaver從機(jī)處理讀操作,從而實(shí)現(xiàn)讀/寫(xiě)相分離的模式.Master與Slaver間數(shù)據(jù)的同步,直接使用數(shù)據(jù)庫(kù)系統(tǒng)的主/從同步功能,目前絕大多數(shù)據(jù)庫(kù)管理系統(tǒng)都支持這一功能,即使是功能相對(duì)弱小的MySQL開(kāi)源數(shù)據(jù)庫(kù)也已經(jīng)對(duì)這一塊有很好的支持,由于Slaver為讀(read)操作機(jī)器,因而其數(shù)據(jù)不會(huì)直接改變,因業(yè)務(wù)而發(fā)生變化的數(shù)據(jù)只需從Master寫(xiě)(write)操作機(jī)器同步過(guò)來(lái)即可.

        圖4 基礎(chǔ)數(shù)據(jù)主/從結(jié)構(gòu)

        2.3.1.2 主從數(shù)據(jù)同步

        在主服務(wù)節(jié)點(diǎn)與從服務(wù)節(jié)點(diǎn)之間的數(shù)據(jù)同步過(guò)程由三個(gè)進(jìn)程來(lái)實(shí)現(xiàn),其中從服務(wù)節(jié)點(diǎn)包含兩個(gè)工作進(jìn)程:文件轉(zhuǎn)換進(jìn)程、Socket通信進(jìn)程,以及主服務(wù)節(jié)點(diǎn)的Socket通信進(jìn)程.同步原理圖5所示,步驟如下:

        1)從服務(wù)節(jié)點(diǎn)的Socket通信進(jìn)程向主服務(wù)節(jié)點(diǎn)進(jìn)程請(qǐng)求讀取數(shù)據(jù)庫(kù)二進(jìn)制日志文件內(nèi)容.

        2)主服務(wù)節(jié)點(diǎn)接收到從服務(wù)節(jié)點(diǎn)的TCP通信請(qǐng)求后,通過(guò)IO流把日志文件變化的數(shù)據(jù)信息返回給從服務(wù)節(jié)點(diǎn),以響應(yīng)其TCP通信請(qǐng)求.

        3)從服務(wù)節(jié)點(diǎn)的Socket通信進(jìn)程接收到信息后,將接收到的數(shù)據(jù)寫(xiě)入中繼日志文件的末端,并記錄其它相關(guān)信息,為下一次操作能快速響應(yīng).

        4)從服務(wù)節(jié)點(diǎn)的文件轉(zhuǎn)換進(jìn)程定時(shí)偵測(cè)中繼日志文件,如果發(fā)現(xiàn)日志文件中新追加了新的數(shù)據(jù)內(nèi)容,會(huì)即時(shí)解析該日志文件中的內(nèi)容變成可執(zhí)行的SQL語(yǔ)句,同時(shí)在本服務(wù)器端執(zhí)行相應(yīng)的SQL語(yǔ)句,以兩端的數(shù)據(jù)一致、同步.

        2.3.2 業(yè)務(wù)數(shù)據(jù)存儲(chǔ)

        2.3.2.1 分片結(jié)構(gòu)

        應(yīng)用數(shù)據(jù)方面,原理結(jié)構(gòu)如圖6所示,服務(wù)主機(jī)從某一維度對(duì)數(shù)據(jù)作切片,最常見(jiàn)的是對(duì)時(shí)間維度進(jìn)行統(tǒng)一分片,也就是說(shuō),每一臺(tái)服務(wù)主機(jī)上的表結(jié)構(gòu)是一樣的,但是不同節(jié)點(diǎn)上的具體的業(yè)務(wù)數(shù)據(jù)是不同的,按時(shí)間進(jìn)行分片存儲(chǔ),例如按日歷年來(lái)進(jìn)行分片,可考慮每個(gè)節(jié)點(diǎn)的主機(jī)上存儲(chǔ)某年的數(shù)據(jù),也可以一臺(tái)主機(jī)節(jié)點(diǎn)存儲(chǔ)多年的業(yè)務(wù)數(shù)據(jù),根據(jù)實(shí)際情況來(lái)進(jìn)行切片,但要確保切片在每個(gè)節(jié)點(diǎn)上不重復(fù),且要保證切片的連貫性與完整性,不能有分片被遺漏.同時(shí),可根據(jù)實(shí)際需要為每一個(gè)主節(jié)點(diǎn)添加一個(gè)備份節(jié)點(diǎn),主/備服務(wù)器上的所有數(shù)據(jù)完全一樣,當(dāng)主節(jié)點(diǎn)發(fā)生故障時(shí),由備份節(jié)點(diǎn)替代主節(jié)點(diǎn)繼續(xù)工作.此處每一個(gè)主節(jié)點(diǎn)對(duì)時(shí)間維度配置一個(gè)數(shù)據(jù)源實(shí)例節(jié)點(diǎn),可根據(jù)實(shí)際無(wú)限的增加主節(jié)點(diǎn).

        主/備節(jié)點(diǎn)間可考慮使用主/從原理同步數(shù)據(jù),也可以自己編寫(xiě)一個(gè)數(shù)據(jù)同步腳本,然后由系統(tǒng)定時(shí)器周期性的調(diào)度此同步腳本,達(dá)到數(shù)據(jù)同步的目的.當(dāng)主節(jié)點(diǎn)發(fā)生故障時(shí),接口層的連接工廠無(wú)法構(gòu)建節(jié)點(diǎn)上的數(shù)據(jù)庫(kù)連接,此時(shí),連接工廠自動(dòng)查找備份節(jié)點(diǎn)的數(shù)據(jù)源實(shí)例來(lái)構(gòu)建新的連接.

        圖5 主從復(fù)制原理

        圖6 按時(shí)間維度分片結(jié)構(gòu)

        2.3.2.2 分片原則

        對(duì)于海量平臺(tái)數(shù)據(jù),首先面臨的問(wèn)題就是如何將數(shù)據(jù)平均的分配到不同的服務(wù)器上,使每臺(tái)機(jī)器盡可能負(fù)載均衡.對(duì)于非關(guān)聯(lián)數(shù)據(jù)來(lái)說(shuō),這個(gè)問(wèn)題解決起來(lái)比較容易,只要平臺(tái)數(shù)據(jù)盡可能的平均分布在各臺(tái)主機(jī)上即可.對(duì)于關(guān)聯(lián)數(shù)據(jù)來(lái)說(shuō),由于數(shù)據(jù)之間的強(qiáng)耦合性,如果數(shù)據(jù)分片不合理,不僅會(huì)造成機(jī)器之間負(fù)載不均衡,還會(huì)大量增加機(jī)器之間的網(wǎng)絡(luò)通信,反而造成性能不佳,所以合理切分關(guān)聯(lián)數(shù)據(jù)對(duì)于提高平臺(tái)數(shù)據(jù)的運(yùn)行效率非常重要[15].如圖7兩種分片方式中,方案1的分片方式其網(wǎng)絡(luò)通信總量要遠(yuǎn)小于方案2的分片方式所對(duì)應(yīng)的網(wǎng)絡(luò)通信量.

        衡量關(guān)聯(lián)數(shù)據(jù)切片是否合理主要考慮2個(gè)因素:機(jī)器負(fù)載均衡以及網(wǎng)絡(luò)通信成本.如果單獨(dú)考慮機(jī)器負(fù)載均衡,那么最好是將數(shù)據(jù)盡可能平均地分配到各個(gè)服務(wù)器上,但是這樣不能保證網(wǎng)絡(luò)通信總量是盡可能少的;如果單獨(dú)考慮網(wǎng)絡(luò)通信,那么可以將密集交互的數(shù)據(jù)節(jié)點(diǎn)盡可能放到同一臺(tái)機(jī)器上,這樣就有效地減少了網(wǎng)絡(luò)通信量,但是這樣很難做到機(jī)器之間的負(fù)載均衡,某個(gè)較大的密集的子節(jié)點(diǎn)會(huì)導(dǎo)致某臺(tái)機(jī)器高負(fù)載.所以,合理的切片方式需要在這兩個(gè)因素之間找到一個(gè)較穩(wěn)妥的均衡點(diǎn),以期系統(tǒng)整體性能最優(yōu)[15].

        圖7 不同分片方式差異

        3 結(jié) 論

        本海量數(shù)據(jù)架構(gòu)方案不同與傳統(tǒng)的數(shù)據(jù)集群,關(guān)系型數(shù)據(jù)庫(kù)服務(wù)主節(jié)點(diǎn)的業(yè)務(wù)數(shù)據(jù)不需要在各個(gè)主節(jié)點(diǎn)間進(jìn)行同步,進(jìn)一步節(jié)省了數(shù)據(jù)的存儲(chǔ)空間,具有以下幾大優(yōu)點(diǎn):1)可擴(kuò)展性好,在水平切片維度,可以根據(jù)實(shí)際需要任意擴(kuò)展.如按時(shí)間維度進(jìn)行切片時(shí),可以在未來(lái)與過(guò)去的軸線上進(jìn)行無(wú)縫的擴(kuò)充;2)對(duì)原有業(yè)務(wù)數(shù)據(jù)兼容性好,可以在不改變、不遷移原有數(shù)據(jù)服務(wù)節(jié)點(diǎn)的情況完美對(duì)接現(xiàn)有業(yè)務(wù)數(shù)據(jù);3)能適應(yīng)各種復(fù)雜的數(shù)據(jù)環(huán)境,本方案與數(shù)據(jù)平臺(tái)無(wú)關(guān),可完全兼容各種類(lèi)型的關(guān)系數(shù)據(jù)庫(kù),各種類(lèi)型的關(guān)系數(shù)據(jù)庫(kù)只需在各自服務(wù)節(jié)點(diǎn)的配置文件中配置好即可,不需要作復(fù)雜的整合.

        同時(shí)本方案也還存在不足的地方,如數(shù)據(jù)分片存儲(chǔ)后增加了不同機(jī)器上關(guān)聯(lián)數(shù)據(jù)的網(wǎng)絡(luò)開(kāi)銷(xiāo),一定程度降低了數(shù)據(jù)分片存儲(chǔ)的性能,尋找一種合理的分片算法來(lái)減少不同機(jī)器節(jié)點(diǎn)上的通信開(kāi)銷(xiāo)是下一步的研究重點(diǎn).

        [1] 孫峻嶺,假露,劉其軍,等.基于Web集群的海量影像顯示技術(shù)研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(4):76-82.

        [2] 趙會(huì)群,劉金鑾.基于貝葉斯網(wǎng)絡(luò)的復(fù)雜事件大數(shù)據(jù)處理系統(tǒng)測(cè)試數(shù)據(jù)生成方法研究[J].計(jì)算機(jī)應(yīng)用研究,2018,35(8):2389-2392,2396.

        [3] 朝樂(lè)門(mén),邢春曉,張勇.?dāng)?shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)科學(xué),2018,45(1):1-13.

        [4] 畢婭,原惠群,初葉萍,等.大數(shù)據(jù)環(huán)境下基于公共服務(wù)平臺(tái)的資源多級(jí)智能尋租與匹配策略和價(jià)值創(chuàng)造[J].計(jì)算機(jī)科學(xué),2019,46(2):42-49.

        [5] 李志國(guó),鐘將.?dāng)?shù)據(jù)科學(xué)在國(guó)內(nèi)管理學(xué)研究中的應(yīng)用綜述[J].計(jì)算機(jī)科學(xué),2018,45(9):38-45.

        [6] 溫振蕙,樊永生,余紅英.基于Thrift的HBase數(shù)據(jù)存儲(chǔ)機(jī)制優(yōu)化[J].科學(xué)技術(shù)與工程,2019,19(6):185-189.

        [7] PANG Qian, YU Zhongqing, WANG Haiya. Data Resource Management Platform of Paper-making Mill Equipment Operation based on Hadoop[J]. International Journal of Plant Engineering and Management, 2019,24(1):44-51.

        [8] Dawei Zhao, Gang Chen. Construction of Implicit Semantic Multi-label Text Fast Clustering Model based on Big Data[C]/Computer Science and Electronic Technology International Society, 2018:159-162.

        [9] Zhang Xiaohui. Construction of Personalized English Teaching Model Driven by Big Data[C]/Computer Science and Electronic Technology International Society, 2019:371-375.

        [10] 周岳,陳慶奎.面向大規(guī)模數(shù)據(jù)接入系統(tǒng)的負(fù)載平衡機(jī)制[J].計(jì)算機(jī)應(yīng)用,2018,38(1):50-55.

        [11] 史開(kāi)泉.大數(shù)據(jù)結(jié)構(gòu)-邏輯特征與大數(shù)據(jù)規(guī)律[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2019,54(2):1-29.

        [12] QU Huan. Spatial Distribution Patterns of Cultural Facilities in Shenzhen Based on GIS and Big Data[J]., 2018,10(4):48-54.

        [13] 田亞明.大數(shù)據(jù)挖掘在電商市場(chǎng)中分析與決策的應(yīng)用[J].電子技術(shù)與軟件工程,2019(7):167-168.

        [14] 聶璐,鄭吉洲,王麗娜,等.基于國(guó)產(chǎn)化服務(wù)器集群的海量數(shù)據(jù)處理負(fù)載均衡技術(shù)[J].航天控制,2019,37(1):51-56.

        [15] 張俊林.大數(shù)據(jù)日知錄:架構(gòu)與算法[M].北京:電子工業(yè)出版社,2014:271-310.

        Optimizing Strategy of Massive Data Platform Based on Localized Data and Space Centralized Scheduling

        WEN Lihui

        ()

        In view of the poor performance and low efficiency of mass data in traditional data integration, an optimum scheme based on centralized data space is proposed. First of all, the platform data is classified as either static or dynamic, so as to solve the problems that traditional integration method have, such as too large amount of data, data types confusion, and real-time response to adverse platform. Secondly, the ability of reading and writing can be enhanced and the node static data on the machine load can be reduced effectively through a master/slave separation. Thirdly, the dynamic data processing ability of the platform can be greatly improved by cluster slicing storage way. Compared with the online transaction processing (OLTP), this scheme is based on data slicing and configuration data source management. Therefore, it is more flexible and agile, better adapted to complex data environment, and more suitable to meet small and medium-sized enterprises’ demand for large data operation.

        massive data; horizontal slicing; time dimension; master/slave; reading and writing separation; factory connection

        10.13899/j.cnki.szptxb.2019.05.005

        2019-03-27

        溫立輝(1979-),男,廣東河源人,漢族,高級(jí)工程師,主要從事大數(shù)據(jù)、云平臺(tái)、系統(tǒng)架構(gòu)研究.

        TP311.13

        A

        1672-0318(2019)05-0023-06

        猜你喜歡
        分片數(shù)據(jù)源海量
        上下分片與詞的時(shí)空佈局
        詞學(xué)(2022年1期)2022-10-27 08:06:12
        一種傅里葉域海量數(shù)據(jù)高速譜聚類(lèi)方法
        分片光滑邊值問(wèn)題的再生核方法
        CDN存量MP4視頻播放優(yōu)化方法
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        基于模糊二分查找的幀分片算法設(shè)計(jì)與實(shí)現(xiàn)
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        久久精品国产丝袜| 97视频在线播放| 久久精品国产精油按摩| 精品国产亚洲第一区二区三区| 日本av在线精品视频| 精品国产网红福利在线观看| 中文字幕被公侵犯的漂亮人妻| 音影先锋中文字幕在线| 日本人妻三级在线观看| 亚洲深夜福利| 高潮毛片无遮挡高清免费 | 久久精品亚洲国产成人av| 亚洲色AV性色在线观看| 中文字幕一区二区三区精华液| 国产亚洲精品a片久久久| 亚洲av高清一区二区三区| 国产特黄1区2区3区4区| 女女同性黄网在线观看| 久久精品亚洲中文字幕无码网站| 狼人青草久久网伊人| 国产亚洲欧美精品永久| 极品美女调教喷水网站| 蜜桃激情视频一区二区| 一区二区丝袜美腿视频| 国产xxxxx在线观看免费| 99久久免费精品高清特色大片| 亚洲国产天堂一区二区三区| 无码h黄肉3d动漫在线观看| 中文字幕av长濑麻美| 中国黄色偷拍视频二区| 亚洲精品熟女乱色一区| 亚洲国产欧美久久香综合| 国产精品公开免费视频| 国产亚洲精久久久久久无码| 欧美天天综合色影久久精品| 日本成本人片免费网站| 人人妻人人澡人人爽国产| 国产一区白浆在线观看 | 福利网在线| 久久精品—区二区三区无码伊人色 | 又爽又黄禁片视频1000免费|