摘 要:本文通過深入研究現(xiàn)存的各種云數(shù)據(jù)倉庫,提出新的云數(shù)據(jù)倉庫分層設(shè)計方案,該方案把云數(shù)據(jù)倉庫分為三層,基礎(chǔ)設(shè)施層、平臺層和分析軟件層,并對各層提供的服務(wù)進(jìn)行展開敘述。
關(guān)鍵詞:數(shù)據(jù)倉庫服務(wù);云計算;非關(guān)系型數(shù)據(jù)庫
中圖分類號:TP311.138 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2018)01-0180-02
Hierarchical Data Warehouse Architecture and Its Service Research in
the Cloud Environment
ZHAO Jialing
(Zhaoqing University Information Center,Zhaoqing 526061,China)
Abstract:In this article,through in-depth study of the existing various cloud data warehouse,puts forward new cloud data warehouse design scheme,this scheme is divided into three layers,the cloud data warehouse infrastructure layer,platform layer and layer analysis software,and the services provided by each layer are described.
Keywords:data warehouse services;cloud computing;non-relational databases
1 簡 介
數(shù)據(jù)倉庫伴隨著商業(yè)信息系統(tǒng)的發(fā)展而不斷演化,傳統(tǒng)的數(shù)據(jù)倉庫是由運行于傳統(tǒng)服務(wù)器上的關(guān)系型數(shù)據(jù)庫為主,隨后數(shù)據(jù)資源和數(shù)據(jù)系統(tǒng)的種類不斷擴(kuò)展,數(shù)據(jù)倉庫部署的環(huán)境不斷變化,出現(xiàn)了大規(guī)模并行處理系統(tǒng)。伴隨著云計算的浪潮,其運行系統(tǒng)包括了公有云、私有云和混合云,其實體建立在簡單服務(wù)器集群中[1]。
本文旨在解決以下問題:如何在大數(shù)據(jù)資源云計算的基礎(chǔ)上,對傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)進(jìn)行重新的設(shè)計和定義,從而使得其滿足當(dāng)前運行系統(tǒng)的應(yīng)用需求。
2 云數(shù)據(jù)倉庫總體架構(gòu)及各層提供的服務(wù)
云數(shù)據(jù)倉庫架構(gòu)是為了滿足大數(shù)據(jù)的存儲和運算而設(shè)的,其實體,搭建在大量成本低的計算機(jī)群之上。
該架構(gòu)的終端用戶包括了數(shù)據(jù)倉庫的管理者、開發(fā)者和使用者,而使用者又分為普通使用者和專業(yè)級使用者。對于所有用戶來說,后臺的數(shù)據(jù)存儲、管理、分析等進(jìn)程都是“屏蔽”的,用戶可以通過最簡潔明了的視窗,對基于網(wǎng)絡(luò)的分析服務(wù)系統(tǒng),進(jìn)行交互式的訪問。
該架構(gòu)通過分層設(shè)計,從下而上,分為基礎(chǔ)設(shè)施層、平臺層和分析軟件層,具有一定的可遷移性,方便與其他系統(tǒng)進(jìn)行整合。以下將就各層所提供的服務(wù)進(jìn)行展開論述。
2.1 基礎(chǔ)設(shè)施層提供的服務(wù)
該層包括了兩個“子”層,分別是硬件資源層和基礎(chǔ)設(shè)施資源層。硬件資源層通過對大量的普通服務(wù)器部署虛擬機(jī),來提供低級別的物理設(shè)施的抽象化服務(wù)。每臺虛擬機(jī)可視作用來計算和存儲的節(jié)點。而基礎(chǔ)設(shè)施資源層則是通過部署在虛擬機(jī)的軟件設(shè)施來提供“Hadoop服務(wù)”?!癏adoop服務(wù)”是針對開源Hadoop框架的相關(guān)部署服務(wù),由“計算服務(wù)”與“存儲服務(wù)”兩部分服務(wù)所組成。所謂的“計算服務(wù)”是在每臺用于處理分布式數(shù)據(jù)的虛擬機(jī)上都實現(xiàn)MapReduce范例?!按鎯Ψ?wù)”所提供的數(shù)據(jù)存儲服務(wù),涉及兩種存儲技術(shù),分別是分布式數(shù)據(jù)存儲系統(tǒng)和非關(guān)系型數(shù)據(jù)庫存儲技術(shù)[2]。
2.2 平臺層提供的服務(wù)
該層位于本文所提出的分層云數(shù)據(jù)倉庫架構(gòu)模型的中間層,“數(shù)據(jù)倉庫平臺服務(wù)”。這里服務(wù)提供商不僅可為用戶提供“量身訂造”的數(shù)據(jù)管理架構(gòu),還能為數(shù)據(jù)處理應(yīng)用程序和名為“數(shù)據(jù)倉庫服務(wù)”的腳本語言提供運行的環(huán)境。
該層為存儲于非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)倉庫構(gòu)建了邏輯模型,“數(shù)據(jù)倉庫服務(wù)”支持用戶在大數(shù)據(jù)集基礎(chǔ)上搭建數(shù)據(jù)分析應(yīng)用程序,目前,“數(shù)據(jù)倉庫服務(wù)”面臨一個問題,即如何有效整合多渠道多類型的數(shù)據(jù)資源,從而為終端用戶提供一個統(tǒng)一的前臺用戶界面。而如何針對大數(shù)據(jù)的4V特征,設(shè)計出高效能的“數(shù)據(jù)倉庫服務(wù)”,或許是決策系統(tǒng)未來的研究方向。
該層提供以下六大主要服務(wù):
(1)設(shè)計服務(wù)。該服務(wù)是指針對數(shù)據(jù)倉庫的設(shè)計和建模而開展的服務(wù)。該設(shè)計服務(wù)旨在根據(jù)客戶的需求以及服務(wù)提供商的實際能力,來設(shè)計出大數(shù)據(jù)分析系統(tǒng)的前臺和后臺的模型。該類服務(wù)提供隨需應(yīng)變的數(shù)據(jù)倉庫設(shè)計服務(wù),以確保能在非關(guān)系型數(shù)據(jù)庫中設(shè)計并實現(xiàn)數(shù)據(jù)倉庫模型,并提供了擁有功能強(qiáng)大的工具箱以輔助終端用戶完成各種內(nèi)部事務(wù)。
(2)元數(shù)據(jù)服務(wù)。該服務(wù)旨在支持元數(shù)據(jù)的管理,促進(jìn)所有服務(wù)之間的信息共享和交流。該服務(wù)負(fù)責(zé)維護(hù)數(shù)據(jù)倉庫的元信息,以及系統(tǒng)配置和系統(tǒng)狀態(tài)信息,保護(hù)可用的數(shù)據(jù)資源,維護(hù)已注冊的終端用戶信息,維護(hù)可用的節(jié)點。具體的信息內(nèi)容包括了:鏈接參數(shù),比如非關(guān)系型數(shù)據(jù)庫定位及證書;元數(shù)據(jù),比如計算機(jī)集群里包含的數(shù)據(jù)集、副本定位信息、數(shù)據(jù)分區(qū)特性等。該類服務(wù)存儲了所有關(guān)于表格的信息,包括了:表格所在分區(qū)、表格的模式、表格中列及其類型、表格的定位信息等等。用戶可通過不同的網(wǎng)頁服務(wù)接口,對以上信息進(jìn)行查詢和修改。
(3)管理服務(wù)。該服務(wù)為了讓數(shù)據(jù)倉庫的管理者完成對終端用戶賬戶的管理、定制服務(wù)配置以及及時報告平臺使用和性能狀況,而提供必要的網(wǎng)絡(luò)工具?!皵?shù)據(jù)倉庫管理服務(wù)”所提供的服務(wù),包括了系統(tǒng)與相關(guān)軟件的安裝,系統(tǒng)運行的監(jiān)測,數(shù)據(jù)庫系統(tǒng)相關(guān)配置,補丁、備份和災(zāi)難恢復(fù),事件響應(yīng),及故障排除,并對操作系統(tǒng)運行所在的物理及虛擬服務(wù)器提供維護(hù)服務(wù)。
(4)提取、轉(zhuǎn)換、加載服務(wù)。該服務(wù)是在MapReduce范例的基礎(chǔ)上,提供專門的連線模式來定義其主要任務(wù)。該服務(wù)在Hadoop框架中,執(zhí)行一系列的MapReduce處理任務(wù),比如從HDFS(基于Hadoop的分布式文件存儲系統(tǒng))讀取數(shù)據(jù),并遵循非關(guān)系數(shù)據(jù)倉庫的格式要求,把這些數(shù)據(jù)輸進(jìn)非關(guān)系數(shù)據(jù)庫中。
(5)查詢管理服務(wù)。該服務(wù)主要負(fù)責(zé)對任何輸入的請求進(jìn)行接收和調(diào)度。它針對終端用戶請求的生命周期各個階段,包括編譯、優(yōu)化、執(zhí)行、各階段的進(jìn)程,展開管理。當(dāng)前數(shù)據(jù)倉庫已被設(shè)定為一種情形,即數(shù)據(jù)資源是固定不可變動的,但這種情形在云環(huán)境下會被徹底打破,只要有需求,在任何時間點,任何數(shù)據(jù)資源都可以使用并可變動,而這顯然是傳統(tǒng)數(shù)據(jù)倉庫所不能滿足的。該服務(wù)主要負(fù)責(zé)執(zhí)行終端用戶的查詢,根據(jù)“元數(shù)據(jù)服務(wù)”所存儲的數(shù)據(jù),生成查詢服務(wù)的執(zhí)行計劃。
(6)數(shù)據(jù)傳輸服務(wù)。該服務(wù)負(fù)責(zé)把數(shù)據(jù)從存儲系統(tǒng)傳輸?shù)秸麄€體系架構(gòu)的頂層,即數(shù)據(jù)倉庫分析軟件服務(wù)。該頂層通過對傳輸上來的數(shù)據(jù)進(jìn)行處理和利用,從而執(zhí)行腳本和完成數(shù)據(jù)查詢?nèi)蝿?wù),其運行結(jié)果是生成報告以及可視化的頁面和控制面板等。
2.3 數(shù)據(jù)倉庫分析軟件提供的服務(wù)
(1)可視化服務(wù)。該服務(wù)以直觀圖或圖表形式來展示數(shù)據(jù)。一直以來,人類依賴于一切可視化的顯示方式,比如示意圖、圖表等,以便簡潔快速完成對相關(guān)信息的理解。隨著越來越多的數(shù)據(jù)被收集和分析,各級的決策者們均對“數(shù)據(jù)可視化服務(wù)”表示極大的歡迎,因為它能幫助他們直觀地看到分析的結(jié)果,挖掘海量的變量之間的關(guān)聯(lián),方便他們之間進(jìn)行相關(guān)概念和研究設(shè)想的溝通交流,甚至提供一種對未來預(yù)測的可能?!按髷?shù)據(jù)可視化服務(wù)”是以最通用的方式來表達(dá)信息,讓用戶之間的信息溝通更方便容易。
(2)大數(shù)據(jù)挖掘服務(wù)。該服務(wù)包含了對海量數(shù)據(jù)的抽取和分析,從而實現(xiàn)對大數(shù)據(jù)的建模。而從大數(shù)據(jù)中抽取信息一般采取兩種形式:預(yù)報和描述。正是由于傳統(tǒng)的方法難以實現(xiàn)對數(shù)據(jù)的有效可視化,因此催生出“大數(shù)據(jù)挖掘服務(wù)”。該服務(wù)使得終端用戶可以通過使用各種類的數(shù)據(jù)挖掘算法,可實現(xiàn)對大數(shù)據(jù)挖掘模型的設(shè)計、創(chuàng)建以及可視化的過程。
(3)大數(shù)據(jù)在線分析處理服務(wù)。該服務(wù)旨在幫助用戶進(jìn)行大數(shù)據(jù)分析,進(jìn)而對多重非關(guān)系型數(shù)據(jù)庫或者分布式文件系統(tǒng)中所傳播的信息,實現(xiàn)有效的解讀。該服務(wù)通過聯(lián)機(jī)分析技術(shù),支持終端用戶對大數(shù)據(jù)整合后的多維度結(jié)構(gòu)進(jìn)行設(shè)計、搭建和管理,讓用戶以最便捷的方式,實現(xiàn)對大數(shù)據(jù)有選擇的抽取,并以不同視窗的方式,實現(xiàn)可視化的呈現(xiàn)。該服務(wù)為支持用戶對大數(shù)據(jù)的查詢和分析,提供了一系列的聯(lián)機(jī)處理“多維度數(shù)據(jù)集”操作。
(4)大數(shù)據(jù)控制面板服務(wù)??刂泼姘迨且环N用戶交互界面,通過圖像化的直觀顯示出某個組織的現(xiàn)狀及發(fā)展趨勢相關(guān)的核心指標(biāo)數(shù)據(jù),便于決策者第一時間掌握最全面的參考訊息。該服務(wù)支持終端用戶通過簡單點擊相關(guān)按鈕,即可在控制面板完成數(shù)據(jù)的訪問、合并,并以可視化的方式呈現(xiàn)。
(5)大數(shù)據(jù)報告服務(wù)。該服務(wù)為終端用戶提供種類各異的即用型服務(wù),后臺通過面向特征的編程,使得前臺能夠為終端用戶分類提供相應(yīng)的服務(wù),比如對普通用戶,則提供一系列的用戶創(chuàng)建報告和管理報告的工具,對開發(fā)者,則提供各種應(yīng)用程序接口,用于整合、擴(kuò)展數(shù)據(jù),進(jìn)而形成自定義應(yīng)用程序的進(jìn)程報告。在用戶界面上,該服務(wù)主要提供形式自由的報告,包括了交互式的、表格化的和圖形化的報告。
3 結(jié) 論
在未來的研究中,將著重研究本文提及的數(shù)據(jù)倉庫平臺層,并對開發(fā)的細(xì)節(jié)展開研究。
參考文獻(xiàn):
[1] 張聰,錢松榮.基于數(shù)據(jù)倉庫的企業(yè)智能決策研究 [J].微型電腦應(yīng)用,2017(5):45-48+55.
[2] 李詢,陳通海,周凱.淺析云分布臺站數(shù)據(jù)庫 [J].中國無線電,2015(5):63-64.
作者簡介:趙嘉凌(1979-),女,廣東肇慶人,計算機(jī)工程師,廣東工業(yè)大學(xué)軟件工程碩士?,F(xiàn)研究方向:大數(shù)據(jù)挖掘,數(shù)據(jù)分析,云計算。