何麗
摘 要:對于存數(shù)據(jù)倉庫中,將同一屬性數(shù)據(jù)實施連續(xù)存儲,并結(jié)合運(yùn)用數(shù)據(jù)復(fù)用技術(shù),可以節(jié)約數(shù)據(jù)倉庫管理中的存儲空間,提高列存數(shù)據(jù)倉庫查詢效率,提高了數(shù)據(jù)倉庫應(yīng)用性能,增強(qiáng)列存數(shù)據(jù)倉庫復(fù)用的可行性。以下本篇淺析數(shù)據(jù)復(fù)用在存儲數(shù)據(jù)倉庫中的運(yùn)用。
關(guān)鍵字:數(shù)據(jù)倉庫;列存儲數(shù)據(jù)倉庫;數(shù)據(jù)復(fù)用
在存儲數(shù)據(jù)倉庫中,應(yīng)用數(shù)據(jù)復(fù)用手段,對改善當(dāng)前存儲數(shù)據(jù)倉庫性能有很好的推進(jìn)作用,可以采取數(shù)據(jù)復(fù)用方案發(fā)掘數(shù)據(jù)倉庫中可復(fù)用的列,并對可復(fù)用的數(shù)據(jù)列篩選、過濾,有效降低數(shù)據(jù)倉庫存儲中復(fù)用數(shù)據(jù)的復(fù)雜度,復(fù)用實現(xiàn)基于列存儲的數(shù)據(jù)存儲,減少存儲量、節(jié)省數(shù)據(jù)裝載時間,提升數(shù)據(jù)倉庫性能。以下本文就對此做具體介紹。
1 數(shù)據(jù)倉庫及數(shù)據(jù)復(fù)用
1.1 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫,可以是面向主題的,也可以是集成、非易失性,數(shù)據(jù)倉庫存儲的內(nèi)容,會隨時間不斷變化產(chǎn)生數(shù)據(jù)集合,以此來支持管理人員的策。數(shù)據(jù)倉庫中,多數(shù)采取主題信息分類加工方法,將倉庫中的數(shù)據(jù)信息集成起來,并確保集成數(shù)據(jù)的完整性與一致性【1】;同時,在數(shù)據(jù)倉庫中,也負(fù)責(zé)實施數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的一系列過程, 存儲數(shù)據(jù)倉庫中可以按照統(tǒng)一的規(guī)則,優(yōu)化數(shù)據(jù)倉庫存儲作用。
1.2 數(shù)據(jù)復(fù)用的定義
在計算機(jī)技術(shù)中,數(shù)據(jù)復(fù)用,就是能夠充分利用數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)存在的重復(fù)關(guān)系,復(fù)用這些數(shù)據(jù)信息,從可以可以減少數(shù)據(jù)倉庫系統(tǒng)的存儲量,縮短數(shù)據(jù)倉庫響應(yīng)用戶的時間??梢葬槍?shù)據(jù)倉庫數(shù)據(jù)內(nèi)容,采取一系列存儲手段,將數(shù)據(jù)倉庫重復(fù)數(shù)據(jù)信息復(fù)用集合起來,提升數(shù)據(jù)倉庫數(shù)據(jù)利用率。
2 改進(jìn)當(dāng)前存儲數(shù)據(jù)倉庫的意義
在通常情況下的數(shù)據(jù)倉庫存儲中,多數(shù)采取采用行存儲的結(jié)構(gòu)模式,主要將每條數(shù)據(jù),以順序方式存儲在數(shù)據(jù)倉庫的物理介質(zhì)之中,然而此存儲方法中,會因為數(shù)據(jù)集差異,導(dǎo)致數(shù)據(jù)倉庫數(shù)據(jù)重復(fù)率不高,不易于復(fù)用。故此,在存儲數(shù)據(jù)倉庫中,應(yīng)用數(shù)據(jù)復(fù)用技術(shù),采取有效復(fù)用手段,提升數(shù)據(jù)倉庫信息的復(fù)用率,改善數(shù)據(jù)倉庫數(shù)據(jù)查詢效率,分析數(shù)據(jù)中的海量數(shù)據(jù),避免在數(shù)據(jù)倉庫中發(fā)生內(nèi)存爭用,通過重用數(shù)據(jù)處理結(jié)果,有效滿足存儲數(shù)據(jù)倉庫性能的提升需求【2】。在存儲數(shù)據(jù)倉庫中,數(shù)據(jù)復(fù)用技術(shù)的應(yīng)用,采取數(shù)據(jù)復(fù)用方法,估計數(shù)據(jù)重用度、優(yōu)化數(shù)據(jù)額外緩沖調(diào)度策略,提升數(shù)據(jù)復(fù)用度,采取列存儲方法,將同一屬性的數(shù)據(jù)連續(xù)存儲,提高數(shù)據(jù)倉庫應(yīng)用價值。
3 在數(shù)據(jù)倉庫中數(shù)據(jù)復(fù)用技術(shù)的運(yùn)用
3.1 數(shù)據(jù)倉庫中的基本定義
數(shù)據(jù)倉庫:D ={S1,S2,…,Sn},由一系列相互關(guān)聯(lián)的物理表構(gòu)成,其中S表示關(guān)系表,n表示關(guān)系的數(shù)量。
關(guān)系表:Si={Ai1,Ai2,…,Aim},其中m表示關(guān)系Si的目的度,Aij表示Si中第j個屬性
數(shù)據(jù)段:Segi={blki1,blki2,…,blkir}
目標(biāo)表:T={A′1,A′2,…,A′k},k表示T的目的度,數(shù)據(jù)復(fù)用對于T中的每一個屬性A′i,在D中尋找可復(fù)用數(shù)據(jù)并合理利用的過程
數(shù)據(jù)復(fù)用技術(shù)中,源屬性集:已有關(guān)系表中能夠被復(fù) 用 的 屬 性 集 合 記 為 源 屬 性 集Cols={Ai1,Ai2,…,Aij},集合中的每一項稱為源屬性目標(biāo)表Colt={A1,A2,…,Aj},其中Ai又稱為目標(biāo)屬性
3.2 數(shù)據(jù)復(fù)用中的列存儲技術(shù)
數(shù)據(jù)復(fù)用技術(shù),列存儲數(shù)據(jù)復(fù)用技術(shù),就是針對具有相同屬性,且相同、相近的列,列存儲中數(shù)據(jù)冗余度高,以此作為數(shù)據(jù)復(fù)用手段,應(yīng)用到數(shù)據(jù)倉庫的存儲之中,可以利用數(shù)據(jù)模式匹配的技術(shù),發(fā)掘數(shù)據(jù)倉庫中可復(fù)用的列,縮小復(fù)用數(shù)據(jù)復(fù)雜度。數(shù)據(jù)復(fù)用中針對某個列中的值進(jìn)行簡單查詢的速度非???,需要的內(nèi)部存儲資源最少。數(shù)據(jù)復(fù)用技術(shù),采取基于列存儲的數(shù)據(jù)復(fù)用實現(xiàn)策略,可以減少數(shù)據(jù)倉庫的存儲量,提升少數(shù)據(jù)倉庫查詢性能。數(shù)據(jù)復(fù)用技術(shù)應(yīng)用中,對于每個字段的數(shù)據(jù),都聚集存儲在數(shù)據(jù)倉庫中,在查詢數(shù)據(jù)時只需要通過幾個字段,就可以讀取數(shù)據(jù)倉庫中的數(shù)據(jù),更容易提升實際中數(shù)據(jù)倉庫的存儲空間量。
4 數(shù)據(jù)復(fù)用實現(xiàn)策略
4.1 列存儲
對于數(shù)據(jù)倉庫中,運(yùn)用數(shù)據(jù)復(fù)用技術(shù),在列存儲數(shù)據(jù)的策略之中,可以將數(shù)據(jù)倉庫中查詢處理的對象,定義為列的形式, 使其可以屬于一張表中的列屬,并位于用一個數(shù)據(jù)空間內(nèi)。然后再重組一行數(shù)據(jù)內(nèi)容, 并給每一列附加偽列 rowid , 結(jié)構(gòu)如< rowid, value >,且在每一列在中都有索引。
數(shù)據(jù)復(fù)用技術(shù),對于同空間內(nèi)的數(shù)據(jù)操作,可以由and 進(jìn)行連接。從而實現(xiàn)在存儲數(shù)據(jù)倉庫中對兩個操作以及兩個列之間的比較,并可以將其定義為同空間列連接【3】。并且對于此類串行連接的數(shù)據(jù)存儲復(fù)用技術(shù)中,對于一個連接操作對象,可以有兩個孩子實施操作, 使用一個操作結(jié)果連接條件,過濾另一個孩子的操作方法,實現(xiàn)串行連接的數(shù)據(jù)復(fù)用。
4.2 數(shù)據(jù)復(fù)用方法選擇
4.4 存儲數(shù)據(jù)倉庫評估
對于數(shù)據(jù)倉庫中,應(yīng)用基于列的數(shù)據(jù)復(fù)用技術(shù),不僅優(yōu)化SQL語句生成的語法樹,還可以優(yōu)化存儲數(shù)據(jù)查詢中的連接策略, 得到優(yōu)化查詢計劃,生成大量的候選查詢計劃, 為數(shù)據(jù)復(fù)用提供決策。動態(tài)優(yōu)化算法執(zhí)行順序, 優(yōu)化查詢計劃,在存儲數(shù)據(jù)倉庫中,實際存儲量一記錄數(shù)X字段占用4個字節(jié),根據(jù)列存儲數(shù)據(jù)復(fù)用技術(shù),可復(fù)用列占用428,時節(jié)約288空間,提升數(shù)據(jù)倉庫數(shù)據(jù)復(fù)用的合理性,提升數(shù)據(jù)倉庫存儲空間。運(yùn)用復(fù)用數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫存儲中,有效排除數(shù)據(jù)倉庫存儲大量無法復(fù)用的數(shù)據(jù)列,減少實際中復(fù)用數(shù)據(jù)檢測的復(fù)雜度,有效利用數(shù)據(jù)之問的冗余,減少存儲量。
5 結(jié)論
綜上所述,對于存儲數(shù)據(jù)倉庫中,運(yùn)用數(shù)據(jù)復(fù)用技術(shù),采取有效的數(shù)據(jù)復(fù)用策略,不僅可以提升數(shù)據(jù)倉庫的存儲性能,還可以節(jié)省數(shù)據(jù)倉庫存儲空間。在存儲數(shù)據(jù)倉庫中,應(yīng)用基于列存儲的數(shù)據(jù)復(fù)用方法,有效集合相同屬性的數(shù)據(jù)對象,充分利用串行連接以及并行連接優(yōu)勢, 優(yōu)化列存儲的查詢策略,實現(xiàn)對相同數(shù)據(jù)的連續(xù)性存儲,大大優(yōu)化數(shù)據(jù)倉庫信息復(fù)用效率,提升數(shù)據(jù)倉庫數(shù)據(jù)存儲容量,發(fā)揮實際運(yùn)用效益。
參考文獻(xiàn)
[1]陳建平.數(shù)據(jù)倉庫的管理與使用[J].長春郵電學(xué)院學(xué)報,2012,07(18):41-42.
[2]陶再平,陳奇,俞瑞釗.數(shù)據(jù)倉庫在企業(yè)中應(yīng)用的研究[J]. 計算機(jī)工程,2011,14(12):76-77.
[3]唐宏,聶能,熊思民,趙明偉.數(shù)據(jù)倉庫實現(xiàn)技術(shù)[J]. 數(shù)字通信,2013,21(14):56-57.
[4]馬洪江.淺論數(shù)據(jù)倉庫在企業(yè)管理決策支持系統(tǒng)中的應(yīng)用[J]. 成都大學(xué)學(xué)報(自然科學(xué)版),2011,06(34):45-46.