亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于列存儲(chǔ)機(jī)制下多維數(shù)據(jù)倉(cāng)庫(kù)模型的優(yōu)化與研究

        2017-02-27 11:08:43徐曉錦
        關(guān)鍵詞:優(yōu)化模型

        徐曉錦 孫 蕾

        (華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)

        基于列存儲(chǔ)機(jī)制下多維數(shù)據(jù)倉(cāng)庫(kù)模型的優(yōu)化與研究

        徐曉錦 孫 蕾

        (華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)

        通過對(duì)分布式列存儲(chǔ)機(jī)制下多維數(shù)據(jù)倉(cāng)庫(kù)模型的研究,考慮到多維數(shù)據(jù)倉(cāng)庫(kù)模型上的關(guān)聯(lián)和聚集操作常常會(huì)引入大量的數(shù)據(jù)遷移,提出一種有效的列存儲(chǔ)機(jī)制下多維數(shù)據(jù)倉(cāng)庫(kù)模型的優(yōu)化方法即結(jié)合層次編碼技術(shù)。采用維表層次全局域編碼和維表層次局部域編碼相結(jié)合的方式對(duì)傳統(tǒng)星型模型維表中的層次信息進(jìn)行二進(jìn)制編碼整合,將維表的層次信息壓縮進(jìn)事實(shí)表形成無連接星型模型,并針對(duì)新模型下的數(shù)據(jù)特征提出一種復(fù)合壓縮策略,以期減少分布式列存儲(chǔ)機(jī)制下的OLAP操作引入的數(shù)據(jù)遷移并降低數(shù)據(jù)存儲(chǔ)空間,提升系統(tǒng)的查詢性能。實(shí)驗(yàn)結(jié)果表明,該優(yōu)化方法是可行且有效的。

        數(shù)據(jù)倉(cāng)庫(kù) OLAP 無連接星型模型 列存儲(chǔ) 數(shù)據(jù)壓縮

        0 引 言

        列存儲(chǔ)系統(tǒng)將數(shù)據(jù)表記錄中同一屬性值存儲(chǔ)在一起,在進(jìn)行查詢時(shí),列存儲(chǔ)系統(tǒng)只需將需要的列讀入內(nèi)存,減少了無關(guān)列的讀取,非常適合用于讀優(yōu)化系統(tǒng),故近年來隨著數(shù)據(jù)量的急速增加,列存儲(chǔ)技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中得到了廣泛的應(yīng)用[1-2]。列存儲(chǔ)機(jī)制下數(shù)據(jù)倉(cāng)庫(kù)的模型優(yōu)化[4-6]、數(shù)據(jù)壓縮[7-9]等也被廣泛研究。

        傳統(tǒng)行存儲(chǔ)系統(tǒng)下的多維模型多包含維表和事實(shí)表,且OLAP查詢處理多涉及事實(shí)表和維表之間的關(guān)聯(lián)以及基于維表的層次信息進(jìn)行聚集等。在分布式列存儲(chǔ)機(jī)制下這些操作會(huì)引入大量的數(shù)據(jù)遷移,降低系統(tǒng)的查詢性能[3]。故如何消除維表和事實(shí)表之間的連接減少數(shù)據(jù)的遷移是非常重要的。如Theodoratos等人[4]采用整數(shù)編碼對(duì)維表層次信息編碼提出一種基于混合替代鍵的星型模型,但整數(shù)編碼長(zhǎng)度較長(zhǎng)且不利于利用維層次前綴編碼來提高分組聚集操作。Karayannidis

        等人[5]提出對(duì)維表層次信息進(jìn)行編碼形成層次代理鍵存放到事實(shí)表中,然后基于層次編碼對(duì)事實(shí)表進(jìn)行聚簇存儲(chǔ),這樣縮小查詢空間范圍,但增加了存儲(chǔ)空間。王會(huì)舉等人[6]提出采用局部的層次編碼技術(shù)將維表的層次信息壓入事實(shí)表,從而減少事實(shí)表與維表間的連接,但局部層次編碼增加了編碼的復(fù)雜度而且不利于應(yīng)對(duì)維表層次信息的變化。為解決上述問題,本文提出采用基于維表層次信息的全局層次編碼和局部層次編碼相結(jié)合的方式對(duì)維表中的層次信息進(jìn)行編碼,并按照一定規(guī)則將維表的層次編碼整合成復(fù)合編碼來替代原星型模型事實(shí)表中的主鍵和外鍵,形成無連接星型模型。將維表的層次信息壓入到事實(shí)表中,消除事實(shí)表與維表之間的連接,并且使得事實(shí)表可以獨(dú)立執(zhí)行維表上的聚集操作,從而提升系統(tǒng)的查詢性能。

        優(yōu)化后的模型用維復(fù)合編碼代替了事實(shí)表中的主鍵外鍵,且列存儲(chǔ)將同一屬性下的數(shù)據(jù)組織存儲(chǔ),增加了數(shù)據(jù)之間的相似性使得該類數(shù)據(jù)更易壓縮,節(jié)省數(shù)據(jù)存儲(chǔ)空間;進(jìn)一步也可以減少I/O的訪問次數(shù),提升系統(tǒng)性能。鑒于Abadi等人[7]提出的基于決策樹方法的列存儲(chǔ)壓縮策略,王振璽等人[8]提的區(qū)級(jí)壓縮策略等都忽略了不同壓縮方算法適用范圍的重疊性,文中針對(duì)優(yōu)化后模型組織下的數(shù)據(jù)特征,細(xì)化考慮列存儲(chǔ)不同壓縮方法適用范圍的重疊性,提出采用多級(jí)壓縮的復(fù)合壓縮策略以達(dá)到更好的壓縮效果,進(jìn)一步提升系統(tǒng)性能。

        1 基于列存儲(chǔ)機(jī)制下的多維數(shù)據(jù)倉(cāng)庫(kù)模型的優(yōu)化過程

        1.1 基本概念

        多維數(shù)據(jù)倉(cāng)庫(kù)模型通常包括維表和事實(shí)表兩大類,而其組織的數(shù)據(jù)又主要分為度量和維度兩大類。細(xì)分概念如下:維(Dimension):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等);維的層次(Level):人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、年);維的成員(Member):維的一個(gè)取值,是數(shù)據(jù)項(xiàng)在某維中的描述;度量(Measure):某特定時(shí)間點(diǎn)跟某事物相關(guān)的值。在OLAP中,通常每個(gè)維度信息被存儲(chǔ)在一張關(guān)系表中即維表,度量則被存儲(chǔ)在事實(shí)表中。星型模型和雪花模型是最典型的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)多維模型,文中的研究以星型模型為例。

        1.2 基于列存儲(chǔ)機(jī)制下的星型數(shù)據(jù)模型的優(yōu)化

        數(shù)據(jù)倉(cāng)庫(kù)的查詢往往涉及維表中的層次屬性和事實(shí)表中的度量屬性。傳統(tǒng)的行存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)上的查詢會(huì)涉及大量的維表和事實(shí)表之間的關(guān)聯(lián),消耗大量的時(shí)間。如今大數(shù)據(jù)時(shí)代,數(shù)據(jù)量急劇增加,由于基于列存儲(chǔ)上的查詢可以減少無關(guān)列的讀取,故為了加快數(shù)據(jù)的查詢操作,數(shù)據(jù)的存儲(chǔ)慢慢由傳統(tǒng)的行存儲(chǔ)向列存儲(chǔ)轉(zhuǎn)換。目前常用的列存儲(chǔ)分解存儲(chǔ)模型DSM(decomposed storage model)[9],采用對(duì)數(shù)據(jù)庫(kù)中的關(guān)系表進(jìn)行垂直劃分成一些小的二元關(guān)系表的形式存儲(chǔ)每列數(shù)據(jù)。由行存儲(chǔ)轉(zhuǎn)換為列存儲(chǔ)的方式在減少查詢無關(guān)列的讀取的同時(shí)也破壞了維表上的層次信息的完整性。為了消除維表和事實(shí)表之間頻繁的連接以及保持維表上的層次信息的完整性,文中借鑒泛關(guān)系模式的思想[10]對(duì)模型進(jìn)行優(yōu)化,采用層次屬性全局編碼和層次屬性局部編碼相結(jié)合的方式將維表中的層次信息壓縮到事實(shí)表,既保持了維表上層次信息的完整性又使得事實(shí)表可以獨(dú)立處理數(shù)據(jù)從而更加適用于分布式列存儲(chǔ)系統(tǒng)。模型優(yōu)化涉及的定義如下:

        圖1 日期維度上Month層全局統(tǒng)一編碼

        圖2 地域維度上的City層的局部統(tǒng)一編碼

        定義5 (維復(fù)合編碼) 以維度為粒度,對(duì)模型中各個(gè)維度的維層次編碼進(jìn)行組合。本文所采用的編碼規(guī)則:時(shí)間維度為第一有限維度,其他維度的優(yōu)先級(jí)根據(jù)其成員數(shù)確定,成員數(shù)越少優(yōu)先級(jí)越高。

        歸納起來,采用基于維表層次信息的全局層次編碼和局部層次編碼相結(jié)合的方式對(duì)列存儲(chǔ)機(jī)制下數(shù)據(jù)倉(cāng)庫(kù)多維模型的主要優(yōu)化步驟如圖3所示。

        圖3 基于層次編碼的模型優(yōu)化過程

        ? 首先取出多維模型中維表Di上的層次Li。

        ? 其次取得某維表上的Li層次上的層次屬性全局域gobaldom(Li)和層次屬性局部域localdom(Li)。

        ? 接著對(duì)該維表Li層上的各層次屬性局部域的交集與層次屬性全局域做判斷,若其相似度較高(localdom(Li1∩Li2∩…∩Lij)/gobaldom(Li) >=β)或者Li層的次屬性全局域取值較少(gobaldom(Li)<α)則對(duì)該層采用層次屬性全局域編碼,否則采取層次屬性局部域編碼。

        ? 然后對(duì)同一維表上不同層次得到的維層次屬性編碼按照維層次由高至低進(jìn)行組合形成維表層次編碼且這些維表層次編碼即包含了原多維模型中維表上的層次信息。

        ? 最后,將多維模型中所有維表層次編碼進(jìn)行組合形成維復(fù)合編碼,以此來代替原模型中事實(shí)表上的主鍵外鍵。維復(fù)合編碼包含了各個(gè)維表中的完整層次信息,消除了維表和事實(shí)表之間的鏈接操作,減少了分布式列存儲(chǔ)機(jī)制下OLAP操作引入的數(shù)據(jù)遷移量,從而提升系統(tǒng)的查詢性能。

        1.3 面向列存儲(chǔ)機(jī)制下優(yōu)化后模型可采用的復(fù)合壓縮策略

        對(duì)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)多維模型的優(yōu)化將維表的層次信息壓縮成了維表層次編碼,并且用維復(fù)合編碼代替了原事實(shí)表中主鍵外鍵,在一定程度上減少了數(shù)據(jù)的存儲(chǔ)空間。又由于在列存儲(chǔ)機(jī)制下同一屬性的屬性值存儲(chǔ)在一起,增加了相鄰數(shù)據(jù)之間的相似性,因此若能對(duì)優(yōu)化后模型組織的數(shù)據(jù)進(jìn)行進(jìn)一步的壓縮則可得到更好壓縮效率,從而進(jìn)一步可以減少I/O的訪問次數(shù),提升系統(tǒng)的查詢性能。

        在此,示例性地采用分布式并行處理數(shù)據(jù)庫(kù)Teradata[11]對(duì)優(yōu)化后模型組織的數(shù)據(jù)進(jìn)行列式存儲(chǔ)。鑒于在Teradata的列存儲(chǔ)模式下,每個(gè)AMP下所對(duì)應(yīng)的磁盤矩陣中屬于同一列的數(shù)據(jù)會(huì)被存放到同一個(gè)container中去,在本案例中的復(fù)合壓縮策略是基于container粒度的。依據(jù)經(jīng)過維層次二進(jìn)制編碼后的數(shù)據(jù)特征,本文采用前綴壓縮、簡(jiǎn)單字典、位圖編碼、游程編碼、空值壓縮、LZ編碼這6種壓縮方法對(duì)新模型組織的數(shù)據(jù)進(jìn)行有效壓縮。具體的復(fù)合壓縮策略實(shí)現(xiàn)算法如下所示:

        輸入:待壓縮的container

        輸出:壓縮是否成功

        1. if(C是否是維復(fù)合編碼) then begin

        2. Return 對(duì)C采用前綴壓縮

        3. if(C中的空值比例大于閾值a) then begin

        4. Return 對(duì)C采用控制壓縮

        5. if(C中的相同值所占比例大于b) then begin

        6. if(C中的不同值的個(gè)數(shù)大于c) then begin

        7. Return 對(duì)C采用字典壓縮

        8. if(C′中的平均連續(xù)長(zhǎng)度大于d) then begin

        9. Return對(duì)C′采用游程壓縮

        10. else Return C′

        11. else then begin

        12. Return 對(duì)C采用位圖壓縮

        13. else if(C中的屬性值平均長(zhǎng)度大于e) then begin

        14. Return 對(duì)C采用LZ壓縮

        15. Return C

        其中,算法的步1-步2是對(duì)復(fù)合編碼進(jìn)行判斷壓縮處理,因?yàn)榫S復(fù)合編碼是由多個(gè)維度的二進(jìn)制維層次編碼組合而成比較特殊,且編碼后的事實(shí)表按照維復(fù)合編碼進(jìn)行排序后存儲(chǔ),使得相鄰維復(fù)合編碼往往含有較多的相同二進(jìn)制位,故我們對(duì)于維復(fù)合編碼采用前綴壓縮;步3-步4是用來處理輸入的數(shù)據(jù)序列中空值較多的情況,若空值比例較大則采用空值壓縮;步5-步14是用來處理數(shù)據(jù)序列中相同值較多的情況,且將簡(jiǎn)單字典、LZ編碼和位圖編碼置為同一層次的壓縮,其中步5-步10對(duì)經(jīng)過字典編碼后的序列又進(jìn)一步判斷,對(duì)由簡(jiǎn)單字典編碼后的連續(xù)序列進(jìn)行判斷,若平均連續(xù)長(zhǎng)度大于d,則采用游程編碼進(jìn)行了第二層級(jí)的壓縮,從而取得更好的壓縮效果。

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)使用的開發(fā)環(huán)境為Eclipse,使用的并行數(shù)據(jù)庫(kù)為Teradata 14.10版本。選用Java語言實(shí)現(xiàn)了無連接星型模型的編碼以及復(fù)合壓縮策略。

        2.2 數(shù)據(jù)集描述

        實(shí)驗(yàn)的初始數(shù)據(jù)集是采用星型模型測(cè)試基準(zhǔn)稱SSB(star schema benchmark)[12]來生成原始數(shù)據(jù)。SSB是在TPC-H的基礎(chǔ)上設(shè)計(jì)的用于測(cè)試數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品的數(shù)據(jù)模型,其中包括1張事實(shí)表(LINEORDER),4張維度表(CUSTOMER、PART、DWDATE、SUPPLIER),并定義了13條查詢語句。文中使用了文獻(xiàn)[13]提供的dbgen產(chǎn)生原始數(shù)據(jù),且可用擴(kuò)展因子來定義測(cè)試基準(zhǔn)集的大小,當(dāng)SF=1時(shí),事實(shí)表LINEORDER會(huì)產(chǎn)生600萬條數(shù)據(jù)。實(shí)驗(yàn)一中使用的擴(kuò)展因子為5,實(shí)驗(yàn)二中使用的擴(kuò)展因子為1、2、3、4、5。根據(jù)層次編碼和不同壓縮算法的特點(diǎn),文中涉及的參數(shù)取值如下:α=256,β=80%,a=30%,b=20%,c=20,d=4,e=20。

        2.3 實(shí)驗(yàn)結(jié)果及分析

        (1) 實(shí)驗(yàn)一

        由于連接操作以及聚集操作是數(shù)據(jù)倉(cāng)庫(kù)上的常用且特別耗時(shí)的操作,所以本文分別在原星型模型、編碼改進(jìn)后的無連接星型模型且無壓縮以及編碼改進(jìn)后的無連接星型模型且采用復(fù)合壓縮(壓縮效果見實(shí)驗(yàn)二)這3種情況下組織的數(shù)據(jù)上進(jìn)行連接操作以及聚集操作的測(cè)試。我們按照SSB提供的標(biāo)準(zhǔn)規(guī)則編寫相應(yīng)的查詢語句,Q1為選擇操作,Q2為連接操作,Q3為聚集操作。實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 查詢效果圖

        由實(shí)驗(yàn)結(jié)果可知,無連接星型模型非壓縮數(shù)據(jù)的查詢性能遠(yuǎn)優(yōu)于原星型模型的查詢操作。這是因?yàn)榛谠切湍P蜕系倪B接操將引入大量的數(shù)據(jù)遷移,繼而消耗更多的時(shí)間。由圖5還可以看出基于無連接星型模型的壓縮數(shù)據(jù)的執(zhí)行性能優(yōu)于基于無連接星型模型的非壓縮數(shù)據(jù),這是因?yàn)椴捎梦闹性O(shè)計(jì)的復(fù)合壓縮策略選用輕量級(jí)的壓縮方法,極大程度壓縮了數(shù)據(jù)量,并且不需解壓可直接在壓縮態(tài)數(shù)據(jù)上進(jìn)行查詢[14],從而使得在系統(tǒng)加載相同量數(shù)據(jù)信息時(shí),可以訪問更少的數(shù)據(jù)塊,節(jié)省了I/O開銷加快了查詢速度。

        (2) 實(shí)驗(yàn)二

        壓縮率實(shí)驗(yàn)選擇由無連接星型模型編碼的事實(shí)表LINEORDER的ORDERPRIORITY列來進(jìn)行測(cè)試。同時(shí)也采用C-store提出的壓縮方法[7]和區(qū)級(jí)壓縮策略[8]對(duì)該列來進(jìn)行壓縮,并選取SF因子為1、2、3、4、5做了5組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 壓縮效果圖

        由實(shí)驗(yàn)結(jié)果可知,文中提出的自適應(yīng)選擇復(fù)合壓縮策略要比C-store的壓縮策略和區(qū)級(jí)壓縮策略的壓縮效果好。這是因?yàn)槲闹刑岢龅膹?fù)合壓縮策略先對(duì)ORDERPRIORITY列數(shù)據(jù)采用簡(jiǎn)單字典編碼和位圖編碼進(jìn)行了一級(jí)壓縮,然后又對(duì)由簡(jiǎn)單字典編碼壓縮后產(chǎn)生的序列進(jìn)行分析,滿足序列中相同值連續(xù)平均長(zhǎng)度大于4時(shí),再采用游程壓縮方法進(jìn)行二級(jí)壓縮,從而盡可能利用數(shù)據(jù)序列特征,達(dá)到最優(yōu)的壓縮效果。

        3 結(jié) 語

        在大數(shù)據(jù)時(shí)代,為了提升數(shù)據(jù)倉(cāng)庫(kù)在分布式列存儲(chǔ)機(jī)制下數(shù)據(jù)的處理性能,文中從兩方面入手:(1)對(duì)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)模型進(jìn)行優(yōu)化,將原多維模型的維表的層次信息按照層次全局編碼和層次局部編碼結(jié)合的方式進(jìn)行層次編碼,將維表的層次信息壓縮進(jìn)事實(shí)表,消除事實(shí)表與維表之間的連接,減少分布式列存儲(chǔ)下OLAP操作引入的數(shù)據(jù)遷移,從數(shù)據(jù)模型層保證了數(shù)據(jù)計(jì)算的獨(dú)立性,提升系統(tǒng)的查詢性能;(2)根據(jù)列存儲(chǔ)模式下優(yōu)化后模型組織的數(shù)據(jù)特點(diǎn),設(shè)計(jì)一種復(fù)合壓縮策略,進(jìn)而節(jié)省了存儲(chǔ)空間并減少I/O開銷,進(jìn)一步加快查詢。實(shí)驗(yàn)證明,文中設(shè)計(jì)的方法能有效消除事實(shí)表和維表之間的連接,節(jié)省數(shù)據(jù)的存儲(chǔ)空間,提升數(shù)據(jù)倉(cāng)庫(kù)在分布式列存儲(chǔ)機(jī)制下數(shù)據(jù)的處理性能。下一步工作將對(duì)文中提出的優(yōu)化思想與目前主流分布式數(shù)據(jù)處理平臺(tái)無縫連接做進(jìn)一步的研究。

        [1] Plattner H. A common database approach for OLTP and OL-P using an in-memory column database[C]//Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data, 2009:1-2.

        [2] 王珊, 王會(huì)舉, 覃雄派, 等. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(10):1741-1752.

        [3] 王意潔, 孫偉東, 周松, 等. 云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J]. 軟件學(xué)報(bào), 2012, 23(4):962-986.

        [4] Theodoratos D, Tsois A. Heuristic optimization of OLAP queries in multidimensionally hierarchically clustered databases[C]//Proceedings of the 4th ACM International Workshop on Data Warehousing and OLAP. ACM, 2001:48-55.

        [5] Karayannidis N, Tsois A, Sellis T, et al. Processing star queries on hierarchically-clustered fact tables[C]//Proceedings of the 28th International Conference on Very Large Data Bases, 2002:730-741.

        [6] 王會(huì)舉, 覃雄派, 王珊, 等. 面向大規(guī)模機(jī)群的可擴(kuò)展OLAP查詢技術(shù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(1):45-58.

        [7] Abadi D, Madden S, Ferreira M. Integrating compression and execution in column-oriented database systems[C]//Proceedings of the 2006 ACM SIGMOD International Conference on Management of Data. ACM, 2006:671-682.

        [8] 王振璽, 樂嘉錦, 王梅, 等. 列存儲(chǔ)數(shù)據(jù)區(qū)級(jí)壓縮模式與壓縮策略選擇方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(8):1523-1530.

        [9] 陸戌辰, 王梅, 樂嘉錦. 列存儲(chǔ)中的OLAP多查詢優(yōu)化方法[J]. 計(jì)算機(jī)科學(xué)與探索, 2012, 6(9):852-864.

        [10] Fagin R, Mendelzon A O, Ullman J D. A simplied universal relation assumption and its properties[J]. ACM Transactions on Database Systems, 1982, 7(3):343-360.

        [11] Teradata Database[OL]. http://cn.teradata.com/products-and-services/Teradata-Database.

        [12] O’Neil P, O’Neil B, Chen X. Star schema benchmark[OL]. http://www.cs.umb.edu/~poneil/StarSchemaB.pdf.

        [13] K?mpgen B, Harth A. No size fits all- running the star schema benchmark with SPARQL and RDF aggregate views[C/OL]. http://people.aifb.kit.edu/wa5886/ssb-benchmark/.

        [13] Ferreira M C. Compression and query execution within column oriented databases[D]. Cambridge, MA, USA: Massachusetts Institute of Technology, 2005.

        REASERCH AND OPTIMIZATION OF MULTI DIMENSIONAL DATA WAREHOUSE MODEL BASED ON COLUMN STORAGE

        Xu Xiaojin Sun Lei

        (DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)

        Based on the research of multi dimension data warehouse model on the distributed column storage, an effective distributed column storage optimization method with hierarchical coding techniques is proposed, considering that the association and aggregation operation of multi dimension data warehouse model often bring a lot of data migration. The optimization method uses local dimension hierarchical encoding and global dimension hierarchical encoding to encode the level information of the dimension table, and then compresses dimension hierarchies’ information into fact table to form a join-free star schema. Then, a composite compression strategy is put forward for the data feature of the new model to reduce the data migration introduced by OLAP operation and the data storage space under the distributed column storage mechanism, improving the query performance of the system. The experimental results show that this optimization method is feasible and effective.

        Data warehouse OLAP Join-free star schema Column store Data compression

        2016-01-19。國(guó)家自然科學(xué)基金項(xiàng)目(61502170)。徐曉錦,碩士生,主研領(lǐng)域:數(shù)據(jù)庫(kù)理論與應(yīng)用。孫蕾,副教授。

        TP3

        A

        10.3969/j.issn.1000-386x.2017.02.008

        猜你喜歡
        優(yōu)化模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        日本一区二三区在线中文| 波多野结衣免费一区视频| 国产乱淫视频| 日韩在线手机专区av| 涩涩鲁精品亚洲一区二区| 国产成人无码精品久久久露脸| 色狠狠一区二区三区香蕉| 加勒比在线一区二区三区| 男女一区视频在线观看| 国产精品久久久久一区二区三区 | 精品乱码久久久久久中文字幕| 无码一区二区三区人| 一区二区三区四区黄色av网站| 五月丁香六月综合缴清无码| 欧美大香线蕉线伊人久久| 级毛片无码av| 日韩人妻久久中文字幕| 少女韩国电视剧在线观看完整| 色偷偷88888欧美精品久久久| 极品人妻少妇一区二区| 人妖一区二区三区视频| 中文字幕乱偷无码av先锋蜜桃| 99热这里只有精品4| 国产一区二区三区乱码在线| 精品高朝久久久久9999| 婷婷五月综合丁香在线| 国产午夜激情视频自拍| 日韩av在线手机免费观看| 无码人妻aⅴ一区二区三区| 亚洲人成人影院在线观看| 放荡人妻一区二区三区| 国产一区二区三区不卡在线观看| 国产精品第一国产精品| 久久半精品国产99精品国产 | 久久精品欧美日韩精品| 国产在线91观看免费观看| 国产精品高清一区二区三区人妖 | 日产乱码一二三区别免费l | 国产午夜在线观看视频播放| 精品蜜桃在线观看一区二区三区 | 亚洲精品无amm毛片|