[摘 要] 在研究數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的基礎(chǔ)上,將“數(shù)據(jù)倉(cāng)庫(kù)”理論運(yùn)用于我國(guó)發(fā)展中的連鎖超市的決策管理,提出了連鎖超市數(shù)據(jù)集市的數(shù)據(jù)模型——雪花模型。并對(duì)數(shù)據(jù)模型中的事實(shí)表、維度表、大維度、粒度、聚集事實(shí)表等相關(guān)的技術(shù)問(wèn)題,進(jìn)行了細(xì)致的探討。對(duì)研究并建立連鎖超市數(shù)據(jù)倉(cāng)庫(kù)具有參考價(jià)值和實(shí)際意義。
[關(guān)鍵詞] 連鎖超市 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市 雪花模型 基礎(chǔ)事實(shí)表 維表 聚集事實(shí)表
隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,購(gòu)物環(huán)境舒適的超級(jí)市場(chǎng)正在得到越來(lái)越多消費(fèi)者的青睞,連鎖超市已經(jīng)成為我國(guó)商業(yè)零售業(yè)的發(fā)展主流。加入WTO后,我國(guó)商業(yè)零售業(yè)在應(yīng)對(duì)國(guó)內(nèi)競(jìng)爭(zhēng)的同時(shí),將面臨來(lái)自沃爾瑪、家樂(lè)福、麥德龍等國(guó)際零售巨頭激烈的國(guó)際競(jìng)爭(zhēng)。因而我們不僅要密切跟蹤行業(yè)發(fā)展趨勢(shì),同時(shí)要借鑒吸收國(guó)內(nèi)外先進(jìn)的管理模式,堅(jiān)持本土化和國(guó)際化相結(jié)合,在營(yíng)銷和管理工作上走出自己的經(jīng)營(yíng)特色之路,最終在競(jìng)爭(zhēng)中求得生存與發(fā)展。
在信息時(shí)代,誰(shuí)能在信息的海洋中獲取更多的知識(shí),誰(shuí)就能取得成功的主動(dòng)權(quán)。信息技術(shù)在企業(yè)的決策和商業(yè)活動(dòng)中起著重要的支持作用。
信息技術(shù)的迅速發(fā)展和企業(yè)管理決策的迫切需要,使數(shù)據(jù)倉(cāng)庫(kù)理論應(yīng)運(yùn)而生,并成為決策支持領(lǐng)域中實(shí)用性極強(qiáng)的技術(shù)。
一、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是當(dāng)前用于企業(yè)決策支持的、先進(jìn)的有效方法。
1993年,W.H.lnmon在其所著《Building the Data Warehouse》中對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行了完整的界定。他將數(shù)據(jù)倉(cāng)庫(kù)定義為:“一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失性的數(shù)據(jù)集合,用以支持管理層的決策”。這一界定被學(xué)術(shù)界廣泛認(rèn)同。W.H.lnmon關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的定義,可以從幾方面來(lái)理解:
1.數(shù)據(jù)倉(cāng)庫(kù)是一種數(shù)據(jù)資源集成與整合的具體方法。數(shù)據(jù)倉(cāng)庫(kù)不同于一般的數(shù)據(jù)庫(kù)。它是按照一定的要求、圍繞明確的主題,對(duì)原有分散的、相互獨(dú)立,異構(gòu)的操作型數(shù)據(jù)進(jìn)行有效集成。
2.數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)具有相對(duì)的穩(wěn)定性。
3.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要用于對(duì)管理決策過(guò)程的支持。
數(shù)據(jù)倉(cāng)庫(kù)的鮮明特點(diǎn),使數(shù)據(jù)倉(cāng)庫(kù)技術(shù)具有廣泛的應(yīng)用前景。目前,已有不少行業(yè)把數(shù)據(jù)倉(cāng)庫(kù)技術(shù)用于數(shù)據(jù)管理和決策支持,取得了經(jīng)驗(yàn),產(chǎn)生了效益。
數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它面向部門(mén)級(jí)業(yè)務(wù),面向某個(gè)特定的主題。是一種簡(jiǎn)化的小型數(shù)據(jù)倉(cāng)庫(kù)。實(shí)際上,多個(gè)相互聯(lián)系的、圍繞一個(gè)宏觀大主題的多個(gè)數(shù)據(jù)集市的集成,就構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)在其實(shí)現(xiàn)過(guò)程和數(shù)據(jù)模式方面,沒(méi)有根本的差異。而數(shù)據(jù)集市比數(shù)據(jù)倉(cāng)庫(kù)更為簡(jiǎn)潔、方便,易于快速實(shí)施并應(yīng)用。因此,在建立企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)前,可規(guī)劃建立多個(gè)部門(mén)級(jí)的數(shù)據(jù)集市,在此基礎(chǔ)上,集成實(shí)現(xiàn)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)。
二、數(shù)據(jù)倉(cāng)庫(kù)的“星型模型”
“星型模型”是數(shù)據(jù)倉(cāng)庫(kù)廣泛采用的數(shù)據(jù)模型。它能準(zhǔn)確、簡(jiǎn)潔地描述出實(shí)體之間的邏輯關(guān)系。數(shù)據(jù)倉(cāng)庫(kù)的其他數(shù)據(jù)模型,一般是在“星型模型”的基礎(chǔ)上的變形與擴(kuò)充。一個(gè)典型的星型模式包括一個(gè)大型的事實(shí)表和一組邏輯上圍繞這個(gè)事實(shí)表的維度表。如圖1所示:
事實(shí)表是星型模型的核心。用于存放大量的具有業(yè)務(wù)性質(zhì)的事實(shí)數(shù)據(jù)。事實(shí)表由主鍵和事實(shí)的度量數(shù)據(jù)兩部分組成。事實(shí)表通過(guò)主鍵,把各維度表鏈接在一起,形成一個(gè)相互關(guān)聯(lián)的整體,共同描述主題。事實(shí)表中存放的大量數(shù)據(jù),是同主題密切相關(guān)的、用戶最關(guān)心的、對(duì)象的度量數(shù)據(jù)。
維度是觀察事實(shí)、分析主題的角度。維度表的集合是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模式的關(guān)鍵。維度表通過(guò)主關(guān)鍵字與事實(shí)表相連。用戶依賴于維度表中的維度屬性,對(duì)事實(shí)表中的事實(shí)數(shù)據(jù)進(jìn)行查詢、分析,從而得到支持決策的數(shù)據(jù)。
因此,對(duì)事實(shí)表和維表的分析設(shè)計(jì),是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型設(shè)計(jì)的關(guān)鍵。
三、連鎖超市數(shù)據(jù)集市的數(shù)據(jù)模型
數(shù)據(jù)模型是建立數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。業(yè)務(wù)需求是進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型設(shè)計(jì)的驅(qū)動(dòng)力。連鎖超市商品銷售情況可以看作超市管理數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,即數(shù)據(jù)集市。適宜選用以“星型模型”為基礎(chǔ),建立能滿足需求的連鎖超市數(shù)據(jù)集市的數(shù)據(jù)模型。
1.事實(shí)表的設(shè)計(jì)
如前所述,事實(shí)表由主鍵和度量數(shù)據(jù)兩部分組成。星型模型中各維度表主鍵的組合構(gòu)成事實(shí)表的主鍵。針對(duì)本文的研究主題,最需要關(guān)注的是連鎖超市商品銷售情況。因此,在事實(shí)表中,要準(zhǔn)確記載各連鎖超市所暢銷的商品、銷售數(shù)量、營(yíng)業(yè)額、利潤(rùn)等度量數(shù)據(jù)。
事實(shí)表中數(shù)據(jù)的細(xì)節(jié)程度或綜合程度的級(jí)別稱為數(shù)據(jù)“粒度”。粒度是數(shù)據(jù)倉(cāng)庫(kù)事實(shí)表的重要的特征。粒度的級(jí)別依賴于維表的屬性。不同的需求,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的粒度要求不同。
連鎖超市數(shù)據(jù)集市需要保留最低層次的細(xì)節(jié)數(shù)據(jù),以滿足數(shù)據(jù)集市的信息查詢要求。很多數(shù)據(jù)挖掘的應(yīng)用程序也需要最低層次的數(shù)據(jù)顆粒。再者,低粒度的事實(shí)表便于從操作型系統(tǒng)中抽取源數(shù)據(jù)。此外,最低層次的細(xì)節(jié)數(shù)據(jù)是聚集事實(shí)表的基礎(chǔ)。
另一方面,為提供決策支持,需要多方面的高粒度的匯總數(shù)據(jù)。
因此,連鎖超市數(shù)據(jù)集市的數(shù)據(jù)模型設(shè)計(jì),要能方便獲取從最低層次的細(xì)節(jié)數(shù)據(jù)到高度概括的匯總數(shù)據(jù)。這不僅需要設(shè)計(jì)好事實(shí)表,同時(shí)依賴于維度表屬性的設(shè)計(jì)。
2.維度表的設(shè)計(jì)
維度表的集合是建立數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的關(guān)鍵。
建立連鎖超市數(shù)據(jù)集市的目的是要從各個(gè)角度,分析對(duì)商品銷售情況的影響,為管理者在研究超市發(fā)展策略等方面,提供決策支持。
針對(duì)連鎖超市需要掌握的基礎(chǔ)信息和決策的需求,在連鎖超市數(shù)據(jù)集市中,設(shè)計(jì)了以下維度及其主要屬性。
客戶維:這是最重要的一個(gè)維度,在商界,“客戶就產(chǎn)上帝”。在客戶維中,建立了客戶的基本信息、是否為會(huì)員客戶、客戶居住地域等,以便掌握客戶個(gè)人細(xì)節(jié)數(shù)據(jù)。從數(shù)據(jù)粒度的需要,客戶維還建立了客戶的會(huì)員關(guān)系和屬地等。為建立聚集事實(shí)表作好準(zhǔn)備。
商品維:商品維也是一個(gè)重要的維度。商品不僅決定了超市的經(jīng)營(yíng)范圍,商品的結(jié)構(gòu)、品牌、質(zhì)量直接影響營(yíng)業(yè)額。在商品維中,設(shè)計(jì)了商品代碼、商品名稱、商品類別、品牌名稱、包裝類別等維度屬性。
時(shí)間維:在數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)結(jié)構(gòu)中,時(shí)間維往往是不可少的一個(gè)維度。因?yàn)槊宽?xiàng)“銷售事實(shí)”都是在一定的時(shí)間或者時(shí)間段內(nèi)發(fā)生。針對(duì)需求,時(shí)間維采用日、月、季、年四個(gè)屬性。
連鎖店維:各連鎖店承擔(dān)了全部商品的銷售業(yè)務(wù)。連鎖店的服務(wù)質(zhì)量直接影響企業(yè)的競(jìng)爭(zhēng)力、銷售業(yè)績(jī)和企業(yè)利潤(rùn)。連鎖店維中建立了連鎖店名、銷售經(jīng)理、規(guī)模、所在地域等維度屬性。
根據(jù)上述分析,建立連鎖超市數(shù)據(jù)集市的星型數(shù)據(jù)模型,如圖2所示:
3.處理好大維度問(wèn)題
在上列各個(gè)維度中,客戶維和商品維都是典型的大維度。這是因?yàn)椋捍蟮倪B鎖超市,客戶維和商品維很深,累計(jì)可能有數(shù)以萬(wàn)計(jì)的客戶和上萬(wàn)種商品;客戶維和商品維很寬,根據(jù)需要,這兩種維可以有多個(gè)維度屬性。
數(shù)據(jù)倉(cāng)庫(kù)的大維度,會(huì)給數(shù)據(jù)倉(cāng)庫(kù)的操作應(yīng)用帶來(lái)一些問(wèn)題。大維度中的長(zhǎng)文本字段不僅占用存儲(chǔ)空間,而且維度數(shù)據(jù)不易更新和維護(hù);向大維度表填充數(shù)據(jù)難度增大;對(duì)事實(shí)表的查詢涉及大維度表時(shí),會(huì)影響效率。解決數(shù)據(jù)倉(cāng)庫(kù)“大維度”問(wèn)題較好的辦法是采用“雪花模型”。
“雪花模型”是在星型模型的基礎(chǔ)上拓展而來(lái)的。將“星型模型”中的大維度表進(jìn)分解,通過(guò)增加詳細(xì)類別表,形成一些局部的層次區(qū)域,就演變成為“雪花模型”。將連鎖超市數(shù)據(jù)集市中的兩個(gè)大維度表——客戶維和商品維進(jìn)行“雪花化”。分解出相應(yīng)的類別表,既解決了大維度表帶來(lái)的問(wèn)題,也為建立“聚集事實(shí)表”作好了準(zhǔn)備。
基于上述分析,設(shè)計(jì)出低?;A(chǔ)信息數(shù)據(jù)集市的雪花模型構(gòu)架。如圖3所示:
四、連鎖超市數(shù)據(jù)集市聚集模型設(shè)計(jì)
“聚集”是從最低粒度的事實(shí)表中衍生出來(lái)的的預(yù)先計(jì)算的匯總數(shù)據(jù)。這些匯總數(shù)據(jù)形成了一組獨(dú)立的聚集事實(shí)表。實(shí)際應(yīng)用中,可以根據(jù)需要用跨越任何維度的特定的匯總數(shù)據(jù)構(gòu)建為一個(gè)聚集事實(shí)表。
1.建立數(shù)據(jù)集市聚集事實(shí)表的必要性
建立低保基礎(chǔ)信息數(shù)據(jù)集市的主要目的,是要為管理者提供具有決策價(jià)值的匯總數(shù)據(jù)。因此,把使用頻率高的匯總數(shù)據(jù)存放在聚集事實(shí)表中,對(duì)提高數(shù)據(jù)集市的的使用性能,為管理者提供決策支持,使用戶獲得更好、更快的查詢結(jié)果,是非常必要的。數(shù)據(jù)集市聚集模型的好壞將在很大程度上影響到數(shù)據(jù)集市的使用效果。
2.怎樣建立聚集事實(shí)表
在數(shù)據(jù)集市中建立聚集事實(shí)表,要注意以下原則:
⑴每一個(gè)不同的聚集必須使用單獨(dú)的事實(shí)表存儲(chǔ)聚集數(shù)據(jù),成為相對(duì)獨(dú)立的聚集事實(shí)表。
⑵聚集事實(shí)表中的維表必須是基本事實(shí)表中的維表的壓縮。
⑶基本事實(shí)表中的度量數(shù)據(jù)加載后,才能作聚集處理。
3.連鎖超市數(shù)據(jù)集市常用的聚集事實(shí)表
每一個(gè)數(shù)據(jù)倉(cāng)庫(kù)(數(shù)據(jù)集市),都可能有多個(gè)維度表。因此,一個(gè)數(shù)據(jù)倉(cāng)庫(kù)(數(shù)據(jù)集市)會(huì)有很多個(gè)聚集事實(shí)表。究竟需要那些聚集,要針對(duì)用戶需求和決策需要。例如,連鎖超市數(shù)據(jù)集市中可建立以下常用聚集事實(shí)表:
⑴單路聚集:在有多個(gè)維度的數(shù)據(jù)模型中,如果只有一個(gè)維度升高維度層次,其他維度保持最低層次,所生成的事實(shí)表為單路聚集事實(shí)表。在連鎖超市數(shù)據(jù)集市中,把時(shí)間維度的屬性層次升高到月、季或年,其他維度層次保持不變,就生成一個(gè)單路時(shí)間聚集事實(shí)表。
⑵二路聚集:在多維數(shù)據(jù)模型中,如果有二個(gè)維度升高維度層次,其他維度保持最低層次,所生成的事實(shí)表為二路聚集事實(shí)表。在連鎖超市數(shù)據(jù)集市中,如果需要掌握在某年對(duì)會(huì)員客戶的銷售情況,可以生成時(shí)間維屬性為年,客戶維屬性為會(huì)員,其他維保持不變的二路聚集事實(shí)表。如圖4所示。
⑶三路聚集:在多維數(shù)據(jù)模型中,如果有三個(gè)維度升高維度層次,其他維度保持最低層次,所生成的事實(shí)表為三路聚集事實(shí)表。例如:在連鎖超市數(shù)據(jù)集市中,需要掌握在某年會(huì)員客戶對(duì)某個(gè)品牌商品的購(gòu)買(mǎi)情況,就需要對(duì)銷售事實(shí)表進(jìn)行三路聚集,如圖5所示。
按照上述方法,可以根據(jù)需要靈活方便地生成多個(gè)聚集事實(shí)表。
五、結(jié)束語(yǔ)
能否滿足需求,是衡量一個(gè)應(yīng)用軟件質(zhì)量的重要依據(jù)。利用本文提出的連鎖超市數(shù)據(jù)集市的數(shù)據(jù)模型架構(gòu),不僅為建立連鎖超市數(shù)據(jù)集市奠定了基礎(chǔ);而且為數(shù)據(jù)集市的發(fā)展利用創(chuàng)造了條件。通過(guò)數(shù)據(jù)挖掘技術(shù),能夠從多方面獲取連鎖超市經(jīng)營(yíng)管理中的重要信息,為企業(yè)在競(jìng)爭(zhēng)中取得主動(dòng)權(quán),促進(jìn)企業(yè)的進(jìn)一步發(fā)展,提供決策支持。
參考文獻(xiàn):
[1]王志海:數(shù)據(jù)倉(cāng)庫(kù)[M].機(jī)械工業(yè)出版社,2003
[2]邵紅全 趙 茜:運(yùn)用多維數(shù)據(jù)模型實(shí)現(xiàn)數(shù)據(jù)集市[J].河北省科學(xué)院學(xué)報(bào),2003(2):99~102
[3]段云峰:數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)[M].電子工業(yè)出版社,2004
[4]李?yuàn)檴?寧 洪 陳 波:通用數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)模型的研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,26(5):52~55
[5]劉中蔚 陳 紅:用基于元數(shù)據(jù)庫(kù)的工作流調(diào)度數(shù)據(jù)倉(cāng)庫(kù)的更新[]].計(jì)算機(jī)應(yīng)用研究,2006,23(3):178~180
[6]范 明:數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2004
[7]平 靜 林平瑞:元數(shù)據(jù)管理及其在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用[J].平原大學(xué)學(xué)報(bào),2006(8):130~132
[8]彭曉東:基于數(shù)據(jù)倉(cāng)庫(kù)的綜合決策支持系統(tǒng)的設(shè)計(jì)研究[j],電腦開(kāi)發(fā)與應(yīng)用,2003(6):11~20