孔昱戈
江蘇南京市河海大學(xué),江蘇南京 210098
淺談零售業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建立及數(shù)據(jù)分析
孔昱戈
江蘇南京市河海大學(xué),江蘇南京 210098
本文簡(jiǎn)要介紹了數(shù)據(jù)倉(cāng)庫(kù)以及OLAP技術(shù)在零售業(yè)銷(xiāo)售系統(tǒng)中的應(yīng)用。主要集中于數(shù)據(jù)倉(cāng)庫(kù)的概念和多維分析方法。在對(duì)銷(xiāo)售數(shù)據(jù)進(jìn)行多維建模和多維分析的探討中,主要利用了SQL Server 2005 分析服務(wù)器和商業(yè)智能開(kāi)發(fā)平臺(tái)。在本文內(nèi)容的后一部分還提到了使用Microsoft Excel的數(shù)據(jù)透視功能對(duì)多維模型進(jìn)行多種形式的可視化前端展示。使讀者能夠?qū)θ绾谓Y(jié)合數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)開(kāi)發(fā)切合方案的銷(xiāo)售數(shù)據(jù)分析系統(tǒng)以及瀏覽和分析數(shù)據(jù)的方法有所了解。
零售業(yè) ;數(shù)據(jù)倉(cāng)庫(kù) ;OLAP;SQL Server2005
隨著企業(yè)對(duì)數(shù)據(jù)管理不斷提出新的要求和計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們要求計(jì)算機(jī)在處理日常簡(jiǎn)單數(shù)據(jù)的同時(shí),能夠更多地參與數(shù)據(jù)分析和決策支持,由此出現(xiàn)了一種用于數(shù)據(jù)分析處理和決策支持的數(shù)據(jù)存儲(chǔ)和組織技術(shù)——數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。William H.Inmon首先將數(shù)據(jù)倉(cāng)庫(kù)定義為:“一個(gè)面向主題的、集成的、隨時(shí)間變換的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過(guò)程”。目前該技術(shù)已成功用于電信、銀行、稅收、零售業(yè)中。
零售業(yè)是任何一個(gè)處于從事由生產(chǎn)者到消費(fèi)者的產(chǎn)品營(yíng)銷(xiāo)活動(dòng)的個(gè)人或公司,他們從批發(fā)商、中間商或者制造商處購(gòu)買(mǎi)商品,并直接銷(xiāo)售給消費(fèi)者。高科技在產(chǎn)品開(kāi)發(fā)、商品策劃、銷(xiāo)售預(yù)測(cè)、貨源采購(gòu)和精確定價(jià)等各個(gè)環(huán)節(jié)的應(yīng)用已經(jīng)成為經(jīng)營(yíng)者們不可缺少的決策依據(jù)。而支持眾多決策的是其中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。
為了更好地對(duì)企業(yè)銷(xiāo)售情況進(jìn)行數(shù)據(jù)分析和決策支持,數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)應(yīng)用于銷(xiāo)售數(shù)據(jù)分析中。數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理(OLAP)是決策支持系統(tǒng)的有機(jī)組成部分。數(shù)據(jù)倉(cāng)庫(kù)從現(xiàn)有的信息系統(tǒng)中提取有用數(shù)據(jù),并對(duì)所提取的數(shù)據(jù)進(jìn)行預(yù)處理,為決策分析提供所需數(shù)據(jù)。OLAP 則利用存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)完成各種分析操作,它利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對(duì)這些數(shù)據(jù)進(jìn)行評(píng)價(jià),并以直觀易懂的形式將分析結(jié)果返回給決策分析人員。為了使用戶(hù)達(dá)到從多個(gè)角度多個(gè)細(xì)節(jié)分析數(shù)據(jù)的目的,OLAP的多維分析過(guò)程很必要,具體是指采用切片、切塊、旋轉(zhuǎn)和鉆探等基本操作,對(duì)多維形式組織的數(shù)據(jù)進(jìn)行深入的研究。數(shù)據(jù)倉(cāng)庫(kù)中不是存放每個(gè)銷(xiāo)售事物的細(xì)節(jié),而是存放每個(gè)部門(mén)每類(lèi)商品的匯總數(shù)據(jù),或?qū)^高層次的匯總數(shù)據(jù)。OLAP提供數(shù)據(jù)倉(cāng)庫(kù)中匯總數(shù)據(jù)的多視圖和動(dòng)態(tài)視圖能力,又為成功的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。
零售業(yè)中的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)分析可從以下幾個(gè)方面具體實(shí)施:1)基于數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與構(gòu)造:由于零售數(shù)據(jù)覆蓋面廣,所以有許多設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的方式。所包含的細(xì)節(jié)級(jí)別可以變化很大;2)銷(xiāo)售、顧客、產(chǎn)品、時(shí)間和地區(qū)的多維分析:零售業(yè)需要的是實(shí)時(shí)的信息,因此,提供強(qiáng)有力的多維分析和可視化工具是是十分重要的一件事,這包括提供根據(jù)數(shù)據(jù)分析的需要構(gòu)成復(fù)雜的數(shù)據(jù)立方體視圖。特征數(shù)據(jù)立方體在零售數(shù)據(jù)分析中是一種有用的數(shù)據(jù)結(jié)構(gòu),因?yàn)樗奖懔藥в袕?fù)雜條件的聚集上的分析;3)促銷(xiāo)活動(dòng)的有效分析:零售商經(jīng)常通過(guò)廣告和各種折扣和讓利的方式搞促銷(xiāo)活動(dòng),以達(dá)到促銷(xiāo)產(chǎn)品的目的。認(rèn)真分析促銷(xiāo)活動(dòng)的有效性,有助于提高企業(yè)利潤(rùn)。多維分析可滿(mǎn)足這方面分析的要求,方法是通過(guò)比較促銷(xiāo)期間的銷(xiāo)售量和交易數(shù)量與促銷(xiāo)活動(dòng)前后的有關(guān)情況;4)購(gòu)買(mǎi)推薦和商品參照:通過(guò)從銷(xiāo)售記錄中挖掘關(guān)聯(lián)信息可用于形成一定的購(gòu)買(mǎi)推薦,購(gòu)買(mǎi)推薦可在Web、每周傳單或收據(jù)上宣傳,以便改進(jìn)服務(wù),幫助顧客選擇商品,增加銷(xiāo)售額。
支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)技術(shù)的數(shù)據(jù)庫(kù)管理系統(tǒng)平臺(tái)有Oracle、SQL Server等。SQL Server 2005在商業(yè)智能方面提供了三大服務(wù)和一個(gè)工具來(lái)實(shí)現(xiàn)系統(tǒng)的整合。三大服務(wù)是SQL Server 2005 Analysis Services(SSAS )、SQL Server 2005 Integration Services(SSIS) 和SQL Server 2005 Reporting Services (SSRS),一個(gè)工具是 Business Intelligence Development Studio。它具有以下完善的功能以支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā):
可以在多臺(tái)服務(wù)器間分散多維數(shù)據(jù)集數(shù)據(jù)以提供更大的存儲(chǔ)容量,創(chuàng)建鏈接的多維數(shù)據(jù)集以便在不復(fù)制多維數(shù)據(jù)集數(shù)據(jù)的情況下分散最終用戶(hù)對(duì)信息的訪問(wèn),創(chuàng)建在數(shù)據(jù)更改時(shí)實(shí)時(shí)更新的多維數(shù)據(jù)集,以及使用很多其它新特性創(chuàng)建可滿(mǎn)足特定業(yè)務(wù)需要的多維數(shù)據(jù)集。
Analysis Services 為多維分析提供了強(qiáng)大的維度功能,包括對(duì)建立虛擬維度、父子維度、共享維度的支持,支持自定義公式和維度的篩選。
通過(guò)Analysis Services,可以對(duì)多維數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)、切塊、切片、上鉆和下鉆等多維分析。
Analysis Services 提供了兩種用于數(shù)據(jù)挖掘的數(shù)學(xué)模型,即決策樹(shù)模型和聚類(lèi)分析模型。提供了友好的用戶(hù)界面向?qū)?、?duì)話框和編輯器,并且能夠把MDX 應(yīng)用到數(shù)據(jù)挖掘中,增強(qiáng)數(shù)據(jù)挖掘功能。
Analysis Services 的目的是提供對(duì)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的快速分析訪問(wèn)。為達(dá)到這一目的,Analysis Services 通過(guò)數(shù)據(jù)倉(cāng)庫(kù)事實(shí)數(shù)據(jù)表和維度表中的數(shù)據(jù)創(chuàng)建多維數(shù)據(jù)集。在多維數(shù)據(jù)集的創(chuàng)建過(guò)程中,數(shù)字度量值也被匯總為預(yù)聚合的值。多維數(shù)據(jù)集存儲(chǔ)在為快速響應(yīng)查詢(xún)而設(shè)計(jì)的多維結(jié)構(gòu)中,將預(yù)聚合的信息與原始事實(shí)數(shù)據(jù)合并以響應(yīng)各種查詢(xún)。
SSAS通過(guò)以下五步能夠建立起一個(gè)數(shù)據(jù)倉(cāng)庫(kù):1)創(chuàng)建新的Analysis Services項(xiàng)目; 2)定義數(shù)據(jù)源; 3)定義數(shù)據(jù)源視圖;4)定義多維數(shù)據(jù)集及其屬性;5)部署多維數(shù)據(jù)集。在抽取事實(shí)數(shù)據(jù)值和維度值從而創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)之上,建立多維數(shù)據(jù)集和多維數(shù)據(jù)集的維度。
在創(chuàng)建好多維數(shù)據(jù)集之后根據(jù)所需設(shè)置維度屬性,定義用戶(hù)友好屬性。在Analysis Service平臺(tái)上實(shí)現(xiàn)多維數(shù)據(jù)的瀏覽和分析。在多維數(shù)據(jù)集的設(shè)計(jì)器中提供了瀏覽器功能,用以實(shí)現(xiàn)對(duì)多維數(shù)據(jù)集的瀏覽和分析。多維數(shù)據(jù)集瀏覽器由多維數(shù)據(jù)集的多個(gè)維度和度量值組成網(wǎng)格,篩選維度顯示在瀏覽器的上方。使用多維數(shù)據(jù)集瀏覽器,可以用不同的方式瀏覽和分析數(shù)據(jù):可以篩選出可見(jiàn)的維度數(shù)據(jù)量,可以深化以看到數(shù)據(jù)的細(xì)節(jié),還可以淺化以看到較為概括的數(shù)據(jù)。
電子表格(如Excel)對(duì)OLAP來(lái)說(shuō)依然是最引人注目的前端客戶(hù)工具供我們使用。通過(guò)連接數(shù)據(jù)源,在Excel表格中出現(xiàn)空白數(shù)據(jù)透視表,填充數(shù)據(jù)并進(jìn)行數(shù)據(jù)分析。此外還可以生成數(shù)據(jù)透視圖,從而能夠更加形象、直觀地對(duì)數(shù)據(jù)進(jìn)行分析,通過(guò)觀察和分析某種趨勢(shì)達(dá)到總結(jié)和預(yù)測(cè)銷(xiāo)售數(shù)據(jù)的目的。
Elementary Introduction on the data warehousing and data analysis in retail
This paper introduces the application of data warehousing and OLAP technology in the retail sales info-system, with the emphasis on the concept of data warehousing and methods of multidimensional analysis. In the process of the multi-dimensional modeling and analysis to sales data, we mainly use SQL Server 2005 Analysis Service and business intelligence development platform. In the latter part of this paper, we also mention the capabilities of Microsoft Excel's PivotTable to achieve the visual desktop OLAP of multi-dimensional models in various forms. All of the above make our readers have a brief understanding upon how to develop a data analysis system in sales and upon methods for browsing and analyzing data.
retail sales;data warehouse, OLAP;SQL Server 2005,SSAS;multi-dimensional modeling;Excel
TP311
A
1674-6708(2010)30-0077-02