常曉彬 安育賢
摘 要:當(dāng)今時代,電子商業(yè)不斷發(fā)展,物流數(shù)據(jù)呈爆炸式增長。大規(guī)模的物流數(shù)據(jù)必定含非常有價值的信息,這些數(shù)據(jù)不僅能幫助物流公司了解行業(yè)動態(tài),而且能夠提供參考資料,讓企業(yè)經(jīng)營人員做出正確的決策。對大量的物流數(shù)據(jù)存儲和分析需要越來愈強(qiáng)烈,因此,建立物流數(shù)據(jù)倉庫是一個非常重要問題。
關(guān)鍵詞:大數(shù)據(jù);物流;數(shù)據(jù)倉庫;
0引言
近幾年,物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)在各行各業(yè)中的應(yīng)用迅速普及,而物流行業(yè)如果能夠深度整合大數(shù)據(jù)、云計(jì)算等新技術(shù),那么將會大大提升物流行業(yè)的整體效率。
1大數(shù)據(jù)的概念
大數(shù)據(jù)最明顯的特征是數(shù)據(jù)量特別大,并且種類較多,但有價值的數(shù)據(jù)較少。網(wǎng)絡(luò)的發(fā)展以及信息技術(shù)的提升,會使各個行業(yè)的生產(chǎn)和消費(fèi)行為產(chǎn)生大量的數(shù)據(jù),而分析這些數(shù)據(jù)可以充分挖掘潛在的價值,從而促進(jìn)企業(yè)的發(fā)展。
2數(shù)據(jù)倉庫的相關(guān)介紹
數(shù)據(jù)倉庫以面向分析為設(shè)計(jì)初衷,可以存儲更多的數(shù)據(jù),為企業(yè)提供決策支持。數(shù)據(jù)倉庫中的數(shù)據(jù)一般為歷史數(shù)據(jù),主要記錄了過去某一時段的信息。
2.1數(shù)據(jù)倉庫的主要特征
數(shù)據(jù)倉庫中的數(shù)據(jù)四個主要特征是面向主題、集成、非易失、隨時間變化,它用于支持管理者的決定。
2.1.1面向主題
主題是指在利用數(shù)據(jù)倉庫進(jìn)行分析時用戶著重關(guān)心的點(diǎn),因此主題需要根據(jù)分析的要求來定。從邏輯上說,它是與企業(yè)宏觀分析相對應(yīng)的領(lǐng)域。
2.1.2集成性
數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前是分散的,并且有很多臟亂差的數(shù)據(jù),因此需要將這些數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和加載。要統(tǒng)一數(shù)據(jù)間的所有矛盾 ,其次再對數(shù)據(jù)進(jìn)行綜合和統(tǒng)一計(jì)算。
2.1.3非易失性
在數(shù)據(jù)倉庫中,只需保存過去的業(yè)務(wù)數(shù)據(jù),而不必對每項(xiàng)業(yè)務(wù)進(jìn)行實(shí)時的更新。數(shù)據(jù)被加入到數(shù)據(jù)倉庫,一般很少進(jìn)行修改和刪除的操作,多為數(shù)據(jù)查詢,或者是更復(fù)雜的挖掘,通常會保持更長時間。
2.1.4時變性
數(shù)據(jù)倉庫中的數(shù)據(jù)可能是一年、一個季度、一個月、一個星期或一天的數(shù)據(jù)。數(shù)據(jù)倉庫的目標(biāo)是分析企業(yè)在經(jīng)營中的一段時期情況,并充分挖掘企業(yè)潛在的模式。數(shù)據(jù)倉庫中的數(shù)據(jù)并不是永遠(yuǎn)不變的,只是說用戶一般不會修改其中的數(shù)據(jù),但會定期更新。分析的是歷史數(shù)據(jù),結(jié)果也只能反映以往的情況,當(dāng)業(yè)務(wù)發(fā)生變化時,挖掘出的模式就會失去其時效。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)需要更新,以適應(yīng)決策的需求。從這一角度來看,數(shù)據(jù)倉庫建設(shè)是項(xiàng)目,更多的是過程。
2.2數(shù)據(jù)倉庫分層架構(gòu)
根據(jù)數(shù)據(jù)的進(jìn)出過程,數(shù)據(jù)倉庫架構(gòu)可以分為源數(shù)據(jù)層,數(shù)據(jù)倉庫層和數(shù)據(jù)應(yīng)用層。數(shù)據(jù)倉庫的數(shù)據(jù)來源有很多種途徑,而且可以應(yīng)用到很多地方。數(shù)據(jù)倉庫是一種管理平臺,它負(fù)責(zé)集成的中間數(shù)據(jù),數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫后,會向上層開放。
2.2.1源數(shù)據(jù)層(ODS)
該處理層中的數(shù)據(jù)不需要改變,直接可以使用外部系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和處理數(shù)據(jù),不對外開放;為臨時數(shù)據(jù)儲存處理層,是外部接口系統(tǒng)數(shù)據(jù)的臨時進(jìn)行儲存處理區(qū)域,為進(jìn)行后續(xù)接口數(shù)據(jù)處理應(yīng)用作提前準(zhǔn)備。
2.2.2數(shù)據(jù)倉庫層(DW)
數(shù)據(jù)倉庫層也又稱細(xì)節(jié)處理層,數(shù)據(jù)倉庫層的數(shù)據(jù)在應(yīng)用時具有較高一致性、精確的和干凈性,也就是在清洗了源數(shù)據(jù)層中的數(shù)據(jù)之后的數(shù)據(jù)。
2.2.3數(shù)據(jù)應(yīng)用層(DA)
這一層的數(shù)據(jù)一般是根據(jù)各種維度分析處理的結(jié)果。
3物流企業(yè)數(shù)據(jù)倉庫的設(shè)計(jì)
3.1物流企業(yè)數(shù)據(jù)倉庫分析
隨著電商的不斷發(fā)展,物流企業(yè)累積了大量的貨運(yùn)資料,但這些信息并不都有助于物流企業(yè),真正的幫助了物流公司的決定者,從而促進(jìn)了自身的發(fā)展,只是在這些信息的大量中很少的一部分。為了獲得這些巨量的物流信息,并從這些巨大的物流信息中獲取真實(shí)價值的信息,必須分析這些巨大的物流信息。數(shù)據(jù)倉庫非常適合于分析物流企業(yè)各種資料,它可以對物流企業(yè)進(jìn)行不同的源資料分析,或者進(jìn)行數(shù)據(jù)分析,從而對物流企業(yè)發(fā)展提供更好的支持,實(shí)現(xiàn)數(shù)據(jù)增值。數(shù)據(jù)間的競爭目前已經(jīng)非常激烈,物流行業(yè)也不例外。因此,建立物流企業(yè)數(shù)據(jù)倉庫是非常重要的一項(xiàng)任務(wù)。
3.2數(shù)據(jù)倉庫維度建模基本概念
維度模型設(shè)計(jì)是由中國數(shù)據(jù)倉庫技術(shù)界的設(shè)計(jì)大師Ralph Kimall所倡導(dǎo)的,他所倡導(dǎo)使用的維度數(shù)據(jù)倉庫設(shè)計(jì)工具箱在中國數(shù)據(jù)倉庫設(shè)計(jì)界當(dāng)中是最為廣受歡迎的部分。維度數(shù)據(jù)建模模式是基于維度分析數(shù)據(jù)決定用戶需要的一種模式,它通過構(gòu)建了一個數(shù)據(jù)模型系統(tǒng)來準(zhǔn)確分析用戶需求,因此它的研究重點(diǎn)不僅在于能夠解決企業(yè)用戶如何迅速準(zhǔn)確完成數(shù)據(jù)分析的關(guān)鍵需求,同時還需要具有更好的大型的復(fù)雜數(shù)據(jù)查詢以及回應(yīng)分析能力。
3.2.1事實(shí)表
發(fā)生在實(shí)際世界中的一種操作事件,其產(chǎn)生的可量數(shù)值存儲在實(shí)際情況中。從最小粒度的角度來看,事實(shí)表行相對應(yīng)于一個度量事件。
3.2.2維度表
維度是指當(dāng)對數(shù)據(jù)進(jìn)行分析時使用的量,例如分析產(chǎn)品的銷售狀況,可以選擇分析類別或區(qū)域分析,這樣的分析構(gòu)成了一個維。
3.3維度建模模式
3.3.1星型模型
星型模型是在一張事實(shí)表的基礎(chǔ)上,周圍建立維度表,因其形狀猶如星星,故稱其為星型模型。
3.3.2雪花模型
雪花模型是星型模型的一種擴(kuò)展模型。雪花模式的維度表也認(rèn)為可以包含有其它的維度表,盡管這種模式更規(guī)范,但由于這種模式不太易被人理解,維護(hù)費(fèi)用相對較高,而且性能較低,所以通常不太常用。
3.3.3星座模型
星座模式是在多張事實(shí)表,并可以共享不同維度上的信息。
4物流企業(yè)數(shù)據(jù)倉庫實(shí)施的意義
傳統(tǒng)的物流企業(yè)是在關(guān)系型數(shù)據(jù)庫的基礎(chǔ)上來進(jìn)行數(shù)據(jù)存儲和處理。而目前企業(yè)的業(yè)務(wù)量較之前擴(kuò)大了很多,每天產(chǎn)生的數(shù)據(jù)迅速增長,歷史資料的存儲規(guī)模也不斷擴(kuò)大,同時對數(shù)據(jù)分析的需求越來愈大,傳統(tǒng)數(shù)據(jù)庫無論在硬件和軟件方面都有很高的要求,需要非常昂貴的費(fèi)用來維護(hù),不滿足對數(shù)據(jù)庫高擴(kuò)展、低成本的要求。而數(shù)據(jù)倉庫在查詢大量的企業(yè)數(shù)據(jù)方面,具有低成本、高效率、高擴(kuò)展的優(yōu)勢,因此,物流企業(yè)急需建立數(shù)據(jù)倉庫來解決處理海量數(shù)據(jù)的難題,并對現(xiàn)實(shí)具有重要意義。
5結(jié)束語
在當(dāng)下物流企業(yè)已積累大量數(shù)據(jù)的情況下,為了能夠更有效地支撐物流服務(wù)企業(yè)的持續(xù)發(fā)展,構(gòu)建數(shù)據(jù)倉庫是非常重要的選擇。
參考文獻(xiàn):
[1] 惠毅.淺談大數(shù)據(jù)在物流企業(yè)中的應(yīng)用[J].物流工程與管理,2016,38(1):68-69.
[2] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [J].Conference on Symposium on Operating Systems Desigin&Implemention, 2004,51(1):137-150.
[3] 羅鵬,袁兵,梁耿等. 基于 Hadoop 的分布式 ETL 系統(tǒng)研究 [J]. 廣西通信技術(shù),2014(4):17-20.
[4] 費(fèi)仕憶.Hadoop 大數(shù)據(jù)平臺與傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作研究[D].上海:東華大學(xué),2010.
[5] Zaharia M, Chowdhury M, Franklin MJ, etc. Cluster Computing with Working Sets [J].Usenix Conference on Hot Topics in Clouding Computing, 2010, 15(1), 10-10.
(北京信息科技大學(xué)信息管理學(xué)院 ? 北京 ? 100000)