摘 要信息技術(shù)的快速發(fā)展不但極大的提高了卷煙生產(chǎn)企業(yè)的效率,而且積累了大量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如何讓這些數(shù)據(jù)發(fā)揮應(yīng)用的價值,是構(gòu)建智能卷煙工廠面臨的一個問題,本文著重探討了如何去利用這些數(shù)據(jù),為卷煙工業(yè)企業(yè)的科學(xué)決策提供支撐。
【關(guān)鍵詞】數(shù)據(jù)倉庫 智能工廠 Hadoop
隨著信息技術(shù)快速發(fā)展,各項(xiàng)應(yīng)用系統(tǒng)不斷應(yīng)用在卷煙工業(yè)企業(yè)的各個領(lǐng)域。信息技術(shù)的運(yùn)用,提高了卷煙企業(yè)的工作效率,但是也帶來了問題,各個應(yīng)用系統(tǒng)之間部署平臺不一致、采用的數(shù)據(jù)庫不一樣等都造成了信息孤島的存在,使數(shù)據(jù)可應(yīng)用性差。同時,隨著生產(chǎn)、管理、物流等數(shù)據(jù)的日積月累,以及Internet帶來的大量Web數(shù)據(jù),如何對這些數(shù)據(jù)進(jìn)行處理分析,是企業(yè)面臨的難點(diǎn)。企業(yè)想要充分對數(shù)據(jù)進(jìn)行挖掘,讓其發(fā)揮價值,就必須解決以下兩個問題:
(1)解決信息孤島的問題,讓跨平臺跨數(shù)據(jù)庫的數(shù)據(jù)集成在一起,為特定主題分析提供支撐;
(2)解決如何分析Internet帶來的非結(jié)構(gòu)化數(shù)據(jù),以及如何處理大規(guī)模數(shù)據(jù)的問題;
1 現(xiàn)有技術(shù)介紹
當(dāng)今解決企業(yè)數(shù)據(jù)分析采用的傳統(tǒng)技術(shù)有數(shù)據(jù)倉庫,針對大數(shù)據(jù)的解決方案常見的有Hadoop,本節(jié)主要介紹數(shù)據(jù)倉庫技術(shù)和Hadoop技術(shù)。
1.1 數(shù)據(jù)倉庫介紹
“數(shù)據(jù)倉庫”概念最早由Bill.Inmom在1991年提出,其定義為“一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策”。
數(shù)據(jù)倉庫的建立目的不是取代數(shù)據(jù)庫,而是在一個較全面和完善的信息應(yīng)用的基礎(chǔ)上用于支持高層決策分析。從定義中可以看出數(shù)據(jù)倉庫有以下四個特點(diǎn):
(1)數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。
(2)數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分析的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫。
(3)數(shù)據(jù)倉庫的數(shù)據(jù)相對穩(wěn)定,它反映從原有分散的數(shù)據(jù)源中抽取出來,進(jìn)入數(shù)據(jù)倉庫之前的數(shù)據(jù)要經(jīng)過加工與集成、統(tǒng)一和綜合。
(4)數(shù)據(jù)倉庫是隨著時間而變化的,傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)比較適合處理格式化數(shù)據(jù),能夠較好滿足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。
1.2 Hadoop介紹
Hadoop是由Apache基金會所開發(fā)的分布式基礎(chǔ)架構(gòu),是一個開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺,可以實(shí)現(xiàn)大量計算機(jī)組成的集群對海量數(shù)據(jù)進(jìn)行分布式計算。Hadoop框架中最核心的設(shè)計:HDFS和Mapreduce。
1.2.1 HDFS
HDFS(Hadoop Distributed File System)是Hadoop分布式文件系統(tǒng),是一個具有高度容錯性的系統(tǒng),適合部署在廉價機(jī)器上,能提供給具有高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。
1.2.2 MapReduce
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行計算,其主要思想包括Map(映射)和Reduce(歸約)。其用途非常廣泛,包括文檔聚類、機(jī)器學(xué)習(xí)、基于統(tǒng)計的奇跡翻譯、Web日志分析等等。提供的主要功能包括數(shù)據(jù)劃分和計算任務(wù)調(diào)度;數(shù)據(jù)/代碼互定位;系統(tǒng)優(yōu)化;出錯檢測和恢復(fù)等。
2 大數(shù)據(jù)下卷煙工業(yè)企業(yè)數(shù)據(jù)倉庫解決方法
隨著卷煙企業(yè)信息化程度的不斷提高,各項(xiàng)應(yīng)用系統(tǒng)的數(shù)量隨之增加,帶來的是大量的數(shù)據(jù),而這些數(shù)據(jù)存儲在不同的平臺,不同的數(shù)據(jù)庫中,如何解決大量數(shù)據(jù)的分析能力,為決策提供支撐,是今后卷煙企業(yè)所要面臨和亟待解決的問題。
(1)針對傳統(tǒng)數(shù)據(jù),利用數(shù)據(jù)倉庫的方法來解決數(shù)據(jù)孤立的問題,通過數(shù)據(jù)抽取、轉(zhuǎn)化的方式來構(gòu)建數(shù)據(jù)倉庫,具體解決模型見圖1。
(2)針對含有非結(jié)構(gòu)化的主題解決模型,充分理由Hadoop的優(yōu)勢,來解決大數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)帶來的問題,如從Internet上爬蟲的Web數(shù)據(jù),全國各地的營銷數(shù)據(jù)等,其重要思路是利用HDFS來存儲大批量數(shù)據(jù)及結(jié)果化數(shù)據(jù),利用MapReduce來進(jìn)行數(shù)據(jù)分析任務(wù)的計算,為企業(yè)決策提供支撐,如圖2所示。
3 結(jié)語
智能化工廠是煙草工業(yè)企業(yè)十三五的目標(biāo),而要實(shí)現(xiàn)目標(biāo)就要充分的讓數(shù)據(jù)發(fā)揮其價值。本文針對現(xiàn)有卷煙工業(yè)企業(yè)在利用數(shù)據(jù)上存在的問題,即信息孤島以及如何處理大數(shù)據(jù),進(jìn)行了簡要分析,并提出了解決思路。
參考文獻(xiàn)
[1]W.H.Inmon.Building the data warehouse[M].Wiley Publishing,2005.
[2]崔杰.李陶深.蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計與開發(fā)[J].計算機(jī)研究與發(fā)展,2012(49):12-18.
[3]查禮.基于Hadoop的大數(shù)據(jù)計算技術(shù)[J].科研信息技術(shù)與應(yīng)用,2012(03):26-33.
[4]蘇新寧.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.
[5]張寧.數(shù)據(jù)倉庫中ETL技術(shù)研究[J].計算機(jī)工程與應(yīng)用,2002,38(24):213-216.
作者簡介
衛(wèi)倩平,男(漢族),河北省邢臺市人。研究生學(xué)歷。主要研究領(lǐng)域系統(tǒng)應(yīng)用、數(shù)據(jù)挖掘。
作者單位
陜西中煙工業(yè)有限責(zé)任公司旬陽卷煙廠 陜西省旬陽縣 725700