王強
【關(guān)鍵詞】大數(shù)據(jù);制造業(yè);系統(tǒng)架構(gòu)設(shè)計
大數(shù)據(jù)時代下,利用生產(chǎn)過程中采集到的數(shù)據(jù)對能源消耗進(jìn)行及時、準(zhǔn)確的預(yù)測,進(jìn)而達(dá)到節(jié)能減排的目的,利用科學(xué)的算法對數(shù)據(jù)進(jìn)行分析進(jìn)而調(diào)整產(chǎn)業(yè)結(jié)構(gòu),都將成為制造企業(yè)發(fā)展的新方向。但傳統(tǒng)的數(shù)據(jù)分析、預(yù)測架構(gòu)結(jié)構(gòu)單一固定并且動態(tài)適應(yīng)能力與可拓展性較差,很明顯已經(jīng)不能適應(yīng)企業(yè)對于海量數(shù)據(jù)的處理和快速、深度挖掘的需求,因此作者認(rèn)為制造企業(yè)迫切需要運用大數(shù)據(jù)技術(shù)對企業(yè)能源消耗進(jìn)行預(yù)測。本文試圖對制造企業(yè)運用大數(shù)據(jù)技術(shù)進(jìn)行能耗預(yù)測時面臨的機(jī)遇與挑戰(zhàn)進(jìn)行分析,并給出制造企業(yè)大數(shù)據(jù)能耗預(yù)測的一種可選框架。
大數(shù)據(jù)背景下的制造企業(yè),僅對直接生產(chǎn)數(shù)據(jù)進(jìn)行處理是不能滿足其需求的,因而要處理多元化的數(shù)據(jù)。在大數(shù)據(jù)時代,我們可以便捷地獲取和存儲各類數(shù)據(jù),從而幫助我們實現(xiàn)全集數(shù)據(jù)庫的建立。全集數(shù)據(jù)使數(shù)據(jù)的分析過程更加全面,能夠發(fā)現(xiàn)很多隱性的細(xì)節(jié),使數(shù)據(jù)分析的結(jié)果更加精確。
制造企業(yè)中的全集數(shù)據(jù)具有不同的數(shù)據(jù)來源,不同數(shù)據(jù)間的獲取、轉(zhuǎn)換相互獨立,因此傳統(tǒng)的集中數(shù)據(jù)存儲方法已不再適用。分布式存儲已成為當(dāng)前大數(shù)據(jù)分析中的主流解決方案,該技術(shù)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器和位置服務(wù)器,對存儲負(fù)荷進(jìn)行負(fù)載均衡,對存儲信息進(jìn)行定位,大大增強了系統(tǒng)的穩(wěn)定性以及數(shù)據(jù)的存取效率,并具有易于擴(kuò)展的優(yōu)點,動態(tài)適應(yīng)能力較強。
在本文的架構(gòu)當(dāng)中,全集數(shù)據(jù)被分散的存儲在分布式系統(tǒng)的各個節(jié)點中,針對當(dāng)前大數(shù)據(jù)環(huán)境下的數(shù)據(jù)增長速度較快的問題,僅需在當(dāng)前的分布式存儲系統(tǒng)中增加相應(yīng)數(shù)量的節(jié)點即可,這樣就保證了系統(tǒng)的拓展性問題。
雖然分布式的數(shù)據(jù)存儲系統(tǒng)為我們解決了數(shù)據(jù)存儲的問題,但是未能實現(xiàn)對大量數(shù)據(jù)的實時獲取功能,造成了企業(yè)的業(yè)務(wù)系統(tǒng)對數(shù)據(jù)進(jìn)行獲取以及使用的過程中,存在較為嚴(yán)重的數(shù)據(jù)滯后問題。因此在本文設(shè)計的架構(gòu)中,在分布式節(jié)點存儲數(shù)據(jù)之后,會將計算節(jié)點融合在數(shù)據(jù)旁的CPU之中,將計算推向數(shù)據(jù),取代傳統(tǒng)意義程序從數(shù)據(jù)庫獲取數(shù)據(jù)進(jìn)行計算,進(jìn)而轉(zhuǎn)變?yōu)樵朴嬎愕募軜?gòu)模式。
分布式數(shù)據(jù)存儲、計算系統(tǒng)在功能結(jié)構(gòu)上包括分布式基礎(chǔ)設(shè)施層、平臺層與軟件層3個層次。
(一)基礎(chǔ)層
在分布式架構(gòu)的基礎(chǔ)層中主要是分布式存儲的各個結(jié)點和計算系統(tǒng)的計算單元,各結(jié)點位于分布式結(jié)構(gòu)的基礎(chǔ)設(shè)施當(dāng)中,并且它們之間可以進(jìn)行分組,每組中都會有一個目錄服務(wù)器節(jié)點,它的作用是對該組節(jié)點進(jìn)行統(tǒng)一任務(wù)分配,并且對計算結(jié)果進(jìn)行匯總,而且可以作為各結(jié)點的文件和數(shù)據(jù)索引。在每一組結(jié)點的外部,都存在一個總目錄服務(wù)器的節(jié)點,對于所有的分布式基礎(chǔ)設(shè)施進(jìn)行任務(wù)分配以及計算結(jié)果的匯總,并且作為下層各目錄服務(wù)器的文件和數(shù)據(jù)索引。
(二)平臺層
服務(wù)類引擎以及數(shù)據(jù)類引擎等均位于平臺層中,其中數(shù)據(jù)引擎主要包括能源數(shù)據(jù)引擎,供應(yīng)鏈數(shù)據(jù)引擎,人力數(shù)據(jù)引擎,財務(wù)數(shù)據(jù)引擎,生產(chǎn)數(shù)據(jù)引擎等。服務(wù)引擎主要包括用戶身份認(rèn)證引擎,企業(yè)報表引擎,數(shù)據(jù)統(tǒng)計分析引擎等,上述的服務(wù)引擎和數(shù)據(jù)引擎作為架構(gòu)中軟件層的核心,為上層提供相應(yīng)的數(shù)據(jù)接口以及一些通用功能類接口。比如,系統(tǒng)中各類對能源數(shù)據(jù)有需求的業(yè)務(wù)系統(tǒng)可以調(diào)用能源類數(shù)據(jù)引擎所提供的數(shù)據(jù)接口,通過傳遞參數(shù)的方式獲取到所需的能源數(shù)據(jù)。文中提及的平臺層的引擎均具備較強的通用性和適應(yīng)性,根據(jù)不同的業(yè)務(wù)邏輯需求進(jìn)行適配。目前平臺層采用的是Google公司的MapReduce數(shù)據(jù)分析處理框架。2004年Google公司提出的MapReduce[1]編程模型采用批處理模式,其為目前批處理方式采用的主要模型。
(三)軟件層
軟件層作為該架構(gòu)的最頂層,本層主要包括了與大數(shù)據(jù)綜合分析直接相關(guān)的各個業(yè)務(wù)系統(tǒng),軟件層的最終目標(biāo)是將數(shù)據(jù)轉(zhuǎn)化為有價值的信息,并通過合理的方式將其展現(xiàn)在企業(yè)高層與相關(guān)用戶面前。要完成本層中各個業(yè)務(wù)系統(tǒng)的功能目標(biāo),需要通過調(diào)用平臺層提供的各類數(shù)據(jù)接口,將數(shù)據(jù)篩選條件作為參數(shù)傳遞給平臺層,從而獲取到對應(yīng)的數(shù)據(jù),將數(shù)據(jù)進(jìn)行處理后,使用數(shù)據(jù)挖掘方法對數(shù)據(jù)進(jìn)行深層次加工,進(jìn)而實現(xiàn)系統(tǒng)功能。顯而易見,該部分的核心內(nèi)容就是數(shù)據(jù)挖掘算法,挖掘算法的精確程度將對系統(tǒng)分析結(jié)果的精確性和準(zhǔn)確性產(chǎn)生影響。