王妙瓊 馬鵬瑋 魏 凱 姜春宇
中國信息通信研究院 北京 100191
工業(yè)大數(shù)據(jù)是指在工業(yè)領(lǐng)域中,圍繞整個工業(yè)生產(chǎn)全生命周期所產(chǎn)生的各類數(shù)據(jù)以及相關(guān)技術(shù)和應(yīng)用的總稱。其中工業(yè)數(shù)據(jù)包括產(chǎn)品研發(fā)過程中的設(shè)計資料;產(chǎn)品生產(chǎn)過程中的監(jiān)控與管理數(shù)據(jù);產(chǎn)品銷售與服務(wù)過程的經(jīng)營和維護(hù)數(shù)據(jù)等。從業(yè)務(wù)領(lǐng)域來看,可以分為企業(yè)信息化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)和外部跨界數(shù)據(jù)。
工業(yè)領(lǐng)域的數(shù)據(jù)應(yīng)用具備典型的大數(shù)據(jù)5V特征:數(shù)據(jù)量大;種類來源多樣化;數(shù)據(jù)價值密度較低;數(shù)據(jù)增長速度快;數(shù)據(jù)具有真實性。工業(yè)大數(shù)據(jù)的價值逐漸被發(fā)現(xiàn)和重視,越來越多的工業(yè)企業(yè)開始利用數(shù)據(jù)來提升產(chǎn)品生產(chǎn)效率以及服務(wù)質(zhì)量等,但工業(yè)數(shù)據(jù)的分析應(yīng)用尚處于起步階段,存在數(shù)據(jù)來源分散、數(shù)據(jù)結(jié)構(gòu)多樣、數(shù)據(jù)質(zhì)量參差不齊等情況,難以高效挖掘數(shù)據(jù)的價值。
工業(yè)大數(shù)據(jù)系統(tǒng)的部署應(yīng)用,其核心目標(biāo)是全方位采集工業(yè)產(chǎn)品各個環(huán)節(jié)的數(shù)據(jù),并將這些數(shù)據(jù)匯聚起來進(jìn)行深度分析,利用數(shù)據(jù)分析結(jié)果重新指導(dǎo)工業(yè)產(chǎn)品全生命周期各個環(huán)節(jié)的控制與管理決策[1]。通過效果監(jiān)測的反饋閉環(huán),實現(xiàn)工業(yè)產(chǎn)品全生命周期決策控制持續(xù)不斷的優(yōu)化。如果將工業(yè)互聯(lián)網(wǎng)的網(wǎng)絡(luò)比做神經(jīng)系統(tǒng),那工業(yè)大數(shù)據(jù)的匯聚與分析即為工業(yè)互聯(lián)網(wǎng)的大腦,是工業(yè)互聯(lián)網(wǎng)的智能中樞。
建設(shè)工業(yè)級的大數(shù)據(jù)系統(tǒng),往往需要解決多個層面的問題,業(yè)務(wù)層面需要對各個環(huán)節(jié)的數(shù)據(jù)進(jìn)行梳理和分析,形成完善的數(shù)據(jù)體系,來描述完整的工業(yè)生產(chǎn)流程;技術(shù)層面則需要建立統(tǒng)一的系統(tǒng)來匯集和處理工業(yè)全流程的數(shù)據(jù),其中需要根據(jù)具體的業(yè)務(wù)場景選擇合適的技術(shù)架構(gòu),考慮到工業(yè)級系統(tǒng)龐大的規(guī)模和復(fù)雜的屬性,更是需要在建設(shè)的初期就做好完善的架構(gòu)規(guī)劃。
現(xiàn)階段工業(yè)大數(shù)據(jù)的建設(shè)仍處于發(fā)展極不均衡的狀態(tài),部分先進(jìn)大型工業(yè)企業(yè)已經(jīng)利用大數(shù)據(jù)技術(shù)形成成熟的解決方案,整合各環(huán)節(jié)數(shù)據(jù)資源,為生產(chǎn)和服務(wù)提供精準(zhǔn)的數(shù)據(jù)支撐,但仍有部分工業(yè)企業(yè)尚未實現(xiàn)信息化或信息化程度不高,需要從最底層的設(shè)備開始更新與改造,以適應(yīng)新的數(shù)字化生產(chǎn)流程,規(guī)范各環(huán)節(jié)數(shù)據(jù)資料,從而結(jié)合大數(shù)據(jù)技術(shù)進(jìn)一步地優(yōu)化生產(chǎn)過程和服務(wù)質(zhì)量[2]。在發(fā)展工業(yè)大數(shù)據(jù)的各階段下主要出現(xiàn)了以下三個問題。
1)設(shè)備老舊導(dǎo)致數(shù)據(jù)采集困難。在許多制造行業(yè)中,仍然使用傳統(tǒng)的生產(chǎn)設(shè)備,并且因為各類原因?qū)ιa(chǎn)線設(shè)備進(jìn)行更新?lián)Q代較為困難,造成一些關(guān)鍵的生產(chǎn)數(shù)據(jù)無法采集,不能全面監(jiān)控生產(chǎn)線的生產(chǎn)情況。這種情況下,需要在設(shè)備上加裝外置傳感器,并對傳感器采集到的生產(chǎn)數(shù)據(jù)進(jìn)行實時地匯集監(jiān)控,來全面感知生產(chǎn)情況。
2)數(shù)據(jù)跨平臺跨部門整合耗時。在工業(yè)領(lǐng)域進(jìn)行業(yè)務(wù)分析時,由于工業(yè)系統(tǒng)龐大且復(fù)雜,往往需要整合多個數(shù)據(jù)源的信息,這些數(shù)據(jù)種類繁多、數(shù)據(jù)量大、數(shù)據(jù)質(zhì)量參差不齊,有時甚至需要跨部門溝通,走繁瑣的審批流程,在經(jīng)過了一系列關(guān)卡收集并整理好數(shù)據(jù)后,由于耗費時間太長,一些具有時效性的數(shù)據(jù)就會產(chǎn)生價值流失。需要建設(shè)持續(xù)的、自動化的、全量的數(shù)據(jù)采集機制,來保證數(shù)據(jù)的價值被有效地利用。
3)初期缺乏規(guī)劃導(dǎo)致應(yīng)用豎井。在開展大數(shù)據(jù)應(yīng)用的初期,由于大部分是業(yè)務(wù)驅(qū)動,各項目單獨建設(shè)大數(shù)據(jù)系統(tǒng),缺乏統(tǒng)一規(guī)劃,容易造成應(yīng)用豎井,數(shù)據(jù)重復(fù)采集、基礎(chǔ)信息不一致,從而不可避免地出現(xiàn)資源浪費、數(shù)據(jù)關(guān)聯(lián)性差,無法高效地利用數(shù)據(jù)價值;所以需要企業(yè)有全面的大數(shù)據(jù)系統(tǒng)建設(shè)規(guī)劃,對數(shù)據(jù)進(jìn)行統(tǒng)一采集和管理,為后續(xù)各種場景的分析應(yīng)用提供良好的數(shù)據(jù)環(huán)境。
在工業(yè)級大數(shù)據(jù)系統(tǒng)的建設(shè)初期,需要對系統(tǒng)的技術(shù)架構(gòu)進(jìn)行合理規(guī)劃,根據(jù)實際應(yīng)用場景下的需求選擇技術(shù)組件實現(xiàn)應(yīng)用的搭建,考慮的問題主要總結(jié)為以下五點:①如何采集來自多種數(shù)據(jù)源的異構(gòu)數(shù)據(jù);②如何按照不同的數(shù)據(jù)留存需求進(jìn)行高效存儲;③如何按照業(yè)務(wù)需求選擇數(shù)據(jù)計算引擎和處理工具;④如何保障系統(tǒng)的安全和穩(wěn)定運行;⑤工業(yè)大數(shù)據(jù)技術(shù)架構(gòu)分析。
本文中描述的工業(yè)大數(shù)據(jù)架構(gòu)體系,參考了2016年工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟[1]發(fā)布的《工業(yè)互聯(lián)網(wǎng)體系架構(gòu)(1.0)》中對工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)體系架構(gòu)的描述[3],見圖1。工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟(Alliance of Industrial Internet,AII)是在工業(yè)和信息化部指導(dǎo)下,于2016年2月1日由國內(nèi)外工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)相關(guān)的企、事業(yè)單位、社團(tuán)組織、高等院校、科研院所等自愿結(jié)成的跨行業(yè)、開放性、非營利性的社會組織。
其架構(gòu)可以總結(jié)為數(shù)據(jù)采集與交換、數(shù)據(jù)集成與處理、數(shù)據(jù)建模與分析和數(shù)據(jù)驅(qū)動下的決策與控制應(yīng)用四個層次[4],對應(yīng)到具體的技術(shù)架構(gòu)實現(xiàn)見圖2。
圖2 工業(yè)大數(shù)據(jù)功能架構(gòu)
采集交換層:主要完成數(shù)據(jù)從傳感器、SCADA、MES、ERP等內(nèi)部系統(tǒng),以及企業(yè)外部數(shù)據(jù)源獲取數(shù)據(jù)的功能,并實現(xiàn)在不同系統(tǒng)之間數(shù)據(jù)的交互。這一層涉及到采集工具、數(shù)據(jù)預(yù)處理工具、以及數(shù)據(jù)交換工具的選型建設(shè)。
集成處理層:從功能上,這一層主要是將物理系統(tǒng)實體進(jìn)行抽象和虛擬化,建立產(chǎn)品、產(chǎn)線、供應(yīng)鏈等各種主題數(shù)據(jù)庫,建立合理的數(shù)據(jù)模型,將清洗轉(zhuǎn)換后的數(shù)據(jù)與虛擬制造中的產(chǎn)品、設(shè)備、產(chǎn)線等實體相互關(guān)聯(lián)起來。從技術(shù)上,實現(xiàn)原始數(shù)據(jù)的抽取轉(zhuǎn)換和存儲管理,提供計算引擎服務(wù),完成海量數(shù)據(jù)的交互查詢、批量計算、流式計算等任務(wù),并對上層建模工具提供數(shù)據(jù)訪問和計算接口。這一層主要涉及數(shù)據(jù)的抽取轉(zhuǎn)換加載、數(shù)據(jù)的存儲與管理、數(shù)據(jù)計算與查詢,以及數(shù)據(jù)服務(wù)接口的提供。
建模分析層:功能上主要是在虛擬化的實體之上構(gòu)建仿真測試、流程分析、運營分析等分析模型,用于在原始數(shù)據(jù)中提取特定的模式和知識,為各類決策的產(chǎn)生提供支持。從技術(shù)上,主要提供數(shù)據(jù)報表、可視化、知識庫、機器學(xué)習(xí)、統(tǒng)計分析和規(guī)則引擎等數(shù)據(jù)分析工具。
決策控制層:基于數(shù)據(jù)分析結(jié)果,生成描述、診斷、預(yù)測、決策、控制等不同應(yīng)用,形成優(yōu)化決策建議或產(chǎn)生直接控制指令,從而對工業(yè)系統(tǒng)施加影響,實現(xiàn)個性化定制、智能化生產(chǎn)、協(xié)同化組織和服務(wù)化制造等創(chuàng)新模式,最終構(gòu)成從數(shù)據(jù)采集到設(shè)備、生產(chǎn)現(xiàn)場及企業(yè)運營管理優(yōu)化的閉環(huán)。
工業(yè)大數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu)的實現(xiàn)涉及底層技術(shù)組件的選型,本文中將這些技術(shù)組件分為三類:采集、存儲及計算,四層技術(shù)架構(gòu)的功能實現(xiàn)可以由這三種技術(shù)組合得到[5]。如圖3所示。
圖3 技術(shù)架構(gòu)層與技術(shù)組件對應(yīng)關(guān)系
圖3中對采集、存儲、計算的描述是指廣義上的這類技術(shù)及解決方案的總和,如采集指的是實現(xiàn)數(shù)據(jù)采集、交換、集成、處理過程當(dāng)中涉及到的所有采集相關(guān)的技術(shù)和解決方案;存儲和計算也是指實現(xiàn)系統(tǒng)架構(gòu)中的對應(yīng)功能時涉及到的所有技術(shù)和解決方案。
1.2.1 數(shù)據(jù)采集
隨著工業(yè)制造中各層的精細(xì)化與制程的高密度化,工業(yè)制造所產(chǎn)生的數(shù)據(jù)必然形成好幾個等級的增長。面對如此龐大與多樣的數(shù)據(jù)整合問題,企業(yè)必須有整體統(tǒng)一的數(shù)據(jù)匯聚與應(yīng)用策略,設(shè)計通用可靠的數(shù)據(jù)采集機制,來滿足各方面的數(shù)據(jù)采集需求。數(shù)據(jù)采集的完整性、準(zhǔn)確性,決定了數(shù)據(jù)應(yīng)用是否能真實可靠地發(fā)揮作用。因此,在建設(shè)數(shù)據(jù)采集系統(tǒng)時,建議著重考慮以下五個要求:1)數(shù)據(jù)接口通用性。由于新技術(shù)更新?lián)Q代較頻繁,需要進(jìn)行版本管理,并定期更新接口,建議用統(tǒng)一的數(shù)據(jù)交換格式來適應(yīng)接口頻繁更新的情況,使接口能夠快速調(diào)整。2)支持廣泛的數(shù)據(jù)源。采集技術(shù)需支持盡可能多的數(shù)據(jù)源端。3)支持橫向擴(kuò)展。當(dāng)設(shè)備增加時,所造成的性能瓶頸須能通過橫向擴(kuò)展的方式解決。4)保證數(shù)據(jù)不遺失。采集過程中須確保數(shù)據(jù)準(zhǔn)確地、不遺失地送達(dá)處理層與儲存層。5)避免增加基礎(chǔ)建設(shè)復(fù)雜度。在不斷擴(kuò)充設(shè)備的情況下,采集技術(shù)不應(yīng)增加基礎(chǔ)建設(shè)擴(kuò)展時的負(fù)擔(dān)。
從工業(yè)數(shù)據(jù)的來源進(jìn)行分類,主要包括管理系統(tǒng)、生產(chǎn)系統(tǒng)、外部數(shù)據(jù)三大方面的數(shù)據(jù)來源。從數(shù)據(jù)采集的全面性上看,不僅要涵蓋基礎(chǔ)的結(jié)構(gòu)化交易數(shù)據(jù),還將逐步包括半結(jié)構(gòu)化的用戶行為數(shù)據(jù),網(wǎng)狀的社交關(guān)系數(shù)據(jù),文本或音視頻類型的用戶意見和反饋數(shù)據(jù),設(shè)備和傳感器采集的周期性數(shù)據(jù),以及未來越來越多有潛在意義的各類數(shù)據(jù)[6]。表1整理出了一些工業(yè)大數(shù)據(jù)系統(tǒng)中常見的數(shù)據(jù)源及其數(shù)據(jù)特性,供參考。
管理系統(tǒng)數(shù)據(jù)采集:這里討論的管理系統(tǒng)的數(shù)據(jù)包括了工業(yè)產(chǎn)品的設(shè)計資料、價值鏈管理數(shù)據(jù)及生產(chǎn)過程中的資源管理數(shù)據(jù)。
表1 常見工業(yè)數(shù)據(jù)源分類
1)設(shè)計資料:設(shè)計資料大多來源于傳統(tǒng)工業(yè)設(shè)計和制造類軟件,如:CAD、CAM、CAE、CAPP、PDM等。這類數(shù)據(jù)主要是各類產(chǎn)品模型以及相關(guān)的圖紙或電子文檔,大多數(shù)為非結(jié)構(gòu)化數(shù)據(jù)。這些設(shè)計類數(shù)據(jù)的采集對時效性要求不高,只需定期批量導(dǎo)入大數(shù)據(jù)系統(tǒng)。
2)價值鏈管理數(shù)據(jù):價值鏈數(shù)據(jù)主要指企業(yè)生產(chǎn)活動中上下游的信息流數(shù)據(jù),主要來源于供應(yīng)鏈管理系統(tǒng)(SCM)、客戶關(guān)系管理系統(tǒng)(CRM)等。這類數(shù)據(jù)主要包含供應(yīng)鏈信息和客戶信息,通常是規(guī)范的結(jié)構(gòu)化數(shù)據(jù),采集時對時效性要求不高,只需按業(yè)務(wù)分析要求的更新周期定期批量導(dǎo)入大數(shù)據(jù)系統(tǒng)。
3)資源管理數(shù)據(jù):資源管理數(shù)據(jù)的來源主要是生產(chǎn)環(huán)節(jié)的各類管理系統(tǒng),包括企業(yè)資源計劃(OA/ERP)、生產(chǎn)過程執(zhí)行系統(tǒng)(MES)、產(chǎn)品生命周期管理(PLM)、環(huán)境管理系統(tǒng)(EMS)、倉庫管理系統(tǒng)(WMS)、能源管理系統(tǒng)等。這類數(shù)據(jù)主要描述了生產(chǎn)過程中的訂單數(shù)據(jù)、排程數(shù)據(jù)、生產(chǎn)數(shù)據(jù)等,大多數(shù)為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),采集時對時效性要求不高,只需按業(yè)務(wù)分析要求的更新周期定期批量導(dǎo)入大數(shù)據(jù)系統(tǒng)。
生產(chǎn)系統(tǒng)數(shù)據(jù)采集:這里討論的生產(chǎn)系統(tǒng)數(shù)據(jù)主要來自工業(yè)控制系統(tǒng)、生產(chǎn)監(jiān)控系統(tǒng)、各類傳感器以及其他外部裝置。
1)工業(yè)控制系統(tǒng)數(shù)據(jù):工業(yè)控制系統(tǒng)數(shù)據(jù)的來源主要包括分布式控制系統(tǒng)(DCS),以及可編程邏輯控制器(PLC)這類系統(tǒng)。通常DCS與PLC共同組成本地化的控制系統(tǒng),主要關(guān)注控制消息管理、設(shè)備診斷、數(shù)據(jù)傳遞方式、工廠結(jié)構(gòu),以及設(shè)備邏輯控制和報警管理等數(shù)據(jù)的收集。此類數(shù)據(jù)通常為結(jié)構(gòu)化數(shù)據(jù),且數(shù)據(jù)的應(yīng)用通常對時效性要求較高,需要數(shù)據(jù)能及時地上報到上層的處理系統(tǒng)中。
2)生產(chǎn)監(jiān)控數(shù)據(jù):生產(chǎn)監(jiān)控數(shù)據(jù)主要來源于以SCADA為代表的監(jiān)視控制系統(tǒng)。SCADA系統(tǒng)的設(shè)計用來收集現(xiàn)場信息,將這些信息傳輸?shù)接嬎銠C系統(tǒng),并且用圖像或文本的形式顯示這些信息。這類數(shù)據(jù)也是規(guī)范的結(jié)構(gòu)化數(shù)據(jù),但相對DCS和PLC系統(tǒng)來說,SCADA系統(tǒng)可以提供實時的數(shù)據(jù),同時也能提供歷史數(shù)據(jù);因此在考慮數(shù)據(jù)的采集策略時,需要根據(jù)上報數(shù)據(jù)的類型來選擇是實時采集或是批量導(dǎo)入。
3)各類傳感器:在生產(chǎn)車間的很多生產(chǎn)設(shè)備并不能提供生產(chǎn)數(shù)據(jù)的采集和上傳,因此需要通過外接一套額外的傳感器來完成生產(chǎn)數(shù)據(jù)的采集。外掛式傳感器主要用在無生產(chǎn)數(shù)據(jù)采集的設(shè)備或者數(shù)據(jù)采集不全面的設(shè)備上、以及工廠環(huán)境數(shù)據(jù)的采集。同時外掛式傳感器根據(jù)使用現(xiàn)場的需求,可以采用接觸式的傳感設(shè)備和非接觸式的傳感設(shè)備。此類數(shù)據(jù)的單條數(shù)據(jù)量通常都非常小,但是通信總接入數(shù)非常高,即數(shù)據(jù)傳輸并發(fā)度高,同時對傳輸?shù)膶崟r性要求較高。
4)其他外部裝置:其他外部裝置產(chǎn)生的數(shù)據(jù)以視頻攝像頭為例,數(shù)據(jù)主要來源于對產(chǎn)品的質(zhì)量監(jiān)控照片、視頻,或者是工廠內(nèi)的監(jiān)控視頻等。此類數(shù)據(jù)的特點是數(shù)據(jù)量大,傳輸?shù)某掷m(xù)時間長,需要有高帶寬、低時延的通信網(wǎng)絡(luò)才能滿足數(shù)據(jù)的上傳需求。對于其他不同于視頻數(shù)據(jù)的外部裝置數(shù)據(jù),需要針對數(shù)據(jù)的特性進(jìn)行采集機制的選擇。
外部系統(tǒng)數(shù)據(jù)采集:外部系統(tǒng)數(shù)據(jù)主要來源于評價企業(yè)環(huán)境績效的環(huán)境法規(guī)、預(yù)測產(chǎn)品市場的宏觀社會經(jīng)濟(jì)數(shù)據(jù)等,此類數(shù)據(jù)主要用于評估產(chǎn)品的后續(xù)生產(chǎn)趨勢、產(chǎn)品改進(jìn)等方面,與管理系統(tǒng)的數(shù)據(jù)采集類似,可以通過標(biāo)準(zhǔn)的RJ45接口進(jìn)行數(shù)據(jù)的傳輸。通常本類數(shù)據(jù)相對靜止,變化較小,因此數(shù)據(jù)的上傳頻次較低。
綜合上述多類數(shù)據(jù)源的采集場景和要求,系統(tǒng)的集成導(dǎo)入應(yīng)同時具備實時接入(如工業(yè)控制系統(tǒng)、生產(chǎn)監(jiān)控數(shù)據(jù)、各類傳感器)和批量導(dǎo)入(如管理系統(tǒng)、外部數(shù)據(jù))的能力,同時能根據(jù)需要提供可定制化的IoT接入平臺。具體建設(shè)要求如下。
1)對于需要實時監(jiān)控、實時反向控制類數(shù)據(jù),可通過實時消息管道發(fā)送,支持實時接入,如工業(yè)控制系統(tǒng)數(shù)據(jù)、生產(chǎn)監(jiān)控系統(tǒng)數(shù)據(jù)等。建議可采用如Kafka、Fluentd或是Flume等技術(shù),這類技術(shù)使用分布式架構(gòu),具備數(shù)據(jù)至少傳輸一次的機制,并為不同生成頻率的數(shù)據(jù)提供緩沖層,避免重要數(shù)據(jù)的丟失。
2)對于非實時處理的數(shù)據(jù),可采取定時批量地從外部系統(tǒng)離線導(dǎo)入,必須要支持海量多源異構(gòu)數(shù)據(jù)的導(dǎo)入,如資源管理數(shù)據(jù)、價值鏈數(shù)據(jù)、設(shè)計資料等。建議可采用Sqoop等數(shù)據(jù)交換技術(shù),實現(xiàn)Hadoop與傳統(tǒng)數(shù)據(jù)庫(MySQL、Oracle、Postgres等)間大批量數(shù)據(jù)的雙向傳遞。
3)當(dāng)系統(tǒng)中有大量設(shè)備需要并發(fā)接入且要多協(xié)議接入時,如各類傳感器件,可部署專業(yè)IoT接入網(wǎng)關(guān),IoT接入平臺需同時具備支持TCP、UDP、MQTT、CoAP、LWM2M等多種通信協(xié)議。在面對各類傳感器的數(shù)據(jù)采集時,可以結(jié)合RFID、條碼掃描器、生產(chǎn)和監(jiān)測設(shè)備、PDA、人機交互、智能終端等手段采集制造領(lǐng)域多源、異構(gòu)數(shù)據(jù)信息,并通過互聯(lián)網(wǎng)或現(xiàn)場總線等技術(shù)實現(xiàn)源數(shù)據(jù)的實時準(zhǔn)確傳輸。有線接入主要以PLC、以太網(wǎng)為主。無線接入技術(shù)種類眾多,包括條形碼、PDA、RFID 、Zigbee、Wi-Fi、藍(lán)牙、Z-wave等短距離通信技術(shù)和長距無線通信技術(shù)。其中,長距離無線技術(shù)又分為兩類,包括工作于未授權(quán)頻譜的LoRa、SigFox等技術(shù)和工作于授權(quán)頻譜下傳統(tǒng)的2/3/4G蜂窩技術(shù)及其3GPP支持的LTE演進(jìn)技術(shù),如LTE-eMTC、NB-IOT等。
1.2.2 數(shù)據(jù)存儲
工業(yè)大數(shù)據(jù)系統(tǒng)接入的數(shù)據(jù)源數(shù)量大類型多,需要能支持TB到PB級多種類型數(shù)據(jù)的存儲,包括關(guān)系表、網(wǎng)頁、文本、JSON、XML、圖像等數(shù)據(jù)庫,應(yīng)具備盡可能多樣化的存儲方式來適應(yīng)各類存儲分析場景,總結(jié)如表2。
表2 各類存儲對應(yīng)適用場景
在不同的工業(yè)數(shù)據(jù)應(yīng)用場景中,數(shù)據(jù)存儲的介質(zhì)選擇十分重要,下面列舉一些經(jīng)典的使用場景來介紹如何選擇存儲技術(shù)[7]。
1)實時監(jiān)控數(shù)據(jù)展示:通常情況下實時采集的監(jiān)控數(shù)據(jù)在進(jìn)行輕度的清洗和匯總后會結(jié)合Web UI技術(shù)實時展現(xiàn)生產(chǎn)線的最新動態(tài)。這類及時性互動性高的數(shù)據(jù)一般使用內(nèi)存數(shù)據(jù)進(jìn)行存儲,如Redis、Ignite等技術(shù),可以快速響應(yīng)實時的查詢需求。
2)產(chǎn)線異常的分析與預(yù)測:使用機器學(xué)習(xí)技術(shù)對產(chǎn)線數(shù)據(jù)進(jìn)行深入挖掘分析運行規(guī)律,可以有效地對產(chǎn)線的異常進(jìn)行分析和預(yù)測,進(jìn)而改善制程、減少損失、降低成本及人為誤判的可能性。這類用于分析的歷史數(shù)據(jù)一般選擇使用HDFS、Cassandra等分布式儲存,適用于海量數(shù)據(jù)的探索和挖掘分析。同時,對于這類與時間順序強相關(guān)的分析場景,數(shù)據(jù)的存儲可以選擇InfluxDB這類時序數(shù)據(jù)庫,可以極大提高時間相關(guān)數(shù)據(jù)的處理能力,在一定程度上節(jié)省存儲空間并極大地提高查詢效率。
3)商業(yè)智能:如果需要整合多種數(shù)據(jù)來制作商業(yè)策略性報表,適合使用結(jié)構(gòu)化儲存,比如傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,MySQL、Oracle等。如果需要考慮性能和及時性,可以考慮分類存儲至NoSQL數(shù)據(jù)庫,如Cassandra、HBase與Redis等。
1.2.3 數(shù)據(jù)計算
大數(shù)據(jù)系統(tǒng)通常需要能夠支持多種任務(wù),包括處理結(jié)構(gòu)化表的SQL引擎、計算關(guān)系的圖處理引擎和進(jìn)行數(shù)據(jù)挖掘的機器學(xué)習(xí)引擎,其中面向SQL的分析主要有交互式查詢、報表、復(fù)雜查詢、多維分析等(如表3)。
表3 各類計算引擎對應(yīng)適用場景
1)實時計算引擎,包括Storm、Spark Streaming、Flink等業(yè)界通用架構(gòu),適用于基于窗口或消息的實時數(shù)據(jù)處理,結(jié)果響應(yīng)的時延要求在毫秒級。
2)離線計算引擎,包括MapReduce、Spark、Hive,適用于批數(shù)據(jù)分析和定時分析等。
3)圖計算引擎,適用于事件及人之間的關(guān)聯(lián)關(guān)系分析。
4)數(shù)據(jù)綜合分析OLAP,如MPP數(shù)據(jù)庫,適用于綜合報表分析。
5)業(yè)務(wù)交互查詢OLTP,如MySQL、SQLServer、Oracle、PostgreSQL等,適用于交互式查詢分析。
6)分布式數(shù)據(jù)庫中間件,可解決數(shù)據(jù)庫容量、性能瓶頸和分布式擴(kuò)展問題,提供分庫分表、讀寫分離、彈性擴(kuò)容等能力,適用于海量數(shù)據(jù)的高并發(fā)訪問場景,有效提升數(shù)據(jù)庫讀寫性能。
7)數(shù)據(jù)挖掘能力,為了能夠匹配工業(yè)大數(shù)據(jù)決策與控制應(yīng)用的5大場景,特別是診斷類、預(yù)測類、決策類應(yīng)用閉環(huán)的要求,系統(tǒng)應(yīng)該具備完善的機器學(xué)習(xí)、深度學(xué)習(xí)、圖計算等平臺級能力。機器學(xué)習(xí)能力如基于開源Spark框架推出的算法庫MLlib、 GraphX等;深度學(xué)習(xí)有TensorFlow、Caffe、MXNet等平臺;圖計算能力,業(yè)界相對比較流行的開源產(chǎn)品有Titan,另外還有很多優(yōu)秀的商業(yè)產(chǎn)品可供選擇[8-9]。
總體來說,大數(shù)據(jù)平臺的計算組件需要能支持批量和實時兩大類任務(wù),同時具備精細(xì)化的任務(wù)和資源調(diào)度的能力。
本章節(jié)將結(jié)合某大型工業(yè)企業(yè)生產(chǎn)場景中新產(chǎn)品導(dǎo)入(New Product Introduce,NPI)環(huán)節(jié)的案例,具體解釋說明其中所使用的技術(shù)架構(gòu)[5]。
新產(chǎn)品制造在NPI階段需在有限的時間內(nèi)在每個步驟都達(dá)到客戶的規(guī)格要求,因此,在每一個階段工程單位與測試單位都需要完整的生產(chǎn)信息與關(guān)鍵物料信息的整合,協(xié)助FA(Failure Analysis)工程師與RD工程師合作,進(jìn)行問題分析與解決方案設(shè)計。
由于每一個階段都是分秒必爭,并且還要能快速反應(yīng)問題,求新求變,對于必須在限定時間內(nèi)分析所有的問題且找出原因(當(dāng)天的問題當(dāng)天解決)將是一個高度困難的挑戰(zhàn)與目標(biāo)。為了能加快FA工程師分析的速度以及有更多的時間做進(jìn)階數(shù)據(jù)分析,快速收集所有生產(chǎn)信息,甚至往前追溯上游供應(yīng)鏈關(guān)鍵信息都是非常必要的,但卻又相當(dāng)耗費時間。
依據(jù)過去的經(jīng)驗,工程師通常會花費80%的時間做數(shù)據(jù)收集與整合,卻只用20%的時間做數(shù)據(jù)分析與問題診斷;因此需要合理的規(guī)劃大數(shù)據(jù)系統(tǒng)的架構(gòu)建設(shè),形成一套完善的解決方案來扭轉(zhuǎn)這個局面,讓工程師只需要投入20%的時間做數(shù)據(jù)收集,能夠留下80%的時間做深入的數(shù)據(jù)分析與解析。
NPI階段數(shù)據(jù)分析需要解決兩個業(yè)務(wù)痛點。1)數(shù)據(jù)復(fù)雜且收集整合耗時:分析數(shù)據(jù)一般會橫跨多個孤島系統(tǒng)、且涉及不同部門,工程師需要與不同部門進(jìn)行溝通,并且切換不同系統(tǒng)以取得數(shù)據(jù),再加上數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)質(zhì)量無法保證,很多數(shù)據(jù)需要手工進(jìn)行清洗整理,這樣僅一個問題的數(shù)據(jù)收集就可能花費好幾個小時。2)涉及信息太多:數(shù)據(jù)包含產(chǎn)品各階段的生產(chǎn)數(shù)據(jù)(產(chǎn)品測試數(shù)據(jù)、產(chǎn)線組裝數(shù)據(jù)、進(jìn)料檢驗數(shù)據(jù)、關(guān)鍵物料數(shù)據(jù)、供貨商數(shù)據(jù)等),各類數(shù)據(jù)量都很大(例如工站的監(jiān)測項就有上千個,甚至上萬個);手動整理數(shù)據(jù)容易發(fā)生錯誤,且不易察覺;再加上各類分析軟件有處理數(shù)據(jù)量的上限,使用分析軟件進(jìn)行實時數(shù)據(jù)增加、刪除會很耗費精力。
方案中整體架構(gòu)的實現(xiàn)以基礎(chǔ)數(shù)據(jù)為基底,通過SMC(Spark,Mesos,Cassandra)三套開源大數(shù)據(jù)產(chǎn)品將關(guān)聯(lián)性數(shù)據(jù)進(jìn)行整合,再由數(shù)據(jù)集成框架DIF(Data Integration Framework)架構(gòu)進(jìn)行數(shù)據(jù)處理并提供多維度整合數(shù)據(jù)至數(shù)據(jù)服務(wù)接口DSP(Data Service Provider) API、分析工作流等服務(wù),系統(tǒng)應(yīng)用層利用多維度數(shù)據(jù)進(jìn)行通用性分析、FA分析及查詢服務(wù)。如圖4所示,并分述如下。
圖4 方案整體架構(gòu)
采集交換層:數(shù)據(jù)的采集需考慮應(yīng)業(yè)務(wù)需求有效且完整的獲取各類系統(tǒng)的數(shù)據(jù)。鑒于采集的數(shù)據(jù)來源有內(nèi)部系統(tǒng)、外部系統(tǒng)及非系統(tǒng)化的本地文件等,所以需要各系統(tǒng)之間進(jìn)行數(shù)據(jù)交換,分別利用系統(tǒng)接口、網(wǎng)絡(luò)爬蟲轉(zhuǎn)換文件格式儲存及電子郵件方式等交換取得各數(shù)據(jù)。
集成處理層:此層級運行包含SMC、DIF及KM。該層主要考慮為各系統(tǒng)數(shù)據(jù)的關(guān)聯(lián)整合,因此著重于數(shù)據(jù)清洗、數(shù)據(jù)理解及數(shù)據(jù)的關(guān)聯(lián),為分析層提供有效的模型處理能力。SMC提供基礎(chǔ)的計算和存儲資源;DIF主要支撐數(shù)據(jù)整合、數(shù)據(jù)處理運算、及信息呈現(xiàn);KM主要接收各類型文檔進(jìn)行分類儲存、解析文本,并利用Elasticsearch(一套支持全文檢索的開源項目)建立索引庫以及支持全文檢索服務(wù)。
建模分析層:數(shù)據(jù)分析層包含三個項目,分別為DSP API、分析工作流、KM API。在分析層構(gòu)建API主要是為特定業(yè)務(wù)需求構(gòu)建分析工作流提供分析模型的支撐。
決策控制層:該層實現(xiàn)用戶在單一平臺內(nèi)快速獲取數(shù)據(jù)的需求,并快速開展業(yè)務(wù)分析。此外,知識庫的構(gòu)建可以滿足工程師之間的技術(shù)傳承及新人訓(xùn)練,幫助工程師自主學(xué)習(xí)成長,并減少溝通教學(xué)時間,可以讓工程師的時間得到最有效的利用。
合理設(shè)計大數(shù)據(jù)系統(tǒng)的架構(gòu)實現(xiàn)使得數(shù)據(jù)分析的效率大大提升,能夠更好地支撐新產(chǎn)品制造NPI環(huán)節(jié)的各種分析需求,使每個步驟都能快速達(dá)到客戶要求。主要解決的問題可總結(jié)為以下幾點:1)時間短,數(shù)據(jù)整合收集所需時間大幅減少,由以前耗時2~4小時,提升至數(shù)分鐘以內(nèi)。2)數(shù)據(jù)廣,整個NPI周期大約會生產(chǎn)5萬個產(chǎn)品,而NPI產(chǎn)線大約150個相關(guān)產(chǎn)品測試數(shù)據(jù)完整收集,涵蓋400多個關(guān)鍵物料及平均2000個測試項目,特定工站更高達(dá)4萬個測試項目,每日原始數(shù)據(jù)吞吐量可達(dá)22萬筆。3)效率快,工程師將原來數(shù)據(jù)收集的時間專注用來解決問題,并可利用剩余時間進(jìn)一步分析預(yù)見問題。扭轉(zhuǎn)過去80/20的時間分配法則,讓工程師只用20%時間收集數(shù)據(jù)整理數(shù)據(jù),而用80%時間專注在問題解決上。4)傳承快,前輩工程師將個人的經(jīng)驗累積于平臺上,新人工程師可隨時學(xué)習(xí)到前人的知識。
工業(yè)大數(shù)據(jù)平臺已經(jīng)成為數(shù)據(jù)時代工業(yè)企業(yè)的基礎(chǔ)架構(gòu),支撐著上層大數(shù)據(jù)業(yè)務(wù)的建設(shè)與發(fā)展,促進(jìn)了頂層愿景和戰(zhàn)略的順利實施。而當(dāng)前工業(yè)大數(shù)據(jù)平臺架構(gòu)仍處于發(fā)展初期,尚未形成穩(wěn)定、成熟的建設(shè)方案和建設(shè)路徑,故需要梳理工業(yè)大數(shù)據(jù)平臺架構(gòu)方式及內(nèi)容,明確其選型方案及建設(shè)路徑,規(guī)劃采集交換、集成處理、建模分析、決策需求等多環(huán)節(jié)技術(shù)體系,從而促進(jìn)工業(yè)大數(shù)據(jù)應(yīng)用的快速平穩(wěn)落地,使工業(yè)領(lǐng)域的數(shù)據(jù)能發(fā)揮更大的價值,加速整個產(chǎn)業(yè)的變革。
[1] 彭俊松.工業(yè)4.0驅(qū)動下的制造業(yè)數(shù)字化轉(zhuǎn)型[M].北京:機械工業(yè)出版社,2017
[2] 王建民.探索走出符合國情的工業(yè)大數(shù)據(jù)自主之路——工業(yè)大數(shù)據(jù)的范疇、關(guān)鍵問題與實踐[J].中國設(shè)備工程,2015(9):36-37
[3] 工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟.工業(yè)互聯(lián)網(wǎng)體系架構(gòu)(版本1.0)[R].2017
[4] 工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟.中國工業(yè)大數(shù)據(jù)技術(shù)與應(yīng)用白皮書[R].2017
[5] 工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟.工業(yè)大數(shù)據(jù)技術(shù)架構(gòu)白皮書[R].2018
[6] 鄭樹泉,宗宇偉,董文生,等.工業(yè)大數(shù)據(jù):架構(gòu)與應(yīng)用[M].上海:上海科學(xué)技術(shù)出版社,2017
[7] 數(shù)據(jù)中心聯(lián)盟.大數(shù)據(jù)平臺選型與建設(shè)指南白皮書(1.0版)[R].2017
[8] Lee J,Kao H A,Yang S.Service Innovation and Smart Analytics for Industry 4.0 and Big Data Environment [J].Procedia Cirp,2014,16:3-8
[9] Wang S,Wan J,Zhang D,et al.Towards smart factory for industry 4.0: a self-organized multi-agent system with big data based feedback and coordination [J].Computer Networks,2016,101:158-168