摘? 要:在分析智能工廠國內(nèi)外研究現(xiàn)狀基礎上,對基于大數(shù)據(jù)的智能工廠數(shù)據(jù)平臺架構(gòu)技術展開研究,為智能生產(chǎn)的運行分析、預測、決策調(diào)控以及數(shù)字孿生信息物理融合提供技術參考。探討了智能工廠定義與內(nèi)涵,以及智能工廠大數(shù)據(jù)來源和特征,采用Hadoop、Spark、Storm熱門開源大數(shù)據(jù)計算引擎,提出了數(shù)據(jù)來源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲層、資源管理層、處理分析層以及業(yè)務應用層構(gòu)成的智能工廠大數(shù)據(jù)平臺技術架構(gòu),有效解決智能工廠大數(shù)據(jù)多源復雜性和實時性的要求和難點。所提數(shù)據(jù)平臺技術架構(gòu)將對智能制造和智能工廠的實現(xiàn)具有重要的借鑒價值。
關鍵詞:大數(shù)據(jù);智能工廠;數(shù)字孿生
中圖分類號:TP311.5? ? ?文獻標識碼:A
Design and Research of Data Platform Architecture for Intelligent
Factories Based on Big Data
CHANG Jingru
(Department of Software Engineering,Dalian Neusoft University of Information,Dalian 116023,China)
Abstract:Based on the analysis of the existing research status of intelligent factories at home and abroad,this paper studies the data platform architecture technology for intelligent factories based on big data,providing technical reference for the operation analysis,prediction,decision control and the fusion of information and physics of digital twins of intelligent production.The paper not only discusses the definition and connotation of intelligent factory,intelligent factory big data source and characteristics,but also puts forward by using Hadoop+Spark+Storm the big data platform technology architecture of intelligent factory which includes the data source layer,the data transfer layer,the data storage layer,the resource management layer,the processing and analysis layer,and the business application layer.The technology architecture of the data platform will have important reference value for the realization of intelligent manufacture and intelligent factories.
Keywords:big data;intelligent factory;Digital Twin
1? ?引言(Introduction)
隨著物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等新興技術快速發(fā)展,制造業(yè)掀起了信息化、自動化、智能化為發(fā)展方向的新一輪革命浪潮,近年來引起了世界各國的極大關注。
以美國和德國為首的歐美發(fā)達國家在新形勢下制定了一系列制造業(yè)規(guī)劃。美國自2009年陸續(xù)推出一系列工業(yè)戰(zhàn)略規(guī)劃和工業(yè)互聯(lián)網(wǎng)概念,以通用(GE)公司為代表,并于2012年發(fā)布了《工業(yè)互聯(lián)網(wǎng):打破智慧與機器》產(chǎn)業(yè)政策報告;2013年漢諾威工業(yè)博覽會上德國政府提出為了“工業(yè)4.0”戰(zhàn)略落地,西門子公司已將工業(yè)4.0概念引入其生產(chǎn)控制系統(tǒng)和工業(yè)軟件開發(fā)中。
針對以上挑戰(zhàn),中國政府于2015年提出“中國制造2025規(guī)劃”,促進以云計算、大數(shù)據(jù)等新一代信息化技術與現(xiàn)代制造業(yè)的深度融合與創(chuàng)新。學術研究方面,吉旭等提出高分子材料行業(yè)云計算與大數(shù)據(jù)云制造架構(gòu)和關鍵技術[1];張潔等提出大數(shù)據(jù)驅(qū)動的“關聯(lián)+預測+調(diào)控”的智能車間分析、決策新模式[2];王建民分析工業(yè)大數(shù)據(jù)來源并歸納大數(shù)據(jù)管理分析關鍵技術[3];陶飛等提出基于大數(shù)據(jù)傳輸與連接的數(shù)字孿生五維模型及其10大應用領域[4]。
基于以上背景,本文針對智能工廠數(shù)據(jù)平臺問題展開研究,深入探討基于大數(shù)據(jù)的智能工廠數(shù)據(jù)平臺技術框架體系,以求從海量數(shù)據(jù)中挖掘有價值的信息來指導智能工廠的運行和優(yōu)化。
2? ?智能工廠(Intelligent factory)
2.1? ?智能工廠的定義
相對于傳統(tǒng)制造業(yè)而言,智能制造是其轉(zhuǎn)型和升級,即在制造過程中進行分析、推理、判斷和決策等智能化活動,以人為核心地位的同時實現(xiàn)人機一體化;實現(xiàn)智能制造的關鍵是智能工廠的建立和實施。智能工廠的定義最早在德國“工業(yè)4.0”中提出,即利用物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等新興技術,通過傳感器、網(wǎng)絡等將機器、設備、人員和軟件程序連接起來并逐漸融合,以高效監(jiān)控、采集、處理和分析數(shù)據(jù),實現(xiàn)加工過程、信息管理以及服務的智能化,構(gòu)建高效、節(jié)能、綠色的人性化工廠。
2.2? ?智能工廠的實施
實現(xiàn)智能工廠的第一要點是使用物聯(lián)網(wǎng)將“黑暗數(shù)據(jù)”即未使用的數(shù)據(jù)關聯(lián)起來,并將其轉(zhuǎn)化為有用信息系統(tǒng),從而快速響應消費者需求變化和市場的突變,實現(xiàn)敏捷式需求驅(qū)動型制造模式。
智能工廠實施的第一步是將車間的系統(tǒng)連接起來;由于在物聯(lián)網(wǎng)技術出現(xiàn)之前,企業(yè)的多數(shù)現(xiàn)有設備已部署完畢,且無內(nèi)置連接功能,目前缺乏通用的通信標準支持傳統(tǒng)設備與物聯(lián)網(wǎng)進行互操作,但是在物聯(lián)網(wǎng)開放平臺上將傳統(tǒng)設備與中間件連接的生態(tài)系統(tǒng)方案已成功上市,且OPAF、IIC等組織和英特爾等IT巨頭廠商正在加緊制定開放的物聯(lián)網(wǎng)標準。
為了應用高級分析發(fā)掘數(shù)據(jù)的巨大價值,智能工廠實施的第二步為采集、存儲、預處理、分析數(shù)據(jù);多數(shù)現(xiàn)有設備可生成海量數(shù)據(jù),但由于數(shù)量過多,這些數(shù)據(jù)無法發(fā)回數(shù)據(jù)中心進行快速分析;為了提取最重要的信息,在終端分析或霧計算策略中,在流數(shù)據(jù)采集點、網(wǎng)關、云端或它們之間的任何位置部署算法來實施高性能計算,從而評估需要的數(shù)據(jù)和不需要的數(shù)據(jù)。
3? ?大數(shù)據(jù)(Big data)
3.1? ?大數(shù)據(jù)概念
在舍恩伯格編寫的《大數(shù)據(jù)時代》中,大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進行分析處理;具有大量化、高速化、多樣化、價值化等多重屬性。
大數(shù)據(jù)在不同層面需要不同技術;數(shù)據(jù)采集層需要利用ETL工具將分布、異構(gòu)數(shù)據(jù)源中數(shù)據(jù)抽取到臨時中間層,完成清洗、轉(zhuǎn)換等數(shù)據(jù)預處理工作后加載入數(shù)據(jù)倉庫或集市中;數(shù)據(jù)存儲層需利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關系/非關系數(shù)據(jù)庫等,實現(xiàn)各種數(shù)據(jù)的存儲、管理;數(shù)據(jù)處理和分析層需結(jié)合機器學習和挖掘算法,利用計算框架引擎實現(xiàn)對大規(guī)模數(shù)據(jù)的分析和處理,并可視化呈現(xiàn)分析結(jié)果。其兩大核心關鍵技術包括分布式存儲和分布式處理,從而容忍時間內(nèi)有效地處理大規(guī)模數(shù)據(jù)。
3.2? ?智能工廠的大數(shù)據(jù)來源
智能工廠的大數(shù)據(jù)來源主要包括:企業(yè)信息化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)、“跨界”數(shù)據(jù)[5],具體如圖1所示。
作為傳統(tǒng)的工業(yè)數(shù)據(jù)資產(chǎn)庫,企業(yè)信息化數(shù)據(jù)主要來自PLM(產(chǎn)品全生命周期管理系統(tǒng))、MES(制造執(zhí)行系統(tǒng))、ERM(企業(yè)資源管理系統(tǒng))、PQM(產(chǎn)品質(zhì)量管理系統(tǒng))、CRM(客戶關系管理系統(tǒng))等,這部分數(shù)據(jù)從原材料入庫、加工、檢驗到出廠流通,貫穿產(chǎn)品全生命周期和整個價值鏈,往往具有高價值密度。
隨著數(shù)控機床、工業(yè)機器人、傳感器、RFID等智能設備和感知網(wǎng)絡的廣泛使用,工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)不僅包括物料參數(shù)、刀具狀態(tài)、工況負載等生產(chǎn)實時數(shù)據(jù),還包括污染物、有害氣體等作業(yè)環(huán)境實時數(shù)據(jù),實現(xiàn)所有生產(chǎn)數(shù)據(jù)和過程數(shù)據(jù)的統(tǒng)一管理。
隨著互聯(lián)網(wǎng)與工業(yè)制造的不斷融合,除了來自制造業(yè)的內(nèi)部大數(shù)據(jù)之外,還包括影響企業(yè)生產(chǎn)和運營的外部“跨界”數(shù)據(jù),比如氣象數(shù)據(jù)、地理信息數(shù)據(jù)、政策數(shù)據(jù)、經(jīng)濟數(shù)據(jù)、法律法規(guī)數(shù)據(jù)等。
3.3? ?智能工廠的大數(shù)據(jù)特征
智能工廠數(shù)據(jù)多樣化、多元化、異構(gòu)化,且處理場景復雜多變,因此其數(shù)據(jù)呈現(xiàn)典型的大數(shù)據(jù)3V特征:大量化、多樣性、高速性;具體體現(xiàn)如下:(1)大量化,以乳制品質(zhì)檢為例,依據(jù)質(zhì)檢信息管理系統(tǒng)中1400種質(zhì)檢方法的電子記錄和計算,一包牛奶從原料入庫到消費者手中,經(jīng)過35個工序和105個檢測環(huán)節(jié),每天有超過1GB的數(shù)據(jù)潮涌般在質(zhì)檢系統(tǒng)中流轉(zhuǎn);(2)多樣性,以乳制品生產(chǎn)為例,既存在灌裝機、殺菌機等設備的運行時間、轉(zhuǎn)速等運行參數(shù)和乳品液體流量、壓力、溫度等結(jié)構(gòu)化數(shù)據(jù),也包括像乳制品特殊材料結(jié)構(gòu)表、可編輯邏輯控制器(PLC)控制程序等半結(jié)構(gòu)化數(shù)據(jù),還有像碼垛機器人的三維立體模型、乳品質(zhì)檢圖表、物流運貨小車監(jiān)控視頻等非結(jié)構(gòu)化數(shù)據(jù);(3)高速性,智能工廠中PLC、傳感器等設備在極短時間窗口內(nèi)對生產(chǎn)過程進行不間斷采樣,產(chǎn)生的數(shù)據(jù)流按時間序列如潮水般涌入數(shù)據(jù)庫中,以乳制品灌裝生產(chǎn)線為例,PLC按照1S的采樣間隔不斷產(chǎn)生灌裝盒定位、液體流量和罐裝容量等監(jiān)控數(shù)據(jù)。
4 智能工廠數(shù)據(jù)平臺技術架構(gòu)(Technology architecture of intelligent factory data platform)
大數(shù)據(jù)處理包括復雜批數(shù)據(jù)處理、基于歷史數(shù)據(jù)的交互查詢和挖掘、實時數(shù)據(jù)流處理、圖結(jié)構(gòu)數(shù)據(jù)處理,智能工廠實際應用同時存在以上幾種場景,因此采用當前熱門Hadoop、Spark、Storm開源計算引擎,也是Apache軟件基金會最重要三大分布式框架。
基于以上內(nèi)容,形成如圖2所示(Ambari和Zookeeper管理涵蓋的范圍)的智能工廠數(shù)據(jù)平臺架構(gòu)。自底向上分為數(shù)據(jù)來源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲層、資源管理層、處理分析層和業(yè)務應用層,數(shù)據(jù)從下到上流動;下面就每層分別展開詳細介紹。
data platform
4.1 數(shù)據(jù)來源層
數(shù)據(jù)來源層即數(shù)據(jù)提供者,主要負責實時可靠的產(chǎn)生、采集、獲取智能工廠范圍內(nèi)的多源異構(gòu)數(shù)據(jù);由于工業(yè)生產(chǎn)線處于高速運轉(zhuǎn),工業(yè)設備產(chǎn)生數(shù)據(jù)類型多是非結(jié)構(gòu)化數(shù)據(jù),且對數(shù)據(jù)的實時性要求也更高。該層面向工廠物理制造資源,主要包括智能機床、工業(yè)機器人、計算機軟件、智能終端等,通過在制造資源上安裝和配置工業(yè)傳感器、RFID標簽、二維碼、條形碼采集數(shù)據(jù),并通過有線互聯(lián)網(wǎng)、無線互聯(lián)網(wǎng)、GSM網(wǎng)、紅外、藍牙等基礎網(wǎng)絡設施連接這些生產(chǎn)制造資源,按照物聯(lián)網(wǎng)協(xié)議進行數(shù)據(jù)傳輸和交換。
4.2? ?數(shù)據(jù)傳輸層
數(shù)據(jù)傳輸層位于數(shù)據(jù)來源層與數(shù)據(jù)存儲層之間,是智能工廠各種數(shù)據(jù)源的數(shù)據(jù)進入大數(shù)據(jù)系統(tǒng)的第一步,負責將外部數(shù)據(jù)源的數(shù)據(jù)導入像HDFS、HBase的持久層中;常用的技術包括:Flume、Sqoop、Kafka等。
Flume和Sqoop主要負責各種靜態(tài)數(shù)據(jù)的采集與傳輸,允許用戶將數(shù)據(jù)從關系型數(shù)據(jù)庫抽取到Hadoop中,一旦生成最終的分析結(jié)果,Sqoop便可以將這些結(jié)果導回數(shù)據(jù)存儲器。例如數(shù)控機床加工車間管理系統(tǒng)負責生產(chǎn)制造單元一個階段的動作規(guī)劃并分配資源,通常是一至幾個小時,從而處理批量生產(chǎn);其信息數(shù)據(jù)包括制造單元的位置、其間路由、批量制造所需的工具、材料清單、零件庫存量以及單元操作狀態(tài)等。
由于制造實時數(shù)據(jù)流傳輸需要很強的高可用性的輸入管道,優(yōu)先使用Kafka負責實時流數(shù)據(jù)的傳輸和導入。例如智能機床內(nèi)置的傳感器傳感監(jiān)測刀具的運動速度、加速度、軌跡坐標、溫度等實時數(shù)據(jù)的傳輸;智能車間的網(wǎng)絡監(jiān)控實時數(shù)據(jù),快速持續(xù)到達,必須采用實時采集和計算,且響應時間為秒級甚至毫秒級。
4.3? ?數(shù)據(jù)存儲層
數(shù)據(jù)存儲層負責存儲海量的非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù),對大型數(shù)據(jù)實現(xiàn)隨機和實時的讀寫訪問。該層包括Hadoop的核心組件分布式文件存儲系統(tǒng)HDFS,以及Spark生態(tài)系統(tǒng)的分布式內(nèi)存文件存儲Tachyon、Hadoop的實時查詢框架HBase。
HDFS作為Hadoop生態(tài)圈的基礎,適合運行于廉價計算機集群上,以一次寫入、多次讀取的流數(shù)據(jù)形式存儲超大文件。
Tachyon是一個高性能、高容錯、基于內(nèi)存的開源分布式存儲系統(tǒng),能夠為集群框架Spark提供內(nèi)存級速度的跨集群文件共享服務;被部署在計算平臺Spark之下和文件存儲系統(tǒng)HDFS之上。
HBase是一個高可靠、高性能、面向列的NoSQL分布式數(shù)據(jù)庫;利用HDFS作為其文件存儲系統(tǒng),利用Zookeeper作為協(xié)同服務。由于智能工廠的數(shù)據(jù)復雜性、來源的多樣性,在數(shù)據(jù)庫表的設計上,不同的數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),存放在不同的數(shù)據(jù)表中;同時為了提高數(shù)據(jù)訪問性能并實現(xiàn)毫秒級響應,根據(jù)業(yè)務需求和存儲要求設計每張表行鍵。
4.4? ?資源管理層
為了實現(xiàn)計算框架統(tǒng)一部署和運行,它們都部署在Hadoop 2.0的資源管理框架YARN上;YARN作為一種通用資源管理系統(tǒng),為數(shù)據(jù)處理層提供資源的統(tǒng)一管理和調(diào)度;從而實現(xiàn)計算資源的按需彈性伸縮(支持一萬個計算節(jié)點和二十萬個內(nèi)核集群)、不用負載應用混搭、通過共享底層存儲而避免數(shù)據(jù)跨集群遷移等。
4.5? ?處理分析層
處理分析層負責大數(shù)據(jù)的處理工作,利用各種計算框架編寫代碼模型實現(xiàn)智能工廠大數(shù)據(jù)預處理、數(shù)據(jù)關聯(lián)分析、數(shù)據(jù)挖掘等,從而揭示和實現(xiàn)制造數(shù)據(jù)時序演化規(guī)律、制造設備性能預測、任務決策調(diào)控等;分布式并行計算框架包括內(nèi)存計算框架Spark、流計算框架Storm。
Spark負責智能工廠中企業(yè)信息化數(shù)據(jù)離線批量處理工作,任務時間跨度一般為月/天/時級;Spark SQ負責智能工廠中企業(yè)信息化數(shù)據(jù)和互聯(lián)網(wǎng)“跨界”數(shù)據(jù)中基于歷史數(shù)據(jù)的交互式查詢,組件GraphX負責圖結(jié)構(gòu)數(shù)據(jù)的處理工作;MLib負責數(shù)據(jù)挖掘且提供各種算法模型,例如分類中邏輯回歸、貝葉斯等算法,聚類中K-Means、模糊K均值等算法,機器學習中神經(jīng)網(wǎng)絡、最小二乘法、深度學習等算法,任務時間跨度一般為分鐘/秒級;Spark Streaming庫負責秒級數(shù)據(jù)流的處理與分析。
Storm是一個免費、開源的分布式實時計算系統(tǒng),可以簡單、高效、可靠地處理流數(shù)據(jù);由于其毫秒級實時響應速度,Storm主要負責智能工廠中工業(yè)物聯(lián)網(wǎng)流數(shù)據(jù)的并行計算工作,例如機床刀具運行狀態(tài)的實時分析、車間管理系統(tǒng)的實時報警等任務。
4.6? ?業(yè)務應用層
大數(shù)據(jù)已經(jīng)應用于人類社會的各行各業(yè),擁有大數(shù)據(jù)不是目的,應用高級分析發(fā)掘數(shù)據(jù)的巨大價值才是關鍵。由企業(yè)信息化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)和跨界數(shù)據(jù)匯聚成的工業(yè)大數(shù)據(jù)蘊含著許多工業(yè)生產(chǎn)規(guī)律,猶如一塊“金礦”蘊藏著無限財富價值;工業(yè)大數(shù)據(jù)在工業(yè)生產(chǎn)過程監(jiān)控、生產(chǎn)任務調(diào)度、工業(yè)生產(chǎn)設備故障診斷及預測、網(wǎng)絡協(xié)同制造等方面具有廣泛應用。
例如作為“工業(yè)之母”的高端數(shù)控機床,通過傳感器感知的溫度、運動坐標、速度、加速度、聲發(fā)射信號等實時數(shù)據(jù)可動態(tài)控制和優(yōu)化下一步切/削/銑進刀參數(shù)、預測刀具破損和磨損狀態(tài)、分析能耗情況等。
5? ?結(jié)論(Conclusion)
本文在分析智能工廠大數(shù)據(jù)來源、特征,以及各種復雜處理場景基礎上,基于目前流行的Hadoop、Spark、Storm三大分布式開源計算框架設計和研究了智能工廠大數(shù)據(jù)平臺技術架構(gòu),并提出了數(shù)據(jù)來源層、數(shù)據(jù)傳輸層、數(shù)據(jù)存儲層、資源管理層、處理分析層以及業(yè)務應用層。后續(xù)將立足于提高企業(yè)生產(chǎn)率、提高產(chǎn)品質(zhì)量和設備可靠性,以智能化程度較高高端數(shù)控機床加工工廠為背景,逐步搭建、實現(xiàn)以及優(yōu)化以上大數(shù)據(jù)技術平臺,從而高效采集、處理和分析數(shù)控機床的主軸震動、溫度、噪聲、轉(zhuǎn)速、進給量、信號量[5]等,以診斷故障發(fā)生部位、判斷故障性質(zhì)和類型、分析故障原因,并預測故障風險概率和不良產(chǎn)品概率,為數(shù)控機床的可靠性和設備維修提供重要借鑒價值。
參考文獻(References)
[1] 吉旭,鐘淦基,于洋,等.高分子材料行業(yè)云制造的關鍵技術及應用[J].計算機集成制造系統(tǒng),2015,21(11):3072-3078.
[2] 張潔,高亮,秦威,等.大數(shù)據(jù)驅(qū)動的智能車間運行分析與決策方法體系[J].計算機集成制造系統(tǒng),2016,22(5):1220-1228.
[3] 王建民.工業(yè)大數(shù)據(jù)技術[J].電信網(wǎng)技術,2016,8(8):1-5.
[4] 陶飛,劉蔚燃,劉檢華,等.數(shù)字孿生及其應用探索[J].計算機集成制造系統(tǒng),2018,24(1):1-17.
[5] 郭安,于東,胡毅.信息物理融合技術在機床故障診斷系統(tǒng)的應用研究[J].小型微型計算機系統(tǒng),2017,4(4):896-900.
作者簡介:
常鏡洳(1983-),女,博士,講師.研究領域:智能工廠生產(chǎn)調(diào)度,大數(shù)據(jù).