摘要:針對(duì)離散制造業(yè)數(shù)據(jù)孤島和數(shù)據(jù)質(zhì)量參差不齊等問題,文章提出一種基于數(shù)據(jù)湖架構(gòu)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái),實(shí)現(xiàn)工業(yè)數(shù)據(jù)的統(tǒng)一存儲(chǔ)、管理和分析,提升數(shù)據(jù)價(jià)值,推動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型。該平臺(tái)采用分層架構(gòu)(數(shù)據(jù)接入層、數(shù)據(jù)治理層、數(shù)據(jù)計(jì)算層、交互應(yīng)用層) ,集成多源異構(gòu)數(shù)據(jù)接入和低代碼數(shù)據(jù)治理模塊,保證數(shù)據(jù)質(zhì)量,優(yōu)化數(shù)據(jù)利用效率。某電子產(chǎn)品制造企業(yè)的應(yīng)用實(shí)踐驗(yàn)證了該平臺(tái)在生產(chǎn)過程監(jiān)控、產(chǎn)品質(zhì)量追溯和預(yù)測(cè)性維護(hù)方面的有效性,為離散制造行業(yè)構(gòu)建工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖提供了新的思路和解決方案。
關(guān)鍵詞:工業(yè)互聯(lián)網(wǎng);數(shù)據(jù)湖;離散制造;數(shù)據(jù)治理;低代碼
中圖分類號(hào):TP392" " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)16-0010-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
新一代信息技術(shù)(物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等) 快速發(fā)展推動(dòng)離散制造業(yè)加速向智能化轉(zhuǎn)型。然而,傳統(tǒng)離散制造業(yè)數(shù)據(jù)來源分散、格式多樣、質(zhì)量參差不齊、數(shù)據(jù)孤島現(xiàn)象嚴(yán)重,制約了數(shù)據(jù)價(jià)值挖掘和利用,阻礙了智能制造發(fā)展[1]。有效整合和管理海量異構(gòu)工業(yè)數(shù)據(jù),成為推動(dòng)離散制造業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵挑戰(zhàn)[1]。
數(shù)據(jù)湖架構(gòu)以其開放、靈活、成本低的優(yōu)勢(shì),為解決上述挑戰(zhàn)提供了新的思路。然而,現(xiàn)有數(shù)據(jù)湖平臺(tái)在適配離散制造業(yè)特定需求方面仍存在不足,例如缺乏針對(duì)工業(yè)數(shù)據(jù)特征的適配方案、數(shù)據(jù)治理能力不足以及缺乏針對(duì)業(yè)務(wù)場(chǎng)景的應(yīng)用工具。
本文旨在構(gòu)建一個(gè)面向離散制造業(yè)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖平臺(tái),以整合工業(yè)互聯(lián)網(wǎng)數(shù)據(jù),構(gòu)建高效的數(shù)據(jù)存儲(chǔ)和計(jì)算引擎,開發(fā)智能化數(shù)據(jù)治理工具,提升工業(yè)數(shù)據(jù)共享和利用效率,加速離散制造業(yè)智能化轉(zhuǎn)型。
本文的主要貢獻(xiàn)在于:1) 設(shè)計(jì)并實(shí)現(xiàn)了面向離散制造業(yè)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖平臺(tái),該平臺(tái)涵蓋數(shù)據(jù)接入、治理、計(jì)算和服務(wù)等關(guān)鍵模塊;2) 實(shí)現(xiàn)了多源異構(gòu)數(shù)據(jù)接入和低代碼數(shù)據(jù)治理等核心功能;3) 通過典型應(yīng)用案例(生產(chǎn)過程監(jiān)控、質(zhì)量管理、預(yù)測(cè)性維護(hù)等) 驗(yàn)證了平臺(tái)的實(shí)際應(yīng)用效果。
1 相關(guān)工作
大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)的存儲(chǔ)、管理和利用成為各行各業(yè)的焦點(diǎn)。傳統(tǒng)集中式數(shù)據(jù)庫難以滿足需求,促進(jìn)了Hadoop、Spark等分布式存儲(chǔ)和計(jì)算技術(shù)的發(fā)展,為大數(shù)據(jù)分析和應(yīng)用奠定了基礎(chǔ)[2]。
然而,傳統(tǒng)數(shù)據(jù)倉庫模式在處理海量異構(gòu)數(shù)據(jù)時(shí)存在不足,其預(yù)定義模式和ETL處理過程復(fù)雜耗時(shí),難以應(yīng)對(duì)數(shù)據(jù)類型的多樣化和快速變化。數(shù)據(jù)湖概念應(yīng)運(yùn)而生[2-3]。
數(shù)據(jù)湖是一種基于分布式存儲(chǔ)系統(tǒng)構(gòu)建的數(shù)據(jù)存儲(chǔ)和管理架構(gòu),能夠以原生態(tài)方式存儲(chǔ)各種格式數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)) [5],并支持多種數(shù)據(jù)源接入。數(shù)據(jù)湖的優(yōu)勢(shì)在于[6-8]:
1) 數(shù)據(jù)格式靈活:無須預(yù)先定義數(shù)據(jù)模式,可以存儲(chǔ)各種格式的數(shù)據(jù),避免了ETL帶來的復(fù)雜性和延時(shí)。
2) 存儲(chǔ)容量大:基于分布式存儲(chǔ)系統(tǒng),可以輕松擴(kuò)展存儲(chǔ)容量,滿足海量數(shù)據(jù)存儲(chǔ)的需求。
3) 易于擴(kuò)展:支持多種數(shù)據(jù)分析工具和技術(shù),例如Spark、Hive[9]等,方便進(jìn)行數(shù)據(jù)分析和挖掘。
數(shù)據(jù)湖在各領(lǐng)域得到廣泛應(yīng)用,尤其在工業(yè)互聯(lián)網(wǎng)領(lǐng)域,它能有效整合來自生產(chǎn)設(shè)備、傳感器、MES系統(tǒng)、ERP系統(tǒng)等的數(shù)據(jù),為智能制造、生產(chǎn)優(yōu)化和預(yù)測(cè)性維護(hù)提供數(shù)據(jù)支撐。但現(xiàn)有數(shù)據(jù)湖平臺(tái)在滿足離散制造業(yè)特定需求方面仍存在挑戰(zhàn):數(shù)據(jù)適配、數(shù)據(jù)治理和應(yīng)用工具缺乏。
本文將針對(duì)這些挑戰(zhàn),設(shè)計(jì)并實(shí)現(xiàn)一個(gè)面向離散制造業(yè)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖平臺(tái),為推動(dòng)離散制造業(yè)智能化轉(zhuǎn)型提供新的解決方案[4]。
2 系統(tǒng)設(shè)計(jì)
為了滿足離散制造業(yè)對(duì)數(shù)據(jù)存儲(chǔ)、處理和分析的需求,本平臺(tái)采用分層架構(gòu),將系統(tǒng)劃分為4個(gè)層次:數(shù)據(jù)接入層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)治理層和數(shù)據(jù)服務(wù)層,如圖1所示。分層架構(gòu)有效整合了不同來源、格式的工業(yè)數(shù)據(jù)。平臺(tái)提供高效可靠的數(shù)據(jù)存儲(chǔ)、處理和分析能力,具有良好的擴(kuò)展性和可維護(hù)性,并支持靈活的組件替換,從而適應(yīng)不同業(yè)務(wù)場(chǎng)景的需求,有力支撐離散制造業(yè)的智能化轉(zhuǎn)型。
2.1 數(shù)據(jù)接入層
數(shù)據(jù)接入模塊支持多種數(shù)據(jù)接入方式,以滿足離散制造業(yè)數(shù)據(jù)來源多樣、格式復(fù)雜的特點(diǎn)。為確保數(shù)據(jù)高效可靠接入,平臺(tái)針對(duì)工業(yè)數(shù)據(jù)特征進(jìn)行了適配處理,并設(shè)計(jì)了靈活的數(shù)據(jù)接入流程。針對(duì)實(shí)時(shí)性要求高的生產(chǎn)過程數(shù)據(jù)(設(shè)備狀態(tài)、傳感器數(shù)據(jù)等) ,平臺(tái)采用Kafka消息隊(duì)列進(jìn)行實(shí)時(shí)數(shù)據(jù)采集和傳輸(如圖2所示) 。對(duì)于CSV、JSON、Excel等格式的外部文件,平臺(tái)支持直接上傳并自動(dòng)解析(如圖3所示) 。對(duì)于數(shù)據(jù)庫接入方式,平臺(tái)支持多種關(guān)系型和非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)接入,支持“覆蓋”和“追加”方式接入數(shù)據(jù)(如圖4所示) 。
2.2 數(shù)據(jù)治理層
數(shù)據(jù)治理層是平臺(tái)的關(guān)鍵組成部分,它負(fù)責(zé)對(duì)數(shù)據(jù)的全生命周期進(jìn)行管理,確保數(shù)據(jù)質(zhì)量滿足業(yè)務(wù)需求,提升數(shù)據(jù)價(jià)值。該層主要包括數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)質(zhì)量修復(fù)、元數(shù)據(jù)管理等功能模塊,通過多種手段和技術(shù),有效提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)可靠性。
低代碼數(shù)據(jù)治理模塊降低了數(shù)據(jù)治理門檻,業(yè)務(wù)人員可通過拖拽和配置的方式構(gòu)建復(fù)雜的數(shù)據(jù)治理流程。平臺(tái)內(nèi)置了豐富的預(yù)定義算子(數(shù)據(jù)清洗、轉(zhuǎn)換、過濾、特征工程等) ,用戶可靈活選擇和組合?;趫D結(jié)構(gòu)構(gòu)建的數(shù)據(jù)治理流程引擎,將每個(gè)數(shù)據(jù)操作抽象為節(jié)點(diǎn),節(jié)點(diǎn)之間通過數(shù)據(jù)流連接,形成有向無環(huán)圖 (DAG)。用戶可在可視化編輯器中構(gòu)建流程,平臺(tái)會(huì)自動(dòng)將DAG轉(zhuǎn)換為可執(zhí)行的Spark代碼并觸發(fā)執(zhí)行。具體的數(shù)據(jù)操作流和算子設(shè)計(jì)如圖5所示。
針對(duì)結(jié)構(gòu)化的二維表數(shù)據(jù),可以通過對(duì)前端交互層的可視化節(jié)點(diǎn)進(jìn)行拖拽和編輯,實(shí)現(xiàn)具有更好可讀性的數(shù)據(jù)操作流。在前端交互層,用戶可以選擇“導(dǎo)入節(jié)點(diǎn)”“轉(zhuǎn)換節(jié)點(diǎn)”“連接節(jié)點(diǎn)”“導(dǎo)出節(jié)點(diǎn)”,分別對(duì)數(shù)據(jù)流進(jìn)行操作。
導(dǎo)入節(jié)點(diǎn)中,需要用戶數(shù)據(jù)被導(dǎo)入的表名,從而從數(shù)據(jù)湖中導(dǎo)入指定的表,同時(shí)指定各項(xiàng)參數(shù),設(shè)置導(dǎo)入時(shí)的配置。
轉(zhuǎn)換節(jié)點(diǎn)中,用戶可以從預(yù)定義的超過100個(gè)算子中進(jìn)行選擇,通過配置其參數(shù),實(shí)現(xiàn)在轉(zhuǎn)換節(jié)點(diǎn)中對(duì)上游導(dǎo)入節(jié)點(diǎn)的轉(zhuǎn)換。算子列表包含常用的基于表格列的操作函數(shù)、基于行過濾的函數(shù)、聚合函數(shù)等,例如字符串拼接函數(shù)concat,條件過濾函數(shù)filter,均值函數(shù)mean等。通過為轉(zhuǎn)換節(jié)點(diǎn)添加一系列函數(shù)算子,可以將上游數(shù)據(jù)按照步驟處理,形成一個(gè)有序的算子序列,計(jì)算并預(yù)覽處理后的數(shù)據(jù)。
連接節(jié)點(diǎn)通過輸入兩個(gè)或以上輸出數(shù)據(jù)的節(jié)點(diǎn),按照其配置的規(guī)則,將多個(gè)表進(jìn)行連接查詢,并輸出連接后的數(shù)據(jù)表,用于后續(xù)操作。
導(dǎo)出節(jié)點(diǎn)通過輸入一個(gè)上游節(jié)點(diǎn),通過用戶配置,將該節(jié)點(diǎn)計(jì)算后的數(shù)據(jù)表保存到工業(yè)大數(shù)據(jù)湖中,也導(dǎo)出節(jié)點(diǎn)支持將上述數(shù)據(jù)下載到本地。
接口設(shè)計(jì)上,該模塊的后臺(tái)將對(duì)外暴露一個(gè)接收節(jié)點(diǎn)拓?fù)湫蛄械慕涌?,后臺(tái)將接收并解析該序列,將其轉(zhuǎn)換為一個(gè)程序調(diào)用的序列,實(shí)現(xiàn)數(shù)據(jù)的處理。
2.3 數(shù)據(jù)計(jì)算層
數(shù)據(jù)計(jì)算層基于Spark分布式計(jì)算框架構(gòu)建,高效處理海量數(shù)據(jù),滿足離散制造業(yè)的數(shù)據(jù)分析和挖掘需求。平臺(tái)支持多種數(shù)據(jù)源的數(shù)據(jù)讀取,并提供豐富的API接口,方便用戶進(jìn)行數(shù)據(jù)轉(zhuǎn)換、清洗、特征工程等操作。數(shù)據(jù)計(jì)算層支持離散制造業(yè)的生產(chǎn)優(yōu)化、質(zhì)量控制、預(yù)測(cè)性維護(hù)等應(yīng)用場(chǎng)景。
2.4 數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層通過數(shù)據(jù)基礎(chǔ)應(yīng)用模塊和數(shù)據(jù)開發(fā)模塊,為制造企業(yè)提供便捷的數(shù)據(jù)訪問、分析和共享服務(wù),促進(jìn)數(shù)據(jù)與業(yè)務(wù)深度融合。數(shù)據(jù)服務(wù)層賦能生產(chǎn)運(yùn)營(yíng)、質(zhì)量管理、設(shè)備維護(hù)等企業(yè)內(nèi)部不同部門,并提供與科研機(jī)構(gòu)合作的橋梁,促進(jìn)基于工業(yè)數(shù)據(jù)的產(chǎn)學(xué)研合作。
3 應(yīng)用實(shí)踐
本節(jié)以某電子產(chǎn)品制造企業(yè)為例,如圖6所示,電子產(chǎn)品制造企業(yè)數(shù)據(jù)湖應(yīng)用實(shí)踐所示,介紹如何利用平臺(tái)構(gòu)建工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖,并將其應(yīng)用于生產(chǎn)過程監(jiān)控、質(zhì)量追溯和預(yù)測(cè)性維護(hù)等場(chǎng)景。該企業(yè)擁有多個(gè)生產(chǎn)車間,生產(chǎn)過程中產(chǎn)生大量數(shù)據(jù)(設(shè)備運(yùn)行狀態(tài)、物料使用信息、產(chǎn)品測(cè)試數(shù)據(jù)、質(zhì)量檢測(cè)數(shù)據(jù)等) 。這些數(shù)據(jù)分散在不同系統(tǒng)中,難以整合和利用。該企業(yè)基于本平臺(tái)構(gòu)建了工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)湖,整合了來自生產(chǎn)設(shè)備、傳感器、MES系統(tǒng)、ERP系統(tǒng)等的數(shù)據(jù)。平臺(tái)實(shí)現(xiàn)了數(shù)據(jù)的接入(實(shí)時(shí)數(shù)據(jù)通過Kafka消息隊(duì)列傳輸,離線數(shù)據(jù)通過文件上傳或數(shù)據(jù)庫導(dǎo)入) ,數(shù)據(jù)治理(數(shù)據(jù)清洗、轉(zhuǎn)換和整合) ,以及生產(chǎn)過程監(jiān)控、產(chǎn)品質(zhì)量追溯和預(yù)測(cè)性維護(hù)等應(yīng)用。
4 結(jié)論展望
本文針對(duì)離散制造行業(yè)數(shù)據(jù)孤島和數(shù)據(jù)質(zhì)量參差不齊等問題,基于數(shù)據(jù)湖技術(shù),提出了一種基于數(shù)據(jù)湖架構(gòu)的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用架構(gòu)方案,并介紹了其關(guān)鍵環(huán)節(jié)、建設(shè)流程及應(yīng)用案例分析。未來,人們將持續(xù)優(yōu)化平臺(tái),拓展應(yīng)用場(chǎng)景,提升數(shù)據(jù)存儲(chǔ)和管理效率,增強(qiáng)數(shù)據(jù)質(zhì)量和分析能力,促進(jìn)平臺(tái)與業(yè)務(wù)深度融合,并積極推動(dòng)產(chǎn)學(xué)研合作,更好地服務(wù)于離散制造行業(yè)的數(shù)字化轉(zhuǎn)型。
參考文獻(xiàn):
[1] 宋純賀,曾鵬,于海斌.工業(yè)互聯(lián)網(wǎng)智能制造邊緣計(jì)算:現(xiàn)狀與挑戰(zhàn)[J].中興通訊技術(shù),2019,25(3):50-57.
[2] 何文韜,邵誠(chéng).工業(yè)大數(shù)據(jù)分析技術(shù)的發(fā)展及其面臨的挑戰(zhàn)[J].信息與控制,2018,47(4):398-410.
[3] 陳氫,張治.融合多源異構(gòu)數(shù)據(jù)治理的數(shù)據(jù)湖架構(gòu)研究[J].情報(bào)雜志,2022,41(5):139-145.
[4] 繆佳輝,包先雨,黃孫杰,等.海關(guān)數(shù)據(jù)湖的構(gòu)建與應(yīng)用[J].武漢工程大學(xué)學(xué)報(bào),2022,44(5):572-577.
[5] 陳永南,許桂明,張新建.一種基于數(shù)據(jù)湖的大數(shù)據(jù)處理機(jī)制研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(10):2540-2545.
【通聯(lián)編輯:梁書】