中圖分類號:TP311;TQ051 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-5922(2025)07-0193-04
Abstract:Hadoop technology isused to design an integrated platform fordata acquisition and procesing of industrial quipment.Thedesigned integrated platform is composedof a dataacquisition module,a data transmision integration module,a data storage module and adata analysis visualization module to realize the integrated utilizationof equipmentdata.The integrated platform iscomposed ofa data colection layer,a big data layer,andan aplication layer,andrandom forests areused in theapplication layer to realize the decision-making andanalysis of data,and improvethe inteligent levelof data analysis.Through theperformance testofthe integrated platform,itis verified thatthedesigned integrated platformcanefectivelyaccelerate thewriting efciencyoffilesandachievetimelyresponse to industrial equipment.Theresultsshow thattheapplicationof the integrated platform can effectively reduce the number of production shutdowns,improve the utilizationrate of industrial equipment,and reduce energy consumption.This has certain practical value for promoting the development of enterprises.
Key words:industrial equipment;data acquisition and processing;integrated platform design
信息化時代,工業(yè)設(shè)備數(shù)據(jù)采集與處理是提高企業(yè)生產(chǎn)效率和智能化水平的關(guān)鍵。傳統(tǒng)工業(yè)環(huán)境下,工業(yè)設(shè)備所產(chǎn)生的海量數(shù)據(jù)被分散存儲在各個設(shè)備中,缺乏有效的集成與分析手段,使得工業(yè)設(shè)備數(shù)據(jù)的重要作用沒有得到充分發(fā)揮。設(shè)計工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺是集成各種設(shè)備數(shù)據(jù)資源,實(shí)現(xiàn)工業(yè)數(shù)字化、智能化的關(guān)鍵,同時也引起了學(xué)術(shù)界的廣泛關(guān)注[1]。趙潤發(fā)以傳感器數(shù)據(jù)為基礎(chǔ),通過Flink將傳感器獲取的各種類型數(shù)據(jù)發(fā)送到KAFKA中暫存,實(shí)現(xiàn)了工業(yè)大數(shù)據(jù)的查詢與預(yù)警功能[2]。蘇立偉提出了聯(lián)合GPU 和 Spark 的電力大數(shù)據(jù)分析算法,有效提升了電力數(shù)據(jù)的處理效率,能夠滿足大規(guī)模數(shù)據(jù)處理的實(shí)時性要求[3]。張積存以車輛卡口數(shù)據(jù)為基礎(chǔ),KAFKA為消息總線,
ELASTICSEARCH為存儲平臺,設(shè)計并實(shí)現(xiàn)了車輛信息大數(shù)據(jù)分析系統(tǒng),該系統(tǒng)為交警部門工作的智能化轉(zhuǎn)型提供了參考[4]。王永明提出了采用大數(shù)據(jù)分析來構(gòu)建電力用戶行為畫像的新方法,其可以更加客觀、全面掌握不同時間段內(nèi)用戶的用電情況,所構(gòu)造的畫像具有比較高的準(zhǔn)確率 ?5? ?;诖耍谇叭搜芯康幕A(chǔ)上,采用 Hadoop 技術(shù)來設(shè)計工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺,為工業(yè)企業(yè)的數(shù)字化轉(zhuǎn)型提供參考。
1一體化平臺功能架構(gòu)設(shè)計
工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺是將采集的各種數(shù)據(jù)集成,通過對集成大數(shù)據(jù)的分析來為工業(yè)生產(chǎn)提供數(shù)據(jù)支撐。設(shè)計的一體化處理平臺共包含4個模塊,如圖1所示。
① ② 4
傳感器設(shè)備 數(shù)據(jù)傳輸 3 數(shù)據(jù)分析↓ ↓ 數(shù)據(jù)存儲 H
數(shù)據(jù)采集 數(shù)據(jù)集成 數(shù)據(jù)可視化
1.1 數(shù)據(jù)采集
工業(yè)設(shè)備的監(jiān)測與管理需要采集各種設(shè)備狀態(tài)數(shù)據(jù),如加速度、溫度、壓力等。借助各種傳感器設(shè)備來實(shí)時、準(zhǔn)確采集多源工業(yè)設(shè)備數(shù)據(jù),從而更加全面了解工業(yè)設(shè)備狀態(tài)。通過標(biāo)準(zhǔn)化接口和協(xié)議,有效確保不同類型設(shè)備的數(shù)據(jù)能夠有效采集。對采集到的數(shù)據(jù)進(jìn)行預(yù)處理,剔除異常值,補(bǔ)充缺失值,確保采集到的數(shù)據(jù)具有可信度和一致性。
1.2 數(shù)據(jù)傳輸集成
對采集到的多源數(shù)據(jù)進(jìn)行傳輸和集成,為后續(xù)的大數(shù)據(jù)分析提供保障。在數(shù)據(jù)傳輸?shù)倪^程中考慮網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)延遲等因素,有效確保所采集的數(shù)據(jù)能夠高效、安全傳輸?shù)街醒霐?shù)據(jù)存儲。所設(shè)計的一體化平臺具有強(qiáng)大的數(shù)據(jù)集成能力,將不同工業(yè)設(shè)備、傳感設(shè)備的異構(gòu)數(shù)據(jù)進(jìn)行整合,形成統(tǒng)一的格式。
1.3 數(shù)據(jù)存儲
采用云存儲技術(shù)來對數(shù)據(jù)進(jìn)行分布式存儲和備份,提升數(shù)據(jù)的可靠性和可用性??紤]到數(shù)據(jù)量巨大,運(yùn)用數(shù)據(jù)壓縮與索引技術(shù)來優(yōu)化數(shù)據(jù)存儲結(jié)構(gòu),有效降低數(shù)據(jù)存儲的成本。
1.4 數(shù)據(jù)分析可視化
對采集的各種數(shù)據(jù)建立數(shù)學(xué)模型,有效提取數(shù)據(jù)中的有用信息,實(shí)現(xiàn)對工業(yè)設(shè)備性能、生產(chǎn)效率等方面的全面評估。一體化平臺提供更加直觀、易理解的可視化界面,從而幫助用戶了解設(shè)備狀態(tài)與生產(chǎn)趨勢,為決策制定提供數(shù)據(jù)支撐。
2一體化平臺存儲技術(shù)架構(gòu)設(shè)計
2.1 Hadoop技術(shù)
Hadoop作為開源的分布式存儲和處理大規(guī)模數(shù)據(jù)的框架,在工業(yè)大數(shù)據(jù)存儲和分析中具有廣泛的應(yīng)用[6]。HDFS 和 MapReduce 是Hadoop 技術(shù)的重要組件,通過HDFS和MapReduce來實(shí)現(xiàn)大數(shù)據(jù)的存儲和分析[7]。HDFS 將大數(shù)據(jù)分割成塊,分布式存儲在集群的各個節(jié)點(diǎn),有效提高數(shù)據(jù)存儲的可靠性和容錯性,其存儲架構(gòu)如圖2所示。
HDFS對數(shù)據(jù)存儲依賴于DataNodes和Name-Nodes,兩者之間建立通信,從而不斷地對數(shù)據(jù)進(jìn)行更新[8]。為確保工業(yè)設(shè)備大數(shù)據(jù)的存儲安全性,在HDFS中采用復(fù)制副本的方式來實(shí)現(xiàn)。對工業(yè)設(shè)備大數(shù)據(jù)不僅要進(jìn)行存儲、刪除、查詢等操作,同時還需要對讀取的數(shù)據(jù)進(jìn)行分析。MapReduce是Hadoop的編程模型與處理引擎,其將數(shù)據(jù)處理任務(wù)分解為Map和Reduce兩個階段,從而實(shí)現(xiàn)對大數(shù)據(jù)的并行處理。圖3為MapReduce分布式計算過程[9]
由圖3可知,MapReduce分布式計算是將工業(yè)設(shè)備數(shù)據(jù)按照一定的規(guī)則進(jìn)行分類,同時分割成多個Split。將分割成的多個Split分配給MapperTask,由Shuffle將數(shù)據(jù)分發(fā)給ReducerTask 進(jìn)行計算[10]最后對計算的結(jié)果進(jìn)行匯總,輸出數(shù)據(jù)分析的結(jié)果。
2.2一體化平臺整體架構(gòu)
基于Hadoop技術(shù)設(shè)計工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺,該一體化平臺由數(shù)據(jù)采集層、大數(shù)據(jù)層、應(yīng)用層共3部分組成,整體架構(gòu)如圖4所示。
2.2.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層是通過各種傳感器來采集工業(yè)設(shè)備數(shù)據(jù),如加速度傳感器、壓力傳感器、溫度傳感器,結(jié)合以太網(wǎng)、現(xiàn)場總線等方式來實(shí)現(xiàn)對采集數(shù)據(jù)的傳輸[]圖5為工業(yè)設(shè)備數(shù)據(jù)采集所用到的部分傳感器
2.2.2 大數(shù)據(jù)層
大數(shù)據(jù)層是采用HDFS對工業(yè)設(shè)備數(shù)據(jù)進(jìn)行存儲,采集的數(shù)據(jù)按照時間、設(shè)備ID等關(guān)鍵屬性進(jìn)行分區(qū)和組織,以便后續(xù)的查詢和分析[12]。為實(shí)現(xiàn)對工業(yè)設(shè)備采集所獲取海量數(shù)據(jù)的運(yùn)算,運(yùn)用Spark把MySQL數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到HDFS中,這也可以實(shí)現(xiàn)MySQL數(shù)據(jù)庫和其它數(shù)據(jù)庫的兼容。
利用Hadoop的MapReduce編程模型,編寫任務(wù)對工業(yè)設(shè)備數(shù)據(jù)離線分析,如對歷史數(shù)據(jù)的趨勢分析、異常檢測等。將關(guān)鍵的工業(yè)設(shè)備數(shù)據(jù)加載到專門的數(shù)據(jù)倉庫中,使用BI工具連接到數(shù)據(jù)倉庫,創(chuàng)建儀表盤、報表等可視化工具,展示工業(yè)設(shè)備的性能指標(biāo)、趨勢和關(guān)聯(lián)性。針對實(shí)時查詢需求,采用流處理框架對工業(yè)設(shè)備監(jiān)測數(shù)據(jù)進(jìn)行實(shí)時處理。
2.2.3 應(yīng)用層
應(yīng)用層實(shí)現(xiàn)用戶和大數(shù)據(jù)平臺之間的交互,通過友好的界面來實(shí)現(xiàn)工業(yè)大數(shù)據(jù)分析的定制功能。工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺集成數(shù)據(jù)挖掘工具,使用戶能夠通過簡單操作實(shí)現(xiàn)對大數(shù)據(jù)集的挖掘和分析,發(fā)現(xiàn)潛在的模式、關(guān)聯(lián)性和趨勢。提供用戶友好的查詢構(gòu)建器,使用戶能夠輕松構(gòu)建復(fù)雜的查詢語句,以滿足特定的數(shù)據(jù)檢索需求。集成各類數(shù)據(jù)分析模塊,如統(tǒng)計分析、機(jī)器學(xué)習(xí)算法等,以便用戶能夠進(jìn)行深入的數(shù)據(jù)分析。
2.3 隨機(jī)森林
隨機(jī)森林(RandomForest,RF)是常用的機(jī)器學(xué)習(xí)算法,算法的本質(zhì)是集成學(xué)習(xí),在分類、回歸等問題中具有廣泛的應(yīng)用[13-15]。RF通過構(gòu)建多棵決策樹,并將所構(gòu)建的決策樹集成到一個整體的模型中,能夠有效提升模型的性能和泛化能力。采用RF對工業(yè)設(shè)備數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對工業(yè)設(shè)備的在線監(jiān)測,提高工業(yè)設(shè)備的智能化程度。RF是運(yùn)用重采樣技術(shù)在待分析數(shù)據(jù)中抽取一定數(shù)量的樣本,并對所選擇的樣本來建立決策樹模型。將每一次抽取的樣本均構(gòu)建決策樹,這樣就會產(chǎn)生多棵決策樹,最終得到預(yù)測/回歸結(jié)果[16]。RF模型如圖6所示。
由圖6可知,RF模型是從數(shù)據(jù)集合 s 中隨機(jī)抽樣,取 k 個數(shù)據(jù)來構(gòu)成訓(xùn)練樣本集。由訓(xùn)練樣本集產(chǎn)生決策樹,決策樹的個數(shù)為棵。每一顆決策樹產(chǎn)生一個決策結(jié)果,將產(chǎn)生的 k 個決策結(jié)果進(jìn)行集成從而得到隨機(jī)森林的決策結(jié)果。RF的所有決策樹均是按照由上到下遞歸分裂所產(chǎn)生的二叉樹,并且在RF的根節(jié)點(diǎn)中有所有的訓(xùn)練數(shù)據(jù)。所有的訓(xùn)練數(shù)據(jù)按照一定的規(guī)則分裂為決策樹的左節(jié)點(diǎn)與右節(jié)點(diǎn),只有滿足設(shè)定節(jié)點(diǎn)不純度最小閾值,分裂才結(jié)束。不純度采用基尼指數(shù) G?H 來衡量,其數(shù)學(xué)表達(dá)式[17]:
式中: m 為數(shù)據(jù)集類別數(shù); pj 為 j 類元素出現(xiàn)的概率。
隨機(jī)森林樹的個數(shù)和葉節(jié)點(diǎn)數(shù)直接影響到隨機(jī)森林的決策結(jié)果,樹的個數(shù)過多會導(dǎo)致過度擬合,過少會導(dǎo)致決策結(jié)果不穩(wěn)定[18]。結(jié)合實(shí)際,采用試錯法選擇。葉節(jié)點(diǎn)個數(shù)選擇特征變量總數(shù)的1/3[19]
3一體化平臺性能測試及應(yīng)用
3.1一體化平臺性能測試
工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺的作用是對海量的工業(yè)設(shè)備數(shù)據(jù)進(jìn)行采集處理,由于數(shù)據(jù)量巨大,同時需要比較高的數(shù)據(jù)讀寫效率,這樣才能夠充分地發(fā)揮平臺的作用[20]。搭建實(shí)驗(yàn)平臺,共包含3臺電腦,其中1臺電腦安裝有所開發(fā)的一體化平臺,另外2臺電腦配備相應(yīng)的開發(fā)環(huán)境,測試對數(shù)據(jù)的讀寫功能,測試結(jié)果如圖7所示。
由圖7可知,文件的個數(shù)與文件的寫入速度之間正相關(guān),文件越多,文件寫入的速度越快。文件的個數(shù)與文件的寫入時間之間負(fù)相關(guān),文件越多,文件寫入的事件越長。通過采用Hadoop能夠有效加快文件的寫入效率,實(shí)現(xiàn)對工業(yè)設(shè)備的及時響應(yīng)。
3.2一體化平臺應(yīng)用
將設(shè)計的工業(yè)設(shè)備采集與處理一體化平臺應(yīng)用于A企業(yè)中,主要是實(shí)現(xiàn)對關(guān)鍵生產(chǎn)設(shè)備的實(shí)時健康監(jiān)測,優(yōu)化企業(yè)的生產(chǎn)效率。工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺整合了溫度傳感器、振動傳感器、電流傳感器、氣體傳感器,通過在設(shè)備的關(guān)鍵位置布置傳感器來實(shí)時采集設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)。
為采集工業(yè)設(shè)備數(shù)據(jù),在電機(jī)、軸承等位置安裝各類傳感器。表1為布置的各類傳感器數(shù)量與位置。
通過傳感器采集工業(yè)設(shè)備數(shù)據(jù),采用設(shè)計的工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺來進(jìn)行故障預(yù)測、生產(chǎn)優(yōu)化、節(jié)能減排,提升企業(yè)的市場競爭力。對應(yīng)用工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺之后,企業(yè)每個月生產(chǎn)停機(jī)次數(shù)、設(shè)備利用率以及能源消耗進(jìn)行對比,結(jié)果如表2所示。
由表2可知,將設(shè)計的工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺應(yīng)用于實(shí)際中,能夠明顯提升企業(yè)的生產(chǎn)效率,降低企業(yè)的生產(chǎn)成本。
4結(jié)語
工業(yè)設(shè)備數(shù)據(jù)采集與處理是實(shí)現(xiàn)工業(yè)智能化的關(guān)鍵,設(shè)計了工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺,有效實(shí)現(xiàn)各種設(shè)備數(shù)據(jù)資源的整合,充分地發(fā)揮數(shù)據(jù)在工業(yè)生產(chǎn)中的巨大作用。設(shè)計的一體化平臺采用Hadoop技術(shù),其整體架構(gòu)由數(shù)據(jù)采集層、大數(shù)據(jù)層、應(yīng)用層3部分組成。應(yīng)用層的數(shù)據(jù)分析采用隨機(jī)森林算法,有效提升了決策的準(zhǔn)確率。將設(shè)計的工業(yè)設(shè)備數(shù)據(jù)采集與處理一體化平臺應(yīng)用于實(shí)際企業(yè)中,結(jié)果表明,應(yīng)用該平臺后可以有效減少生產(chǎn)停機(jī)的次數(shù),提高設(shè)備的利用率,降低能源的消耗。這對企業(yè)智能化發(fā)展,降低生產(chǎn)成本具有一定的實(shí)用價值。
【參考文獻(xiàn)】
[1]禹鑫燚,殷慧武,施甜峰,等.基于OPCUA的工業(yè)設(shè)備數(shù)據(jù)采集系統(tǒng)[J].計算機(jī)科學(xué),2020,47(S2):609-614.
[2]趙潤發(fā),婁淵勝,葉楓,等.基于Flink 的工業(yè)大數(shù)據(jù)平臺研究與應(yīng)用[J].計算機(jī)工程與設(shè)計,2022,43(3):886-894.
[3]蘇立偉,劉振華,杜禮鋒,等.基于 GPU+Spark 的電力大數(shù)據(jù)分析算法[J].沈陽工業(yè)大學(xué)學(xué)報,2023,45(4) :371-375.
[4]張積存,宋雪萍,費(fèi)繼友,等.基于車輛信息的大數(shù)據(jù)分析系統(tǒng)設(shè)計與實(shí)現(xiàn)[J].計算機(jī)應(yīng)用與軟件,2023,40(1) :11-16.
[5]王永明,陳宇星,殷自力,等.基于大數(shù)據(jù)分析的電力用戶行為畫像構(gòu)建方法研究[J].高壓電器,2022,58(10) :173-179.
[6]宋子濤,張秋霞,郭大亮,等.基于Hadoop 的電力環(huán)保數(shù)據(jù)采集平臺設(shè)計[J].粘接,2021,48(12):168-172.
[7]燕翔,周瑾,趙海軍.基于Hadoop 的鐵路貨運(yùn)大數(shù)據(jù)平臺設(shè)計與應(yīng)用[J].鐵道運(yùn)輸與經(jīng)濟(jì),2022,44(S1):170-175.
[8]肖立志.基于大數(shù)據(jù)的雷達(dá)數(shù)據(jù)快速存儲與分析研究[J].現(xiàn)代雷達(dá),2022,44(11):79-84.
[9]張基,謝在鵬,毛鶯池,等.MapReduce 框架下結(jié)合分布式編碼計算的容錯算法[J].計算機(jī)工程,2021,47(4) :173-179.
[10]楊杰明,吳啟龍,曲朝陽,等.MapReduce 框架下基于抽樣的分布式K-Means聚類算法[J].吉林大學(xué)學(xué)報(理學(xué)版),2017,55(1):109-115.
[11]李秀峰,李勝,梁妙元,等.基于多通道的水電站安全數(shù)據(jù)采集傳輸方法[J].計算機(jī)應(yīng)用與軟件,2023,40(5) :124-128.
[12]尹旭熙.基于Hadoop 和 Spark 的可擴(kuò)展性化工類大數(shù)據(jù)分析系統(tǒng)設(shè)計[J].粘接,2021,46(6):81-83.
[13]王明常,丁文,趙競爭,等.基于知識圖譜與隨機(jī)森林的落葉松毛蟲害遙感識別[J].吉林大學(xué)學(xué)報(地球科學(xué)版),2023,53(6):2006-2017.
[14]張宇,畢凡,蘇海博,等.基于最大奇異值能量熵和隨機(jī)森林的真空快速開關(guān)機(jī)械故障診斷[J].高壓電器,2023,59(11):184-192.
[15]韓怡梅,李東喜.基于投影相關(guān)和隨機(jī)森林融合模型的疾病診斷[J].計算機(jī)科學(xué),2023,50(S2):612-617.
[16]戢靜紅,張振宇,鄧平.一種基于隨機(jī)森林的LOS/NLOS基站識別方法[J].電訊技術(shù),2023,63(10):1596-1602.
[17]徐善亮,呂佳.基尼指數(shù)結(jié)合K均值聚類的協(xié)同訓(xùn)練算法[J].重慶師范大學(xué)學(xué)報(自然科學(xué)版),2022,39(4) :134-140.
[18]劉麗貞,黃琪,遲殿委,等.基于隨機(jī)森林回歸模型和高頻數(shù)據(jù)的鄱陽湖子湖電導(dǎo)率預(yù)測[J].水電能源科學(xué),2023,41(10) :50-53.
[19]田佳,王德勇,師文喜.基于集合經(jīng)驗(yàn)?zāi)B(tài)分解和隨機(jī)森林的短時交通流預(yù)測[J].科學(xué)技術(shù)與工程,2023,23(29):12612-12619.
[20]李文迪,陳華偉,伍權(quán),等.設(shè)備上云技術(shù)研究現(xiàn)狀與展望[J].機(jī)床與液壓,2020,48(15):194-198.