楊 濤,黃若愚,敖 宇,譚善偉
(1.貴州創(chuàng)新輕金屬工藝裝備工程技術(shù)研究中心有限公司,貴州 貴陽 550081;2.貴陽鋁鎂設計研究院有限公司,貴州 貴陽 550081)
隨著NET、IoT、云計算和大數(shù)據(jù)技術(shù)的不斷鼎新與應用,現(xiàn)代社會已經(jīng)邁入全新的大數(shù)據(jù)時代[1-3]。通過大數(shù)據(jù)相關(guān)技術(shù)掌握企業(yè)大數(shù)據(jù)資產(chǎn),進行智能化決策,已成為企業(yè)勝出的關(guān)鍵。工業(yè)4.0的到來也使越來越多的企業(yè)開始重視大數(shù)據(jù)戰(zhàn)略布局,以提升自己的核心競爭力,用數(shù)據(jù)揭示生產(chǎn)管理過程,了解過去、知悉現(xiàn)在、洞悉未來[4-6]。通過數(shù)據(jù)驅(qū)動企業(yè)運行與決策,從而構(gòu)建智慧企業(yè),打造核心競爭力。
數(shù)據(jù)爆炸式的增長與價值的擴大化,對企業(yè)發(fā)展有著深遠影響[5-11]。將企業(yè)數(shù)據(jù)資產(chǎn)化,從而挖掘出數(shù)據(jù)價值,可為企業(yè)發(fā)展保駕護航,這將是企業(yè)智能化轉(zhuǎn)型發(fā)展的重點。隨著工業(yè)信息化過程的發(fā)展和革新,鋁冶煉企業(yè)在流程、管理和運營等各方面的問題也愈加凸顯,主要包括:受高溫、高熱的環(huán)境影響,生產(chǎn)運行的關(guān)鍵參數(shù)在線采集困難,而依靠人工或離線設備采集,工作量大,時效性差;由于生產(chǎn)過程各工序相對獨立,各自存在相應的DCS、PLC等控制和管理系統(tǒng),孤島運行,對企業(yè)的管控帶來了困難;由于各工序間管理和控制系統(tǒng)不連通,工序內(nèi)數(shù)據(jù)流通不暢,數(shù)據(jù)采集時效性差等原因,相應的管控模型建立難度大;以及由于歷史原因,各業(yè)務系統(tǒng)擴展性差和系統(tǒng)接口難以統(tǒng)一。
隨著新一代信息技術(shù)和大數(shù)據(jù)分析技術(shù)逐漸成熟,同時為推進鋁冶煉行業(yè)智能化進程,歐美等地的世界鋁工業(yè)先進國家非常重視鋁冶煉行業(yè)的技術(shù)創(chuàng)新,不斷研發(fā)新技術(shù)和新裝備,有力的促進了鋁冶煉行業(yè)的可持續(xù)性發(fā)展。在進入21世紀以來,采用新一代信息技術(shù),提高鋁冶煉生產(chǎn)過程的檢測、控制和管理水平,促進智能化生產(chǎn)的垂直集成和產(chǎn)業(yè)價值鏈的橫向集成[4,12-14],已經(jīng)成為國際先進鋁工業(yè)國家企業(yè)和研究機構(gòu)努力的方向。
以鋁冶煉大數(shù)據(jù)平臺為基礎,研發(fā)集專家推理系統(tǒng)、先進控制系統(tǒng)、遠程運維系統(tǒng)、遠程診斷系統(tǒng)和生產(chǎn)運營實時對標于一體的智能化應用系統(tǒng),也成為當今行業(yè)努力的方向之一。
針對鋁冶煉企業(yè)生產(chǎn)過程數(shù)據(jù)的特征,本文面向鋁冶煉企業(yè)構(gòu)建了集數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)融合、數(shù)據(jù)交換、數(shù)據(jù)治理和數(shù)據(jù)服務等功能于一體的大數(shù)據(jù)分析管理平臺,其架構(gòu)圖1所示。
圖1 鋁冶煉大數(shù)據(jù)平臺架構(gòu)圖
數(shù)據(jù)采集傳輸技術(shù)是大數(shù)據(jù)平臺底層建設的核心關(guān)鍵,用于實現(xiàn)工廠結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)的收集。由于工廠設備眾多且數(shù)據(jù)接口各異,因此常用的數(shù)據(jù)采集傳輸方式主要有以下三種:
(1)直接聯(lián)網(wǎng)通信采集傳輸方式
此種方式依賴于設備自身的通信協(xié)議與通信網(wǎng)口,不需要額外部署其他硬件,數(shù)據(jù)采集服務器通過局域網(wǎng)與設備直接連接,從而實現(xiàn)數(shù)據(jù)的交換。
(2)工業(yè)網(wǎng)關(guān)采集傳輸方式
此方式主要針對沒有以太網(wǎng)通接口的設備,或不支持以太網(wǎng)通信的設備,通過部署工業(yè)以太網(wǎng)關(guān)來連接設備,以實現(xiàn)對設備的數(shù)據(jù)采集。
(3)遠程IO采集傳輸方式
此方式用于針對不能直接通過以太網(wǎng)接口通信,且沒有控制單元的設備。通過部署遠程IO的方式來實現(xiàn)設備數(shù)據(jù)采集。
鋁冶煉作為典型的流程性企業(yè),其數(shù)據(jù)具有分散性、數(shù)據(jù)體量大、異構(gòu)性等特征。因此,傳統(tǒng)的DAS、SAN、NAS 等數(shù)據(jù)存儲方式已不能滿足大數(shù)據(jù)環(huán)境下的業(yè)務需求。HDFS存儲方式因其高容錯、高可靠性、高吞吐率等[14-15]特性而得到了國內(nèi)外研究者的認可。
HDFS存儲方式采用master/slave主從架構(gòu),由一個控制節(jié)點和多個數(shù)據(jù)節(jié)點構(gòu)成[15-16],架構(gòu)如圖2所示。通常,HDFS存儲方式會將一個完整的文件信息拆分為若干個子信息,并存放在不同的數(shù)據(jù)節(jié)點,控制節(jié)點則用于存儲數(shù)據(jù)節(jié)點的文件元數(shù)據(jù),相當于整個集群目錄。
圖2 master/slave主從架構(gòu)圖
傳統(tǒng)的MySQL等關(guān)系型數(shù)據(jù)庫通常被部署在一臺服務器上。而HBase是一種基于HDFS的分布式非關(guān)系型數(shù)據(jù)庫,通常部署于多臺服務器上。
Hadoop通常采用Map/Reduce模型來實現(xiàn)海量數(shù)據(jù)的分析處理,該模型的核心思想為“分而治之”,即將一個復雜的任務分解為多個簡單的子任務進行并行處理,而后將處理結(jié)果匯總分析。其中Map 負責“分”,Reduce負責“合”。工作流程如圖3所示。
圖3 Map/Reduce模型工作流程圖
大數(shù)據(jù)分析挖掘技術(shù)用于揭示所收集數(shù)據(jù)中隱藏的、未知的、有價值的信息。針對不同的生產(chǎn)流程,構(gòu)建相應的數(shù)據(jù)模型,而后用于對采集的數(shù)據(jù)進行分析挖掘和評價。
可視化技術(shù)用于對通過數(shù)據(jù)挖掘技術(shù)得到的信息直觀的展示出來,是建立在數(shù)據(jù)分析挖掘的基礎上。通過借助可視化工具或其他方式將挖掘到的數(shù)據(jù)信息形象化展示出來。
鋁冶煉企業(yè)作為典型的流程性企業(yè),工序多、控制系統(tǒng)多、業(yè)務系統(tǒng)多。生產(chǎn)過程數(shù)據(jù)類型涵蓋了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)。各控制系統(tǒng)主要分散于各生產(chǎn)工序、各業(yè)務系統(tǒng)分布于辦公區(qū)域。生產(chǎn)過程數(shù)據(jù)未能實現(xiàn)數(shù)據(jù)共享,數(shù)據(jù)價值未能挖掘利用。因此,本文針對某鋁生產(chǎn)企業(yè)設計開發(fā)了大數(shù)據(jù)平臺,具體實施情況參見下文。
針對全廠生產(chǎn)過程數(shù)據(jù),本文采用直接聯(lián)網(wǎng)通信采集傳輸方式、工業(yè)網(wǎng)關(guān)采集傳輸方式、遠程IO采集傳輸方式相結(jié)合來采集生產(chǎn)過程數(shù)據(jù)。考慮工控設備的安全運行,通過部署工業(yè)網(wǎng)關(guān)將辦公系統(tǒng)與工控系統(tǒng)進行隔離,以防止外部病毒的侵入攻擊工控系統(tǒng)。
由于各控制系統(tǒng)、業(yè)務系統(tǒng)分散于各工序,針對這一特點,本文通過分布式多線程方式來實現(xiàn)數(shù)據(jù)的采集傳輸,即一個主采集點部署于數(shù)據(jù)中心,多個子采集節(jié)點部署于各個生產(chǎn)控制系統(tǒng)與業(yè)務系統(tǒng)。同時,各個采集節(jié)點支持多種接口協(xié)議,從而滿足企業(yè)數(shù)據(jù)的采集、傳輸。分布式架構(gòu)如圖4所示。
圖4 數(shù)據(jù)采集傳輸網(wǎng)絡圖
針對關(guān)系型數(shù)據(jù),如門禁系統(tǒng)、人力資源管理系統(tǒng)和MES等數(shù)據(jù)源的采集,當數(shù)據(jù)量比較大時使用sqoop進行數(shù)據(jù)抽取,每日定時更新的數(shù)據(jù)則通過使用Kettle數(shù)據(jù)抽取工具,最后通過建立的數(shù)據(jù)采集任務將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)抽取到基于Hadoop的HDFS存儲的Hive中。
對于在線檢測裝置和PLC/DCS系統(tǒng)生成的非關(guān)系型數(shù)據(jù),通過使用OpenTSDB時序數(shù)據(jù)庫開放的API接口編寫JAVA代碼,實現(xiàn)數(shù)據(jù)的讀取工作。
針對數(shù)據(jù)存儲,本文采用分布式架構(gòu),利用多臺服務器、Hadoop及其生態(tài)軟件搭建企業(yè)數(shù)據(jù)中心,并在各服務器部署關(guān)系型數(shù)據(jù)庫、實時數(shù)據(jù)庫,用于滿足不同數(shù)據(jù)類型存儲需求。
對于關(guān)系型數(shù)據(jù),本文利用Oracle、MySQL、SQL Server等數(shù)據(jù)庫進行存儲。此外,由于工控數(shù)據(jù)為時序數(shù)據(jù),因此產(chǎn)生頻率快、數(shù)據(jù)量大。一般的關(guān)系型數(shù)據(jù)庫并不適合對本文工控實時數(shù)據(jù)的存儲和管理。因此,本文針對海量實時數(shù)據(jù),利用OpenTSDB、RRDtool、Kdb+、TimescaleDB、InfluxDB等數(shù)據(jù)庫進行存儲。工控實時數(shù)據(jù)存儲算法如表1所示。
表1 數(shù)據(jù)存儲算法
(1)常規(guī)數(shù)據(jù)可視化
Kibana、grafana作為一款開源的數(shù)據(jù)挖掘與可視化工具,可以用于日志數(shù)據(jù)分析、時間序列數(shù)據(jù)分析等。它們不僅功能強大,如支持直方圖、線形圖、餅圖、熱圖和內(nèi)置的地理空間等常見的可視化展示,同時也易用。
針對常規(guī)數(shù)據(jù)的可視化,平臺嵌入了Kibana、grafana等可視化組件,用于實現(xiàn)數(shù)據(jù)的分析和可視化。
(2)模型開發(fā)與可視化
為了實現(xiàn)工藝生產(chǎn)流程數(shù)據(jù)可視化分析,平臺開發(fā)了模型管理模塊,為工藝機理模型、機器學習模型等的開發(fā)提供了開發(fā)環(huán)境,開發(fā)者可在此模塊根據(jù)工藝生產(chǎn)需求構(gòu)建相應的分析模型。目前系統(tǒng)嵌入了常規(guī)的加權(quán)平均模型、關(guān)系分析模型、特征聚類模型等。
圖5 鋁液波動與極距可視化圖
圖6 模型管理模塊界面圖
本文利用物聯(lián)網(wǎng)與大數(shù)據(jù)等相關(guān)技術(shù)構(gòu)建了面向鋁冶煉的大數(shù)據(jù)平臺,完成了從數(shù)據(jù)采集到數(shù)據(jù)使用的統(tǒng)一管理。通過對生產(chǎn)管理信息系統(tǒng)和生產(chǎn)過程系統(tǒng)的數(shù)據(jù)集成,實現(xiàn)了鋁冶煉企業(yè)生產(chǎn)過程數(shù)據(jù)的規(guī)范化和多維度融合。主要貢獻如下:
(1)平臺具有多樣化數(shù)據(jù)接口,能適應不同場景的數(shù)據(jù)采集傳輸。
(2)平臺解決了企業(yè)內(nèi)部各業(yè)務應用系統(tǒng)信息孤島問題,實現(xiàn)了數(shù)據(jù)的一站式管理。
(3)平臺具備一站式數(shù)據(jù)挖掘與分析功能,能對采集的數(shù)據(jù)進行挖掘分析。