劉偉川,倪坤儀,王剛?cè)A,李聰超,張英麗
(西門子(中國)有限公司,北京 100102)
隨著鋼鐵行業(yè)的發(fā)展與全球工業(yè)數(shù)字化程度的提升,鋼鐵行業(yè)的數(shù)字化逐漸成為受矚目的話題。早在20世紀(jì)末,鋼鐵行業(yè)的專家系統(tǒng)[1]對于生產(chǎn)過程的輔助已獲得較多成果;如今,除已有的專家系統(tǒng)與知識(shí)外,大量實(shí)際生產(chǎn)數(shù)據(jù)的收集與應(yīng)用能夠?yàn)殇撹F行業(yè)產(chǎn)業(yè)升級(jí)提供進(jìn)一步幫助。實(shí)現(xiàn)數(shù)字化,首先需要提取工業(yè)生產(chǎn)中的數(shù)據(jù),以滿足后續(xù)產(chǎn)線監(jiān)控、質(zhì)量預(yù)警、大數(shù)據(jù)分析等應(yīng)用?,F(xiàn)代化鋼鐵企業(yè)中,數(shù)據(jù)產(chǎn)生的價(jià)值愈發(fā)重要,在連續(xù)的熱軋產(chǎn)線上,往往存在產(chǎn)線實(shí)時(shí)監(jiān)測數(shù)據(jù)無法立刻與產(chǎn)品對應(yīng),無法通過數(shù)據(jù)實(shí)時(shí)進(jìn)行判斷,數(shù)據(jù)質(zhì)量差的問題。隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等行業(yè)的興起,相關(guān)技術(shù)亦愈發(fā)成熟。在消費(fèi)與服務(wù)行業(yè)存在大量成功的大數(shù)據(jù)產(chǎn)生價(jià)值的案例,如利用實(shí)時(shí)客流進(jìn)行商業(yè)評(píng)估,利用用戶瀏覽趨勢推送相關(guān)信息等[2]。
工業(yè)中的實(shí)時(shí)數(shù)據(jù)存在于生產(chǎn)與日常的運(yùn)營當(dāng)中,目前,大量企業(yè)還處在較為初級(jí)的利用粗粒度的匯總信息進(jìn)行事后分析的階段,主要的應(yīng)用集中在商業(yè)智能、看板等領(lǐng)域,大量的產(chǎn)線數(shù)據(jù)并未加以有效利用,每日產(chǎn)生的TB級(jí)數(shù)據(jù)僅存儲(chǔ)在數(shù)據(jù)庫中,雖無人分析查看,仍需保留至幾年后方可刪除。此現(xiàn)象反映了產(chǎn)線數(shù)據(jù)要素價(jià)值未激活,持續(xù)增長的數(shù)據(jù)對于企業(yè)數(shù)據(jù)存儲(chǔ)產(chǎn)生的壓力日漸凸顯兩個(gè)主要問題。為此,根據(jù)典型熱軋線的生產(chǎn)數(shù)據(jù)、數(shù)據(jù)應(yīng)用場景,設(shè)計(jì)并實(shí)現(xiàn)了生產(chǎn)大數(shù)據(jù)實(shí)時(shí)清洗框架,使實(shí)時(shí)產(chǎn)生的數(shù)據(jù)能夠以結(jié)構(gòu)化、與產(chǎn)品(鋼卷)綁定的形式進(jìn)行存儲(chǔ),以便后續(xù)針對產(chǎn)品的分析;同時(shí),大大降低了數(shù)據(jù)量,將重復(fù)與價(jià)值低的信號(hào)數(shù)據(jù)清洗,僅保留對工藝與業(yè)務(wù)有價(jià)值的數(shù)據(jù);另外,數(shù)據(jù)的質(zhì)量在清洗的過程中,通過消除空值、異常值、數(shù)據(jù)正則化等方法得到提升,大大節(jié)省了后續(xù)分析中的數(shù)據(jù)清洗與預(yù)處理工作。下面對數(shù)據(jù)清洗框架的設(shè)計(jì)與實(shí)現(xiàn),以及其在實(shí)際場景中的應(yīng)用與價(jià)值體現(xiàn)做一介紹。
現(xiàn)代化的鋼鐵企業(yè)以滿足客戶的需求為目標(biāo),需要實(shí)現(xiàn)多品種、小批量、高質(zhì)量、高效率等多項(xiàng)要求。對于帶鋼熱連軋復(fù)雜的生產(chǎn)過程,為了實(shí)現(xiàn)上述目標(biāo),功能完備的計(jì)算機(jī)控制系統(tǒng)是必不可少的。目前,現(xiàn)代化的帶鋼熱連軋生產(chǎn)配置了從基礎(chǔ)設(shè)備控制到生產(chǎn)管理的多級(jí)IT系統(tǒng)。通常一個(gè)較為完備的熱軋多級(jí)IT系統(tǒng)包含四個(gè)級(jí)別,即基礎(chǔ)自動(dòng)化級(jí)(L1)、過程控制級(jí)(L2)、生產(chǎn)控制級(jí)(L3級(jí))和生產(chǎn)管理級(jí)(L4)。L1級(jí)以產(chǎn)線設(shè)備為主要控制對象,完成位置、速度等方面的控制。同時(shí),對熱軋質(zhì)量相關(guān)的關(guān)鍵變量如帶鋼厚度、寬度、溫度等進(jìn)行L1級(jí)的控制。L2級(jí)主要完成L1級(jí)所需要的軋制工藝控制參數(shù)和設(shè)備控制參數(shù)目標(biāo)值的計(jì)算,該計(jì)算一般通過L2級(jí)中預(yù)設(shè)的數(shù)學(xué)模型和相關(guān)的優(yōu)化功能完成。L3級(jí)主要完成生產(chǎn)計(jì)劃的調(diào)整和發(fā)布,同時(shí)包含對生產(chǎn)績效的計(jì)算和處理;此外,對板坯庫、鋼卷庫、成品庫進(jìn)行相關(guān)的管理,同時(shí)對成品的質(zhì)量進(jìn)行監(jiān)控。
從訂單到產(chǎn)品交付,四級(jí)IT系統(tǒng)以不同的方式產(chǎn)生數(shù)據(jù),是數(shù)據(jù)分析的主要數(shù)據(jù)來源。其中,L1、L2級(jí)系統(tǒng)是熱軋生產(chǎn)大數(shù)據(jù)的主要來源。基于大數(shù)據(jù)的四個(gè)特征,熱軋生產(chǎn)大數(shù)據(jù)具有很多自身的特點(diǎn):
(1)數(shù)據(jù)體量方面,熱軋產(chǎn)線包含加熱爐、粗軋、精軋、卷取等主要工藝段,每個(gè)工藝段包含不同類型的機(jī)械設(shè)備、電氣設(shè)備、水電氣公輔設(shè)備等。這些設(shè)備或系統(tǒng)在帶鋼生產(chǎn)過程中會(huì)產(chǎn)生大量的實(shí)時(shí)數(shù)據(jù)。同時(shí),與設(shè)備相配套的自動(dòng)化系統(tǒng)也會(huì)產(chǎn)生相應(yīng)的控制數(shù)據(jù),包含時(shí)序數(shù)據(jù)和控制閉環(huán)相關(guān)的設(shè)定值、反饋值、控制器參數(shù)等。
(2)數(shù)據(jù)類型方面,熱軋產(chǎn)線上產(chǎn)生的數(shù)據(jù)包含多種不同類型的數(shù)據(jù),如鋼卷跟蹤相關(guān)的事件數(shù)據(jù)、軋制相關(guān)的過程變量(如軋制力)、關(guān)鍵質(zhì)量相關(guān)的變量數(shù)據(jù)(溫度、厚度、寬度、板形等)。典型的7臺(tái)精軋機(jī)構(gòu)成的精軋機(jī)組通常包含70~80個(gè)控制回路,其對應(yīng)的變量種類復(fù)雜且相互耦合。
(3)產(chǎn)生速度方面,熱軋生產(chǎn)數(shù)據(jù)的采集頻率通常很高,尤其在精軋階段,帶鋼的高速軋制使得精軋區(qū)域會(huì)以十幾毫秒的頻率進(jìn)行數(shù)據(jù)采集。
(4)價(jià)值密度方面,產(chǎn)線不同工藝段的數(shù)據(jù)隨時(shí)間不斷產(chǎn)生,其中真正軋制時(shí)的數(shù)據(jù)僅占一部分。
綜上所述,在鋼鐵行業(yè)的數(shù)字化項(xiàng)目中,如何有效地應(yīng)對生產(chǎn)大數(shù)據(jù)的特點(diǎn)是數(shù)字化項(xiàng)目高質(zhì)量交付的前提,也是需要解決的核心問題。
熱軋線數(shù)字化項(xiàng)目通常是在其高自動(dòng)化水平的基礎(chǔ)上提出的,旨在提升數(shù)據(jù)集成和深度挖掘能力。一般來說,項(xiàng)目以貫通L1、L2級(jí)數(shù)據(jù)為主,同時(shí)兼顧L3級(jí)相關(guān)數(shù)據(jù)的集成,通過實(shí)時(shí)數(shù)據(jù)清洗實(shí)現(xiàn)產(chǎn)線的數(shù)據(jù)資產(chǎn)建立,并以數(shù)據(jù)資產(chǎn)支撐上層的熱軋智慧應(yīng)用。典型熱軋線數(shù)字化項(xiàng)目整體架構(gòu)如圖1所示。
圖1 典型熱軋線數(shù)字化項(xiàng)目整體架構(gòu)Fig.1 Overall Framework for Typical Digital Project on Hot Rolling Line
數(shù)據(jù)清洗功能架構(gòu)在平臺(tái)的IaaS基礎(chǔ)設(shè)施之上,對接已有系統(tǒng)中的實(shí)時(shí)數(shù)據(jù)并完成數(shù)據(jù)清洗。清洗后的結(jié)果既可以直接提供給實(shí)時(shí)性較高的應(yīng)用,也可以直接完成數(shù)據(jù)持久化,供后續(xù)數(shù)據(jù)分析和其他應(yīng)用使用??梢钥闯?,數(shù)據(jù)清洗作為整個(gè)建構(gòu)的中間層,是整個(gè)上層智慧應(yīng)用的數(shù)據(jù)底座,是上層智慧應(yīng)用有效運(yùn)行的必要前提條件。同時(shí),為了使清洗后數(shù)據(jù)更具有業(yè)務(wù)價(jià)值,建立了從業(yè)務(wù)視角出發(fā)的鋼卷數(shù)字化畫像,結(jié)合數(shù)據(jù)清洗將鋼卷相關(guān)的數(shù)據(jù)進(jìn)行實(shí)時(shí)關(guān)聯(lián)。
熱軋產(chǎn)線的實(shí)時(shí)數(shù)據(jù)清洗是支撐熱軋智慧應(yīng)用的關(guān)鍵。從數(shù)據(jù)的角度面臨幾個(gè)難點(diǎn):
(1)熱軋產(chǎn)線通常包含多種數(shù)據(jù)源接入,包括L1級(jí)和L2級(jí)相關(guān)的數(shù)據(jù)采集系統(tǒng)、水電煤氣系統(tǒng)、質(zhì)量判定系統(tǒng)等。系統(tǒng)之間相對獨(dú)立,需要進(jìn)行同步接入。
(2)L1、L2級(jí)具有極高的數(shù)據(jù)采集頻率,需要完成實(shí)時(shí)的數(shù)據(jù)接入與清洗,并將清洗結(jié)果進(jìn)行持久化,對于清洗系統(tǒng)的數(shù)據(jù)承壓能力提出了較高的要求。
(3)典型熱軋線數(shù)字化項(xiàng)目具有多樣的清洗需求,包含鋼卷ID與生產(chǎn)數(shù)據(jù)實(shí)時(shí)綁定、粗軋正逆軋制映射、鋼卷時(shí)空變換、數(shù)據(jù)特征提取等。如何在極高頻率下完成數(shù)據(jù)的清洗工作,對于清洗算法的設(shè)計(jì)和實(shí)現(xiàn)都是很大的挑戰(zhàn)。
(4)如何構(gòu)建有效的鋼卷數(shù)字畫像,將生產(chǎn)、質(zhì)量等不同維度的數(shù)據(jù)進(jìn)行關(guān)聯(lián),進(jìn)而支持上層智慧應(yīng)用的需求,也是數(shù)據(jù)清洗所面臨的難點(diǎn)之一。
針對實(shí)時(shí)數(shù)據(jù)清洗的難點(diǎn)和鋼鐵行業(yè)的特點(diǎn),實(shí)時(shí)清洗框架的功能需要涵蓋對多種應(yīng)用場景的彈性支持、對清洗過程中的異常進(jìn)行容錯(cuò)處理、具有高吞吐量和低延遲的特性、特殊應(yīng)用場景的支持[3]。
整個(gè)數(shù)據(jù)流向的架構(gòu)分為5層,自下而上由接入層、計(jì)算層、存儲(chǔ)層、服務(wù)層、應(yīng)用層構(gòu)成。涵蓋了數(shù)據(jù)從L1到L4流轉(zhuǎn)的各個(gè)步驟。其中,接入層采用Kafka消息中間件作為數(shù)據(jù)接入方式。計(jì)算層基于Flink[4]實(shí)時(shí)數(shù)據(jù)處理框架,對具體的場景需求進(jìn)行算法定制。存儲(chǔ)層提供關(guān)系型數(shù)據(jù)庫PostgreSQL和實(shí)時(shí)數(shù)據(jù)庫ClickHouse作為數(shù)據(jù)存儲(chǔ)組件。服務(wù)層對外提供統(tǒng)一的數(shù)據(jù)接口,對上層應(yīng)用屏蔽下層的數(shù)據(jù)復(fù)雜性,利于最上層應(yīng)用的開發(fā)與實(shí)施。實(shí)時(shí)清洗架構(gòu)圖如圖2所示。
圖2 實(shí)時(shí)清洗架構(gòu)圖Fig.2 Architecture Diagram for Real-time Cleaning
3.2.1 引入主數(shù)據(jù)表
由于鋼鐵行業(yè)的特殊性,在整個(gè)流式處理中,原始數(shù)據(jù)并沒有和生產(chǎn)數(shù)據(jù)實(shí)時(shí)綁定,對后續(xù)的分析應(yīng)用造成了技術(shù)負(fù)擔(dān)。在此場景中,系統(tǒng)引入主數(shù)據(jù)表概念以處理各種業(yè)務(wù)需求,其中定義了數(shù)據(jù)源系統(tǒng)中的測點(diǎn)和分析系統(tǒng)中的對應(yīng)關(guān)系、各個(gè)工序?qū)?yīng)的配置、鋼卷ID對應(yīng)的source通道等一系列輔助數(shù)據(jù)清理的信息來支持彈性分析。用戶同樣可以通過編輯主數(shù)據(jù)表來輸入專家知識(shí)并幫助數(shù)據(jù)清理邏輯以更好地滿足業(yè)務(wù)需要。
3.2.2 數(shù)據(jù)熱存儲(chǔ)
在典型熱軋數(shù)字化項(xiàng)目中,由于測點(diǎn)眾多,業(yè)務(wù)邏輯相對復(fù)雜,主數(shù)據(jù)表的體量隨著業(yè)務(wù)的推進(jìn)迅速增加。為此,系統(tǒng)提出以預(yù)加載主數(shù)據(jù)表和熱存儲(chǔ)關(guān)聯(lián)的方式解決大數(shù)據(jù)實(shí)時(shí)清理中的主數(shù)據(jù)加載、分發(fā)、對上下游的壓力問題。隨著數(shù)據(jù)表容量的變化,系統(tǒng)以切換主數(shù)據(jù)表的加載方式來更好地服務(wù)清洗需求。預(yù)加載主數(shù)據(jù)的方式是將主數(shù)據(jù)預(yù)先加載到內(nèi)存中,各處理單元在流式處理時(shí)到內(nèi)存中完成相應(yīng)的關(guān)聯(lián)和查詢操作,實(shí)現(xiàn)簡單,但是占用內(nèi)存,不適合主數(shù)據(jù)大的場景,且主數(shù)據(jù)更新不及時(shí)。熱存儲(chǔ)關(guān)聯(lián)的方式是將主數(shù)據(jù)加入熱存儲(chǔ)中,通過異步IO的操作、去IO的方式完成查詢。在吞吐量高的場景下,為了防止與熱存儲(chǔ)的交互造成瓶頸,系統(tǒng)引入緩存機(jī)制以減輕對熱存儲(chǔ)交互的壓力。同時(shí),系統(tǒng)采用事件差異檢查的機(jī)制來避免無效的數(shù)據(jù)加載操作和主數(shù)據(jù)及時(shí)更新的問題。在主數(shù)據(jù)表更新時(shí),系統(tǒng)將對已加載主數(shù)據(jù)和主數(shù)據(jù)表進(jìn)行差異分析。如果有差異,將差異更新至緩存。實(shí)時(shí)清洗框架熱存儲(chǔ)功能如圖3所示。
圖3 實(shí)時(shí)清洗框架熱存儲(chǔ)功能Fig.3 Thermal Storage Function of Real-time Cleaning Framework
3.2.3 數(shù)據(jù)緩存
在工業(yè)場景中,數(shù)據(jù)的準(zhǔn)確性非常重要。在分布式系統(tǒng)中,組成系統(tǒng)的各個(gè)計(jì)算機(jī)是相互獨(dú)立的。系統(tǒng)易受各種意外因素的影響而發(fā)生故障(磁盤、網(wǎng)絡(luò)等)。如果發(fā)生了故障,在很多大數(shù)據(jù)清理框架中會(huì)有不同的側(cè)重點(diǎn)。流處理引擎為數(shù)據(jù)處理定義的語義包含at-most-once、at-least-once以及exactly-once。在此項(xiàng)目的技術(shù)選型中,系統(tǒng)采用了對鋼鐵行業(yè)最適合的exactly-once模式來保證數(shù)據(jù)的準(zhǔn)確性和避免數(shù)據(jù)重復(fù)。在數(shù)據(jù)清理框架中系統(tǒng)將配置和啟用檢查點(diǎn)機(jī)制,框架定期觸發(fā)檢查點(diǎn)并觸發(fā)快照的生成??煺罩邪四軓墓收现谢謴?fù)的相關(guān)信息。在開始流式處理時(shí)會(huì)生成一個(gè)快照,在之后的各個(gè)計(jì)算因子作用下此快照版本會(huì)被更新,并傳遞檢查點(diǎn)信息至下一個(gè)計(jì)算因子,在整個(gè)流式過程結(jié)束之后提交整個(gè)快照以歸檔整個(gè)流程。整套機(jī)制不依賴于外部系統(tǒng),各環(huán)節(jié)的狀態(tài)信息將維護(hù)在清理框架中,由框架統(tǒng)一管理。如果發(fā)生故障,就從最近的一次快照中恢復(fù)運(yùn)行。數(shù)據(jù)在最終計(jì)算和歸檔化的過程中只會(huì)被計(jì)算和統(tǒng)計(jì)一次。實(shí)時(shí)清洗框架狀態(tài)緩存功能如圖4所示。
圖4 實(shí)時(shí)清洗框架狀態(tài)緩存功能Fig.4 Status Cache Function of Real-time Cleaning Framework
3.2.4 數(shù)據(jù)源接入
在數(shù)據(jù)源部分,為了保證系統(tǒng)的高吞吐量和低延遲,相關(guān)業(yè)務(wù)會(huì)被拆解成多個(gè)信息通道并行傳輸,在保證高效信息傳輸?shù)耐瑫r(shí)也解決了高速消息隊(duì)列在某些設(shè)置下很難保證對消息順序性的問題。在常見的流式處理框架中,系統(tǒng)為了保證數(shù)據(jù)的快速投遞,會(huì)將數(shù)據(jù)拆分成多個(gè)通道傳輸,但是在隨后的多個(gè)通道合并處理過程中,很難在保證效率的情況下保證數(shù)據(jù)能夠被順序消費(fèi)和處理。在工業(yè)場景中,由此引發(fā)的問題常常是不能被接受的。為此,需在系統(tǒng)中、全局順序和局部順序的平衡中保證清洗任務(wù)的高效運(yùn)行。在具體的實(shí)現(xiàn)中,依賴鋼鐵行業(yè)知識(shí)和熱軋線的工藝特點(diǎn),將各工藝段拆分成多個(gè)通道,以保證各個(gè)通道中的消息數(shù)據(jù)。在各工藝段的數(shù)據(jù)聯(lián)合處理中,結(jié)合專家知識(shí)調(diào)整各通道在高吞吐量下可能引發(fā)的時(shí)間戳到達(dá)時(shí)間不一致情況,以達(dá)到全局順序的要求。實(shí)時(shí)清洗框架數(shù)據(jù)源接入如圖5所示。
圖5 實(shí)時(shí)清洗框架數(shù)據(jù)源接入Fig.5 Data Source Access to Real-time Cleaning Framework
面對復(fù)雜的清洗需求,利用算子(Operator)在上述實(shí)時(shí)數(shù)據(jù)清洗框架中主要實(shí)現(xiàn)鋼卷ID與生產(chǎn)數(shù)據(jù)實(shí)時(shí)綁定、粗軋正逆軋制映射、鋼卷時(shí)空變換、數(shù)據(jù)特征提取四個(gè)功能。
4.1.1 鋼卷ID與生產(chǎn)數(shù)據(jù)實(shí)時(shí)綁定
由于在產(chǎn)線數(shù)據(jù)中,鋼卷ID的下發(fā)信號(hào)通道是由六個(gè)通道的ASCII碼組成,其下發(fā)時(shí)間不與生產(chǎn)時(shí)間相關(guān),且存在重復(fù)下發(fā)情況;鋼卷ID如何與產(chǎn)線上得到的數(shù)據(jù)進(jìn)行綁定是項(xiàng)目首先需要解決的問題。傳統(tǒng)方法一般對鋼卷ID下發(fā)后產(chǎn)生的所有相應(yīng)數(shù)據(jù)進(jìn)行存儲(chǔ),產(chǎn)線級(jí)數(shù)據(jù)采集量大,因此轉(zhuǎn)變?yōu)閷α魅胨阕拥纳a(chǎn)數(shù)據(jù)進(jìn)行標(biāo)注 (即標(biāo)注鋼卷ID),以極大減少實(shí)時(shí)清洗平臺(tái)的計(jì)算與存儲(chǔ)量,提升鋼卷ID綁定的效率,同時(shí)為后續(xù)其他功能騰挪計(jì)算空間。
4.1.2 粗軋正逆軋制映射
由于在物理層面,粗軋工序的正逆軋制存在往復(fù)行動(dòng),因此所有具有方向性的數(shù)據(jù)點(diǎn)、需要定位軋制位置(與后續(xù)時(shí)空變換更加相關(guān))的數(shù)據(jù)點(diǎn),均需要進(jìn)行正逆軋制映射,以判斷出軋制方向和出軋制的位置,即鋼卷頭/尾位置坐標(biāo)。由于正逆軋制具有咬鋼、軋制力、速度等多種指示信號(hào),結(jié)合以上三者狀態(tài),即可判斷正逆軋制與位置信息。
4.1.3 鋼卷時(shí)空變換
無論粗軋或精軋,后續(xù)鋼卷生產(chǎn)過程參數(shù)與質(zhì)量的相關(guān)性分析均需要與鋼卷位置進(jìn)行關(guān)聯(lián),因此鋼卷長度的時(shí)空變換是至關(guān)重要的功能。由于在生產(chǎn)過程中,鋼坯產(chǎn)生形變,軋制完成的鋼卷表面缺陷在形變前的加工參數(shù)溯源是主要難點(diǎn)。為此,首先以鋼坯形變均勻?yàn)橹匾僭O(shè),根據(jù)拉速對鋼坯行進(jìn)長度進(jìn)行累計(jì),并在每個(gè)數(shù)據(jù)點(diǎn)明確已軋制長度,以便后續(xù)分析使用。
4.1.4 數(shù)據(jù)特征提取
大量數(shù)據(jù)中,數(shù)據(jù)的基本特征如平均值、最大值、最小值、標(biāo)準(zhǔn)差等均是常規(guī)的必需參數(shù),但每一鋼卷的上千條數(shù)據(jù)分別聚合計(jì)算的工作量與計(jì)算量過于巨大。因此,項(xiàng)目應(yīng)用時(shí)在實(shí)時(shí)數(shù)據(jù)清洗平臺(tái)上部署了數(shù)據(jù)特征提取算子,對常用數(shù)據(jù)特征進(jìn)行滾動(dòng)計(jì)算,即僅儲(chǔ)存數(shù)個(gè)參數(shù),在鋼卷軋制完成后即可得出其特征值。由于標(biāo)準(zhǔn)差是一項(xiàng)必須獲得全量數(shù)據(jù)方可精確計(jì)算的參數(shù),基于實(shí)時(shí)計(jì)算的情況,采用迭代算法進(jìn)行滾動(dòng)計(jì)算,以近似實(shí)際標(biāo)準(zhǔn)差。
鋼卷在生產(chǎn)過程中相關(guān)聯(lián)的數(shù)據(jù)不僅包含其ID、生產(chǎn)工藝參數(shù)、訂單等信息,產(chǎn)線上的控制參數(shù)、實(shí)時(shí)測量的溫度,甚至于能源表計(jì)系統(tǒng)測量的流量都是鋼卷數(shù)字畫像的一部分。在后續(xù)對鋼卷的分析過程中,針對不同的主題,提取鋼卷的相關(guān)數(shù)據(jù)是熱軋生產(chǎn)及其相關(guān)應(yīng)用的數(shù)據(jù)獲取最優(yōu)方式。為達(dá)到此目標(biāo),根據(jù)應(yīng)用維度,從“人、機(jī)、料、法、環(huán)、測”六方面為鋼卷建立了數(shù)字畫像。除此六維度以外,鋼卷數(shù)字畫像的參數(shù)分為控制參數(shù)與實(shí)際參數(shù)兩類;在針對鋼卷的質(zhì)量分析中,需要對比L2的模型計(jì)算下設(shè)值(即控制參數(shù))與實(shí)際參數(shù)的區(qū)別。由于數(shù)據(jù)量較多且邏輯復(fù)雜,利用知識(shí)圖譜技術(shù)進(jìn)行鋼卷數(shù)字畫像構(gòu)建,每個(gè)畫像從加熱爐至卷取結(jié)束,包括軋制力、彎輥力、軋輥速度、前滑后滑、溫度、厚度、平直度、冷卻水流量、竄輥位置的下設(shè)值及其實(shí)際值等,共約700個(gè)測點(diǎn)。
在數(shù)據(jù)通過Kafka接入后,4.1中的四個(gè)工藝段的生產(chǎn)數(shù)據(jù)實(shí)時(shí)綁定算子根據(jù)各測點(diǎn)位置將測點(diǎn)值與鋼卷ID進(jìn)行綁定,并存入存儲(chǔ)層的時(shí)序數(shù)據(jù)庫中。同時(shí),由于各測點(diǎn)邏輯關(guān)系固定,在服務(wù)層根據(jù)其業(yè)務(wù)邏輯建立本體框架,使不斷產(chǎn)生的數(shù)據(jù)可以根據(jù)本體庫的結(jié)構(gòu)與邏輯關(guān)系進(jìn)行關(guān)聯(lián),進(jìn)而生成知識(shí)圖譜。對于上層應(yīng)用層,在進(jìn)行高級(jí)應(yīng)用構(gòu)建與分析時(shí),根據(jù)知識(shí)圖譜查詢相關(guān)數(shù)據(jù)即可。本體庫與知識(shí)圖譜示意圖如圖6所示。
圖6 本體庫與知識(shí)圖譜示意圖Fig.6 Schematic Diagram for Ontology Base and Knowledge Mapping
實(shí)時(shí)數(shù)據(jù)清洗框架的一大應(yīng)用即將數(shù)據(jù)以10 ms左右的時(shí)間清洗后,進(jìn)行產(chǎn)品在線初步分析。由于生產(chǎn)性質(zhì)限制,當(dāng)發(fā)生超出閾值或不符標(biāo)準(zhǔn)情況時(shí),無法停線中斷不合格產(chǎn)品的生產(chǎn),但可在產(chǎn)線上對產(chǎn)品標(biāo)注;同時(shí),利用鋼卷時(shí)空變換功能,對粗軋、精軋前6架的問題鋼卷段進(jìn)行標(biāo)注。
應(yīng)用方案在項(xiàng)目中進(jìn)行了實(shí)施和驗(yàn)證,效果如下:
(1)實(shí)時(shí)清洗框架成功承受住了熱軋線上最小10 ms的數(shù)據(jù)采樣頻率,能在高速數(shù)據(jù)流的情況下完成數(shù)據(jù)清洗并保持系統(tǒng)穩(wěn)定。
(2)鋼卷ID與生產(chǎn)數(shù)據(jù)實(shí)時(shí)綁定能夠有效去除非生產(chǎn)時(shí)的數(shù)據(jù),同時(shí)結(jié)合時(shí)序數(shù)據(jù)庫的壓縮能力,大幅度減小數(shù)據(jù)存儲(chǔ)量(某典型熱軋項(xiàng)目中可以達(dá)到60 G原始數(shù)據(jù)到600 MB~1 G的減量效果),從而有效節(jié)約生產(chǎn)系統(tǒng)的存儲(chǔ)空間,提高后續(xù)數(shù)據(jù)查詢的效率。
(3)項(xiàng)目中對典型鋼卷進(jìn)行了數(shù)據(jù)準(zhǔn)確性驗(yàn)證,所提出的實(shí)時(shí)清洗框架能夠做到數(shù)據(jù)不丟失并與原始生產(chǎn)數(shù)據(jù)對應(yīng)。
(4)在鋼卷ID綁定后的數(shù)據(jù)上進(jìn)行了業(yè)務(wù)相關(guān)的實(shí)時(shí)計(jì)算,為軋制穩(wěn)定性分析、過程預(yù)警的應(yīng)用場景提供了高質(zhì)量的數(shù)據(jù)支持。
從熱軋產(chǎn)線的數(shù)據(jù)特點(diǎn)出發(fā),分析了熱軋的數(shù)據(jù)特點(diǎn),以及在數(shù)據(jù)清洗時(shí)所面臨的難點(diǎn)。在此基礎(chǔ)上,提出了一種新的實(shí)時(shí)大數(shù)據(jù)清洗框架,說明了框架的特點(diǎn)以及相應(yīng)技術(shù)組件,并對熱軋生產(chǎn)中的數(shù)據(jù)清洗需求進(jìn)行了分析。同時(shí),基于清洗后的產(chǎn)線數(shù)據(jù),設(shè)計(jì)了一種熱軋生產(chǎn)線的知識(shí)圖譜建立方法,該方法綜合考慮了產(chǎn)品、產(chǎn)線設(shè)備、質(zhì)量分析等各個(gè)方面因素,以產(chǎn)品為中心打通并連接了多種數(shù)據(jù),為數(shù)據(jù)應(yīng)用提供了有效的數(shù)據(jù)基礎(chǔ)。