張佳琪,凌衛(wèi)青
(同濟(jì)大學(xué) 電子與信息工程學(xué)院CIMS研究中心,上海 201804)
鋼鐵工業(yè)是國民經(jīng)濟(jì)發(fā)展的支撐,也是國家的基礎(chǔ)工業(yè)之一。熱軋帶鋼是指通過熱軋方式生產(chǎn)的帶材和板材,廣泛用于汽車、電機(jī)、化工、造船等行業(yè)。在我國制造業(yè)高質(zhì)量發(fā)展政策指引下,汽車制造、船舶制造、基礎(chǔ)設(shè)施工程等領(lǐng)域的產(chǎn)品研發(fā)迭代加速,對熱軋帶鋼鋼種及品質(zhì)需求日趨個性化,推動帶鋼生產(chǎn)朝著“小批量、定制化”方向發(fā)展。
鋼鐵產(chǎn)品的質(zhì)量管控主要包括:接受訂單開始的鋼品性能質(zhì)量設(shè)計、生產(chǎn)過程中在線質(zhì)量監(jiān)測以及產(chǎn)成階段的質(zhì)量分析及工藝改進(jìn)[1]。熱軋帶鋼生產(chǎn)需要經(jīng)過加熱爐、粗軋機(jī)組、飛剪、精軋機(jī)組、層流冷卻、卷取機(jī)組等多個關(guān)聯(lián)耦合的復(fù)雜工序,并且各個工序內(nèi)部也存在許多相互關(guān)聯(lián)耦合的子工序,全流程中眾多的過程變量與控制回路互聯(lián)耦合,生產(chǎn)過程中參數(shù)的變動最終都將影響出口段的帶鋼產(chǎn)品質(zhì)量[2]。面對復(fù)雜化的帶鋼生產(chǎn)過程,產(chǎn)品質(zhì)量分析至關(guān)重要。其中,產(chǎn)品質(zhì)量缺陷追溯著眼于探尋導(dǎo)致質(zhì)量缺陷的關(guān)鍵工藝參數(shù),可以輔助優(yōu)化工藝參數(shù)、提高生產(chǎn)穩(wěn)定性和可靠性、減少新品試車次數(shù)。
傳統(tǒng)質(zhì)量異常溯源主要針對某一工況或工序進(jìn)行建模,采用統(tǒng)計學(xué)方法,通過多元統(tǒng)計分析實(shí)現(xiàn)產(chǎn)品質(zhì)量監(jiān)測,再結(jié)合格蘭杰因果關(guān)系或者傳遞熵等方法來揭示變量間的關(guān)聯(lián)關(guān)系[3]。然而,在大規(guī)模、動態(tài)、高維參數(shù)的復(fù)雜生產(chǎn)控制環(huán)境下,帶鋼軋制隨著物料流、能量流的傳播擴(kuò)散,歷史工序偏差傳播以及多工序綜合影響都將導(dǎo)致帶鋼質(zhì)量異常。隨著傳感技術(shù)、通信技術(shù)和人工智能的快速發(fā)展,一些學(xué)者開始嘗試數(shù)據(jù)驅(qū)動的方法(例如深度學(xué)習(xí)、集成學(xué)習(xí)等),利用人工智能技術(shù)解決各個工序間信息孤立的問題,實(shí)現(xiàn)質(zhì)量缺陷溯源,提高產(chǎn)品質(zhì)量的穩(wěn)定性和可靠性[4-5]。但限于深度學(xué)習(xí)模型的黑盒特性,導(dǎo)致在預(yù)測結(jié)果偏離目標(biāo)時,對質(zhì)量偏差原因的追溯十分困難。
在實(shí)際帶鋼軋制過程中,專家需要統(tǒng)籌考慮各個生產(chǎn)過程控制層,結(jié)合專業(yè)機(jī)理知識、具體的設(shè)備物料信息,同時憑借自身經(jīng)驗(yàn)完成對產(chǎn)品質(zhì)量的分析與優(yōu)化。面對大量不同生產(chǎn)批次以及設(shè)備工況動態(tài)變化,人工決策優(yōu)化的方式無法做到快速響應(yīng),同時也無法對每一個生產(chǎn)批次進(jìn)行準(zhǔn)確分析,導(dǎo)致經(jīng)驗(yàn)知識的缺失。在生產(chǎn)數(shù)據(jù)中隱含豐富的數(shù)據(jù)語義信息,通過數(shù)據(jù)挖掘方法可以獲取生產(chǎn)數(shù)據(jù)間存在的關(guān)聯(lián)性,但對可靠性要求高并且隱含語義信息的獲取難度大[6]。因此需要人工智能、知識圖譜等技術(shù)有效結(jié)合工藝機(jī)理、專家經(jīng)驗(yàn)和數(shù)據(jù)挖掘結(jié)果等知識,輔助指導(dǎo)生產(chǎn)控制決策。
基于上述分析,本文將可解釋人工智能技術(shù)應(yīng)用于帶鋼熱軋質(zhì)量數(shù)據(jù)挖掘,并結(jié)合生產(chǎn)過程機(jī)理與專家經(jīng)驗(yàn)構(gòu)建帶鋼質(zhì)量知識圖譜,在此基礎(chǔ)上設(shè)計一種將知識圖譜映射到貝葉斯網(wǎng)絡(luò)的方法,通過貝葉斯推理挖掘產(chǎn)品質(zhì)量缺陷因素,并通過某鋼鐵公司熱軋帶鋼精軋生產(chǎn)實(shí)際數(shù)據(jù),驗(yàn)證本文提出方法的科學(xué)性和有效性。
熱軋帶鋼質(zhì)量分析研究從目標(biāo)上主要包括:質(zhì)量監(jiān)控、溯源和預(yù)測。
質(zhì)量監(jiān)控大多基于多元統(tǒng)計分析理論,通過建模正常生產(chǎn)工況數(shù)據(jù)的控制上下限來實(shí)現(xiàn)對生產(chǎn)狀況的監(jiān)控[7-8],并將其應(yīng)用于產(chǎn)品質(zhì)量的分析中,包括潛在結(jié)構(gòu)投影[9]、典型相關(guān)分析結(jié)合堆疊自編碼器[10]等。同時結(jié)合格蘭杰因果關(guān)系或傳遞熵等方法,通過建立因果矩陣或因果拓?fù)鋱D,挖掘變量間的因果關(guān)聯(lián),實(shí)現(xiàn)異常原因追溯。但上述方法大多針對某一工況或工序進(jìn)行建模分析,存在復(fù)雜工序追溯困難的問題。
隨著日益增長的數(shù)據(jù)量,以深度學(xué)習(xí)和集成學(xué)習(xí)為主的機(jī)器學(xué)習(xí)方法廣泛應(yīng)用于設(shè)備監(jiān)控[11]、質(zhì)量預(yù)測[12]等方面。該方法從大量生產(chǎn)歷史數(shù)據(jù)中發(fā)現(xiàn)工藝參數(shù)和質(zhì)量參數(shù)之間的相關(guān)性,進(jìn)而實(shí)現(xiàn)對質(zhì)量參數(shù)的預(yù)測。LEE等[13]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)相結(jié)合來處理空間和時間序列信息,實(shí)現(xiàn)對煉鋼連鑄過程溫度分布的預(yù)測。LI等[14]使用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對熱軋帶鋼抗拉強(qiáng)度的預(yù)測。WANG[15]將隨機(jī)森林應(yīng)用于鋼包爐中鋼水溫度的預(yù)測,隨機(jī)森林算法通過Bootstrap重采樣技術(shù)為每棵決策樹生成訓(xùn)練樣本,同時隨機(jī)選擇訓(xùn)練樣本中的特征進(jìn)行分裂。因此具有良好抗噪聲能力,同時可以有效處理高維特征,不需要進(jìn)行特征選擇,并且隨著決策樹增加,模型的泛化誤差存在上界,不會出現(xiàn)過擬合[16]。
目前,基于機(jī)器學(xué)習(xí)的質(zhì)量預(yù)測模型能達(dá)到較高性能,但隨著模型復(fù)雜度不斷上升,導(dǎo)致專家無法理解模型作出預(yù)測的行為(尤其是與專家判斷不一致時),難以直接采用模型進(jìn)行生產(chǎn)決策。機(jī)器學(xué)習(xí)模型的可解釋性受到關(guān)注,于是出現(xiàn)了可解釋人工智能(eXplainable Artificial Intelligence, XAI)方法,如LIME[17]和SHAP[18]。XAI通過解釋模型預(yù)測的行為,提高模型的透明度與可靠性,并獲取隱含在數(shù)據(jù)中的語義信息。TAKALO-MATTILA等[19]基于梯度增強(qiáng)樹建立鋼板表面缺陷的預(yù)測模型,并使用SHAP方法尋找工藝參數(shù)與表面缺陷之間的潛在關(guān)聯(lián),以特征貢獻(xiàn)的大小給出模型預(yù)測行為的局部解釋。SHAP是一種模型事后解釋方法,被證明是分配特征重要性的唯一方法[18],意味著將預(yù)測模型視為一個“黑匣子”,實(shí)現(xiàn)在不影響模型決策精度的情況下提供相應(yīng)的決策結(jié)果解釋。
知識圖譜(Knowledge Graph,KG)是大數(shù)據(jù)時代的一種重要的知識形式化表達(dá)方法,目前在許多領(lǐng)域得到了廣泛應(yīng)用。相較于Google知識圖譜為代表的通用知識圖譜,工業(yè)知識圖譜知識深度更深,知識細(xì)粒度要求更高,對知識的準(zhǔn)確性要求嚴(yán)苛,通常被應(yīng)用于決策任務(wù)中。ZHOU等[20]設(shè)計了石油化工生產(chǎn)過程仿真的本體,并在此基礎(chǔ)上構(gòu)建了柴油生產(chǎn)知識圖譜,使生物柴油生產(chǎn)工藝可在不同市場狀況下獲得最佳運(yùn)行條件,降低能耗,實(shí)現(xiàn)工廠利潤最大化。MAO等[21]運(yùn)用知識圖譜的推理分析能力發(fā)現(xiàn)過程制造中緊急情況下可能的風(fēng)險原因和后果之間的隱藏關(guān)系。CHEN等[22]針對冷滾軋生產(chǎn)過程的鋼帶斷裂問題,從多個數(shù)據(jù)源中提取了相關(guān)特征并構(gòu)建了知識圖譜,并應(yīng)用嵌入技術(shù)實(shí)現(xiàn)了鋼帶斷裂的建模。牟昊天等[23]提出面向流程工業(yè)控制系統(tǒng)的知識圖譜構(gòu)建的一般性方法框架,實(shí)現(xiàn)對信息物理資產(chǎn)的管理。
知識圖譜是融合不同來源知識的有效方法。當(dāng)下以流程工業(yè)質(zhì)量控制決策為應(yīng)用背景的知識圖譜相關(guān)工作比較少,且大多將知識圖譜視為知識庫,通過知識檢索,查找所有潛在原因,利用知識圖譜推理進(jìn)行質(zhì)量缺陷原因追溯的分析方法研究十分欠缺。因此,本文利用工業(yè)知識圖譜將工藝機(jī)理、專家經(jīng)驗(yàn)以及可解釋數(shù)據(jù)挖掘結(jié)果等知識進(jìn)行融合,在此基礎(chǔ)上通過知識圖譜推理實(shí)現(xiàn)對質(zhì)量缺陷原因的追溯。
本文研究基于知識圖譜的熱軋帶鋼產(chǎn)品質(zhì)量缺陷追溯,因此需要獲取帶鋼生產(chǎn)中存在的顯性以及隱性的知識構(gòu)建知識圖譜,并運(yùn)用知識圖譜實(shí)現(xiàn)對產(chǎn)品質(zhì)量缺陷追溯,整體架構(gòu)如圖1所示。
生產(chǎn)數(shù)據(jù)中包含大量隱性的知識,市場需求變化導(dǎo)致不同生產(chǎn)批次物料成分、工況的變動,使工藝參數(shù)與質(zhì)量參數(shù)之間的關(guān)聯(lián)強(qiáng)弱也在動態(tài)變化。本文通過SHAP方法,對建立的隨機(jī)森林質(zhì)量預(yù)測模型進(jìn)行事后解釋,計算不同工藝參數(shù)對質(zhì)量預(yù)測結(jié)果的貢獻(xiàn),其中對質(zhì)量預(yù)測結(jié)果貢獻(xiàn)大的工藝參數(shù)與質(zhì)量參數(shù)之間存在關(guān)聯(lián),需要以三元組的形式持久化在圖數(shù)據(jù)庫,如圖2所示。本文中知識圖譜采用自頂向下和自底向上相結(jié)合的方式構(gòu)建。首先通過工藝機(jī)理構(gòu)建知識圖譜模式層,其中工藝機(jī)理從工藝標(biāo)準(zhǔn)、技術(shù)文檔等資料中獲取信息,以反映原料種類、產(chǎn)品質(zhì)量規(guī)范和生產(chǎn)工藝流程。其次采用自底向上的方式,從企業(yè)會議記錄以及產(chǎn)品質(zhì)量分析報告等非結(jié)構(gòu)化數(shù)據(jù)源中獲取反映專家對生產(chǎn)中工藝參數(shù)同質(zhì)量之間關(guān)聯(lián)的經(jīng)驗(yàn)知識,補(bǔ)充到圖譜數(shù)據(jù)層。但面對大量歷史生產(chǎn)數(shù)據(jù),專家無法對每一個生產(chǎn)批次進(jìn)行分析判斷,因此需要通過上述數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)隱含在生產(chǎn)數(shù)據(jù)中工藝參數(shù)與質(zhì)量參數(shù)之間的關(guān)聯(lián),選擇其中置信度較高的信息,加入到知識圖譜中。
圖2 質(zhì)量分析知識圖譜結(jié)構(gòu)示意圖
在工業(yè)領(lǐng)域中知識圖譜側(cè)重于輔助生產(chǎn)決策。上述構(gòu)建圖譜中主要包括工況信息、物料信息、設(shè)備信息以及工藝參數(shù)和質(zhì)量參數(shù)之間關(guān)聯(lián),因此可以將圖譜應(yīng)用于產(chǎn)品質(zhì)量缺陷追溯,分析導(dǎo)致質(zhì)量缺陷的工藝參數(shù)。在帶鋼軋制中,需要根據(jù)不同的物料信息(如厚度、溫度、化學(xué)成分等)對精軋機(jī)組的負(fù)荷進(jìn)行分配,計算機(jī)控制系統(tǒng)則需要根據(jù)精軋機(jī)組的負(fù)荷進(jìn)一步計算各個機(jī)組的工藝參數(shù)。不同物料信息導(dǎo)致精軋機(jī)組工況不同,設(shè)定的工藝參數(shù)之間也存在差異。因此,在對某一次生產(chǎn)的質(zhì)量缺陷進(jìn)行追溯時,需要獲取與當(dāng)前生產(chǎn)中物料信息和工況信息相同或者相似的歷史生產(chǎn)信息所構(gòu)建的子圖。通過將子圖中的工藝參數(shù)實(shí)體、質(zhì)量參數(shù)實(shí)體以及工藝參數(shù)實(shí)體與質(zhì)量參數(shù)實(shí)體之間的關(guān)系映射到貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)對網(wǎng)絡(luò)結(jié)構(gòu)的獲取。工藝參數(shù)實(shí)體、質(zhì)量參數(shù)實(shí)體中使用屬性記錄的工藝參數(shù)與質(zhì)量參數(shù)的實(shí)際值,通過離散化算法來獲取貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)所需數(shù)據(jù),并確定網(wǎng)絡(luò)中各個變量的概率分布。最終將生產(chǎn)的工藝參數(shù)和質(zhì)量參數(shù)作為貝葉斯網(wǎng)絡(luò)中的已知變量,推斷出不同工藝參數(shù)和質(zhì)量參數(shù)間關(guān)聯(lián)存在的后驗(yàn)概率,實(shí)現(xiàn)對質(zhì)量缺陷的追溯。
熱軋帶鋼的質(zhì)量主要取決于精軋段中各個精軋機(jī)組,其中影響帶鋼質(zhì)量的工藝參數(shù)包括軋制力、壓下位置、入口溫度、水流量和機(jī)架速度等。出口段質(zhì)量的評估主要從尺寸、力學(xué)性能以及板型進(jìn)行分析,如表1所示。每一個生產(chǎn)批次中的精軋機(jī)組工藝參數(shù)、入口段工藝參數(shù)以及出口段質(zhì)量參數(shù)構(gòu)成單個樣本。
表1 帶鋼質(zhì)量指標(biāo)
針對不同質(zhì)量指標(biāo),以厚度y為例,數(shù)據(jù)挖掘任務(wù)首先需要建立以精軋機(jī)組工藝參數(shù)和入口段工藝參數(shù)(如入口溫度、入口厚度等)為特征x的質(zhì)量預(yù)測模型,本文通過隨機(jī)森林算法建立產(chǎn)品質(zhì)量缺陷的預(yù)測模型。隨機(jī)森林屬于集成模型,通過組合多個決策樹,使總體準(zhǔn)確度優(yōu)于集合中的任何單個決策樹。模型φ通過聚合函數(shù)G來聚合不同決策樹fi以實(shí)現(xiàn)對單個樣本的預(yù)測,公式如下:
(1)
實(shí)現(xiàn)對產(chǎn)品質(zhì)量缺陷預(yù)測后,通過SHAP獲取模型φ對單個樣本預(yù)測相應(yīng)的解釋,即局部解釋,以特征歸因的形式獲取模型預(yù)測行為中不同工藝參數(shù)的貢獻(xiàn),進(jìn)而獲取導(dǎo)致質(zhì)量偏差的關(guān)鍵工藝參數(shù)。對單個樣本x的局部解釋公式如下:
(2)
式中:g為解釋模型,m為樣本特征的維度,φ0(φ,x)=E[φ(X)]表示模型在訓(xùn)練數(shù)據(jù)集X中的預(yù)測期望值,φi(φ,x)為解釋模型對特征xi的歸因值(Shapley值)。每個特征Shapley值計算公式如下:
(3)
其中S為解釋模型所使用的特征子集。每一個特征的Shapley值描述該特征導(dǎo)致帶鋼產(chǎn)品缺陷的貢獻(xiàn),在特征集F={x1,…,xm}中選擇貢獻(xiàn)較大的特征,作為導(dǎo)致質(zhì)量缺陷的關(guān)鍵工藝參數(shù),將其持久化到知識圖譜,最終選擇的特征子集Fsub為:
(4)
其中M=max{φj|xj∈F}為所有特征中的最大Shapley值,k和n是超參數(shù),k限制集合中特征的最小Shapley值,n限制集合的大小。
知識圖譜的結(jié)構(gòu)示意圖如圖2所示,實(shí)體通過屬性包含許多生產(chǎn)信息。實(shí)體b包含每個生產(chǎn)批次的基本信息(如帶鋼號、段號等),構(gòu)成集合B;實(shí)體p包含某一工序下的多個工藝參數(shù)(如精軋機(jī)組工序的軋制力、壓下位置等工藝參數(shù)),構(gòu)成集合P;實(shí)體q中包含產(chǎn)品質(zhì)量信息,構(gòu)成集合Q;實(shí)體c包含生產(chǎn)中不同工況信息、物料信息(如鋼種、厚度級等)需要與實(shí)體b進(jìn)行關(guān)聯(lián),構(gòu)成集合C。同時,每一個生產(chǎn)批次中的實(shí)體p和實(shí)體q之間存在各種類型的關(guān)系r,通過關(guān)系的來源(如專家或SHAP)以及對實(shí)體q產(chǎn)生影響的具體工藝參數(shù)類型來區(qū)分,表示某一工序中某個工藝參數(shù)導(dǎo)致質(zhì)量缺陷,構(gòu)成集合R。
質(zhì)量缺陷的追溯通過將知識圖譜子圖映射為貝葉斯網(wǎng)絡(luò),實(shí)現(xiàn)對生產(chǎn)中工藝參數(shù)與質(zhì)量參數(shù)之間不確定關(guān)系的分析。貝葉斯網(wǎng)絡(luò)通過有向無環(huán)圖(Directed Acyclic Graph,DAG)表示一組變量及其條件依賴關(guān)系,適合用于從已有的觀測中推斷出可能的原因。定義貝葉斯網(wǎng)絡(luò)BN=(GBN,θ),其中GBN=(EBN,RBN)表示DAG結(jié)構(gòu),EBN表示變量集,RBN表示有向邊集,θ表示變量間的條件概率表。針對某一次生產(chǎn)的輸入信息x:
x=(xC,xP,xQ)。
(5)
式中:xC表示工況信息、物料信息對應(yīng)于圖譜中實(shí)體c,xP為工藝參數(shù)對應(yīng)于圖譜中實(shí)體p,xQ為質(zhì)量參數(shù)對應(yīng)于圖譜中實(shí)體q。
首先,實(shí)際生產(chǎn)中根據(jù)訂單中產(chǎn)品尺寸以及性能需求明確厚度級、溫度級、鋼種等工況和物料信息后,計算機(jī)控制系統(tǒng)需要依次計算每臺軋機(jī)的負(fù)荷、軋制速度以及其他工藝參數(shù),因此工作在不同工況下軋機(jī)的工藝參數(shù)存在明顯差異。文中將厚度級、溫度級、鋼種等作為子圖抽取的依據(jù),從圖譜中抽取部分實(shí)體b以及同實(shí)體b存在關(guān)聯(lián)的實(shí)體p和實(shí)體q所構(gòu)成的子圖Gsub:
Gsub=(Bsub,Psub,Qsub,Rsub)。
(6)
其中Bsub?B,Psub?P,Qsub?Q,Rsub?R,集合Bsub中每個實(shí)體在原圖譜中關(guān)聯(lián)的實(shí)體c的信息同xC一致或者相似。
在將子圖映射到貝葉斯網(wǎng)絡(luò)過程中,分為變量集EBN映射、有向邊集RBN映射兩個步驟。
(1)變量集EBN映射 貝葉斯網(wǎng)絡(luò)中存在兩種類型的節(jié)點(diǎn)變量:可觀測變量和潛在變量??捎^測變量包括生產(chǎn)中可測量的工藝參數(shù)變量以及最終檢測到的質(zhì)量參數(shù)變量;潛在變量是無法觀測的變量,表示生產(chǎn)中潛在的導(dǎo)致質(zhì)量缺陷的原因或參數(shù)。因此映射公式如下:
f:Pprop∪Qprop∪Rsub→EBN。
(7)
其中Pprop為Psub中屬性構(gòu)成工藝參數(shù)變量集合;Qprop為Qsub中屬性構(gòu)成的質(zhì)量參數(shù)變量集合,f表示映射法則,將Pprop和Qprop映射為貝葉斯網(wǎng)絡(luò)中的可觀測變量集,將不同類型的Rsub映射為潛在變量集。
(2)有向邊集RB映射 對Rsub中所有元素r:建立從r在子圖中對應(yīng)頭實(shí)體p映射的工藝變量到r映射的潛在變量的有向邊;建立從r映射的潛在變量到r在子圖中對應(yīng)尾實(shí)體q映射的質(zhì)量變量之間的有向邊。
(8)
(9)
其中:N表示總樣本數(shù),S表示質(zhì)量缺陷類別數(shù),m表示工藝參數(shù)劃分間隔數(shù),Ni+表示第i類質(zhì)量缺陷樣本總數(shù),N+r表示工藝參數(shù)在區(qū)間(dr-1,dr]的樣本總數(shù),qir表示工藝參數(shù)在區(qū)間(dr-1,dr]的類別為i的樣本總數(shù)。在訓(xùn)練數(shù)據(jù)D中使用極大似然估計獲取θ:
(10)
其中L(θ|D)=P(D|θ)是在給定θ后的條件概率,用使L(θ|D)最大化的θ*估計θ。最終將xP和xQ分別作為貝葉斯網(wǎng)絡(luò)中工藝參數(shù)變量EP和質(zhì)量參數(shù)變量EQ的輸入,估計各個潛在變量EPo導(dǎo)致質(zhì)量缺陷的后驗(yàn)概率p:
p=P(EPo|EP=xP,EQ=xQ)。
(11)
數(shù)據(jù)來自于某鋼鐵公司熱軋帶鋼精軋段生產(chǎn)線,如圖3所示共包括7臺精軋機(jī),分別為F1~F7。出口段設(shè)有帶鋼質(zhì)量的檢測儀表,可實(shí)時監(jiān)測軋件的厚度、溫度等質(zhì)量參數(shù),采集了8天內(nèi)精軋段7個精軋機(jī)的計算機(jī)控制系統(tǒng)設(shè)定的工藝參數(shù)和F7出口處傳感器檢測到的帶鋼質(zhì)量參數(shù),共8484組數(shù)據(jù)。表2給出精軋機(jī)組部分工藝參數(shù)及其數(shù)據(jù)庫中對應(yīng)英文字段的示例,機(jī)架號表示產(chǎn)線中機(jī)組的位置(如壓下位置_1或SCREW_DOWN_1表示第一臺精軋機(jī)組的壓下位置)。同時將精軋入口溫度(數(shù)據(jù)庫中英文字段:FM_ENTRY_TEMP)也作為預(yù)測模型的輸入特征。
表2 精軋機(jī)組工藝參數(shù)示例
圖3 帶鋼熱連軋精軋段
帶鋼質(zhì)量指標(biāo)如表1所示。其中力學(xué)性能以當(dāng)下傳感技術(shù)難以在生產(chǎn)中直接檢測。精軋過程中要求控制出口終軋溫度在一定范圍內(nèi),通常在帶鋼經(jīng)過層流冷卻和卷取機(jī)成卷后進(jìn)行采樣檢測,實(shí)際生產(chǎn)中專家主要通過出口溫度判斷帶鋼力學(xué)性能[25]。終軋溫度太低將使帶鋼力學(xué)性能下降,太高可能導(dǎo)致表面二次氧化[26],因此實(shí)驗(yàn)中使用出口終軋溫度近似力學(xué)性能的預(yù)測。最后將出口厚度和出口溫度作為質(zhì)量指標(biāo),分別對出口厚度和出口溫度進(jìn)行標(biāo)記,在規(guī)定的最小值與最大值之間為正樣本,低于規(guī)定的最小值為負(fù)樣本一,高于規(guī)定的最大值為負(fù)樣本二,標(biāo)記后的實(shí)驗(yàn)數(shù)據(jù)集如表3和表4所示。
表3 出口厚度數(shù)據(jù)集
表4 出口溫度數(shù)據(jù)集
根據(jù)式(1)使用隨機(jī)森林算法分別建立出口厚度和出口溫度的預(yù)測模型,從表3表4中看出兩個質(zhì)量指標(biāo)的正負(fù)樣本之間不平衡比較嚴(yán)重,導(dǎo)致模型對負(fù)樣本的分類性能下降,難以獲取有效的模型。模型分類的精度也會很大程度影響事后解釋方法的效果。實(shí)驗(yàn)中使用過采樣算法Borderline-SMOTE[27]平衡正負(fù)樣本,并通過網(wǎng)格搜索法從一組指定的參數(shù)中選擇隨機(jī)森林算法最優(yōu)超參數(shù),表5和表6中給出超參數(shù)搜索結(jié)果。最終采用特異度(specificity)、靈敏度(sensitivity)和G-mean作為評價指標(biāo)。特異度評價負(fù)樣本分類的正確率。靈敏度也稱召回率,評價正樣本分類的正確率。G-mean作為一個評價正樣本正確率和負(fù)樣本正確率的綜合指標(biāo)。表7和表8展示了表5和表6給定的超參數(shù)下模型分類的結(jié)果。
表5 厚度模型參數(shù)
表6 出口溫度模型超參數(shù)
表7 出口厚度分類模型結(jié)果
表8 出口溫度分類模型結(jié)果
通過式(3)計算出口厚度與出口溫度預(yù)測模型中每一個樣本的Shapley值,并用于分析工藝參數(shù)與質(zhì)量參數(shù)之間關(guān)系,圖4給出了厚度與出口溫度模型中特征重要度最大的前6個特征,以及它們對模型輸出的影響,紅色代表較高的特征值,藍(lán)色代表較低的特征值。例如,圖4aTORQUE_6中較高的特征值(紅紫色散點(diǎn))的Shapley值偏低,表明較高的F6的力矩可能與厚度低于規(guī)定的最小值有關(guān);圖4b FM_ENTRY_TEMP中較低的特征值(藍(lán)色散點(diǎn))的Shapley值偏低,表明較低的入口溫度可能導(dǎo)致出口溫度低于規(guī)定的最小值。
圖4 特征貢獻(xiàn)摘要圖
模型預(yù)測的正確性很大程度上影響Shapley可靠性,實(shí)驗(yàn)中設(shè)定閾值p,采納模型預(yù)測概率大于閾值的解釋,并且依據(jù)式(4)將特征子集中的工藝參數(shù)作為影響質(zhì)量參數(shù)的原因補(bǔ)充到知識圖譜中或者與已有的相關(guān)實(shí)體進(jìn)行關(guān)聯(lián),如圖5所示。圖5左側(cè)黃色實(shí)體類型為過程參數(shù)通過屬性記錄不同精軋機(jī)的工藝參數(shù),紅色實(shí)體類型為質(zhì)量參數(shù),綠色實(shí)體類型為每個生產(chǎn)批次的ID通過帶鋼號和段號區(qū)分。過程參數(shù)和質(zhì)量參數(shù)之間關(guān)聯(lián)的差異通過不同類型屬性邊來區(qū)別不同工藝參數(shù)的影響。例如圖中帶鋼號為216241511500的批次中,SHAP給出精軋機(jī)組F7的速度導(dǎo)致出口溫度低于規(guī)定的最小值;帶鋼號為216257202500的批次中,SHAP給出精軋機(jī)組F6的壓下位置導(dǎo)致出口厚度低于規(guī)定的最小值。
圖5 質(zhì)量分析知識圖譜
實(shí)驗(yàn)中將數(shù)據(jù)挖掘結(jié)果中80%的樣本持久化到知識圖譜中,20%的樣本作為驗(yàn)證集。在對驗(yàn)證集每一個樣本進(jìn)行質(zhì)量追溯時,首先使用物料信息(鋼種家族代碼中分類、鋼種家族代碼小分類)、工況信息(溫度級、厚度級)通過式(6)抽取子圖,其中企業(yè)中規(guī)定鋼種家族代碼中分類對帶鋼化學(xué)成分進(jìn)行初次劃分,小分類則進(jìn)行更細(xì)致劃分,厚度級和溫度級是出口厚度和出口溫度的規(guī)范。然后,依據(jù)式(7)完成貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)映射,將子圖中實(shí)體屬性包含的工藝參數(shù)利用CACC算法進(jìn)行離散化,并通過極大似然估計實(shí)現(xiàn)對貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),將工藝參數(shù)與質(zhì)量參數(shù)作為輸入,預(yù)測貝葉斯網(wǎng)絡(luò)中不同潛在變量的后驗(yàn)概率。潛在變量對應(yīng)圖譜中不同類型的關(guān)系,于是問題轉(zhuǎn)化為對工藝參數(shù)和質(zhì)量參數(shù)之間缺失關(guān)系進(jìn)行預(yù)測,因此使用平均倒數(shù)排名(MRR)、Hits@n(Hits@1、Hits@3、Hits@10)作為評價指標(biāo)。MRR用來衡量正確的潛在變量在所有候選潛在變量中排名倒數(shù)的平均值,該評價指標(biāo)越高,表明正確的潛在變量在候選潛在變量列表中的排名越靠前,模型預(yù)測越準(zhǔn)確。Hits@n用來衡量正確的潛在變量排名前n位的概率,該指標(biāo)越高,表明效果越好。
(12)
(13)
同時實(shí)驗(yàn)中需要依次確定閾值p以及式(4)中的比例系數(shù)k,特征子集限制因子n三個參數(shù),通過調(diào)整3個參數(shù)的取值使評價指標(biāo)MRR最大化。其中參數(shù)p是在采納解釋時設(shè)定的模型預(yù)測概率閾值,當(dāng)模型預(yù)測概率較高時才能保證解釋的可信性;參數(shù)k是比例系數(shù),保證最終選擇的特征子集中的工藝參數(shù)對預(yù)測模型輸出具有較大影響;限制因子n的作用是限制特征子集大小。實(shí)驗(yàn)結(jié)果如圖6所示,結(jié)果表明p=0.65,k=1.5,n=2時,評價指標(biāo)MRR最大化。
圖6 參數(shù)確定實(shí)驗(yàn)結(jié)果
下面給出驗(yàn)證集中一個案例,各個精軋機(jī)組工藝參數(shù)見表9,精軋入口溫度為966.25℃,出口厚度為3.00mm, 出口溫度為888.2℃, 其中出口溫度低于規(guī)定的最小值。子圖抽取中給出9個潛在變量,如表10所示。最終對各個潛在變量導(dǎo)致質(zhì)量缺陷的概率進(jìn)行預(yù)測,得出精軋機(jī)組F3的軋制速度導(dǎo)致出口溫度低于規(guī)定的最小值。同時此案例中被標(biāo)記的導(dǎo)致質(zhì)量缺陷的工藝參數(shù)為精軋機(jī)組F3的軋制速度,其在所有潛在變量預(yù)測概率中排名為1。
表9 精軋機(jī)組工藝參數(shù)
表10 預(yù)測概率
最終在整個驗(yàn)證集中進(jìn)行了實(shí)驗(yàn),得出每個樣本中標(biāo)記的導(dǎo)致質(zhì)量缺陷的工藝參數(shù)在所有潛在變量中的排名并計算評價指標(biāo),結(jié)果如表11所示。通過Hits@3指標(biāo)可以看出,在驗(yàn)證集中標(biāo)注的導(dǎo)致質(zhì)量缺陷的工藝參數(shù),大部分都能被模型準(zhǔn)確地識別。
表11 質(zhì)量分析結(jié)果
針對熱軋帶鋼生產(chǎn)過程機(jī)理復(fù)雜、工序關(guān)聯(lián)關(guān)系耦合、工藝參數(shù)繁多等問題,本文采用可解釋人工智能方法實(shí)現(xiàn)數(shù)據(jù)挖掘,通過知識圖譜有效融合生產(chǎn)中存在的工藝機(jī)理、專家經(jīng)驗(yàn)以及數(shù)據(jù)挖掘結(jié)果等知識,并將知識圖譜的結(jié)構(gòu)信息和生產(chǎn)信息映射到貝葉斯網(wǎng)絡(luò),實(shí)現(xiàn)對導(dǎo)致熱軋帶鋼質(zhì)量缺陷的關(guān)鍵工藝參數(shù)的識別。最終,對實(shí)際生產(chǎn)數(shù)據(jù)中200個存在質(zhì)量缺陷的批次進(jìn)行驗(yàn)證,結(jié)果顯示,對于大部分導(dǎo)致質(zhì)量缺陷工藝參數(shù)具有較好識別率。
需要指出的是,數(shù)據(jù)挖掘的可靠性十分重要。同一批次數(shù)據(jù)中,數(shù)據(jù)挖掘結(jié)果和不同專家的分析結(jié)果可能有偏差,這些結(jié)果最終被采納的概率也不相同。知識圖譜中存在許多三元組來源于SHAP對預(yù)測模型的解釋結(jié)果,在不同批次數(shù)據(jù)下,隨機(jī)森林模型對預(yù)測結(jié)果給出的概率存在差異,導(dǎo)致解釋結(jié)果可信度不相同。本文在對質(zhì)量缺陷追溯獲取關(guān)鍵工藝參數(shù)的過程中,沒有考慮到不同三元組的可信度,未來的研究將結(jié)合知識圖譜中不同知識來源的可信度,進(jìn)一步提高質(zhì)量缺陷追溯的識別率和可信度。