趙凡銳,趙元沛,孫仲平,周 利,吉 旭
(1.四川大學(xué) 化學(xué)工程學(xué)院,四川 成都 610065;2.重慶大學(xué)輸配電裝備及系統(tǒng)安全與新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,重慶 400044)
當(dāng)前工業(yè)生產(chǎn)過(guò)程正日益向大型化和復(fù)雜化發(fā)展,HSE(Health,Safety,Environment)評(píng)估模型已成為企業(yè)通過(guò)智能化措施保持持續(xù)發(fā)展的重要模式[1-2]。系統(tǒng)可靠性(System reliability,)是評(píng)估企業(yè)HSE狀態(tài)的重要因素之一[3-4], Saleh和Marais研究了復(fù)雜系統(tǒng)的可靠性理論[5],Graves等人利用全貝葉斯方法根據(jù)多狀態(tài)及多層次信息傳遞特點(diǎn)構(gòu)建系統(tǒng)故障樹(shù)[6],劉文等人建立了面向故障的可靠性模型,用于評(píng)估化學(xué)系統(tǒng)的安全性、環(huán)境性和經(jīng)濟(jì)性[7],李總根總結(jié)了基于概率統(tǒng)計(jì)的常規(guī)可靠性評(píng)估進(jìn)展,給出了基于信息理論的復(fù)雜系統(tǒng)可靠性多層次模型[8]。
然而對(duì)于具有多輸入、多輸出、非線性、數(shù)據(jù)高維等特點(diǎn)的復(fù)雜化工系統(tǒng)[9],傳統(tǒng)的基于物理模型的方法已經(jīng)難以進(jìn)行有效評(píng)估。隨著先進(jìn)技術(shù)的逐步應(yīng)用,計(jì)算機(jī)建模為開(kāi)發(fā)更有效的系統(tǒng)可靠性評(píng)估方法提供了機(jī)會(huì),神經(jīng)網(wǎng)絡(luò)模型已成為此類復(fù)雜化工系統(tǒng)的研究重點(diǎn)。Liu等人提出了一種GRA-GA-BP-MCRC的混合算法[10],其中灰色關(guān)聯(lián)分析(GRA)用于指標(biāo)體系的降維,GA-BP為模型的訓(xùn)練及預(yù)測(cè)算法,馬爾科夫鏈殘差校正(MCRC)用于預(yù)測(cè)誤差的校正。神經(jīng)網(wǎng)絡(luò)模型對(duì)于有足夠數(shù)據(jù)水平的復(fù)雜系統(tǒng)是可行的,但是化工系統(tǒng)通常僅在短時(shí)間內(nèi)穩(wěn)定,來(lái)自化工系統(tǒng)的數(shù)據(jù)通常是小樣本。小樣本的數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)方法難以達(dá)到較好的預(yù)測(cè)效果。近年來(lái),智能算法逐漸應(yīng)用于可靠性評(píng)估的問(wèn)題。Nieto等人建立了一個(gè)基于PSO-SVM的混合模型,用于預(yù)測(cè)飛機(jī)發(fā)動(dòng)機(jī)的剩余使用壽命并評(píng)估其可靠性,這是在可靠性領(lǐng)域的成功探索[11]。Benali等人比較了運(yùn)用人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法預(yù)測(cè)太陽(yáng)輻射組成,發(fā)現(xiàn)隨機(jī)森林算法的預(yù)測(cè)精度要好[12]。
基于此,本文建立了PCA-RF混合預(yù)測(cè)模型,利用隨機(jī)森林算法(RF)所需樣本小、泛化能力強(qiáng)的特點(diǎn)實(shí)現(xiàn)可靠性的預(yù)測(cè),主成分分析法(PCA)主要用于指標(biāo)體系的約簡(jiǎn),以達(dá)到簡(jiǎn)化運(yùn)算提高預(yù)測(cè)精度的目的。
主成分分析法(Principal component analysis,PCA)是一種提取特征或提取有效信息的方法。在實(shí)際的問(wèn)題研究中,為了全面的反映某一問(wèn)題,必須考慮影響該問(wèn)題的眾多因素,這些因素稱為指標(biāo),也叫變量。通常這些變量間存在著一定的相關(guān)性,因此反應(yīng)的信息也有部分重疊,而且眾多的變量也會(huì)增加問(wèn)題的復(fù)雜度,降低模型收斂速度等。因此在研究變量時(shí),理想的方法就是用最少的指標(biāo)來(lái)反映最多的信息,PCA方法就是研究此類問(wèn)題的理想工具。PCA方法是在保證損失最少信息的前提下,將影響問(wèn)題的變量線性組合為幾個(gè)綜合指標(biāo),即主成分,這些主成分不僅保留了原始變量的主要信息,而且相互之間不存在相關(guān)關(guān)系,避免了信息的冗余,達(dá)到簡(jiǎn)化模型的作用。
隨機(jī)森林算法(Random forest,RF)是一種集成學(xué)習(xí)方法[13]。集成學(xué)習(xí)方法是一種將個(gè)體學(xué)習(xí)器通過(guò)某種策略集成為一個(gè)強(qiáng)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)的方法。隨機(jī)森林是一種以決策樹(shù)為基學(xué)習(xí)器Bagging集成方法的組合算法。
Bagging是并行式集成方法的典型代表。它通過(guò)自助采樣法(bootstrap)進(jìn)行重采樣,設(shè)給定含有m個(gè)樣本的數(shù)據(jù)集,從樣本數(shù)據(jù)集中隨機(jī)抽取一個(gè)放入采樣器中,然后再把該樣本數(shù)據(jù)放回原數(shù)據(jù)集中,這樣下次抽取的時(shí)候該數(shù)據(jù)還有被抽中的可能,經(jīng)過(guò)m次這樣有放回的抽取,得到了一個(gè)含有m個(gè)樣本的采樣集。這種抽樣的結(jié)果是,有的數(shù)據(jù)被多次抽中而有的數(shù)據(jù)則一次都沒(méi)被抽中,有數(shù)據(jù)表明,這種重采樣技術(shù)每個(gè)樣本被抽中的概率是63.2%。
按照上述方法抽取T個(gè)含有m個(gè)樣本的采樣集,針對(duì)每一個(gè)采樣集,訓(xùn)練一個(gè)基學(xué)習(xí)器,然后把這些基學(xué)習(xí)器組合起來(lái)進(jìn)行輸出,這就是Bagging集成方法的基本流程。對(duì)于分類問(wèn)題,基學(xué)習(xí)器之間的組合方式就是簡(jiǎn)單投票法,對(duì)于回歸問(wèn)題,基學(xué)習(xí)器之間的組合方式是簡(jiǎn)單平均法。
隨機(jī)森林是Bagging集成技術(shù)的一個(gè)變體。隨機(jī)森林在以決策樹(shù)為基學(xué)習(xí)器Bagging集成的基礎(chǔ)上,加入了隨機(jī)屬性的選擇。通常決策樹(shù)在選擇屬性劃分時(shí)是在當(dāng)前結(jié)點(diǎn)所有的屬性中(假設(shè)有d個(gè)屬性)選擇一個(gè)最佳屬性,而隨機(jī)森林中的基決策樹(shù)在選擇屬性劃分時(shí),從當(dāng)前結(jié)點(diǎn)的屬性集合中隨機(jī)選擇k個(gè)屬性進(jìn)行劃分。參數(shù)k決定了隨機(jī)屬性的引入程度,當(dāng)k=d時(shí),隨機(jī)森林中的基決策樹(shù)與普通決策樹(shù)一樣,進(jìn)行全特征屬性的劃分;當(dāng)k=1時(shí),則是隨機(jī)選擇一個(gè)屬性進(jìn)行劃分,一般情況下,。
隨機(jī)森林算法的流程圖如圖1所示:
圖1 隨機(jī)森林流程圖
隨機(jī)森林具有算法簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算開(kāi)銷小等特點(diǎn)。大量的研究和實(shí)踐表明,隨機(jī)森林算法具有很好的預(yù)測(cè)效果,泛化能力強(qiáng),并且能夠適應(yīng)異常值和噪聲值,即使是數(shù)據(jù)損失也能夠保持較高的預(yù)測(cè)效果。
以復(fù)雜化工系統(tǒng)為研究體系,以系統(tǒng)可靠度為研究對(duì)象,由影響系統(tǒng)可靠性的影響因素來(lái)預(yù)測(cè)化工系統(tǒng)的可靠度是本研究的主要內(nèi)容。
在進(jìn)行化工系統(tǒng)可靠性評(píng)估模型構(gòu)建前,首先要確立可靠性評(píng)估指標(biāo)體系,影響化工系統(tǒng)可靠性的因素眾多,不僅要考慮設(shè)備發(fā)生故障的總頻次、造成停車的總時(shí)間,還涉及到環(huán)境因素、人為因素等,因此指標(biāo)體系涉及到的因素眾多。本文將企業(yè)運(yùn)行和現(xiàn)場(chǎng)管理的4M1E模型,即人員(Man),機(jī)器(Machine),物料(Material),管理方法(Management),環(huán)境(Environment)五個(gè)要素,應(yīng)用于化工系統(tǒng)可靠性評(píng)估指標(biāo)體系的構(gòu)建,這五個(gè)方面基本涵蓋了化工生產(chǎn)的各個(gè)方面,能較全面且系統(tǒng)的反映化工生產(chǎn)的各個(gè)環(huán)節(jié)。具體指標(biāo)如表1~表5。
表1 人員模塊相關(guān)指標(biāo)
表2 機(jī)器模塊相關(guān)指標(biāo)
表3 物料模塊相關(guān)指標(biāo)
表4 管理方法模塊相關(guān)指標(biāo)
表5 環(huán)境模塊相關(guān)指標(biāo)
綜合人員,機(jī)器,物料,管理方法和環(huán)境因素,共產(chǎn)生37個(gè)影響因素指標(biāo),這37個(gè)指標(biāo)基本涵蓋了復(fù)雜生產(chǎn)操作系統(tǒng)所有的環(huán)節(jié)。
在構(gòu)建了影響系統(tǒng)可靠性的指標(biāo)體系后,接下來(lái)進(jìn)行系統(tǒng)可靠度預(yù)測(cè)模型的構(gòu)建,提出用兩步法PCA-RF混合算法模型來(lái)實(shí)現(xiàn)化工系統(tǒng)可靠度的預(yù)測(cè)。第一步,首先預(yù)測(cè)按照4M1E分類法得到的五個(gè)子系統(tǒng)的評(píng)價(jià)值;第二步由預(yù)測(cè)得到的五個(gè)子系統(tǒng)的評(píng)價(jià)值作為輸入來(lái)預(yù)測(cè)整個(gè)系統(tǒng)的可靠度。兩步法的拓?fù)鋱D如圖2所示。主成分分析法(PCA)用于對(duì)指標(biāo)體系的降維,去除掉對(duì)系統(tǒng)可靠性影響小的指標(biāo),達(dá)到簡(jiǎn)化運(yùn)算,提高預(yù)測(cè)精度的目的。隨機(jī)森林算法(RF)作為模型的訓(xùn)練及預(yù)測(cè)算法,主要用于第一步中各個(gè)子系統(tǒng)評(píng)價(jià)值的預(yù)測(cè)及第二步中整個(gè)系統(tǒng)可靠度的預(yù)測(cè)。兩步法PCA-RF混合算法模型的具體結(jié)構(gòu)框圖如圖3所示。
圖2 兩步法拓?fù)浣Y(jié)構(gòu)圖
圖3 兩步法PCA-RF混合算法模型結(jié)構(gòu)圖
本研究以我國(guó)某集團(tuán)合成氨分廠提供的數(shù)據(jù)為例,進(jìn)行模型的驗(yàn)證[14]。圖4顯示的是該合成氨分廠部分工序的生產(chǎn)流程圖,包括脫除二氧化碳工序、空氣凈化分離工序、閃蒸工序、解吸工序、冷凝工序等15個(gè)工序。以建立的可靠性評(píng)估指標(biāo)體系,即4M1E指標(biāo)分類原則,獲取研究所需的數(shù)據(jù)樣本。
圖4 合成氨分廠部分工序生產(chǎn)流程圖
由于化工廠數(shù)據(jù)的采集和維護(hù)具有周期性,復(fù)雜系統(tǒng)的數(shù)據(jù)收集也較困難,獲得了該廠2013年穩(wěn)定運(yùn)行的100組數(shù)據(jù)進(jìn)行研究,是典型的小樣本數(shù)據(jù)。將收集到的數(shù)據(jù)分為人,機(jī),料,法,環(huán)五個(gè)方面,具體指標(biāo)見(jiàn)表1~5。
化工系統(tǒng)的可靠性用系統(tǒng)可靠度進(jìn)行表征,系統(tǒng)可靠性分五個(gè)等級(jí),如表6所示,系統(tǒng)可靠度的取值為[1,5],具體評(píng)價(jià)值采用德?tīng)柗品╗15]由專家打分給出。德?tīng)柗品ㄊ且环N匿名函詢反饋法,具體步驟為:將要評(píng)估的問(wèn)題匿名發(fā)放給各位專家,獲取專家的意見(jiàn)后,進(jìn)行整理、歸類、統(tǒng)計(jì)、總結(jié)后,再匿名反饋給各位專家,再次獲取意見(jiàn),再集中,再反饋,直到獲得一致的意見(jiàn)為止。
表6 系統(tǒng)可靠性的五個(gè)等級(jí)
化工系統(tǒng)可靠性評(píng)估的原始數(shù)據(jù)如表7所示。{1,0.9,0.8,0.7,0.5}代表定性指標(biāo)定量化后的五個(gè)定量等級(jí)(例如a5,c1)。a,b,c,d,e表示五個(gè)子系統(tǒng)的評(píng)價(jià)值,表示整個(gè)化工系統(tǒng)的評(píng)價(jià)值。a,b,c,d,e,的評(píng)價(jià)值及其他定性評(píng)價(jià)指標(biāo)(例如d2,e4)均由德?tīng)柗品ㄓ蓪<掖蚍纸o出。
表7 可靠性評(píng)估原始數(shù)據(jù)
3.3.1 主成分分析
利用SPSS軟件分別對(duì)五個(gè)子系統(tǒng)進(jìn)行主成分分析,以達(dá)到保留主要影響因素,去除冗余因素,簡(jiǎn)化模型輸入指標(biāo)的作用。下面以物料子系統(tǒng)為例進(jìn)行結(jié)果分析。
由表8可以看出,各指標(biāo)之間存在較強(qiáng)的相關(guān)性,有必要進(jìn)行主成分分析。表9為總方差解釋,代表各個(gè)指標(biāo)方差占總方差的比重,由表9可以看出,有一個(gè)最大貢獻(xiàn)率的主成分,即特征值為7.454,滿足特征值其貢獻(xiàn)率達(dá)到93.177%,這說(shuō)明第一個(gè)主成分就提供了足夠多原始數(shù)據(jù)的信息,因此得到一個(gè)主成分。
表8 相關(guān)性矩陣
表9 總方差解釋
如圖5所示的碎石圖是根據(jù)SPSS軟件自動(dòng)生成的,碎石圖也可以作為判斷主成分個(gè)數(shù)的依據(jù)。碎石圖橫坐標(biāo)代表主成分的個(gè)數(shù),縱坐標(biāo)代表各個(gè)主成分的特征值,由圖可以看出,在第二個(gè)主成分處發(fā)生明顯偏折,且其之后的特征值都不滿足特征值λ≥1。
綜上,物料子系統(tǒng)的指標(biāo)所提取到的主成分個(gè)數(shù)為一個(gè)。表10是由SPSS軟件得到的成分得分系數(shù)矩陣,該矩陣代表各個(gè)變量在主成分中對(duì)應(yīng)的系數(shù),可用下式進(jìn)行表示:
Z1=0.115a1+0.129a2+0.132a3+0.132a4+0.132a5+0.132a6+0.132a7+0.131a8
(1)
由式(1)可以看出,a3,a4,a5,a6,a7,a8的系數(shù)遠(yuǎn)大于a1,a2的系數(shù),因此第一主成分Z1是由a3,a4,a5,a6,a7,a8所確定的,可將a1,a2剔除,達(dá)到簡(jiǎn)化運(yùn)算的目的。
圖5 主成分分析法碎石圖
表10 成分得分系數(shù)矩陣
以同樣的方法對(duì)其他四個(gè)子系統(tǒng)進(jìn)行主成分分析,得到如下結(jié)論:
機(jī)器子系統(tǒng):
得到一個(gè)主成分Z2,各個(gè)變量在主成分中對(duì)應(yīng)的系數(shù)如式(2):
Z2=0.068b1+0.120b2+0.12363+0.123b4+0.122b5+0.122b6+0.123b7+0.122b8+0.121b9
(2)
Z2由b2,b3,b4,b5,b6,b7,b8,b9所確定,可將b1剔除。
物料子系統(tǒng):
得到一個(gè)主成分Z3,各個(gè)變量在主成分中對(duì)應(yīng)的系數(shù)如式(3):
Z3=0.180c1+0.180c2+0.180c3+0.180c4-0.157c5-0.165c6
(3)
Z3由c1,c2,c3,c4所確定,可將c5,c6剔除。
管理方法子系統(tǒng):
得到一個(gè)主成分Z4,各個(gè)變量在主成分中對(duì)應(yīng)的系數(shù)如式(4):
Z4=0.125d1+0.130d2+0.130d3+0.126d4+0.125d5+0.130d6+0.130d7+0.130d8
(4)
Z4由d2,d3,d6,d7,d8所確定,可將d1,d4,d5剔除。
環(huán)境子系統(tǒng):
得到一個(gè)主成分Z5,各個(gè)變量在主成分中對(duì)應(yīng)的系數(shù)如式(5):
Z5=0.171e1+0.171e2+0.171e3-0.167e4-0.168e5-0.170e6
(5)
Z6由e1,e2,e3所確定,可將e4,e5,e6剔除。
這樣,經(jīng)過(guò)主成分分析,將37個(gè)影響系統(tǒng)可靠性的因素簡(jiǎn)化為26個(gè)。
3.3.2 隨機(jī)森林算法預(yù)測(cè)分析
如圖3所示的兩步法模型示意圖,在經(jīng)過(guò)主成分分析法得到各個(gè)子系統(tǒng)的約簡(jiǎn)指標(biāo)后,第一步是針對(duì)人,機(jī),料,法,環(huán)五個(gè)子系統(tǒng),對(duì)每個(gè)子系統(tǒng)用隨機(jī)森林算法(RF)進(jìn)行子系統(tǒng)評(píng)價(jià)值的預(yù)測(cè)。將收集到的100條數(shù)據(jù)(表7)分為兩個(gè)數(shù)據(jù)集,其中前50條數(shù)據(jù)(No.1~No.50)為訓(xùn)練集,后50條數(shù)據(jù)(No.51~No.100)為測(cè)試集。模型的輸入為各子系統(tǒng)經(jīng)主成分分析法簡(jiǎn)化后的輸入節(jié)點(diǎn),輸出為各子系統(tǒng)的評(píng)價(jià)值(即a,b,c,d,e)。
對(duì)于各個(gè)子系統(tǒng),算法中的參數(shù)及訓(xùn)練精度如表12所示,預(yù)測(cè)的各個(gè)子系統(tǒng)的評(píng)價(jià)值如表13所示。
表11 第一步模型訓(xùn)練參數(shù)
表12 各子系統(tǒng)評(píng)價(jià)值的預(yù)測(cè)值
將第一步得到的各個(gè)子系統(tǒng)評(píng)估值的50組數(shù)據(jù),如表12所示,分為兩個(gè)數(shù)據(jù)集,其中前40條數(shù)據(jù)(51pred~90pred)作為第二步的訓(xùn)練集,后10條數(shù)據(jù)(91pred~100pred)作為測(cè)試集,五個(gè)子系統(tǒng)評(píng)價(jià)值的預(yù)測(cè)值(即apred,bpred,cpred,dpred,epred)作為模型的輸入值,整個(gè)系統(tǒng)的可靠度為輸出值,采用隨機(jī)森林算法進(jìn)行模型的訓(xùn)練及預(yù)測(cè)。
第二步模型的參數(shù)及訓(xùn)練精度如表13所示:
表13 第二步模型的訓(xùn)練參數(shù)
為了進(jìn)一步對(duì)比模型預(yù)測(cè)的準(zhǔn)確性,劉文等人[10]提出的針對(duì)化工系統(tǒng)可靠性預(yù)測(cè)的兩步法GRA-GA-BP-MCRC模型將被用于對(duì)比研究。表14給出了兩種模型對(duì)系統(tǒng)可靠度預(yù)測(cè)值的對(duì)比分析。
表14 兩種模型預(yù)測(cè)結(jié)果對(duì)比分析
根據(jù)表14可以看出,GRA-GA-BP-MCRC模型相對(duì)誤差絕對(duì)值的波動(dòng)范圍為0~23.30%。PCA-RF模型相對(duì)誤差絕對(duì)值的波動(dòng)范圍為0~12.74%,PCA-RF模型的相對(duì)誤差波動(dòng)范圍要明顯小于GRA-GA-BP-MCRC模型的相對(duì)誤差波動(dòng)范圍。將兩種模型的相對(duì)誤差繪制成折線圖,如圖6所示。由圖中也可以看出,兩步法PCA-RF模型相對(duì)誤差的波動(dòng)范圍更小,模型具有更強(qiáng)的穩(wěn)定性和預(yù)測(cè)精度。
為更進(jìn)一步分析模型的預(yù)測(cè)結(jié)果,利用均方誤差(MSE)和平均相對(duì)誤差(MRE)來(lái)判斷結(jié)果的精確度。MSE和MRE越小,真實(shí)值和預(yù)測(cè)值相差越小,模型精確度越高。MSE和MRE的計(jì)算公式如下:
(6)
式中:ki實(shí)際值;oi是模擬值;N是數(shù)據(jù)總數(shù)。
表15~16分別給出了兩種模型對(duì)各個(gè)子系統(tǒng)和總系統(tǒng)的預(yù)測(cè)結(jié)果。
圖6 兩種模型的相對(duì)誤差折線圖
表15 GRA-GA-BP-MCRC模型預(yù)測(cè)精度分析
表16 PCA-RF模型預(yù)測(cè)精度分析
由表15~16可以看出,本文提出的兩步法PCA-RF模型比文獻(xiàn)中的GRA-GA-BP-MCRC模型具有更高的預(yù)測(cè)精度。對(duì)整個(gè)系統(tǒng)可靠度的預(yù)測(cè),PCA-RF模型的MSE值為0.068,低于對(duì)比模型的MSE值0.131;PCA-RF模型的MRE值為6.60%,同樣低于對(duì)比模型的MRE值9.69%。因此,對(duì)于化工系統(tǒng)可靠性評(píng)估問(wèn)題的研究,本文提出的模型不僅簡(jiǎn)潔,而且具有更高的預(yù)測(cè)精度。
本研究以復(fù)雜化工系統(tǒng)為研究對(duì)象,進(jìn)行可靠性評(píng)估指標(biāo)體系的分類和可靠性評(píng)估模型的構(gòu)建,提出一種兩步法PCA-RF混合算法模型,該模型用于解決復(fù)雜化工系統(tǒng)的可靠性評(píng)估問(wèn)題,并進(jìn)行了案例的應(yīng)用分析,主要結(jié)論如下:
(1)根據(jù)4M1E分類原則,將影響化工系統(tǒng)可靠性的因素分為五個(gè)方面,即人員、機(jī)器、材料、管理方法和環(huán)境,構(gòu)建了化工系統(tǒng)可靠性評(píng)估的指標(biāo)體系。
(2)利用主成分分析法進(jìn)行數(shù)據(jù)預(yù)處理,除去影響因素小的指標(biāo),簡(jiǎn)化模型,避免過(guò)擬合現(xiàn)象的發(fā)生。
(3)建立了兩步法PCA-RF模型。此模型在實(shí)例中較GRA-GA-BP-MCRC模型取得了良好的預(yù)測(cè)結(jié)果,平均相對(duì)誤差從9.69%下降到6.60%,均方誤差從0.131下降到0.068。