楊冬英
(山西大學商務(wù)學院,太原 030031)
通常,工控企業(yè)由于自動化程度不高,導致生產(chǎn)過程中產(chǎn)生的數(shù)據(jù)很難實時傳送到用戶端,導致用戶端也很難及時將控制命令傳達給設(shè)備端,結(jié)果導致工控企業(yè)的生產(chǎn)效率比較低。近年來,隨著計算機網(wǎng)絡(luò)滲入到各行各業(yè),尤其是生產(chǎn)領(lǐng)域,許多工控企業(yè)網(wǎng)絡(luò)逐漸向智能化發(fā)展,生產(chǎn)過程中相關(guān)數(shù)據(jù)的采集、設(shè)備的監(jiān)控與故障診斷與處理等,都可以集中整合到自動化網(wǎng)絡(luò)信息系統(tǒng)中,從而實現(xiàn)了生產(chǎn)過程的全自動化監(jiān)控和管理。
目前,計算機網(wǎng)絡(luò)由于具有可靠性、實時性等特點,同時還可以兼容現(xiàn)場控制總線技術(shù),被廣泛應(yīng)用到工控企業(yè)網(wǎng)絡(luò)中。傳統(tǒng)的工控網(wǎng)絡(luò)一般都屬于專用網(wǎng)絡(luò),計算機通過與PLC卡件的連接獲取實時數(shù)據(jù),并將數(shù)據(jù)傳輸給操作人員進行分析、控制,同時操作人員也將命令傳送給現(xiàn)場終端設(shè)備。當故障發(fā)生時,操作人員無法通過計算機網(wǎng)絡(luò)實時了解現(xiàn)場設(shè)備故障情況以及生產(chǎn)狀況,導致工作效率比較低。如何有效、快速、安全地診斷出工控企業(yè)網(wǎng)絡(luò)中的故障,保證工控企業(yè)能夠正常生產(chǎn)運行,是目前工控企業(yè)網(wǎng)絡(luò)亟需解決的核心問題。
本文主要分析在現(xiàn)有故障診斷方法的基礎(chǔ)上,結(jié)合工控企業(yè)實際特點,提出了一種精確度加權(quán)隨機森林算法((Accuracy Weighted Random Forest,AWRF)。該算法根據(jù)每棵決策樹的分類能力來設(shè)定其相對應(yīng)的權(quán)重,很大程度上解決了數(shù)據(jù)不均衡帶來的問題。該算法比較其他算法具有更高的分類效率,更加適合工控企業(yè)網(wǎng)絡(luò)環(huán)境。通過與其他相關(guān)算法做對比實驗,可以證明該算法的可靠性、有效性還是比較高。
組成工控系統(tǒng)的設(shè)備類型主要包括工業(yè)生產(chǎn)控制設(shè)備、工業(yè)網(wǎng)絡(luò)通信設(shè)備、工業(yè)主機設(shè)備、工業(yè)生產(chǎn)信息系統(tǒng)、工業(yè)網(wǎng)絡(luò)安全設(shè)備五類設(shè)備。工業(yè)網(wǎng)絡(luò)安全設(shè)備主要包括工業(yè)防火墻、工業(yè)網(wǎng)閘、主機安全防護設(shè)備等。工業(yè)生產(chǎn)控制設(shè)備主要包括可邏輯編程控制器(PLC)、分布式控制系統(tǒng)(DCS)、遠程中端設(shè)備(RTU)、數(shù)控機床、工業(yè)機器人、智能儀表等。工業(yè)網(wǎng)絡(luò)通信設(shè)備包括工業(yè)交換機、工業(yè)路由器、串口服務(wù)器等。工業(yè)主機設(shè)備主要包括工業(yè)主機、組態(tài)軟件&數(shù)據(jù)采集與監(jiān)控系統(tǒng)(SCADA)軟件、工業(yè)數(shù)據(jù)庫等。工業(yè)生產(chǎn)信息系統(tǒng)主要包括制造執(zhí)行系(MES)、ERP管理系統(tǒng)、工業(yè)云等。
近年來人們對工控企業(yè)網(wǎng)絡(luò)智能化故障診斷技術(shù)進行了深入研究,文獻[1]提出了遠程機械故障診斷和服務(wù)系統(tǒng),將其應(yīng)用于遠程控制智能診斷中,使診斷實現(xiàn)遠程智能控制。但是文獻[2]提出了基于神經(jīng)網(wǎng)絡(luò)診斷方法,將其應(yīng)用于電機伺服閥的故障診斷中,使故障診斷速度得到加速。文獻[3]提出了基于Web遠程故障服務(wù)系統(tǒng),使診斷實現(xiàn)實時性,文獻[4]提出了基于IE瀏覽器的數(shù)控故障診斷系統(tǒng),使診斷得到了網(wǎng)絡(luò)化。文獻[4]提出了專家系統(tǒng)診斷方法,使診斷實現(xiàn)了系統(tǒng)化。文獻[5]利用貝葉斯網(wǎng)絡(luò)的概率原理,根據(jù)設(shè)備間的故障傳播關(guān)系建立了系統(tǒng)模型,找出了可能出現(xiàn)的故障的主要原因,大大提升了故障定位的精度,并將該算法應(yīng)用于復雜的飛機自動增壓系統(tǒng)的故障診斷中,具有一定的應(yīng)用價值。
上述方法都對工控企業(yè)網(wǎng)絡(luò)故障診斷提出了相應(yīng)對策及建議,但是,都沒有涉及到非平衡數(shù)據(jù),非平衡數(shù)據(jù)對分類結(jié)果會造成巨大影響,目前,處理非平衡數(shù)據(jù)問題的方法主要有兩種:一種是改進算法,使它可以采集并分析非平衡的數(shù)據(jù);二是處理非平衡數(shù)據(jù),目前,對非平衡數(shù)據(jù)的處理普遍采用向上或向下采樣法、SMOTE算法、SUV算法,向上采樣法會導致出現(xiàn)重復數(shù)據(jù),雖然該方法可以使少類樣本數(shù)據(jù)達到要求的數(shù)量,但并不是樣本自然生成的數(shù)據(jù),無法完整地描述少類樣本數(shù)據(jù)的特征。向下采樣法會損害數(shù)據(jù),特別是在少類樣本量比較少的情況下,甚至無法完成訓練。為此,本文提出了一種精確度加權(quán)隨機森林算法(AWRF),加入了決策樹投票權(quán)重的概念,優(yōu)化了決策樹的投票能力,為工控企業(yè)網(wǎng)絡(luò)的故障診斷提供了科學合理的決策思路。
隨機森林算法的優(yōu)點有:
(1)有很強的通用性,可以適用與各種環(huán)境,主要用于聚類分析,進行數(shù)據(jù)異常檢測和數(shù)據(jù)透視等;
(2)不需要對樣本數(shù)據(jù)進行大量修剪,和決策樹算法對比,不易出現(xiàn)過擬合現(xiàn)象;
(3)異常值、噪聲數(shù)據(jù)等靈敏度不強,能保持比較高的精確度;
(4)可以對高維數(shù)據(jù)進行處理,具有并行性、可擴展性,尤其魯棒性比較強;
(5)對于數(shù)據(jù)維數(shù)比較多的情況,可以自動生成重要的特征屬性,還可以作為降維方法使用。
隨機森林在構(gòu)建的每棵決策樹時的分類能力大多數(shù)不同,有些部分決策樹的分類效果比較好,有些部分的決策樹的分類效果比較差?;谏鲜鲈颍疚奶岢隽烁鶕?jù)隨機森林中每棵決策樹分類能力大小來設(shè)定其相對應(yīng)的權(quán)重。精確度加權(quán)隨機森林模型(AWRF)的核心原理是將要訓練的樣本數(shù)據(jù)分為兩個部分,一部分樣本數(shù)據(jù)作為傳統(tǒng)隨機森林模型的訓練樣本,并對樣本中所有的決策樹都進行訓練。另一部分剩余樣本數(shù)據(jù)作為預(yù)測試樣本,當這部分決策樹樣本數(shù)據(jù)結(jié)束訓練之后,再對所有決策樹樣本數(shù)據(jù)進行測試,并計算分類樣本的正確率。
其中:
把P作為隨機森林中訓練樣本所對應(yīng)的決策樹的權(quán)重,隨機森林中的每棵決策樹再進行投票時都要和其相對應(yīng)的權(quán)重進行乘積運算。其對應(yīng)的輸出模型表示如下:
其中,z表示加權(quán)隨機森林中的待測樣本數(shù)量,c表示整個隨機森林中所有的類別數(shù)目,x為c類中的其中一類樣本數(shù)量。
(1)從所有訓練樣本中取出一部分數(shù)據(jù)作為預(yù)測試樣本,作為選取每棵決策樹的權(quán)值的依據(jù)。在進行權(quán)值計算時,有可能會出現(xiàn)不公平的投票現(xiàn)象。為了保證投票的公平性,所有的決策樹一般都采用固定的預(yù)測試樣本進行計算。上述方法一般在訓練樣本比較多的情況下使用。
(2)由于每次使用的訓練樣本不同,導致留下的預(yù)測試樣本也可能不相同。為了便于優(yōu)化權(quán)值,后續(xù)的實驗中可以用預(yù)測試樣本率來代替預(yù)測試樣本數(shù)。其中,預(yù)測試樣本率等于預(yù)測試樣本數(shù)占總訓練樣本數(shù)的比率。
由于加權(quán)隨機森林算法(AWRF)是根據(jù)預(yù)測試樣本進行權(quán)值計算,所以不需要再額外考慮公平性。每個決策樹的權(quán)值可以用隨機森林中的每棵決策樹和預(yù)測試樣本分類的正確率來代替。這樣可以大大簡化了隨機森林算法的計算復雜性,同時也加快了程序的運行。
根據(jù)工業(yè)和信息化部辦公廳關(guān)于開展工業(yè)控制系統(tǒng)信息安全檢查工作的通知,企業(yè)針對自身企業(yè)的實際情況完成系統(tǒng)信息安全自查,本次調(diào)查以企業(yè)工控系統(tǒng)構(gòu)成為核心,圍繞網(wǎng)絡(luò)運行狀態(tài)進行全面調(diào)查。系統(tǒng)安全狀態(tài)主要包括安全軟件選擇與管理情況、配置和補丁管理情況、邊界安全防護情況、物理和環(huán)境安全防護情況、身份證情況、遠程訪問安全情況、安全監(jiān)測情況、資產(chǎn)安全情況、數(shù)據(jù)安全情況、供應(yīng)鏈管理情況10個方面。
實驗數(shù)據(jù)選取2016年280家企業(yè)實際調(diào)查數(shù)據(jù)作為實驗數(shù)據(jù),指標體系完全按照調(diào)查回來的數(shù)據(jù)設(shè)計,企業(yè)的安全等級采用“好差”二級體系,評估總分大于60,方差小于30的認定為“好”,其他為“差”。在實際應(yīng)用中好與差應(yīng)由專家來定,實驗認為總分較高,小差較小的企業(yè)在安全措施方面做的比較多,而且每一方面都比較均衡,所以應(yīng)該是做的比較好的。實驗數(shù)據(jù)設(shè)置了標簽值“1”和“0”,分別表示“好”和“差”,按照75%,25%的比例劃分為訓練集與測試集,使用加權(quán)隨機森林算法訓練的準確率模型在95%以上。結(jié)果如圖1所示。
圖1 訓練樣本結(jié)果圖
實驗結(jié)果表明在現(xiàn)有數(shù)據(jù)環(huán)境下加權(quán)隨機森林算法(AWRF)更具有優(yōu)勢,分類的準確率比較高,結(jié)果比較令人滿意。同時表明使用加權(quán)隨機森林算法(AWRF)進行安全評估是可行的,可以實現(xiàn)對企業(yè)工控系統(tǒng)安全狀態(tài)的評估。從速度和精度上看,加權(quán)隨機森林算法(AWRF)訓練時長明顯要遠遠低于隨機森林算法。
根據(jù)工控企業(yè)網(wǎng)絡(luò)的特點,提出了加權(quán)隨機森林算法(AWRF)的故障診斷方法,該算法可以簡化隨機森林算法的計算復雜度,加快了程序運行,進而提高了故障診斷的效率,同時加權(quán)隨機森林算法(AWRF)大大降低了工控企業(yè)網(wǎng)絡(luò)故障診斷的錯誤率。