朱 偉,侯秦脈,吳彥農(nóng),張澤宇,王婭琦,胡 江
(1.生態(tài)環(huán)境部核與輻射安全中心,北京 100082;2.中核戰(zhàn)略規(guī)劃研究總院有限公司,北京 100048;3.建信金融租賃有限公司,北京 100031)
自中國加入國際原子能機構(International Atomic Energy Agenc, IAEA)以來,中國政府高度重視核安全,在發(fā)展核能事業(yè)中始終貫徹“安全第一”的方針,根據(jù)《核安全公約》和《核安全公約國家報告指南》的要求,于1998年中國政府編制了第一次《中華人民共和國核安全公約國家報告》(以下簡稱《國家報告》),全面介紹了中國履行《核安全公約》義務的情況,發(fā)布了3年我國運行核電廠的世界核電廠營運者聯(lián)合會(The World Association of Nuclear Operators, WANO)性能指標(1996 至1998年),這些數(shù)據(jù)用于展示這3年間WANO 性能指標總體趨勢。截至2019年,中國共發(fā)布八次《國家報告》[1],目前已啟動第九次《國家報告》的編寫工作。
WANO 業(yè)績指標以定量化的方式評估電站在電站安全性和可靠性以及人員安全性方面的業(yè)績。WANO 業(yè)績指標主要用于監(jiān)測電站的業(yè)績,設定具有挑戰(zhàn)性的改進目標,更方便與其他電站進行業(yè)績比較,以及評估為改進總體業(yè)績是否需要調整優(yōu)先次序和資源[2]。此領域研究目前多為數(shù)據(jù)采集和一般的管理性描述和研究。林傳清[3]分析了技術管理對核電廠運營管理的重要性,指出WANO 業(yè)績指標中機組能力因子是最重要的指標之一,能夠反映出優(yōu)化計劃和非計劃停堆或停機活動的有效性,提高核電廠的競爭力;鄭龍[4]研究建立WANO 人因數(shù)據(jù)采集與處理系統(tǒng)框架,結合SQL 和NET 框架平臺設計實現(xiàn)了一個集數(shù)據(jù)收集,維護,準備,應用等功能于一身的WANO 人誤統(tǒng)計分析系統(tǒng);吳博[5]選取了Apriori 關聯(lián)規(guī)則算法,建立WANO 人因數(shù)據(jù)采集與處理系統(tǒng)框架;龐瑞等[6]總結了紅沿河WANO 指標的執(zhí)行情況,提出提高發(fā)電能力,減少非計劃能量損失的管理改進建議,從安全系統(tǒng)高性能、燃料可靠性、化學指標夯實核安全基礎。吳愛民[7]使用業(yè)務流程重組方法(BPR)分析和優(yōu)化核心業(yè)務工作流程,實現(xiàn)WANO 性能指標的提升。
WANO 機組能力因子分類涉及二分類問題,可以通過Logistic 回歸(logistic regression)和隨機森林(random forest,RF)解決。Logistic 回歸是一種廣義的線性回歸分析模型[8],而RF 基于的決策樹模型[9],兩種方法常用于數(shù)據(jù)挖掘領域,都能夠有效處理非線性的二分類問題。RF 能夠處理高維問題,克服傳統(tǒng)模型處理復雜交互不足,提供變量的重要性度量等有用信息,具有分類效果好、準確率高和性能穩(wěn)定等優(yōu)點[10]。建立一種快速、準確區(qū)分能力因子的分類方法,對于定性掌握我國核電機組發(fā)電狀況及行業(yè)內機組所處狀況判定具有重要的應用價值。正是基于此,本文以第一至第八次《中華人民共和國核安全公約國家報告》中世界核電營運者協(xié)會(WANO)性能指標為研究對象,提出一種基于RF 的機組能力因子分類方法,與Logistic 回歸進行對比。
本文利用獲取1996 至2019年8 次《國家報告》中WANO 業(yè)績指標,以機組和年為維度共提供295組截面數(shù)據(jù),每組數(shù)據(jù)包括機組能力因子(UCF)、臨界7 000 h 非計劃自動停堆數(shù)(UA7)、高壓安注系統(tǒng)(SP1)、輔助給水系統(tǒng)(SP2)、應急交流供電系統(tǒng)(SP5)、燃料可靠性(FRI)、化學性能(CPI)、集體輻照劑量(CRE)、工業(yè)安全事故率(ISA),變量定義見表1 所示。其中,UCF 反映電站是否能有效實施相關的大綱和實踐以盡量增加可用發(fā)電量,而且能總體反映電站的運維情況。UA7反映電站是否能通過減少需要緊急停堆造成不必要和非計劃熱工水力和反應性瞬變次數(shù)而成功改善電站安全性的情況,此外也能反映電站的運維情況。SP1、SP2、SP5 此3 類系統(tǒng)對于防止堆芯受損或延長停堆大修具有重要意義,所以選擇此類系統(tǒng)考核安全系統(tǒng)性能指標(safety system performance index,SSPI)。FRI 培養(yǎng)業(yè)內人士重視燃料完整性的健康態(tài)度,存在破損燃料會導致防止站外釋放裂解產(chǎn)物的初始屏障失敗,破損燃料也會對運營成本和業(yè)績產(chǎn)生不利的影響,并增加電站工作人員的輻射風險。CPI 按照反應堆和蒸汽發(fā)生器類型和化學條件根據(jù)電站需監(jiān)測系統(tǒng)中的重要雜質和腐蝕產(chǎn)物濃度計算得出,化學指標將多項關鍵化學參數(shù)綜合為一項能縱觀電站運行化學控制相對有效性的指標。CRE 用于衡量盡量減少電站工作人員所接受輻照劑量的輻射防護大綱有效性。ISA 是更重要的人員安全指標,原因是其準則明確,核電公司現(xiàn)時有收集此類數(shù)據(jù),且數(shù)據(jù)的主觀性最低。WANO 業(yè)績指標變量定義見表1 所示。
表1 WANO 業(yè)績指標變量定義
我國WANO 業(yè)績指標描述性統(tǒng)計分析如表2所示,1996 至2018年機組能力因子的平均值為87.79%,依據(jù)平均值區(qū)分機組能力因子高低,定義虛擬值“1”和“2”分別代表“低”和“高”,其中低于均值129 組,高于均值166 組。本研究將UA7、SP1、SP2、SP5、FRI、CPI、CRE、ISA 作為模型的輸入變量,UCF 作為模型的目標輸出變量,確定建立容量9×295 的樣本集用于機組能力因子分類預測的隨機森林模型,其中數(shù)據(jù)按照7:3 的比例分割為206 個訓練數(shù)據(jù)樣本和88 個無缺失項測試數(shù)據(jù)樣本。
表2 WANO 業(yè)績指標描述性統(tǒng)計分析
二分類問題通常通過混淆矩陣列出預測分類與實際分類的結果,便于進行準確性和可靠性的評價。在精度評價方面提取混淆矩陣信息得到總體精度、Kappa 分析、生產(chǎn)者精度、使用者精度等4 個指標:總體精度是對每一個隨機樣本,所分類的結果與對應區(qū)域的實際類型相一致的概率;Kappa 分析是一種測定實際與預測分類之間吻合或精度的指標,系數(shù)結果為-1 至1,越接近1 表示精度越高;使用者精度是分類結果中任選一個樣本,其與實際業(yè)績指標相一致的概率;生產(chǎn)者精度是實際業(yè)績指標任選一個樣本,其與分類結果相同的概率[11]。本文通過公式(1)~(4)對WANO 業(yè)績指標混淆矩陣分類結果提取上述4 個指標來進行精度評價。
生產(chǎn)者精度:
使用者精度:
總體精度:
Kappa 系數(shù):
上式中,N為性能指標樣本總量;xij為實際指標數(shù)據(jù)第i類和分類結果第j類對應的樣本數(shù);xi+為實際指標數(shù)據(jù)第i類的總和;x+j為分類結果第j類的總和。
本研究基于R 4.3.1 語言和randomForest 4.7-1構建隨機森林的機組能力因子分類模型。在訓練過程中,參數(shù)選擇對最終分類的精度有極其重要的影響[12],有必要選擇RF 算法中最重要的兩個參數(shù):決策樹數(shù)量(n_tree)和內部節(jié)點再劃分所需要的最小樣本數(shù)(m_try)[13-14]。
m_try 采用caret 的機器學習模型調參的工具,使用trainControl 函數(shù)對調參過程進行設置,指定了調參方式為10 折交叉驗證(CV)[15],并指定調參順序為grid,設定m_try 的范圍是1 ~10。調優(yōu)結果在默認情況下,RMSE 和R 方用于回歸,準確率(Accuracy)和Kappa 系數(shù)用于分類[16]。本分類研究根據(jù)Accuracy 和Kappa 系數(shù)來判斷參數(shù)的好壞,十折交叉驗證下m_try 調優(yōu)結果如表3 所示,可以看出m_try=2 在十折交叉驗證下精確度為0.714 3 和Kappa 系數(shù)0.419 6 同為最大,m_try=2 可作為預測模型的最優(yōu)超參數(shù)。
表3 十折交叉驗證下m_try 調優(yōu)結果
n_tree 的選擇將影響隨機森林的運算速度以及其分類的效果,較多的子數(shù)可以讓模型有更好的性能[17]。n_tree 取值小時無法很好地刻畫非線性關系,一開始袋外分類誤差將明顯下降,隨著訓練增加在臨界值處模型擬合充分,袋外分類誤差將趨于穩(wěn)定,繼續(xù)訓練并不能顯著提高模型的性能,所以需要在可模型接受范圍內尋找袋外分類誤差臨界值使機組能力因子分類精度最高[18]。
在m_try 等參數(shù)固定不變的條件下,分析n_tree對機組能力因子分類精度的影響,袋外分類誤差(out-of-bag error,OOB error)隨決策樹n_tree 的變化見圖1 所示。從圖1 可以看出n_tree 在500 以內,在n_tree=20 之后袋外分類誤差趨于穩(wěn)定,在n_tree=32 處得到最小值0.296,考慮準確率和運行效率,模型決策樹數(shù)量選定為32,在圖1 中用虛線表示。
圖1 決策樹數(shù)量對袋外分類誤差的影響
多維尺度變換(multidimensional scaling, MDS)由n個對象之間的相似性給定,確定這些對象在低維空間中的表示,并使其盡可能與原先的相似性大致匹配,保證調參的模型分類準確度[19]。高維空間中每一個點代表一個對象,因此點與點之間的距離和對象之間的相似度高度相關。通過MDS 對RF$proximity 相似度矩陣進行降維,得到UCF 分類的可視化結果見圖2,從圖2 可知UCF 總體上得到了有效區(qū)分,右側橢圓中主要分布的是由三角形代表“高”,以圓形代表“低”集中分布在左下角橢圓中,總的來看調參后的模型達到了分類準確度。
圖2 UCF 分類的隨機森林MDS 圖
衡量機組能力因子分類RF 模型的8 種特征重要程度通過改變WANO 變量順序得到袋外分類誤差來實現(xiàn)。基于節(jié)點不純度的平均減少值,Gini 值平均降低量(mean decrease gini)可以得到對所有樹每個節(jié)點上觀測值的異質性的影響,作為度量變量重要性的指標[20],該值越大表示該變量重要性越大,自變量對UCF 選擇的重要性見圖3 所示。
從圖3 橫坐標重要性的平均減少值可知,對機組能力因子分類影響較大的3 個重要變量依次是:集體輻照劑量、臨界7 000 h 非計劃自動停堆數(shù)、應急交流供電系統(tǒng);此外,與防止堆芯受損及延長停堆大修的安全系統(tǒng)性能指標(SSPI)相關的特征變量SP1、SP2、SP5 對于UCF 的影響略有差異,應急交流供電系統(tǒng)SP5 重要程度明顯高于高壓安注系統(tǒng)SP1、輔助給水系統(tǒng)SP2,其中SP2 略低于SP1;化學性能CPI 及燃料可靠性FRI 的重要程度與SSPI 差異不大;代表工業(yè)安全業(yè)績的工業(yè)安全事故率ISA對UCF 重要程度略低。
圖3 自變量對UCF 分類的重要程度
RF 處理高維數(shù)據(jù)能力能夠較好地進行分類和變量篩選,通過分類評價變量的重要程度,有利于在復雜的核電廠大量數(shù)據(jù)中獲取重要特征信息。經(jīng)過RF 分類特征重要程度,依據(jù)重要程度調配公司資源,對提高機組能力因子具有重要的應用價值。
為進一步驗證所建模型的準確性,利用測試集進行驗證,RF 的UCF 分類結果基于分類對象的混淆矩陣實現(xiàn),分類結果見表4 所示。由表4 可計算得到UCF 預測分類與實際分類一致的數(shù)量達到68,則UCF 的分類預測結果達到實際的77.27%,表明不同的核電廠的UCF 混合樣本,RF 模型能夠有效地分類。
表4 RF 混淆矩陣分類結果
為了驗證RF 的UCF 分類的能力,在訓練集和測試集保持相同的前提下,應用Logistic 回歸進行對比研究[21]。精度驗證采用基于分類對象的混淆矩陣實現(xiàn)[22],計算得到了兩模型分類的UCF 的總體精度、Kappa 系數(shù)、生產(chǎn)者精度和使用者精度,UCF分類精度表見表5 所示。
表5 UCF 分類精度
從表5 可以看出,RF 的總體精度為77.27%和Kappa 系數(shù)為0.705 3,符合Kappa 高度一致性檢驗標準(0.61 ~0.80)的區(qū)間。Logistic 回歸的總體精度為51.14,Kappa 系數(shù)為0.110 1,Kappa 系數(shù)顯示為極低的一致性。RF 的兩類UCF 預測的生產(chǎn)者精度和使用者精度在(72.09%,82.22%)之間,分類的預測表現(xiàn)穩(wěn)健,而Logistic 回歸的預測的生產(chǎn)者精度和使用者精度在(13.95%,100%)之間,由此可見,具有學習能力和泛化能力的RF 模型在分類能力和準確性上明顯強于傳統(tǒng)的Logistic 回歸,RF 相對于Logistic 回歸有更好的分類結果。
機組能力因子分類是WANO 業(yè)績指標領域一個重要的研究方向,準確的分類對定性掌握我國核電機組發(fā)電狀況及行業(yè)內機組所處狀況有極其重要的意義。本文利用隨機森林對我國1996 至2018年WANO 業(yè)績指標中機組能力因子UCF 進行快速分類,通過調整隨機森林模型決策樹的棵樹、內部節(jié)點再劃分所需要的最小樣本數(shù),得到最優(yōu)的隨機森林分類模型,成功實現(xiàn)了對測試組的準確分類和區(qū)分。結果表明:(1)RF 算法相較Logistic 回歸具有分類效果好、準確率高和性能穩(wěn)定等優(yōu)點,克服了基于均值對比的傳統(tǒng)方法難以在高維數(shù)據(jù)中獲得特征變量的不足,以及Logistic 回歸處理高維數(shù)據(jù)的局限性,為準確挖掘特征變量提供了一種可靠和高效的方法;(2)通過分類效果評估解釋變量的重要性,在發(fā)電、設備性能、燃料可靠性、化學、輻射防護和人員安全等特征中,反映集體輻照劑量、臨界7 000 h 非計劃自動停堆數(shù)、應急交流供電系統(tǒng)在UCF 分類的研究中極具應用價值,為UCF 等重要WANO 指標的深入研究提供了一種新的分析手段。