杜京義,李 娜,唐小華,韓 娟
(西安科技大學 電氣與控制工程學院,陜西 西安710054)
變電站接地網(wǎng)是保證電力系統(tǒng)可靠運行、保障運行人員安全的重要措施,其可靠性關(guān)系到電網(wǎng)的正常運行。針對接地網(wǎng)腐蝕問題,很多學者不斷提出新的研究方法和理論。文獻[1-4]采用節(jié)點分析法,利用電路網(wǎng)絡(luò)理論建立診斷方程,測量接地網(wǎng)導體的電阻或電壓變化值,建立的數(shù)學方程規(guī)模大,增加了計算成本,不便實際推廣應(yīng)用;文獻[5]基于電磁學理論,利用電磁場分析法診斷接地網(wǎng)導體腐蝕狀態(tài),理論基礎(chǔ)復雜,測量時接地網(wǎng)周圍存在強磁場會對檢測產(chǎn)生一定程度的干擾,影響診斷準確性;文獻[6]利用電化學分析法從腐蝕電化學理論出發(fā),采用電化學腐蝕監(jiān)測傳感器測量腐蝕速率,存在成本高、測試技術(shù)復雜等問題。
隨著計算機技術(shù)與人工智能的發(fā)展,機器學習的方法在電力領(lǐng)域應(yīng)用逐漸增多[7-9]。它從觀測樣本數(shù)據(jù)出發(fā)尋找規(guī)律,并利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進行預(yù)測[10]。文獻[11-13]利用BP人工神經(jīng)網(wǎng)絡(luò),對所測得的土壤腐蝕理化因素數(shù)據(jù)建立接地網(wǎng)腐蝕預(yù)測模型;但是所需訓練樣本多,對連接權(quán)的初值敏感,且泛化能力低。
現(xiàn)有機器學習算法共同的重要理論基礎(chǔ)之一是經(jīng)典的統(tǒng)計學,研究的是樣本數(shù)目趨于無窮大時的漸進理論[14]。但在接地網(wǎng)腐蝕研究中,由于研究自然環(huán)境對材料腐蝕行為的影響及其規(guī)律的理論體系還不是很完善,可供研究的基礎(chǔ)數(shù)據(jù)較少[15]。而常規(guī)的參數(shù)學習方法存在樣本的內(nèi)在相關(guān)性未知,造成假設(shè)可能是錯誤的,使得一些優(yōu)秀學習方法的表現(xiàn)不盡人意[16]。
針對上述問題,本文建立的接地網(wǎng)腐蝕速率非參數(shù)預(yù)測模型避免了樣本數(shù)據(jù)在錯誤的假設(shè)下分析;同時,自助法 (bootstrap)[17]和集群分類方法相結(jié)合,降低小樣本訓練數(shù)據(jù)與實際數(shù)據(jù)分布產(chǎn)生的偏差風險,通過搜尋最優(yōu)的分類器組合,有效地解決了接地網(wǎng)腐蝕速率的小樣本多分類問題。
通常對未知的接地網(wǎng)腐蝕速率進行預(yù)測,是確定土壤腐蝕理化因素之間的因果關(guān)系,建立接地網(wǎng)腐蝕速率的回歸模型。回歸問題是利用一定數(shù)量的訓練樣本來擬合變量間的真實狀態(tài)函數(shù);而分類問題則是擬合變量間的方程,相對于回歸算法,分類算法降低了模型的復雜度。因此,本文將回歸問題轉(zhuǎn)化為分類預(yù)測,選取分類的方法研究接地網(wǎng)的腐蝕速率。根據(jù)國家電力行業(yè)標準DL/T 5394-2007《電力工程地下金屬構(gòu)筑物防腐技術(shù)導則》,把接地網(wǎng)腐蝕程度劃分為五個等級:極弱等級I、較弱等級II、弱等級III、中等級IV和強等級V,見表1。
表1 碳鋼平均腐蝕速率與土壤腐蝕性
樣本數(shù)據(jù)的分布會影響分類預(yù)測的精度,采用Bootstrap法可以充分利用樣本自身信息,用重抽樣的思想生成一定數(shù)量的自舉子集,將樣本集類比于總體,將子樣本類比于樣本集[18],降低由于小樣本訓練數(shù)據(jù)與實際數(shù)據(jù)分布產(chǎn)生的偏差風險。自舉子集生成過程示意圖如圖1所示。
圖1 自舉子集生成過程
Bootstrap法是根據(jù)原始樣本數(shù)據(jù),利用重復抽樣的方式產(chǎn)生若干個自舉子集。自舉采樣生成自舉子集的算法如圖2所示。
圖2 自舉子集的生成
機器學習的分類方法通常分為參數(shù)法和非參數(shù)法,二者在建模過程中是不同的。一般地,參數(shù)建模方法主要是假設(shè)數(shù)據(jù)集合中變量與變量之間存在某種因果關(guān)系,在建模分析中,需要首先給定一個假設(shè)函數(shù)關(guān)系y=f(w,x),然后通過訓練樣本集搜索這個函數(shù)的待定參數(shù)w,得到參數(shù)模型。但是對于不同的假設(shè)函數(shù)關(guān)系,會產(chǎn)生不同的應(yīng)用模型。而樣本集只代表部分數(shù)據(jù)集,產(chǎn)生的模型對于整體數(shù)據(jù)集未必全部適用。
非參數(shù)法主要從數(shù)據(jù)本身的屬性角度出發(fā),它不用事先假定一個函數(shù)關(guān)系,不需要考慮數(shù)據(jù)的因果關(guān)系,而使用不同的數(shù)學工具,從樣本數(shù)據(jù)本身獲取信息建立其非參數(shù)關(guān)系。KNN (K nearest neighbors)分類算法是一種典型的非參數(shù)機器學習算法。對于接地網(wǎng)腐蝕的多類別分類問題,選定K的值,根據(jù)某種度量方法計算待分類數(shù)據(jù)與各訓練樣本間的相似性,選取K個樣本中個數(shù)最多的類為待分類樣本的類別。
采用前面產(chǎn)生的M個自舉子集,建立M個模型 (比如分類),一般這種模型比較簡單,稱為弱分類器 (weak learner)。每次分類都將上一次分錯的樣本權(quán)重提高一點再進行分類,這樣最終得到的強分類器在測試數(shù)據(jù)與訓練數(shù)據(jù)上都可以得到比較好的成績。小樣本機器學習算法集群強分類器的示意圖如圖3所示。
圖3 強分類器模型的產(chǎn)生
對于接地網(wǎng)腐蝕速率的多類問題,已知土壤腐蝕理化因素樣本集X={x1,x2,…,xn}和類別Y={1 ,2 ,…,C}。其中,xi=[xi1,xi2,…,xip]T(i=1,2,…,n;p=1,2,…,12),n表示樣本個數(shù),p表示12種土壤腐蝕理化因素 (pH、含水量、電導率、有機質(zhì)、全氮、HCO3-、Cl-、SO24-、Ca2+、Mg2+、K+和Na+),C表示樣本集類別,這里C=5?;贙NN分類法構(gòu)建弱分類器算法如圖4所示。
圖4 KNN分類法構(gòu)建弱分類器算法
集群分類法主要是通過一定的數(shù)學算法,以某種方式將多個弱分類器加權(quán)組合,構(gòu)建成分類性能好的強分類器,進一步提高分類器的預(yù)測精度[19]。集群強分類器取得分類成功的一個先決條件是,每一個單個弱分類器的錯誤率必須小于0.5[20];否則,通過加權(quán)組合的方式得到的強分類器的錯誤率反而會增大,影響分類的正確性。本文選取 Adaboost[21](adaptive boosting)構(gòu)建集群算法,最終通過加權(quán)組合得到分類效果好的強分類器。Adaboost構(gòu)造強分類器的非參數(shù)集群算法如圖5所示。
圖5 非參數(shù)集群算法
本文選取我國不同地區(qū)35個變電站的影響接地網(wǎng)腐蝕的土壤理化因素樣本數(shù)據(jù)。表2給出了35組12種土壤理化參數(shù):pH、含水量、電導率、有機質(zhì)、全氮、HCO3-、Cl-、、Ca2+、Mg2+、K+和Na+以及接地網(wǎng)的腐蝕速率的樣本數(shù)據(jù)。
將接地網(wǎng)土壤腐蝕理化因素樣本數(shù)據(jù)按照腐蝕速率的大小分為5個類別,由于樣本數(shù)據(jù)中沒有第五類數(shù)據(jù),因此,將原始樣本數(shù)據(jù)分為4個類別。由于樣本集有限,因此選取前33組樣本數(shù)據(jù)作為訓練數(shù)據(jù),后2組作為測試數(shù)據(jù)。對前33組訓練樣本數(shù)據(jù)采用Bootstrap方法產(chǎn)生100個自助子集。
表2 接地網(wǎng)腐蝕樣本數(shù)據(jù)
對于100個自助子集4個類別的訓練樣本集。在非參數(shù)集群算法中,具體參數(shù)初始化設(shè)置為:K=15,T=30。對自助子集進行訓練,當T=6時,錯誤率開始增大,分錯樣本數(shù)增多。而當T=5時,εt=0.092,錯誤率達到最小,基本滿足要求。因此,選取T=5時對應(yīng)的訓練數(shù)據(jù)和K來訓練分類模型。非參數(shù)集群算法訓練誤差曲線圖如圖6所示。
利用上述訓練好的分類器模型對測試樣本進行檢驗。測試樣本選取后兩組樣本數(shù)據(jù) (所屬類別均為第二類和第三類)作為測試樣本集,將測試結(jié)果與真實類別進行對比,結(jié)果如表3所示。
圖6 非參數(shù)集群算法訓練誤差曲線
表3 測試結(jié)果與真實結(jié)果對比
根據(jù)上述表3的結(jié)果可以看出,經(jīng)過非參數(shù)集群分類算法加權(quán)組合得到的強分類器,可以正確預(yù)測未知接地網(wǎng)腐蝕樣本的腐蝕等級。使用KNN分類法產(chǎn)生的單個弱分類器,不一定可以完全正確分類未知樣本的類別。尤其是當無法正確判斷測試樣本的類別時,非參數(shù)集群分類法產(chǎn)生的強分類器更加有效。
本文針對接地網(wǎng)腐蝕速率預(yù)測模型的小樣本及以往參數(shù)建模受人為假設(shè)的影響,運用非參數(shù)集群分類建模方法對接地網(wǎng)腐蝕速率等級進行建模預(yù)測,經(jīng)過分析可以得到如下結(jié)論:
(1)為較好的處理腐蝕率與影響因素之間的映射關(guān)系,將接地網(wǎng)腐蝕速率的回歸問題轉(zhuǎn)化為分類問題,選取分類預(yù)測的方法研究接地網(wǎng)腐蝕速率等級。
(2)由于獲取樣本數(shù)據(jù)實施過程復雜,成本高,使得樣本數(shù)據(jù)非常有限,增加了接地網(wǎng)腐蝕速率預(yù)測模型建立的難度。Bootstrap法是通過把已有的小樣本數(shù)據(jù)擴充為大樣本以實現(xiàn)統(tǒng)計過程,并且該方法不需做任何主觀假設(shè),可解決接地網(wǎng)腐蝕速率預(yù)測中存在的小樣本問題。
(3)單個弱分類器訓練模型只能適用于當前訓練樣本數(shù)據(jù),而對未知樣本的預(yù)測可能存在較大誤差。采用弱分類器集群成強分類器的方法對接地網(wǎng)腐蝕速率進行分級評定預(yù)測,提高了分類預(yù)測準確率。
[1]LIU Yugen,WU Lixiang,WANG Shuo.Practicality analysis for optimized erosion diagnosis of large and grid medium-scale grounding grid[J].Journal of Chongqing University,2008,31(4):417-420 (in Chinese).[劉渝根,吳立香,王碩.大中型接地網(wǎng)腐蝕優(yōu)化診斷實用化分析[J].重慶大學學報,2008,31 (4):417-420.]
[2]MA Wenjing,ZHANG Bo,SONG Xushuang.Study on corrosion diagnosis method for grounding network based on regularized least square method[J].Heilongjiang Electric Power,2012,34 (4):278-284 (in Chinese).[馬文婧,張博,宋緒雙.基于正則化最小二乘法的基地網(wǎng)腐蝕診斷方法研究[J].黑龍江電力,2012,34 (4):278-284.]
[3]LIU Yugen,TENG Yongxi,CHEN Xianlu,et al.A method for corrosion diagnosis of grounding grid[J].High Voltage Engineering,2004,30 (6):19-21 (in Chinese).[劉渝根,滕永禧,陳先錄,等.接地網(wǎng)腐蝕的診斷方法研究[J].高電壓技術(shù),2004,30 (6):19-21.]
[4]XU Lei,LI Lin.Fault diagnosis for grounding grids based on electric network theory[J].Transactions of China Electro Technical Society,2012,27 (10):270-276 (in Chinese).[許磊,李琳.基于電網(wǎng)絡(luò)理論的變電站接地網(wǎng)腐蝕及斷點診斷方法[J].電工技術(shù)學報,2012,27 (10):270-276.]
[5]LIU Yang,CUI Xiang,ZHAO Zhibin,et al.Design and application of testing magnetic field system for corrosion diagnosis of grounding grids in substation[J].Transactions of China Electro technical Society,2009,24 (1):176-182 (in Chinese).[劉洋,崔翔,趙志斌,等.變電站接地網(wǎng)腐蝕診斷磁場檢測系統(tǒng)的設(shè)計與應(yīng)用[J].電工技術(shù)學報,2009,24 (1):176-182.]
[6]ZHANG Xiuli,LUO Ping,MO Ni,et al.Development and application of electrochemical detection system for grounding grid corrosion state[J].Proceedings of the CSEE,2008,28 (19):152-156(in Chinese).[張秀麗,駱平,莫逆,等.接地網(wǎng)腐蝕狀態(tài)電化學檢測系統(tǒng)的開發(fā)與應(yīng)用[J].中國電機工程學報,2008,28 (19):152-156.]
[7]YE Shengyong,WANG Xiaoru,LIU Zhigang,et al.Power system transient stability assessment based on support vector machine incremental learning method[J].Automation of Electric Power Systems,2011,35 (11):15-19 (in Chinese).[葉圣永,王曉茹,劉志剛,等.基于支持向量機增量學習的電力系統(tǒng)暫態(tài)穩(wěn)定評估[J].電力系統(tǒng)自動化,2011,35 (11):15-19.]
[8]WU Qiong,YANG Yihan,LIU Wenying.Electric power system transient stability on-line prediction based on least squares support vector machine[J].Proceedings of the CSEE,2007,27 (25):38-43 (in Chinese).[吳瓊,楊以涵,劉文穎.基于最小二乘支持向量機的電力系統(tǒng)暫態(tài)穩(wěn)定在線預(yù)測[J].中國電機工程學報,2007,27 (25):38-43.]
[9]JIAO Shangbin,LIU Ding.Assessment of surface contamination of high voltage insulator based on least squares support vector machine[J].Automation of Electric Power Systems,2006,30 (6):61-65 (in Chinese).[焦尚彬,劉丁.基于最小二乘支持向量機的高壓絕緣子污穢程度評定[J].電力系統(tǒng)自動化,2006,30 (6):61-65.]
[10]WANG Jue,ZHOU Zhihua,ZHOU Aoying.Machine learning and application[M].Beijing:Tsinghua University Press,2006(in Chinese).[王玨,周志華,周傲英.機器學習及其應(yīng)用[M].北京:清華大學出版社,2006.]
[11]QU Liangshan,LI Xiaogang,DU Cuiwei,et al.Corrosion rate prediction model of carbon steel in regional soil based on BP artificial neural network[J].Journal of University of Science and Technology Beijing,2009,31 (12):1569-1575(in Chinese).[曲良山,李曉剛,杜翠薇,等.運用BP人工神經(jīng)網(wǎng)絡(luò)方法構(gòu)建碳鋼區(qū)域土壤腐蝕預(yù)測模型[J].北京科技大學學報,2009,31 (12):1569-1575.]
[12]MA Xiaoyan,QU Zuyu.Application of artificial neural network in prediction corrosion value of metal in atmosphere[J].Journal of University of Science and Technology Beijing,2001,23 (2):123-126 (in Chinese).[馬小彥,屈祖玉.神經(jīng)網(wǎng)絡(luò)在金屬大氣腐蝕率預(yù)測中的應(yīng)用[J].北京科技大學學報,2001,23 (2):123-126.]
[13]GUO Zhihu,XING Zhengliang,JIN Minghui.Predicting corrosion rate of mild steel in soil based on artificial neural network[J].Journal of Chinese Society for Corrosion and Protection,1996,16 (4):307-310 (in Chinese).[郭稚弧,邢政良,金名惠,等.基于人工神經(jīng)網(wǎng)絡(luò)的金屬土壤腐蝕預(yù)測方法[J].中國腐蝕與防護學報,1996,16 (4):307-310.]
[14]WENG Yongji,LI Xiangyi.The pattern recognition methods in environmental corrosion science[J].Corrosion Science and Protection Technique,1994,6 (2):153-158 (in Chinese).[翁永基,李相怡.環(huán)境腐蝕科學研究中的模式識別方法[J].腐蝕科學與防護,1994,6 (2):153-158.]
[15]TAN Dongning,TAN Donghan.Small sample machine learning theory:Statistical learning theory[J].Journal of Nanjing University of Science and Technology,2001,25 (1):108-112 (in Chinese).[譚東寧,譚東漢.小樣本機器學習理論:統(tǒng)計學習理論[J].南京理工大學學報,2001,25 (1):108-112.]
[16]ZHANG Junping,WANG Jue.An overview about principal curves[J].Chinese Journal of Computer,2003,26 (2):129-146(in Chinese).[張軍平,王玨.主曲線研究綜述[J].計算機學報,2003,26 (2):129-146.]
[17]Efron Bradley.Bootstrap methods:Another look at the jackknife[J].The Annals of Statistics,1979,7 (1):1-26.
[18]XIE Yihui,ZHU Yu.Bootstrap methods:Development and frontiers[J].Statistics & Information Forum,2008,23(2):90-96 (in Chinese).[謝益輝,朱鈺.Bootstrap方法的歷史發(fā)展和前沿研究[J].統(tǒng)計與信息論壇,2008,23(2):90-96.]
[19]Lior Rokach.Ensemble-based classifiers[J].Artif Intell,2010 (33):1-39.
[20]Thomas G Dietterich.Machine-learning research[J].AI Magazine,1997,18 (4):97-136.
[21]Freund Y,Schapire R E.A decision-theoretic generalization of online learning and an application to boosting[J].Journal of Computer and System Sciences,1997 (55):119-139.