仝瑞寧,聶海福,李鵬
(云南大學(xué)信息與人工智能學(xué)院,昆明650091)
隨著電網(wǎng)建設(shè)規(guī)模的日益龐大,輸電線路跨度、電壓等級(jí)也相應(yīng)提高,線路遭受雷擊的風(fēng)險(xiǎn)也越來(lái)越大。雷電災(zāi)害對(duì)電網(wǎng)產(chǎn)生的經(jīng)濟(jì)損失和安全隱患愈加嚴(yán)重[1]。因此對(duì)雷擊做到提前預(yù)警,能有效地減少雷擊帶來(lái)的危害[2]。
國(guó)內(nèi)外學(xué)者對(duì)于輸電線路桿塔雷擊預(yù)警進(jìn)行了廣泛的研究。文獻(xiàn)[3]利用多普勒效應(yīng)進(jìn)行雷云定位、軌跡預(yù)測(cè),實(shí)現(xiàn)了輸電線路的雷擊預(yù)警;文獻(xiàn)[4]對(duì)輸電線路走廊進(jìn)行網(wǎng)格化,計(jì)算氣象站給出的雷電預(yù)報(bào)范圍與輸電線路網(wǎng)格之間的距離以實(shí)現(xiàn)輸電線路雷擊預(yù)警;文獻(xiàn)[5]提出一種基于大氣電場(chǎng)、雷電位置信息和雷電災(zāi)害風(fēng)險(xiǎn)評(píng)估技術(shù)的多信息融合雷電預(yù)警方法;文獻(xiàn)[6]提出結(jié)合雷電監(jiān)測(cè)網(wǎng)和氣象衛(wèi)星云圖實(shí)時(shí)監(jiān)測(cè)信息確定雷暴云團(tuán)位置及運(yùn)動(dòng)趨勢(shì),以雷暴云與輸電線路之間的距離為依據(jù),實(shí)現(xiàn)分級(jí)啟動(dòng)雷電預(yù)警、輸電線路雷擊預(yù)警和輸電線路雷擊閃絡(luò)預(yù)警。
現(xiàn)有的研究方法大多是基于氣象條件與雷電參數(shù)實(shí)現(xiàn)輸電線路桿塔雷擊預(yù)警,沒(méi)有考慮到雷擊的產(chǎn)生是由氣象條件、環(huán)境參數(shù)、桿塔屬性等全景信息相互作用的結(jié)果。同時(shí)由于海量歷史監(jiān)測(cè)數(shù)據(jù)存在著重復(fù)交錯(cuò)、多噪聲等特點(diǎn),導(dǎo)致預(yù)警模型分類準(zhǔn)確率低且訓(xùn)練時(shí)間長(zhǎng),難以有效地實(shí)現(xiàn)輸電線路桿塔雷擊預(yù)警。
本文提出了一種基于K 近鄰和支持向量機(jī)相融合的輸電線路桿塔雷擊預(yù)警模型。針對(duì)支持向量機(jī)處理大樣本數(shù)據(jù)時(shí)存在內(nèi)存占用大、訓(xùn)練速度慢等缺點(diǎn),采用K 近鄰算法刪減訓(xùn)練樣本集中存在的重復(fù)交替、噪聲點(diǎn)、孤立點(diǎn)等異常數(shù)據(jù)點(diǎn),然后運(yùn)用支持向量機(jī)進(jìn)行樣本訓(xùn)練和分類。通過(guò)實(shí)例分析驗(yàn)證了所提方法的有效性和實(shí)用性。
K 近鄰法[7]的主要思想:當(dāng)輸入測(cè)試數(shù)據(jù)時(shí),將測(cè)試數(shù)據(jù)的輸入特征與訓(xùn)練集中對(duì)應(yīng)的輸入特征進(jìn)行比較,找到訓(xùn)練集中與之歐式距離最小的K 個(gè)數(shù)據(jù),則該測(cè)試數(shù)據(jù)的類別就是K 個(gè)數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個(gè)類別。
給定訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2)···,(xN,yN)},其中xi∈Rn為實(shí)例的特征向量,yi∈γ={c1,c2,···,ck}為實(shí)例的類別,i=1,2,···,N;根據(jù)給定的度量距離,在訓(xùn)練集T中尋找與x 最近的K 個(gè)數(shù)據(jù)點(diǎn),包含著K 個(gè)數(shù)據(jù)點(diǎn)的鄰域記作Nk(x),在Nk(x)中根據(jù)KNN 分類決策規(guī)則決定x 的類別y:
式中,I 為指示函數(shù),即當(dāng)yi=cj時(shí)I為1,否則I為0。在K 近鄰法中通過(guò)計(jì)算兩樣本間的距離來(lái)作為二者之間相似性度量指標(biāo),通常用到的距離是歐式距離,如下式所示:
支持向量機(jī)(SVM)是Vapnik 等人在1995年提出的[8]。SVM的主要思想是利用內(nèi)積函數(shù)定義的非線性變換[9],把原有的輸入空間映射到一個(gè)高維空間,然后在這個(gè)高維的空間中尋找輸入變量與輸出變量之間的一種線性關(guān)系。
對(duì)于一個(gè)二分類問(wèn)題,給定訓(xùn)練樣本集有(x1,y1),i=1,2,...,l,x∈Rn,y∈{0,1},超平面為ω·x+b=0。為確保超平面能夠把兩類數(shù)據(jù)分開(kāi)且使兩類支持向量之間的距離最大,要求其滿足:
由此可得分類間隔為2/||ω||,于是構(gòu)造最優(yōu)超平面的問(wèn)題轉(zhuǎn)化為如下帶約束的最小值問(wèn)題:
約束條件中引入Lagrange函數(shù)得:
式中,為L(zhǎng)agrange系數(shù)。約束最優(yōu)化問(wèn)題由Lagrange函數(shù)的鞍點(diǎn)條件決定,并且最優(yōu)化問(wèn)題的解在鞍點(diǎn)處滿足對(duì)和b的偏導(dǎo)為0。將該二次規(guī)劃問(wèn)題轉(zhuǎn)化為如下相對(duì)應(yīng)的對(duì)偶問(wèn)題(a=(a1,a2,···,al)):
經(jīng)計(jì)算,最優(yōu)權(quán)值向量和最優(yōu)偏置分別為:
其中x ∈Rn。
選用RBF函數(shù)作為核函數(shù),其表達(dá)式如式(11)所示:
本文提出的基于KNN-SVM 算法的輸電線路桿塔雷擊預(yù)警建模主要分為以下5部分:
1)獲取輸電線路桿塔雷擊歷史全景數(shù)據(jù);
2)進(jìn)行數(shù)據(jù)預(yù)處理;
3)KNN 算法進(jìn)行樣本有效約簡(jiǎn);
4)建立基于KNN-SVM算法的訓(xùn)練模型;
5)通過(guò)新的全景監(jiān)測(cè)數(shù)據(jù)進(jìn)行雷擊預(yù)警。
通過(guò)電力物聯(lián)網(wǎng)獲取輸電線路走廊包含微氣象(天氣情況)、微地形(地形地貌、桿塔周邊地表情況、土壤情況)及輸電線路桿塔本體信息(呼稱高、桿塔海拔)等全景數(shù)據(jù)作為模型的輸入,遭受雷擊和未受雷擊作為輸出,從而獲得原始訓(xùn)練樣本。
1)數(shù)據(jù)歸一化
為避免不同數(shù)據(jù)集的值相距較大,導(dǎo)致建模時(shí)引起“大數(shù)吃小數(shù)”的現(xiàn)象,本文采用離差標(biāo)準(zhǔn)化(Min-Max Normalization)的方法對(duì)樣本集進(jìn)行歸一化處理[10]:
式中:ug為歸一化后的數(shù)據(jù),u為樣本集中的原始數(shù)據(jù),umin和umax分別為u的最小值和最大值。
2)文字?jǐn)?shù)值化
微地形數(shù)據(jù)的統(tǒng)計(jì)方式為文字表述,所以需要對(duì)微地形數(shù)據(jù)進(jìn)行數(shù)值化。根據(jù)分析易受雷擊桿塔的微地形歷史數(shù)據(jù)及參考文獻(xiàn)[11]復(fù)雜地形與雷擊相關(guān)性分析,得到變量與桿塔被雷擊的相關(guān)關(guān)系,則在文字-數(shù)值轉(zhuǎn)化時(shí)的對(duì)應(yīng)關(guān)系如表1所示。
由于訓(xùn)練樣本數(shù)據(jù)中正常數(shù)據(jù)占比最多,雷擊數(shù)據(jù)作為關(guān)鍵訓(xùn)練樣本其數(shù)據(jù)量少,所以雷擊樣本數(shù)據(jù)集不需要做刪減。KNN算法做數(shù)據(jù)集刪減主要是針對(duì)訓(xùn)練樣本中的正常數(shù)據(jù),因?yàn)槠鋽?shù)據(jù)量占比大且重復(fù)交替,所以只需要挑選其中一部分關(guān)鍵樣本即可,KNN算法數(shù)據(jù)刪減流程圖如圖1所示。
算法步驟如下:
Step 1:首先對(duì)輸電線路走廊涵蓋微氣象、微地形及桿塔本體信息的歷史數(shù)據(jù)樣本進(jìn)行整理(給每組數(shù)據(jù)貼上標(biāo)簽,未受雷擊數(shù)據(jù)標(biāo)簽為0,雷擊數(shù)據(jù)標(biāo)簽為1),然后進(jìn)行歸一化,并計(jì)算訓(xùn)練集中樣本點(diǎn)之間的距離;
Step 2:得到相互之間歐式距離最小的K 個(gè)樣本點(diǎn);
Step 3:確定前K 個(gè)樣本中同類別的樣本數(shù)量,并判斷同類別的樣本數(shù)量是否小于δ(一般取0<δ≤K/2),若小于δ則刪除該樣本;
Step 4:檢測(cè)該K 個(gè)近鄰樣本中是否有相同或極其相近的樣本,有則刪除該樣本;
Step 5:更新訓(xùn)練數(shù)據(jù)集。
表1微地形數(shù)據(jù)數(shù)值化對(duì)應(yīng)表
圖1 KNN算法數(shù)據(jù)刪減流程圖
將通過(guò)KNN 算法進(jìn)行數(shù)據(jù)刪減后的樣本作為訓(xùn)練樣本,通過(guò)不斷調(diào)整支持向量機(jī)的模型參數(shù),學(xué)習(xí)得到最優(yōu)分類超平面?;贙NNSVM算法的輸電線路雷電數(shù)據(jù)學(xué)習(xí)模型如圖2所示。
圖2基于KNN-SVM算法的輸電線路雷電數(shù)據(jù)學(xué)習(xí)模型
當(dāng)采集到新的微氣象、微地形及桿塔本體信息數(shù)據(jù)時(shí),將其輸入模型中即可得到數(shù)據(jù)類別預(yù)報(bào)值,電網(wǎng)工作人員通過(guò)分析預(yù)報(bào)值的類別來(lái)決定是否啟動(dòng)預(yù)警?;贙NN-SVM 算法的輸電線路雷電災(zāi)害預(yù)警模型如圖3所示。
圖3基于KNN-SVM算法的輸電線路雷電災(zāi)害預(yù)警模型
本實(shí)驗(yàn)數(shù)據(jù)來(lái)源為某供電局提供的M 線雷電監(jiān)測(cè)數(shù)據(jù)。數(shù)據(jù)分為兩類,沒(méi)有遭受雷擊的為一類,記為0;遭受過(guò)雷擊的為一類,記為1。SVM 算法基于LIBSVM-2.22工具箱實(shí)現(xiàn)。樣本共2012條數(shù)據(jù),取前1513條數(shù)據(jù)做訓(xùn)練集,后499條數(shù)據(jù)做測(cè)試集,SVM 采用RBF徑向基函數(shù)為核函數(shù),其中參數(shù)c=1,g=2。
選取一部分實(shí)驗(yàn)數(shù)據(jù)進(jìn)行畫圖,結(jié)果如圖4、圖5所示。
圖4實(shí)際數(shù)據(jù)類別與測(cè)試結(jié)果對(duì)比圖
圖5實(shí)際數(shù)據(jù)類別與測(cè)試結(jié)果對(duì)比圖
圖5為放大后的結(jié)果,雖然圖4中可以看出在第24、111、132、193條數(shù)據(jù)存在分類錯(cuò)誤,但其他數(shù)據(jù)基本能正確分類。
在499條測(cè)試數(shù)據(jù)中有55條為雷擊數(shù)據(jù),其中正確檢測(cè)出來(lái)了49條,有6條未檢測(cè)出來(lái),但總體檢測(cè)率高達(dá)90%。實(shí)驗(yàn)結(jié)果如表2所示。
表2實(shí)驗(yàn)結(jié)果比較
實(shí)驗(yàn)結(jié)果表明,SVM算法對(duì)于海量數(shù)據(jù)的處理存在訓(xùn)練時(shí)間長(zhǎng)、分類精度低等問(wèn)題。本文在SVM算法的基礎(chǔ)上加入K 近鄰算法,對(duì)訓(xùn)練樣本集進(jìn)行刪減,剔除重復(fù)交替、噪聲點(diǎn)、孤立點(diǎn)等異常數(shù)據(jù)點(diǎn),提高了SVM算法的分類準(zhǔn)確率,同時(shí)縮減了91.4%的訓(xùn)練時(shí)間。所提模型對(duì)輸電線路桿塔進(jìn)行雷擊預(yù)警是可行的。
本文提出了一種基于K 近鄰法和支持向量機(jī)相融合的輸電線路桿塔雷擊預(yù)警模型,并通過(guò)實(shí)驗(yàn)證明了此方法的有效性。綜上所述,得到如下結(jié)論:通過(guò)K 近鄰法優(yōu)化訓(xùn)練樣本后的支持向量機(jī)分類模型相比單一支持向量機(jī)模型對(duì)雷擊預(yù)警的正確率和訓(xùn)練速度均有大幅提高。進(jìn)一步提高預(yù)測(cè)正確率是下一步的研究方向。