尹志勇,陳永光,桑博
(1.軍械工程學(xué)院車(chē)輛與電氣工程系,河北石家莊050003;2.北京跟蹤與通信技術(shù)研究所,北京100094)
基于GA-SVM的電能質(zhì)量擾動(dòng)分類方法研究
尹志勇1,陳永光2,桑博1
(1.軍械工程學(xué)院車(chē)輛與電氣工程系,河北石家莊050003;2.北京跟蹤與通信技術(shù)研究所,北京100094)
電能質(zhì)量擾動(dòng)的準(zhǔn)確分類,是電能品質(zhì)改善和治理的重要決策依據(jù).為解決支持向量機(jī)(SVM)分類器在多分類問(wèn)題中的不足,采用模式識(shí)別領(lǐng)域中聚類分析的思想,提出了一種基于遺傳算法(GA)的SVM決策樹(shù)多分類電能質(zhì)量擾動(dòng)識(shí)別方法.該方法首先對(duì)參數(shù)進(jìn)行初步最優(yōu)值篩選,將得到的初步最優(yōu)值作為遺傳算法初始值進(jìn)行編碼,根據(jù)設(shè)立的適應(yīng)度函數(shù)完成GA中的選擇、交叉、變異等操作,進(jìn)一步搜索最優(yōu)值,再以最優(yōu)決策樹(shù)構(gòu)建SVM分類器,最終實(shí)現(xiàn)SVM的多分類.仿真結(jié)果表明,相比未經(jīng)優(yōu)化的SVM模型,基于GA算法優(yōu)化的SVM具有較高的識(shí)別精度和抗噪能力.
電能質(zhì)量擾動(dòng);分類;遺傳算法;支持向量機(jī)
電網(wǎng)中的非線性、沖擊性和不平衡負(fù)荷的投入導(dǎo)致電網(wǎng)電壓波形發(fā)生畸變、電壓波動(dòng)和三相不平衡等,造成嚴(yán)重的電能質(zhì)量問(wèn)題,深入研究影響電能質(zhì)量的各種因素,實(shí)現(xiàn)電能質(zhì)量擾動(dòng)的準(zhǔn)確分類,是電能品質(zhì)改善和治理的重要決策依據(jù)[1-2].SVM作為模式識(shí)別等相關(guān)領(lǐng)域的重要分類方法,也開(kāi)始逐步運(yùn)用到電能質(zhì)量擾動(dòng)分類識(shí)別領(lǐng)域中[3-4].文獻(xiàn)[5]針對(duì)提高SVM識(shí)別率,提出了將SVM訓(xùn)練樣本集識(shí)別率作為遺傳算法的適應(yīng)度函數(shù)來(lái)優(yōu)化生成SVM最優(yōu)分類決策樹(shù).文獻(xiàn)[6]提出連續(xù)利用小波變換與是變換對(duì)擾動(dòng)信號(hào)特征值進(jìn)行提取,先后兩次輸入SVM分類器進(jìn)行識(shí)別,形成了一套“提取-初分類-再提取-再分類”的分類器設(shè)計(jì)標(biāo)準(zhǔn).在現(xiàn)有的諸多經(jīng)典SVM分類方法中,如一對(duì)一分類、一對(duì)多分類、有向非循環(huán)圖支持向量機(jī)、決策樹(shù)支持向量機(jī)等,由于存在需要訓(xùn)練的支持向量機(jī)個(gè)數(shù)過(guò)多、測(cè)試的時(shí)間過(guò)長(zhǎng)等缺點(diǎn),導(dǎo)致這些方法識(shí)別的精度不高,耗時(shí)過(guò)長(zhǎng),雖然近年來(lái)國(guó)內(nèi)外研究人員對(duì)此做出了一定的改進(jìn)[7-10],但也存在識(shí)別度降低以及產(chǎn)生的SVM分類器不是最優(yōu)等問(wèn)題.
針對(duì)上述問(wèn)題,本文提出了一種基于遺傳算法的SVM決策樹(shù)多分類電能質(zhì)量擾動(dòng)識(shí)別方法.GA由美國(guó)學(xué)者Holland在1962年首次提出,該算法以遺傳學(xué)基本理論與生物進(jìn)化理論中的“適者生存,優(yōu)勝劣汰”原則為基礎(chǔ),廣泛應(yīng)用于搜索尋優(yōu)[11-12].首先GA對(duì)優(yōu)化參數(shù)進(jìn)行編碼,根據(jù)設(shè)立的適應(yīng)度函數(shù)完成GA中的選擇、交叉、變異等操作,完成對(duì)優(yōu)秀種群個(gè)體的篩選,在保留適應(yīng)度較好個(gè)體的同時(shí),淘汰適應(yīng)度較差的個(gè)體,通過(guò)不斷迭代,直到選出具有最優(yōu)適應(yīng)度值的個(gè)體[13].盡管遺傳算法在搜索尋優(yōu)中應(yīng)用廣泛,但仍有一些不足:一是算法的全局搜索能力要高于局部搜索能力,這就導(dǎo)致在后期搜索最優(yōu)值時(shí)會(huì)出現(xiàn)搜索時(shí)間過(guò)長(zhǎng)的情況;二是如果在種群進(jìn)化初期,出現(xiàn)適應(yīng)度較高的突變個(gè)體,會(huì)導(dǎo)致種群多樣性喪失,出現(xiàn)過(guò)早收斂的情況,搜索到的結(jié)果可能不是全局最優(yōu)值.為此,本文提出先對(duì)待優(yōu)化的參數(shù)(SVM的懲罰因子與徑向基核函數(shù)參數(shù))進(jìn)行初步最優(yōu)值篩選,然后將得到的初步最優(yōu)值作為遺傳算法初始值進(jìn)行編碼,再通過(guò)GA的選擇、交叉、變異3步操作完成進(jìn)一步搜索最優(yōu)值.仿真結(jié)果表明,相比未經(jīng)優(yōu)化的SVM模型,基于GA算法優(yōu)化的SVM具有較高的識(shí)別精度和抗噪能力.
SVM是一種以統(tǒng)計(jì)學(xué)習(xí)理論為主要思想的智能機(jī)器學(xué)習(xí)算法[14],包括線性分類與非線性分類兩種.在實(shí)際分類應(yīng)用中,基本遇到的都是非線性問(wèn)題,此時(shí)線性可分的SVM無(wú)法處理,因此,解決非線性問(wèn)題的思路都是將其通過(guò)非線性變換,將原始空間的樣本變換到高維的特征空間,然后在高維特征空間中按照類似線性可分的SVM方法尋找分類最優(yōu)的超平面S,其思想如圖1所示.
為了減少在特征空間中對(duì)向量點(diǎn)積的計(jì)算,Vapnik等學(xué)者通過(guò)引入符合Mercer條件下核函數(shù)的概念來(lái)代替向量點(diǎn)積運(yùn)算[15],即:
圖1 原始空間變換到高維空間的映射Fig.1 The mapping from original space transformation to high dimensional space
在引入核函數(shù)概念后,計(jì)算高維特征空間的對(duì)偶問(wèn)題轉(zhuǎn)化為式(2):
最優(yōu)分類超平面S的分類函數(shù)為:
圖2反映了SVM的結(jié)構(gòu),中間節(jié)點(diǎn)的線性組合構(gòu)成了輸出節(jié)點(diǎn),每一個(gè)中間節(jié)點(diǎn)相應(yīng)的表示一個(gè)支持向量.
圖2 SVM結(jié)構(gòu)圖Fig.2 The structure diagram of SVM
在實(shí)際應(yīng)用中,我們面臨的絕大多數(shù)問(wèn)題仍是多分類問(wèn)題,而SVM作為二分類的主要手段,顯然不能滿足實(shí)際應(yīng)用,因此必須要對(duì)SVM進(jìn)行改進(jìn),達(dá)到解決多分類問(wèn)題的目的.
目前,應(yīng)用較為廣泛的多分類SVM構(gòu)造方法有一對(duì)一、一對(duì)多2種[16].一對(duì)一分類法通過(guò)將每一類訓(xùn)練樣本分別與剩余的訓(xùn)練樣本一一比對(duì),共形成0.5 K(K-1)個(gè)二分類SVM分類器,其中K為訓(xùn)練樣本類別數(shù);然后將測(cè)試樣本通過(guò)所有SVM分類器,運(yùn)用投票法來(lái)完成分類操作.一對(duì)多分類法是將K個(gè)二分類SVM分類器中的第i類訓(xùn)練樣本類別標(biāo)記成1,然后將剩余的樣本類別標(biāo)記為-1,然后將測(cè)試樣本通過(guò)所有SVM分類器,將預(yù)測(cè)的樣本類別號(hào)進(jìn)行歸類,并判斷所屬類別.但這2類分類方法會(huì)出現(xiàn)推廣誤差無(wú)界的問(wèn)題,有時(shí)還會(huì)造成拒絕分類的情況出現(xiàn).
為了解決SVM分類器在多分類問(wèn)題中的缺陷,本文根據(jù)模式識(shí)別領(lǐng)域中聚類分析的思想,設(shè)計(jì)了SVM分類樹(shù)來(lái)完成對(duì)電能質(zhì)量擾動(dòng)信號(hào)的識(shí)別.SVM分類樹(shù)的結(jié)構(gòu)如圖3所示.
圖3 SVM多分類結(jié)構(gòu)圖Fig.3 Multi-classification structure diagram of SVM
如前所述,GA可能出現(xiàn)后期搜索最優(yōu)值時(shí)搜索時(shí)間過(guò)長(zhǎng),初期出現(xiàn)適應(yīng)度較高的突變個(gè)體而過(guò)早收斂等問(wèn)題[17].為此,本文提出先對(duì)待優(yōu)化的參數(shù)(SVM的懲罰因子C與徑向基核函數(shù)參數(shù)g)進(jìn)行初步最優(yōu)值篩選,將得到的初步最優(yōu)值作為遺傳算法初始值進(jìn)行編碼,再通過(guò)GA的選擇、交叉、變異3步操作完成進(jìn)一步搜索最優(yōu)值.
1)交叉驗(yàn)證法(Cross Validation,CV)完成對(duì)參數(shù)C、g的初步尋優(yōu)
CV法是一種對(duì)分類器性能進(jìn)行優(yōu)化的計(jì)算方法,其主要操作過(guò)程為:首先將全部原始數(shù)據(jù)平均分成N組;然后將N組中前N-M組作為訓(xùn)練樣本,后M組作為測(cè)試樣本;最后取M組測(cè)試樣本準(zhǔn)確率的平均值作為評(píng)價(jià)分類器的性能的指標(biāo).選取CV驗(yàn)證下測(cè)試樣本準(zhǔn)確率的平均值ηCV為最優(yōu)化參數(shù)C、g的適應(yīng)度函數(shù),其數(shù)學(xué)表達(dá)如式(5)所示:
為了可以快速尋找最優(yōu)參數(shù)C、g,對(duì)其進(jìn)行離散化的網(wǎng)格搜索,參數(shù)C、g都在2-10~210范圍內(nèi)進(jìn)行搜索,并給定N=3,其尋優(yōu)參數(shù)結(jié)果如圖4所示.
經(jīng)過(guò)搜索,得到ηCV=97%,C=2,g=0.5.
2)遺傳算法再次尋優(yōu)步驟
GA搜索最優(yōu)值的具體步驟如下:
①種群初始化設(shè)置及各類參數(shù)編碼:設(shè)置種群數(shù)為20,最大進(jìn)化代數(shù)為100,交叉操作概率為0.6,變異操作概率為0.1;將初步優(yōu)化后得到的C、g進(jìn)行實(shí)數(shù)編碼.
②確立適應(yīng)度函數(shù):適應(yīng)度函數(shù)仍選取CV驗(yàn)證下測(cè)試樣本準(zhǔn)確率的平均值ηCV.
圖4 參數(shù)選擇結(jié)果3d立體圖Fig.4 3d diagram of parameter selection result
③選擇、交叉、變異3大遺傳操作:
選擇操作的基本思想是從上一代群體中按照適應(yīng)度值的情況,以一定的概率選擇適應(yīng)度值較好的個(gè)體組成新的種群,適應(yīng)度較好的個(gè)體被遺傳到下一代的概率越大,通過(guò)采用概率統(tǒng)計(jì)理論中輪盤(pán)賭的方法完成個(gè)體繁衍,設(shè)種群中個(gè)體j被繁衍到下一代的概率為εi如式(6)所示.
交叉操作是對(duì)隨機(jī)選取的兩個(gè)不同個(gè)體的染色體進(jìn)行交換,來(lái)得到新的優(yōu)秀個(gè)體.在對(duì)個(gè)體進(jìn)行實(shí)數(shù)編碼后,采取實(shí)數(shù)交叉法對(duì)第m個(gè)染色體rm和第n個(gè)染色體rn在第k位進(jìn)行交叉操作為:
式中,s為[0,1]間的隨機(jī)數(shù).
變異操作的目的是為了保持種群的多樣性,首先隨機(jī)選取一個(gè)種群個(gè)體,然后對(duì)該個(gè)體m的第n個(gè)基因rmn進(jìn)行變異操作,獲得更為優(yōu)秀的個(gè)體,具體過(guò)程如式(8)所示.
④各類參數(shù)解碼.得到迭代后的最終優(yōu)化參數(shù)為:C=1.414,g=1.
綜合以上分析,基于GA的SVM分類器的工作流程如圖5所示,圖中數(shù)據(jù)預(yù)處理過(guò)程即為交叉驗(yàn)證法對(duì)參數(shù)C、g的初步尋優(yōu)過(guò)程.
圖5 CV-GA-SVM分類器流程圖Fig.5 Flow chart of CV-GA-SVM classifier
為了全面分析該分類方法的實(shí)用性,仿真實(shí)驗(yàn)主要從以下2個(gè)方面進(jìn)行驗(yàn)證.
1)不同SNR條件下對(duì)擾動(dòng)信號(hào)分類識(shí)別率的影響
對(duì)6類擾動(dòng)信號(hào)隨機(jī)產(chǎn)生的300組樣本,分別疊加SNR為20 dB、30 dB、40 dB的噪聲,其中前100組作為分類器訓(xùn)練樣本,后200組最為分類器測(cè)試樣本,其中SVM中選擇優(yōu)化后的徑向基核函數(shù),測(cè)試樣本識(shí)別率的統(tǒng)計(jì)結(jié)果如表1所示.
從表1可知,該方法在識(shí)別擾動(dòng)信號(hào)時(shí)準(zhǔn)確率較高,抗噪性能非常明顯,平均識(shí)別率在97.08%以上.
2)不同核函數(shù)對(duì)擾動(dòng)信號(hào)分類識(shí)別率的影響
為了比較優(yōu)化后核函數(shù)對(duì)SVM分類器性能的影響,將徑向基核函數(shù)與其他常用核函數(shù)進(jìn)行比較,在無(wú)噪聲污染的條件下對(duì)六類擾動(dòng)信號(hào)隨機(jī)產(chǎn)生的300組樣本,其中前100組作為分類器訓(xùn)練樣本,后200組最為分類器測(cè)試樣本,以六類電能質(zhì)量擾動(dòng)信號(hào)的平均識(shí)別率作為評(píng)價(jià)指標(biāo),統(tǒng)計(jì)結(jié)果如表2所示.
根據(jù)分類結(jié)果可知:①優(yōu)化后徑向基核函數(shù):共出現(xiàn)15個(gè)錯(cuò)誤樣本,其中1組電壓暫降樣本,6組電壓沖擊樣本,8組電壓脈沖樣本,平均識(shí)別率98.75%;②線性核函數(shù):共出現(xiàn)28個(gè)錯(cuò)誤樣本,其中2組電壓暫升,4組電壓暫降,2組電壓中斷,8組電壓沖擊,12組電壓脈沖,平均識(shí)別率97.67%;③階多項(xiàng)式核函數(shù):共出現(xiàn)23個(gè)錯(cuò)誤樣本,其中2組電壓暫升,3組電壓暫降,1組電壓中斷,7組電壓沖擊,10組電壓脈沖,平均識(shí)別率98.08%;④Sigmoid核函數(shù):共出現(xiàn)22個(gè)錯(cuò)誤樣本,其中1組電壓暫升,4組電壓暫降,8組電壓沖擊,9組電壓脈沖,平均識(shí)別率98.17%.從各類核函數(shù)統(tǒng)計(jì)結(jié)果來(lái)看,識(shí)別率較低的擾動(dòng)類型主要為電壓沖擊與電壓脈沖,原因是電壓沖擊往往是由別的擾動(dòng)產(chǎn)生時(shí)才出現(xiàn)的,其特征值被其他擾動(dòng)信號(hào)特征值覆蓋,因此會(huì)經(jīng)常出現(xiàn)誤判.
表1 不同信噪比下的測(cè)試結(jié)果Tab.1 Test results under different SNR
表2 測(cè)試結(jié)果Tab.2 Test results
1)提出了一種基于遺傳算法的SVM決策樹(shù)多分類電能質(zhì)量擾動(dòng)識(shí)別方法.該方法首先對(duì)SVM的懲罰因子與徑向基核函數(shù)進(jìn)行初步最優(yōu)值篩選,將得到的結(jié)果作為遺傳算法初始值進(jìn)行編碼,再通過(guò)GA的選擇、交叉、變異3步操作完成進(jìn)一步搜索最優(yōu)值,最終獲得了最優(yōu)參數(shù),基于此,構(gòu)建了SVM分類器,并設(shè)計(jì)了分類流程.
2)對(duì)所提出的分類方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證.采用離散小波對(duì)電能質(zhì)量擾動(dòng)信號(hào)分解,構(gòu)建了分類器所用的特征向量集,從不同噪聲強(qiáng)度和不同核函數(shù)的選擇兩個(gè)方面對(duì)GA-SVM分類方法進(jìn)行了驗(yàn)證,結(jié)果表明,基于GA算法優(yōu)化的SVM具有較高的識(shí)別精度和抗噪能力,適應(yīng)能力較強(qiáng),為電能質(zhì)量監(jiān)測(cè)的實(shí)際工程應(yīng)用提供了依據(jù).
[1]邢穎,李寶樹(shù).非線性負(fù)荷對(duì)電網(wǎng)電壓和電流的影響[J].電氣應(yīng)用,2007,26(8):25-28.
[2]劉金寧,趙錦成,劉洪文.裝備電能質(zhì)量仿真和試驗(yàn)系統(tǒng)研究[J].移動(dòng)電源與車(chē)輛,2012(4):28-32.
[3]Karthikeyan M,Malathi V.Wavelet support vector machine approach for classification of power quality disturbances[J].International Journal of Recent Trends in Engineering,2009,1(3):290-293.
[4]占勇.基于支持向量機(jī)的電能質(zhì)量分析和負(fù)荷建模研究[D].上海:上海交通大學(xué),2007.
[5]王一,楊俊安,劉輝.一種基于遺傳算法的SVM決策樹(shù)多分類方法[J].信號(hào)處理,2010,26(10):1495-1499.
[6]韓剛,張建文,禇鑫,等.多特征組合及優(yōu)化SVM的電能質(zhì)量擾動(dòng)識(shí)別[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2015,27(8):71-76.
[7]秦業(yè),袁海文,袁海斌,等.基于優(yōu)化最小二乘支持向量機(jī)的電能質(zhì)量擾動(dòng)分類[J].電工技術(shù)學(xué)報(bào),2012,27(8):209-214.
[8]張俊才,張靜.使用粒子群算法進(jìn)行特征選擇及對(duì)支持向量機(jī)參數(shù)的優(yōu)化[J].微電子學(xué)與計(jì)算機(jī),2012,29(7):138-141.
[9]H.Eristi,Y.Demir.Automatic classification of power quality events and disturbances using wavelet transform and support vector machines[J].IET Gener Transaction Distribution,2012,6(10):968-976.
[10]戰(zhàn)兵.基于支持向量機(jī)的制造系統(tǒng)靜態(tài)復(fù)雜性綜合模型研究[J].軍械工程學(xué)院學(xué)報(bào),2014,26(4):14-18.
[11]Vasconcelos J A,Ramirez J A,Takahashi R H C,et al.Improvements in Genetic Algorithms[J].IEEE Trans Magnetics,2001,37:3414-3417.
[12]Gu W j,Zhang R c,Zhao H c.On fuzzy sliding mode guidance based on self-adaptive genetic annealing algorithm.IEEE Trans on SMC.2008,3(11):257-2581.
[13]程亞平,李志剛,張強(qiáng).多目標(biāo)遺傳算法在感應(yīng)加熱電氣參數(shù)優(yōu)化中的應(yīng)用[J].河北工業(yè)大學(xué)學(xué)報(bào),2015,44(1):1-5.
[14]Cristianini N,Shawe-Taylor J.An Introduction to Support Vector Machines and Other Kernal-based Learning Methods[M].Cambridge:Cambridge U-niversity Press,2000.
[15]CHAPELLE O,HAFFNER P,VAPNIK V N.Support Vector Machines for Histogram-based Image Classification[J].IEEE Transactions on Neural Networks,1999,10(5):1055-1064.
[16]余輝,趙暉.支持向量機(jī)多類分類算法新研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(7):185-189.
[17]GAAFAR L K,MASOUD S A.Genetic algorithms and simulated annealing for scheduling in agile manufacturing[J].International Journal of Production Research.2005,43(14):189-216.
[責(zé)任編輯 楊屹]
Research on Power Quality Disturbance Classification Based on GA-SVM
YIN Zhi-yong1,CHEN Yong-guang2,SANG Bo1
(1.Department of Vehicle and Electric Engineering,Ordnance Engineering College,Hebei Shijiazhuang 050003,China;2. Institute of Tracking and Telecommunications technology,Beijing 100094,China)
The accurate classification of power quality is an important basis for the improvement and management.In order to solve the lack of support vector machine(SVM)classifier in multi classification problem,this paper proposes a new power quality disturbance classification method based on genetic algorithm(GA)and SVM with the cluster analysis in pattern recognition.Firstly,the method is used to select the optimal parameters,and then the results are encoded as the initial values of the genetic algorithm.According to the fitness function,the selection,crossover and mutation operations of GA are completed,and the optimal values are searched further.Finally the optimal decision tree is used to construct the SVM multi classifier.The simulation results show that the optimized SVM based on GA has higher recognition accuracy and anti noise ability than the non-optimized SVM model.
power quality disturbance;classification;genetic algorithm;support vector machine
TM76
A
1007-2373(2017)04-0075-05
10.14081/j.cnki.hgdxb.2017.04.013
2017-03-02
國(guó)家自然科學(xué)基金(51307184)
尹志勇(1979-),男,講師,博士,jamy067@163.com.