姬 波, 楊文東, 張 馳, 盧紅星, 安致嫄
(1.鄭州大學 信息工程學院 河南 鄭州 450001; 2.國網(wǎng)河南省電力公司信息通信公司通信運行部 河南 鄭州 450000)
高壓輸電線路的弧垂是反映線路安全運行的重要參數(shù),也是輸電線路在線監(jiān)測和動態(tài)增容重點關注的指標之一[1-2],當前國內外都非常重視輸電線路弧垂的監(jiān)測研究. 現(xiàn)有弧垂的監(jiān)測方法主要有:圖像技術法[3],GPS監(jiān)測法[4],傾斜角法[5]以及通過導線溫度和應力測量弧垂[6-7]等. 但是,除了實時監(jiān)測弧垂變化外,預知和預警弧垂變化也是一個亟待解決的問題,目前還未見有這方面相關的研究.
SVM是一種基于統(tǒng)計學習理論的機器學習算法,已被廣泛應用到現(xiàn)代經(jīng)濟和工業(yè)領域中[8]. 文獻[9]通過支持向量回歸算法建立股票分析模型,對股票價格進行預測分析.文獻[10]應用支持向量機算法對混凝土抗壓強度進行預測.文獻[11]采用支持向量回歸算法對山西月度最大電力負荷進行預測.文獻[12]進行項目控制預測. 因為線路運行的電壓、電流、導線的溫度,以及周圍環(huán)境的溫度、風速、濕度等都會造成輸電線路弧垂的變化[13]. 本文提出一種基于GA特征自適應賦權的SVM預測高壓輸電線路弧垂的方法(GA-SVM). 該方法主要分為兩個階段:1) 根據(jù)每個屬性對弧垂影響的重要程度不同,使用GA自適應對特征賦權,以突出重要屬性,抑制次要或冗余屬性. 2) 以第一階段處理過的數(shù)據(jù)作為SVM的輸入,對弧垂進行預測分析. 實證研究表明,本文提出的基于GA-SVM預測高壓輸電線路弧垂的方法是可行和有效的,并且其預測精度優(yōu)于Bayes算法、KNN算法、決策樹算法和BPNN神經(jīng)網(wǎng)絡算法.
輸電線路任一點的弧垂是指該點與懸線兩端連線的鉛錘距離,通常所說的弧垂是指一個檔距導線段的最大弧垂. 輸電線路的弧垂是線路設計和安全運行的重要指標,弧垂過小,會導致輸電線應力過大,影響輸電線路的機械安全;弧垂過大,將導致輸電線距離地面太低,會造成對地放電的危險. 因此必須保證弧垂在規(guī)定的安全范圍內.
SVM在構造最優(yōu)分類超平面時,采用迭代訓練算法來減小誤差函數(shù). SVM分類模型可以描述為一個數(shù)學優(yōu)化問題,所用公式為
(1)
輸電線路弧垂是連續(xù)屬性,但有時候預測弧垂屬于哪一個范圍比預測弧垂的確切值更有意義. 所以本實驗采用等寬離散化方法把弧垂離散化為N個區(qū)間.等寬離散化方法是一種典型的無監(jiān)督離散化方法,是將屬性的值域劃分為具有相同寬度區(qū)間.等寬離散化算法過程如下所示.
輸入: 屬性A,A的個數(shù)為M,離散區(qū)間個數(shù)為N;
輸出: 離散化后的屬性為F.
1) 計算A的最大值MAX和最小值MIN.
2) 計算屬性A的離散區(qū)間寬度W=(MAX-MIN)/N.
3) F=A
4) For i in M do
5) For j in N do
6) If Ai<=MIN +j*W
7) Fi=j
8) Else
9) Continue
10) End
11) End
12) Return F.
特征權重可以有效提高模型的精確度[14-15]. 特征權重是對數(shù)據(jù)的各個特征賦予不同的重要程度,從而達到突出重要特征,抑制次要特征或冗余特征.主要有以下3種方法:1) 單一權重方法賦權;2) 綜合權重方法賦權;3) 自適應賦權. 自適應賦權是一種客觀的賦權方法,不需要人為干預,能更有效地搜索重要特征,抑制次要特征或冗余特征提高模型精度[16-17]. 本文采用基于GA的特征自適應賦權方法.
GA是一種求解問題高效并行的全局自適應搜索方法[18],以自然選擇和遺傳理論為基礎,在搜索過程中自動獲取和積累有關搜索空間知識,并自適應地控制搜索過程以求得最優(yōu)解. 利用遺傳算法實現(xiàn)特征自動賦權步驟如下.
1) 基因編碼. 本文采用表達精確的浮點數(shù)編碼方法.
2) 種群初始化. 隨機生成M個染色體組成一個群體,群體內個體的數(shù)量即是群體規(guī)模,每個初始個體即表示問題的初始解.
3) 計算個體的適應度. 適應度函數(shù)是唯一評價個體好壞的標準. 在GA尋優(yōu)過程中,一個良好的適應度函數(shù)能夠指導尋優(yōu)的方向. 為了保證GA能搜索到最優(yōu)的特征權值,定義的適應度函數(shù)為Fitness=N′/N,其中:N′表示進行特征賦權后,能夠正確分類訓練實例的個數(shù);N表示用于訓練實例的總個數(shù).
5) 交叉. 交叉是遺傳算法中最主要的遺傳操作,且是產(chǎn)生新個體的主要方式之一. 本文采用分散交叉法.
6) 變異. 變異是模擬生物進化中的基因突變,它使GA在接近最優(yōu)解鄰域時能夠加速向最優(yōu)解收斂. 本文選用高斯函數(shù)作為變異函數(shù).
本文所提出的輸電線路弧垂預測模型是一個多階段的過程:包括數(shù)據(jù)的特征變換,GA特征自適應賦權,支持向量機預測弧垂,性能評價. GA-SVM預測輸電線路弧垂算法過程如下.
輸入: 訓練數(shù)據(jù)集Train_set,測試集Test_set;
輸出: 弧垂預測值L.
1) 使用標準化特征變換方法處理訓練數(shù)據(jù)集Train_set,得到Train_set1.
2) 使用遺傳算法自適應計算Train_set1的特征權重,得到Train_set2.
3) 使用Train_set2作為SVM的輸入,訓練SVM.
4) 把測試集Test_set輸入到訓練好的SVM模型中.
5) 得到弧垂預測值L.
實驗數(shù)據(jù)取自鄭州市某電力公司,共1 502條記錄,每條記錄包括6個屬性:輸電線路溫度、環(huán)境溫度、環(huán)境風速、環(huán)境濕度、載荷電流、輸電線路弧垂. 本實驗以前5個屬性作為GA-SVM算法的輸入屬性,輸電線路弧垂作為預測屬性.
在本實驗中,使用臺灣大學林智仁教授開發(fā)的LIBSVM工具箱進行輸電線路弧垂預測. 其中,支持向量機類型選擇c-SVC,核函數(shù)選擇徑向基函數(shù),懲罰系數(shù)c和內核參數(shù)g使用網(wǎng)格搜索算法進行尋優(yōu). 網(wǎng)格搜索算法是支持向量機參數(shù)尋優(yōu)常用的一種方法,它將待選取的參數(shù)限定在一定的取值范圍內,然后將參數(shù)按一定的步長分割成一個個網(wǎng)格,同時按次序遍歷網(wǎng)格內的所有點,從而獲取最優(yōu)參數(shù)組合. 網(wǎng)格搜索算法得到的最優(yōu)參數(shù)組合為:懲罰系數(shù)c=2 048,內核參數(shù)g=0.007 812 5.
3.3.1不同離散化區(qū)間個數(shù)的實驗結果 表1給出了5種不同等寬離散化區(qū)間個數(shù)的10次十折實驗結果. 從表1可以看出,隨著類標屬性離散化區(qū)間個數(shù)的增加,輸電線路弧垂的預測準確率逐漸下降. 弧垂離散化為3箱的10次十折平均預測準確率為76.68%,比離散化為7箱的平均預測準確率59.95%高16.73%. 但是較少的區(qū)間劃分不能充分反應弧垂的變化,而較多的區(qū)間劃分準確率又太低. 所以綜合考慮輸電線路弧垂的分布狀態(tài),本實驗把弧垂等寬離散化分為5個區(qū)間.
3.3.2特征變換后的實驗結果 表2給出了4種特征變換的10次十折實驗結果,包括未進行特征變換的SVM方法,MAX-MIN特征變換的SVM方法,反正切特征變換的SVM方法和標準化特征變換的SVM方法. 從中可以看出:
1) 未進行特征變換的SVM方法10次十折平均正確率是71.38%,比MAX-MIN特征變換和反正切特征變換的SVM方法平均正確率分別高11.91%和13.16%,比標準化特征變換的SVM方法平均正確率75.10%低3.72%. 這說明合理的特征變換能夠提高弧垂的預測精度,不當?shù)奶卣髯儞Q則降低預測精度.
2) 標準化特征變換的SVM方法10次十折平均正確率最高,比未進行特征變換的SVM方法提高3.72%,比MAX-MIN特征變換和反正切特征變換的SVM方法分別提高15.63%和16.88%. 這說明本文采用的標準化特征變換方法能夠更加準確地描述實驗數(shù)據(jù)特征,從而提升弧垂的預測正確率.
表1 5種不同離散化區(qū)間個數(shù)的實驗結果對比
表2 4種不同特征變換方法的實驗結果對比
3.3.3特征加權后的實驗結果 上述實驗說明本文提出的標準化特征變換是最佳的特征變換方法,在此基礎上,我們采用特征加權方法對實驗數(shù)據(jù)賦權,以突出重要屬性,抑制冗余或次要屬性. 表3給出了標準化特征變換并加權后的實驗結果. 從表3中可以看出:GA自適應特征賦權方法10次十折實驗平均正確率最高,比未加權方法提高2.68%,比熵權重方法提高3.32%,比互信息權重方法提高3.5%. 這說明GA自適應特征賦權方法能夠進一步突出重要屬性,抑制冗余或次要屬性,從而提高SVM預測輸電線路弧垂的精度.
為了更詳細地分析特征權重對實驗結果的影響,在圖1和圖2中分別給出了10組十折實驗的第1組和第2組GA權重、互信息權重和熵權重的正確率曲線. 可以看出:
表3 標準化特征變換并加權后的實驗結果對比
1) 在第1組的10個數(shù)據(jù)集上,GA權重在其中的6個數(shù)據(jù)集上優(yōu)于互信息權重,在1個數(shù)據(jù)集上等于互信息權重,在2個數(shù)據(jù)集上低于互信息權重;GA權重在其中的7個數(shù)據(jù)集上優(yōu)于熵權重,在3個數(shù)據(jù)集上低于熵權重.
2) 在第2組的10個數(shù)據(jù)集上,GA權重在其中的8個數(shù)據(jù)集上優(yōu)于互信息權重,在1個數(shù)據(jù)集上等于互信息權重,在1個數(shù)據(jù)集上低于互信息權重;GA權重在其中的9個數(shù)據(jù)集上優(yōu)于熵權重,在1個數(shù)據(jù)集上低于熵權重.
3) GA權重的效果在總體上優(yōu)于互信息權重和熵權重,更適合用于本實驗數(shù)據(jù)集進行特征賦權,以突出重要屬性,抑制冗余或次要屬性.
圖1 第1組3種特征權重方法正確率曲線對比Fig.1 Correctness curve comparison of three kinds feature weighting methods in the first group
圖2 第2組3種特征權重方法正確率曲線對比Fig.2 Correctness curve comparison of three kinds feature weighting methods in the second group
3.3.4與其他機器學習算法實驗對比 為了驗證本文所提出方法的有效性,圖3給出了貝葉斯算法、KNN算法、決策樹算法、BPNN神經(jīng)網(wǎng)絡算法和本文提出的GA-SVM方法的10次十折實驗的正確率對比柱狀圖. 貝葉斯算法輸入特征離散化采用等寬離散化方法,圖中所示Bayes_9表示將每個屬性分別離散為9箱后的實驗結果. KNN算法的輸入屬性采用標準化方法變換,圖中所示KNN_9表示KNN算法采用9近鄰. 圖中所示Tree表示決策樹采用CART算法. BPNN神經(jīng)網(wǎng)絡采用3層網(wǎng)狀結構,5個輸入節(jié)點,10個隱藏層節(jié)點,5個輸出節(jié)點,激活函數(shù)選用logsig和purelin,網(wǎng)絡訓練函數(shù)選用traingdm. 圖中所示BPNN_0.3表示神經(jīng)網(wǎng)絡采用0.3作為學習速率訓練BPNN模型. 從圖3中可以看出,參與比較的5種算法中,本文所提出的GA-SVM算法預測輸電線路弧垂的10次十折正確率均是最優(yōu),且明顯高于其他4種算法.
圖3 5種算法最優(yōu)結果對比Fig.3 Five algorithms optimal results comparison
針對在預測高壓輸電線路弧垂方面,還未見有相關的研究,本文提出一種基于GA特征自適應賦權的SVM預測高壓輸電線路弧垂方法(GA-SVM). 該方法首先使用GA給實驗數(shù)據(jù)自適應賦權,以突出重要屬性,抑制冗余或次要屬性,然后再使用SVM預測輸電線路弧垂. 實證結果表明,本文提出的GA-SVM預測輸電線路弧垂的方法是可行有效的,并且優(yōu)于Bayes算法、KNN算法、決策樹算法和BPNN算法. GA-SVM算法模型還有一些不足和待完善的地方,如引入更多和輸電線路相關的屬性特征,研究不同的SVM參數(shù)選擇方法對實驗精度的影響等.