郗偉杰,李東輝
(大連交通大學(xué) 電氣信息工程學(xué)院,遼寧 大連 116028)*
由于長(zhǎng)期運(yùn)作在外部環(huán)境的原因,接觸網(wǎng)故障與外界氣象因素息息相關(guān).因此研究氣象因素與接觸網(wǎng)故障的相關(guān)性就非常重要.文獻(xiàn)[1-6]都從定性的角度分析了氣象因素對(duì)接觸網(wǎng)故障的影響,但缺少數(shù)據(jù)證明.文獻(xiàn)[7]采用逐步回歸法研究牽引供電系統(tǒng)故障的相關(guān)問(wèn)題,但是很多接觸網(wǎng)故障與導(dǎo)致故障的因素之間并不是線性相關(guān)的,所以在面對(duì)非線性問(wèn)題,邏輯回歸擁有很大的優(yōu)勢(shì).文獻(xiàn)[8]研究的故障內(nèi)容屬于有序邏輯回歸.然而接觸網(wǎng)故障之間往往是無(wú)序的,而且由于樣本數(shù)據(jù)的不均衡問(wèn)題使得該文采取的后向逐步選擇法不能很好地提取出相關(guān)的氣象因素,很多實(shí)際情況都可以證明接觸網(wǎng)故障與濕度,溫度,等氣象因素息息相關(guān),而該文只是提取了雷擊和風(fēng)速兩個(gè)相關(guān)因素,因此為了更加細(xì)致地描述接觸網(wǎng)故障與氣象因素的相關(guān)性,本文通過(guò)SMOTE算法對(duì)數(shù)據(jù)進(jìn)行優(yōu)化,然后采取無(wú)序多分類Logistic回歸建立接觸網(wǎng)故障與影響因素之間的關(guān)聯(lián)模型,可以更有效地預(yù)測(cè)接觸網(wǎng)在氣象因素影響下發(fā)生的概率.
分類問(wèn)題的探究過(guò)程對(duì)不同類別數(shù)據(jù)的平衡性有著很高的要求.當(dāng)分類數(shù)據(jù)的樣本量存在較大差異時(shí),分類結(jié)果將向樣本多的類別傾斜.大大降低了結(jié)果的準(zhǔn)確性.由于接觸網(wǎng)故障種類繁多復(fù)雜.而不同故障類別的檢測(cè)數(shù)據(jù)樣本量存在這很大的差異,這使得直接對(duì)未處理的數(shù)據(jù)進(jìn)行研究的結(jié)果很不理想.因此為了解決這一問(wèn)題.本文采用了SMOTE算法,對(duì)樣本量少的數(shù)據(jù)進(jìn)行處理,在這些小樣本距離較近的位置插入新樣本,使得不同類別樣本數(shù)量達(dá)到盡可能的均衡.
接觸網(wǎng)故障種類繁多復(fù)雜,由于天氣因素導(dǎo)致使的故障類型是隨機(jī)的沒(méi)有順序性.所以本文采用無(wú)序多分類邏輯回歸對(duì)不同故障類型與氣象因素建立關(guān)聯(lián)模型,分析它們之間的相關(guān)性.
經(jīng)過(guò)對(duì)接觸網(wǎng)故障數(shù)據(jù)分析不難發(fā)現(xiàn)影響接觸網(wǎng)故障的主要?dú)庀笠蛩赜酗L(fēng)速,濕度,溫度等天氣狀況.
(1)風(fēng)速影響
接觸網(wǎng)在大風(fēng)的作用下導(dǎo)致線間距離小于安全距離,因而導(dǎo)致附加導(dǎo)線、承力索燒傷,大風(fēng)引起異物掛在線路上造成線路短路,大風(fēng)致使接觸網(wǎng)不斷抖動(dòng),以至于受電弓很難受流,甚至致使導(dǎo)線斷裂.
(2)溫度影響
溫度過(guò)高或過(guò)低都會(huì)導(dǎo)致線路弛度發(fā)生變化而引起斷線,在一定的溫度條件下會(huì)使導(dǎo)線覆冰從而發(fā)生過(guò)荷載、絕緣子覆冰閃絡(luò)、導(dǎo)線覆冰舞動(dòng)等故障.
(3)濕度影響
接觸網(wǎng)裝置的絕緣效果與濕度息息相通.當(dāng)絕緣子表面積污在一定的濕度條件下很容易發(fā)生污閃,而濕度也會(huì)影響覆冰情況.當(dāng)絕緣子覆冰在融冰過(guò)程中很容易發(fā)生因水流在設(shè)備表面而造成短路的情況.
根據(jù)隨機(jī)采樣進(jìn)一步創(chuàng)新的SMOTE算法的思路為:
(1)選取擁有少量數(shù)據(jù)的樣本中的各個(gè)樣本x,運(yùn)用歐式距離進(jìn)行距離計(jì)算.得到每一個(gè)樣本到其它樣本之間的距離,從而得到K個(gè)近鄰值;
(2)通過(guò)對(duì)研究數(shù)據(jù)的分析,得到一個(gè)學(xué)習(xí)比例用來(lái)當(dāng)作接下來(lái)的采樣倍數(shù)N,在計(jì)算得到的K個(gè)近鄰值中選取一個(gè)近鄰x′;
(3)進(jìn)而運(yùn)用選取的近鄰x′,根據(jù)下面的公式進(jìn)行相應(yīng)的計(jì)算:
xnew=x+rand(0,1)*(x′-x)
(1)
如果假設(shè)少量的樣本個(gè)數(shù)為T,則通過(guò)SMOTE算法.可以獲得NT個(gè)這樣的新樣本.同時(shí)我們規(guī)定N一定是正整數(shù),倘若現(xiàn)在的N<1,則SMOTE算法在進(jìn)行運(yùn)算時(shí)會(huì)主動(dòng)使N=1.
在對(duì)數(shù)據(jù)的分析過(guò)程中,由于收集到的數(shù)據(jù)中有關(guān)于高溫導(dǎo)致的接觸網(wǎng)斷線的故障樣本只有14個(gè),而風(fēng)速導(dǎo)致的接觸網(wǎng)斷線故障樣本數(shù)為92.為了使樣本數(shù)據(jù)達(dá)到盡可能的均衡.就可以采用上述過(guò)程,對(duì)高溫導(dǎo)致的接觸網(wǎng)故障數(shù)據(jù)進(jìn)行處理,利用SPSS Modeler數(shù)據(jù)分析軟件中的SMOTE算法,定義K=5,進(jìn)行新樣本數(shù)據(jù)的合成.最終得到新的樣本庫(kù),高溫導(dǎo)致的接觸網(wǎng)故障樣本為84,由風(fēng)速導(dǎo)致的接觸網(wǎng)故障樣本為92.進(jìn)而再利用得到的新的樣本庫(kù)進(jìn)行多分類邏輯回歸分析.由表5得到的預(yù)測(cè)概率可以看到由高溫導(dǎo)致的故障概率可以達(dá)到84.6%.
采用與氣象因素相關(guān)的覆冰,斷線,異物故障為因變量,用Y=1,2,3表示.溫度(X1),濕度(X2),風(fēng)速(X3),天氣(X4)為與Y相關(guān)的自變量.多分類邏輯回歸的分析是基于二元邏輯回歸基礎(chǔ)上的,通過(guò)將多分類邏輯回歸看作多個(gè)獨(dú)立的二元邏輯回歸.將第k個(gè)類別作為主類別,則具體計(jì)算過(guò)程如下:
(2)
(3)
…
(4)
即:
P(Y=1|X)=P(Y=k|X)exp(β1X)
(5)
P(Y=2|X)=P(Y=k|X)exp(β2X)
(6)
…
P(Y=k-1|X)=P(Y=k|X)exp(βk-1X)
(7)
由于概率的總和為1,因此:
(8)
即:
(9)
式中,β0,β1,…,βK為回歸系數(shù),作為需要估算的參數(shù)可以通過(guò)最大似然函數(shù)進(jìn)行求解[9].本文用Y=3異物故障作為主類別進(jìn)行分析,通過(guò)IBM SPSS Statistics數(shù)據(jù)分析軟件,設(shè)置變量,輸入數(shù)據(jù)進(jìn)行無(wú)序多分類邏輯回歸建模得到結(jié)果如表1所示.表1中的B值即為所構(gòu)建的回歸模型中的回歸系數(shù).從而得到如式(15),(16)所示的基于異物故障的接觸網(wǎng)故障關(guān)聯(lián)模型.
表1 參數(shù)估算值
(1)對(duì)數(shù)似然值:
(10)
(2)擬合優(yōu)度
(11)
(3)某個(gè)自變量XK對(duì)時(shí)間A發(fā)生概率的影響U檢驗(yàn)及Wald檢驗(yàn)
(12)
(13)
(14)
當(dāng)W=U2時(shí),可以說(shuō)W漸近的滿足自由度是1的χ2分布[9],表示為W~χ2(1).
基于W檢驗(yàn)假設(shè)H0:βK=0?H1:βK≠0的方法稱為Wald檢驗(yàn),檢驗(yàn)P值為PH0(W≥W0),其中W0為W的觀測(cè)值.
因變量Y為常見(jiàn)的受天氣因素影響的接觸網(wǎng)故障.其中Y=1代表接觸網(wǎng)覆冰故障,Y=2代表接觸網(wǎng)斷線故障,Y=3代表異物故障.自變量分別為溫度(X1),濕度(X2),風(fēng)速(X3),天氣(X4)通過(guò)SPSS數(shù)據(jù)分析軟件進(jìn)行分析并構(gòu)建相應(yīng)的模型.具體模型構(gòu)建過(guò)程如圖1所示.
圖1 無(wú)序多分類邏輯回歸模型示意圖
數(shù)據(jù)分析結(jié)果如表2所示.
表2 步驟摘要
借助表3對(duì)最終模型和只含有常數(shù)項(xiàng)的初始模型進(jìn)行比較,可以觀察到一開(kāi)始-2LL值是263.667,通過(guò)模型的建立-2LL的值下降為118.986,相對(duì)減少了144.681,從結(jié)果也可以看出P值是小于0.05,也就是說(shuō)得到的模型整體是有效的.
表3 模型擬合信息
通過(guò)對(duì)表4的研究,該表結(jié)果表明溫度,天氣等變量在接觸網(wǎng)故障的問(wèn)題研究中都具有很高的顯著性.
表4 似然比檢驗(yàn)
本文以異物(Y=3)為參照,由表1可以得到:
0.997X3+0.394X4
(15)
0.997X3+0.394X4
(16)
覆冰的回歸系數(shù)值不為零,表明相對(duì)于異物故障,覆冰故障對(duì)濕度和風(fēng)速的變化更加敏感.從表1中的B值還可以得到在斷線故障中天氣狀況對(duì)斷線故障的影響更加明顯,也就是說(shuō)在極端惡劣的天氣狀況下,接觸網(wǎng)發(fā)生斷線的可能性很高.由表1分析可以得到相對(duì)于異物故障,溫度的回歸系數(shù)為-0.276,P=0.000<0.05意味著溫度對(duì)故障產(chǎn)生顯著的影響.同理可以對(duì)相關(guān)因素進(jìn)行分析.根據(jù)表1的結(jié)果可以根據(jù)氣象數(shù)據(jù)對(duì)接觸網(wǎng)的運(yùn)行情況做一定的預(yù)估,在一定的氣象條件下,接觸網(wǎng)發(fā)生覆冰,斷線或是異物的概率是多少,進(jìn)而就可以運(yùn)用具體措施對(duì)接觸網(wǎng)安全運(yùn)營(yíng)予以保障.
由表5的預(yù)測(cè)結(jié)果可以看出,該關(guān)聯(lián)模型的準(zhǔn)確率很高,說(shuō)明模型擬合的很好,從而可以表明獲得的模型是恰當(dāng)?shù)?為其在管理接觸網(wǎng)故障問(wèn)題方面的效用性提供了理論依據(jù).
表5 故障預(yù)測(cè)概率
(1)邏輯回歸對(duì)不平衡數(shù)據(jù)敏感的問(wèn)題通過(guò)SMOTE算法得到了有效的解決;
(2)通過(guò)無(wú)序多分類邏輯回歸建立關(guān)聯(lián)模型,并在模型參數(shù)估計(jì)后,運(yùn)用對(duì)數(shù)似然值,擬合優(yōu)度,Wald統(tǒng)計(jì)量的計(jì)算方法進(jìn)行驗(yàn)證.從而判斷模型的合理性;
(3)通過(guò)對(duì)實(shí)際結(jié)果與預(yù)測(cè)結(jié)果的對(duì)比可以證明該模型應(yīng)用于接觸網(wǎng)故障檢測(cè)是可行的;
總之,一個(gè)好的模型往往很大程度上取決于一個(gè)優(yōu)秀的數(shù)據(jù)集,隨著高鐵事業(yè)的飛速發(fā)展,我們擁有了大量的數(shù)據(jù)積累.如何從這些龐大的數(shù)據(jù)中提取出我們需要的數(shù)據(jù)是今后我們要努力的方向.