王金忠,吳焰龍
(國網(wǎng)寧夏電力有限公司寧東供電公司,寧夏銀川 750411)
隨機森林是一種分類器結(jié)構(gòu),可以利用樹狀節(jié)點組織實施對樣本數(shù)據(jù)的訓(xùn)練與預(yù)測處理。在機器學(xué)習(xí)領(lǐng)域中,一個隨機森林分類器同時包含多個決策樹組織,且數(shù)據(jù)樣本輸出類別可由決策樹節(jié)點指標(biāo)取值直接決定[1]。一個穩(wěn)定的隨機森林模型能同時面對多種不同的數(shù)據(jù)樣本,并在判斷樣本信息所屬類別時,確定評估變數(shù)指標(biāo)的取值范圍。與其他類型的分類器結(jié)構(gòu)相比,隨機森林模型不需要平衡數(shù)據(jù)樣本之間的誤差關(guān)系,只要數(shù)據(jù)樣本之間的親近度關(guān)系滿足隨機性原則,就可以認(rèn)定這些樣本信息屬于同一個數(shù)據(jù)集合[2]。決策樹組織作為隨機森林模型的核心應(yīng)用結(jié)構(gòu),其對于數(shù)據(jù)樣本的承載能力決定了隨機森林模型對于數(shù)據(jù)信息參量的實時處理能力。
智能電網(wǎng)是一種新型的電力應(yīng)用網(wǎng)絡(luò),為了實現(xiàn)高度智能化的電網(wǎng)調(diào)度,需要不斷完善電力設(shè)備之間的連接關(guān)系,一方面提升輸電信號的瞬時傳輸速率,另一方面避免電網(wǎng)多源異常數(shù)據(jù)出現(xiàn)過度堆積的情況[3]。隨著智能電網(wǎng)多源數(shù)據(jù)輸出量的增大,常規(guī)數(shù)據(jù)、異常數(shù)據(jù)會混合在一起,但由于二者之間傳輸速率的差異相對較小,智能電網(wǎng)主機面臨難以精準(zhǔn)檢測多源異常數(shù)據(jù)的問題?;诙喑叨鹊椭饶P偷臋z測方法通過定義隱含異常數(shù)據(jù)的方式,確定數(shù)據(jù)樣本的實時傳輸速率[4]。然而此方法并不能在保證常規(guī)數(shù)據(jù)傳輸速率的同時避免異常多源信息出現(xiàn)快速傳輸?shù)男袨?。為解決上述問題,設(shè)計基于隨機森林的智能電網(wǎng)多源數(shù)據(jù)異常檢測算法。
隨機森林模型的構(gòu)建包括樣本極值求解、表達(dá)式總結(jié)兩個處理環(huán)節(jié)[5-6]。對智能電網(wǎng)多源數(shù)據(jù)而言,基于隨機森林模型的樣本極值由極大值與極小值組成,求解如下:
式中,χ表示智能電網(wǎng)多源數(shù)據(jù)樣本的統(tǒng)計系數(shù),e表示隨機向量的初始賦值,r表示多源數(shù)據(jù)樣本的編碼向量,qr表示基于r向量的數(shù)據(jù)樣本特征,ir表示數(shù)據(jù)樣本的多源定義系數(shù)。設(shè)α、δ為兩個隨機選取的數(shù)據(jù)樣本模系數(shù),u^ 為智能電網(wǎng)多源數(shù)據(jù)的暫態(tài)度量特征。聯(lián)立式(1)、(2),可將隨機森林模型表達(dá)式定義為:
為實現(xiàn)智能電網(wǎng)多源數(shù)據(jù)的準(zhǔn)確分類,在構(gòu)建隨機森林模型時,要求系數(shù)α、δ的取值恒不相等,且系數(shù)樣本的取值量隨智能電網(wǎng)多源數(shù)據(jù)累積量的增大而增大。
評估指標(biāo)的選取是基于隨機森林模型檢測智能電網(wǎng)多源異常數(shù)據(jù),可以將異常多源信息與常規(guī)傳輸數(shù)據(jù)區(qū)分開來,從而幫助智能電網(wǎng)主機準(zhǔn)確辨別待測對象。由于智能電網(wǎng)空間對多源數(shù)據(jù)的存儲能力極強,所以在實施評估指標(biāo)選取時,必須按照隨機森林模型準(zhǔn)確定義異常樣本參量的傳輸能力[7-8]。設(shè)γ為多源數(shù)據(jù)參量的異構(gòu)系數(shù),在智能電網(wǎng)環(huán)境中,γ≠0 的不等式條件恒成立。
基于隨機森林模型的評估指標(biāo)選取表達(dá)式為:
式中,φ表示異常信息樣本置信度系數(shù)的初始賦值,i1、i2、…、in表示n個不同的智能電網(wǎng)多源異常數(shù)據(jù)存儲特征,β表示基于隨機森林模型的數(shù)據(jù)樣本辨別系數(shù)。在智能電網(wǎng)環(huán)境中,n系數(shù)取值越小,就表示異常多源信息的實時存儲量越少。
暫態(tài)穩(wěn)定裕度可以用于評估智能電網(wǎng)的運行穩(wěn)定性,在評估指標(biāo)選取結(jié)果保持恒定的情況下,穩(wěn)定裕度指標(biāo)的求解數(shù)值越大,就表示智能電網(wǎng)的運行穩(wěn)定性越強[9-10]。在隨機森林模型中,對于暫態(tài)穩(wěn)定裕度指標(biāo)的計算需要同時考慮評估指標(biāo)度量值與異常多源信息的表征參量。評估指標(biāo)度量值可表示為φ,在求解暫態(tài)穩(wěn)定裕度表達(dá)式時,要求系數(shù)φ的取值必須大于自然數(shù)1。異常多源信息表征參量可表示為λ,隨著智能電網(wǎng)多源數(shù)據(jù)存儲量的增大,系數(shù)λ的取值也會不斷增大。聯(lián)立上述物理量,可將暫態(tài)穩(wěn)定裕度表達(dá)式定義為:
②多信道:配置了亞洲4號、3G(電信、聯(lián)通)、亞洲 5 號(預(yù)留)等多種通信信道,實現(xiàn)多信道互備,提高了應(yīng)急通信的可靠性。
式中,k表示暫態(tài)標(biāo)記系數(shù),k→表示異常多源數(shù)據(jù)的存儲向量。規(guī)定在檢測異常智能電網(wǎng)多源數(shù)據(jù)時,存儲向量的最小取值結(jié)果只能為1。
在隨機森林模型的支持下,構(gòu)建Hadoop 檢測框架,再按照多源數(shù)據(jù)負(fù)荷特征求解、異常值檢測系數(shù)計算的處理流程,實現(xiàn)智能電網(wǎng)多源數(shù)據(jù)異常檢測算法的應(yīng)用。
Hadoop 框架是實現(xiàn)智能電網(wǎng)多源數(shù)據(jù)異常檢測的關(guān)鍵應(yīng)用結(jié)構(gòu),框架包含Spark SQL、Spark Streaming、MLlib、Graphx、MapReduce 五類節(jié)點。RDD 模塊作為核心檢測設(shè)備,可以接收智能電網(wǎng)主機輸出的多源數(shù)據(jù)樣本;Spark SQL 節(jié)點負(fù)責(zé)混合數(shù)據(jù)的存儲;MLlib 節(jié)點可以將常規(guī)數(shù)據(jù)從混合樣本中分離出來;Spark Streaming 節(jié)點可以將異常數(shù)據(jù)從混合樣本中分離出來;Graphx 節(jié)點負(fù)責(zé)傳輸常規(guī)數(shù)據(jù)樣本;MapReduce 節(jié)點負(fù)責(zé)傳輸異常數(shù)據(jù)樣本[11-12]。完整的Hadoop 檢測框架結(jié)構(gòu)如圖1 所示。
圖1 Hadoop檢測框架結(jié)構(gòu)
為將常規(guī)數(shù)據(jù)樣本與異常數(shù)據(jù)樣本準(zhǔn)確區(qū)分開來,在將混合數(shù)據(jù)樣本反饋至各級節(jié)點組織之前,RDD 模塊需要對智能電網(wǎng)輸出的多源數(shù)據(jù)樣本進行多次重復(fù)辨別。
負(fù)荷特征是表示異常智能電網(wǎng)多源數(shù)據(jù)分布密集程度的量化參數(shù)[13]。在智能電網(wǎng)環(huán)境中,一般不直接計算整個區(qū)域內(nèi)的電信號負(fù)荷密度,而是將整個檢測區(qū)域按照功能屬性的不同,分成多個子區(qū)域,再利用隨機森林模型,完成對異常多源數(shù)據(jù)參量的單獨預(yù)測。在隨機森林模型的認(rèn)知中,異常負(fù)荷特征具有可遷移的特性,隨著智能電網(wǎng)多源數(shù)據(jù)輸出量的增大,特征指標(biāo)的計算結(jié)果也會不斷增大[14]。設(shè)為常規(guī)電網(wǎng)多源數(shù)據(jù)的度量向量,為異常電網(wǎng)多源數(shù)據(jù)的度量向量,且的不等式條件恒成立,聯(lián)立式(5),可將基于隨機森林的異常智能電網(wǎng)多源數(shù)據(jù)負(fù)荷特征表達(dá)式定義為:
其中,κ表示電信號負(fù)荷系數(shù)。智能電網(wǎng)檢測區(qū)域劃分標(biāo)準(zhǔn)的不同,會導(dǎo)致多源數(shù)據(jù)負(fù)荷特征求解結(jié)果出現(xiàn)差異性。
異常值檢測系數(shù)決定了智能電網(wǎng)主機對異常多源數(shù)據(jù)信息的處理能力。在已知多源數(shù)據(jù)負(fù)荷特征求解結(jié)果的情況下,計算異常值檢測系數(shù)既要考慮隨機森林模型的約束作用能力,又要參考多源信息節(jié)點的實際定義形式[15-16]。設(shè)g1、g2、…、gn為n個隨機選取的多源數(shù)據(jù)節(jié)點定義系數(shù),μ為異常值指標(biāo)的檢測度量系數(shù),f為異常智能電網(wǎng)多源數(shù)據(jù)的選擇參量,j為常規(guī)數(shù)據(jù)定義項,j′為異常數(shù)據(jù)定義項。聯(lián)立上述物理量,可將異常值檢測系數(shù)求解結(jié)果表示為:
至此,實現(xiàn)對各項指標(biāo)參量的計算與處理。在不考慮其他干擾條件的情況下,完成基于隨機森林的智能電網(wǎng)多源數(shù)據(jù)異常檢測算法的設(shè)計。
選擇S11-M 型變壓器設(shè)備作為實驗對象,將其置于220 V 的電路環(huán)境中,閉合控制開關(guān),調(diào)節(jié)變阻器、逆變器等多個設(shè)備元件,使變壓器設(shè)備保持相對穩(wěn)定的工作狀態(tài)。利用7090MT 主機捕獲變壓設(shè)備輸出的多源數(shù)據(jù)信息,借助Linux 軟件將常規(guī)傳輸數(shù)據(jù)與多源信息異構(gòu)體分離開來,并分別對這些數(shù)據(jù)對象進行后續(xù)處理。
表1 反映了實驗所選設(shè)備的具體型號。
表1 實驗設(shè)備選型
按需連接表1 中的各個電路元件。首先利用基于隨機森林的智能電網(wǎng)多源數(shù)據(jù)異常檢測方法控制數(shù)據(jù)處理主機,記錄電量表示數(shù)值,將所得數(shù)據(jù)作為實驗組變量;然后利用基于多尺度低秩模型的檢測方法控制數(shù)據(jù)處理主機,記錄電量表示數(shù)值,將所得數(shù)據(jù)作為對照組變量;最后對比實驗組、對照組變量數(shù)據(jù),總結(jié)實驗規(guī)律。
在智能電網(wǎng)環(huán)境中,數(shù)據(jù)傳輸速率可以用來描述電網(wǎng)主機對于多源數(shù)據(jù)樣本的檢測能力,故該次實驗以多源電網(wǎng)數(shù)據(jù)傳輸速率作為研究對象,記錄在實驗組、對照組檢測方法作用下,常規(guī)數(shù)據(jù)傳輸速率、異常數(shù)據(jù)傳輸速率的數(shù)值變化情況。在常規(guī)數(shù)據(jù)傳輸速率保持較高水平的情況下,異常數(shù)據(jù)傳輸速率越慢,電網(wǎng)主機對于這一類信息樣本的檢測能力也就越強。
表2 記錄了實驗組、對照組檢測方法作用下,常規(guī)數(shù)據(jù)傳輸速率的數(shù)值變化情況。
表2 常規(guī)數(shù)據(jù)傳輸速率
分析表2 可知,在實驗組檢測方法作用下,常規(guī)數(shù)據(jù)傳輸速率均值為5.64 MB/ms,與標(biāo)準(zhǔn)數(shù)值相比,下降了0.02 MB/ms,二者差值相對較??;在對照組檢測方法作用下,常規(guī)數(shù)據(jù)傳輸速率均值為5.34 MB/ms,與標(biāo)準(zhǔn)數(shù)值相比,下降了0.32 MB/ms,差值遠(yuǎn)高于實驗組。
圖2 反映了實驗組、對照組異常數(shù)據(jù)傳輸速率的數(shù)值變化情況。
圖2 異常數(shù)據(jù)傳輸速率
分析圖2 可知,在智能電網(wǎng)環(huán)境中,異常數(shù)據(jù)傳輸速率呈現(xiàn)出先增大、后減小的數(shù)值變化狀態(tài)。整個實驗過程中,實驗組數(shù)據(jù)傳輸速率最大值為2.36 MB/ms,與對照組最大值3.79 MB/ms 相比,下降了1.43 MB/ms。
綜上可知,在基于多尺度低秩模型的檢測方法的作用下,常規(guī)數(shù)據(jù)傳輸速率與標(biāo)準(zhǔn)傳輸速率數(shù)值相比明顯下降,且異常數(shù)據(jù)的傳輸速率水平也沒有得到有效控制;在基于隨機森林檢測算法的作用下,常規(guī)數(shù)據(jù)傳輸速率依然保持在較高的數(shù)值水平,而異常數(shù)據(jù)的傳輸速率卻得到了有效控制,說明此方法在一定程度上能夠促進電網(wǎng)主機對多源數(shù)據(jù)樣本檢測能力的增強。因此可得,基于隨機森林的智能電網(wǎng)多源數(shù)據(jù)異常檢測算法更符合精準(zhǔn)檢測電網(wǎng)多源異常數(shù)據(jù)的實際應(yīng)用需求。
為提升智能電網(wǎng)多源數(shù)據(jù)異常檢測的準(zhǔn)確性,提出基于隨機森林的智能電網(wǎng)多源數(shù)據(jù)異常檢測方法。根據(jù)隨機森林模型,選取關(guān)鍵評估指標(biāo),通過求解暫態(tài)穩(wěn)定裕度系數(shù)的方式,計算多源數(shù)據(jù)負(fù)荷特征與異常值檢測系數(shù)。實驗結(jié)果表明,該算法能夠在保證常規(guī)數(shù)據(jù)傳輸速率的同時,避免異常多源信息出現(xiàn)快速傳輸?shù)男袨?,可以提升智能電網(wǎng)主機對于電網(wǎng)多源異常數(shù)據(jù)的檢測能力。