亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考慮信息動態(tài)表達(dá)的異常用電模式識別云邊協(xié)同方法

        2022-07-20 01:44:52劉慧自胡文曦肖先勇
        電力自動化設(shè)備 2022年7期
        關(guān)鍵詞:信息方法

        劉慧自,汪 穎,胡文曦,肖先勇

        (四川大學(xué)電氣工程學(xué)院,四川成都 610065)

        0 引言

        異常用電識別不僅可以規(guī)范用戶的用電行為,還能減少電力企業(yè)的經(jīng)濟(jì)損失以及維護(hù)電網(wǎng)的安全運(yùn)行[1-2]。但現(xiàn)有的人工排查方法難以應(yīng)對不同異常用電原因所呈現(xiàn)的多樣性、隨機(jī)性等特點(diǎn),導(dǎo)致識別結(jié)果的準(zhǔn)確率不高,且效率較低[3]。因此,根據(jù)電力計(jì)量數(shù)據(jù)實(shí)現(xiàn)異常用電的自動識別具有重要的意義。

        隨著人工智能算法的發(fā)展,基于回歸模型、分類模型、聚類模型等的識別方法被廣泛應(yīng)用[4]?;诨貧w模型的異常檢測器通過回歸方法預(yù)測未來負(fù)荷,將與預(yù)測結(jié)果偏差較大的實(shí)際值識別為異常。例如:文獻(xiàn)[5]利用用電量指標(biāo)構(gòu)建異常用電評判體系,提出了一種基于邏輯回歸模型的二次篩選異常用電識別方法,提高了識別準(zhǔn)確率;文獻(xiàn)[6]針對傳統(tǒng)的基于回歸模型的異常檢測器預(yù)測和檢測性能不理想的問題,提出了新的異常檢測架構(gòu),較大地提高了預(yù)測和檢測精度。然而,基于回歸模型的方法需要為每個消費(fèi)者建立回歸模型,這需要大量的樣本數(shù)據(jù),并消耗大量的計(jì)算資源。分類模型則是根據(jù)對象的標(biāo)簽和特征訓(xùn)練其與類別的一種映射關(guān)系,并基于此進(jìn)行異常識別。例如:文獻(xiàn)[7]結(jié)合歷史用電數(shù)據(jù)和支持向量機(jī)的自動特征提取方法進(jìn)行異常用電識別,并針對訓(xùn)練集進(jìn)行了專門的參數(shù)優(yōu)化;在此基礎(chǔ)上,文獻(xiàn)[8]利用輪廓圖識別數(shù)據(jù)集分布,進(jìn)而檢測異常竊電損耗。雖然基于分類模型的方法具有較高的異常識別精度,但要求有大量帶標(biāo)簽的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,這在實(shí)際中難以獲取。聚類模型也被廣泛地應(yīng)用于異常識別,聚類可以根據(jù)數(shù)據(jù)間的相似度自動地識別異常,且無需帶標(biāo)簽的數(shù)據(jù)。例如:文獻(xiàn)[9]結(jié)合K-means、模糊C 均值、自組織映射等聚類算法,構(gòu)建了半自動特征提取方法,并通過優(yōu)化多個參數(shù)實(shí)現(xiàn)了基于特征的異常用電識別;文獻(xiàn)[10]基于密度聚類算法給出了異常用電波動區(qū)間的離群度,并綜合分析當(dāng)前的用電量以獲取異常用電得分。相比于分類模型,聚類模型無需帶標(biāo)簽的異常數(shù)據(jù)集,且基于密度的聚類算法能根據(jù)數(shù)據(jù)間的相似度找到高密度區(qū)間,在異常識別領(lǐng)域有較大的優(yōu)勢,但其缺點(diǎn)是計(jì)算非常費(fèi)時,且結(jié)果的準(zhǔn)確性依賴于有效的相似性度量手段。已有研究中的相似性度量方法普遍采用歐氏距離進(jìn)行度量,但其只考慮了負(fù)荷曲線對應(yīng)時間點(diǎn)的距離特性,難以反映曲線的整體動態(tài)特征。動態(tài)時間規(guī)整DTW(Dynamic Time Warping)距離能更充分地反映時間序列的相似度特性[11-12],但在效率上存在一定的劣勢,采用其處理高維曲線時難以滿足在線、實(shí)時的應(yīng)用要求。

        此外,將高維用電數(shù)據(jù)上傳至云端集中計(jì)算會占用大量的網(wǎng)絡(luò)帶寬和計(jì)算資源,而邊緣計(jì)算直接在用戶側(cè)的網(wǎng)絡(luò)邊緣就地對數(shù)據(jù)進(jìn)行處理,既提高了系統(tǒng)的響應(yīng)速度,也降低了對網(wǎng)絡(luò)傳輸?shù)男枨螅虼诉吘売?jì)算在電力行業(yè)中有著廣泛的應(yīng)用[13-14]。然而,邊緣服務(wù)器的算力通常較低,無法勝任計(jì)算量大的數(shù)據(jù)處理任務(wù),因此邊緣端適合與云端協(xié)同完成任務(wù)。在本文的架構(gòu)中,為了減輕云邊數(shù)據(jù)傳輸?shù)膲毫σ约胺謸?dān)云端數(shù)據(jù)處理的任務(wù),有必要將數(shù)據(jù)壓縮這個前期步驟部署在邊緣端。目前常見的壓縮方法有分段聚合近似PAA(Piecewise Aggregation Approximation)、符號聚合近似、主成分分析等[15-16]。上述方法大多使用固定的壓縮率對原始數(shù)據(jù)進(jìn)行重表達(dá),但是不同的用戶甚至是同一用戶在不同的時間內(nèi)用電曲線的整體特征和變化趨勢具有多樣性,使用固定壓縮率容易使原始數(shù)據(jù)丟失部分細(xì)節(jié)信息,進(jìn)而影響后續(xù)異常模式識別的準(zhǔn)確性。

        因此,本文從兼顧準(zhǔn)確性與計(jì)算效率的角度出發(fā),提出了一種考慮信息動態(tài)表達(dá)的異常用電模式識別云邊協(xié)同方法。在邊緣端通過信息動態(tài)表達(dá)的PAA 對用戶的用電數(shù)據(jù)進(jìn)行信息重表達(dá),在縮減數(shù)據(jù)量的基礎(chǔ)上保留特征信息,以減少云邊數(shù)據(jù)傳輸?shù)膸捳加?。云端在接收到壓縮數(shù)據(jù)后以一種新型的分段加權(quán)DTW 距離作為相似度計(jì)算的依據(jù),有效地減輕了云端的計(jì)算壓力。最后通過自適應(yīng)參數(shù)選擇的密度聚類算法進(jìn)行異常用電識別。算例結(jié)果表明,本文所提方法在顯著縮減數(shù)據(jù)量、提高運(yùn)算效率的同時,保證了異常用電識別的準(zhǔn)確性,有較好的實(shí)際應(yīng)用前景。

        1 基于云邊協(xié)同架構(gòu)的異常用電識別

        明確不同的異常用電原因及其呈現(xiàn)的數(shù)據(jù)特征,是準(zhǔn)確識別異常用電的前提,因此本節(jié)先對電網(wǎng)中異常用電的主要原因及其數(shù)據(jù)特點(diǎn)進(jìn)行分析。

        1.1 異常用電原因

        設(shè)備自身的健康狀況、工作環(huán)境和運(yùn)行狀態(tài)以及人為因素都是造成異常用電的原因,具體可概括如下。

        1)竊電。竊電一般通過繞接電表、篡改電能表的接線方式甚至破壞電能計(jì)量裝置實(shí)現(xiàn),雖然手段錯綜復(fù)雜,但都是從電能計(jì)量裝置的原理出發(fā)。電能計(jì)量裝置的計(jì)量值與計(jì)量電壓、計(jì)量電流、計(jì)量時間及電壓和電流的相角差有關(guān),改變其中的一個參數(shù)就能使裝置出現(xiàn)計(jì)量錯誤,從而達(dá)到竊電的目的[17]。

        2)裝置異常。電能計(jì)量裝置雖然在出廠前進(jìn)行了一系列的測試,但是經(jīng)過長時間的運(yùn)行后,難免會出現(xiàn)一些故障,從而引起計(jì)量數(shù)據(jù)異常[18]。電能計(jì)量裝置的工作環(huán)境也會對其計(jì)量的準(zhǔn)確性產(chǎn)生影響,例如電網(wǎng)中的諧波會加速電能計(jì)量裝置的老化,從而使計(jì)量出現(xiàn)偏差。

        3)負(fù)荷異常。電網(wǎng)中的沖擊負(fù)荷或者某些突發(fā)事件,如受極端天氣的影響所導(dǎo)致的用電負(fù)荷明顯增大或減小,也容易造成計(jì)量結(jié)果出現(xiàn)短時間內(nèi)的畸變,進(jìn)而被識別為異常。發(fā)生這種異常的根本原因在于用戶的用電習(xí)慣在短時間內(nèi)出現(xiàn)了較大的改變,所以正確識別負(fù)荷異常有助于電力企業(yè)建立正確的用戶用電模式,估計(jì)用戶負(fù)荷需求,優(yōu)化電力資源調(diào)度。

        針對以上3 種原因?qū)е碌漠惓S秒?,異常用電識別能快速準(zhǔn)確地篩選出異常用電數(shù)據(jù),輔助運(yùn)營管理人員對異常用電進(jìn)行稽查,減少電力企業(yè)的損失,維護(hù)電網(wǎng)的安全運(yùn)行,輔助電力企業(yè)的運(yùn)營決策,具有重大的意義和價(jià)值。

        1.2 異常用電數(shù)據(jù)特點(diǎn)

        異常用電數(shù)據(jù)的產(chǎn)生具有隨機(jī)性,且隱藏在正常用電數(shù)據(jù)中,常見異常用電數(shù)據(jù)有以下2種類型。

        1)點(diǎn)異常。當(dāng)一個數(shù)據(jù)點(diǎn)與其周圍數(shù)據(jù)差別較大時,可以認(rèn)為其是點(diǎn)異常,如附錄A 圖A1 所示。點(diǎn)異常是最簡單、最普遍的異常,其表示某個瞬間用電負(fù)荷的突然增大或減小,在用電曲線上表現(xiàn)為向上或向下的尖峰。裝置異常和負(fù)荷異常都有可能導(dǎo)致點(diǎn)異常用電數(shù)據(jù)的出現(xiàn)。

        2)連續(xù)異常。連續(xù)異常是指一段數(shù)據(jù)出現(xiàn)明顯的波動或者毛刺,或某段數(shù)據(jù)顯著增大或減小,如附錄A 圖A2 所示。連續(xù)異常表示一段時間內(nèi)用電負(fù)荷的顯著增大或減小,在用電曲線上表現(xiàn)為突然出現(xiàn)的波峰或波谷。連續(xù)異常出現(xiàn)的原因包括竊電、裝置異常、負(fù)荷異常等。

        異常用電數(shù)據(jù)具有隨機(jī)性和多樣性,且所占比例小,使得異常用電樣本難以獲取,因此無需標(biāo)簽的無監(jiān)督方法更適用于識別異常用電。

        1.3 異常用電識別云邊協(xié)同架構(gòu)

        有效的相似度衡量是基于無監(jiān)督學(xué)習(xí)進(jìn)行異常用電模式識別的核心。正常用電模式通常是相似度較高的聚集族群,而異常用電模式是偏離族群的離群點(diǎn),因此基于相似度衡量的異常點(diǎn)辨識對異常用電的識別準(zhǔn)確性具有重要的作用。然而,鑒于目前用電數(shù)據(jù)的采樣率普遍較高,采用集中式的異常識別方法勢必會給數(shù)據(jù)傳輸帶寬和服務(wù)器算力造成巨大的壓力,為此本文提出了一種云邊協(xié)同的分布式異常識別方法。

        云計(jì)算具有不需要維護(hù)本地服務(wù)器、數(shù)據(jù)存儲和軟件的優(yōu)點(diǎn),但由于電網(wǎng)結(jié)構(gòu)復(fù)雜、節(jié)點(diǎn)規(guī)模較大,云端和終端往往相距很遠(yuǎn),集中式的方法并不適用,其響應(yīng)通常較慢,且短時間內(nèi)終端數(shù)據(jù)的涌入會占用大量的傳輸帶寬,給云端服務(wù)器帶來巨大的壓力。而邊緣服務(wù)器因?yàn)榻咏K端設(shè)備,處理數(shù)據(jù)的網(wǎng)絡(luò)延遲可忽略不計(jì),因此采用云邊協(xié)同的方式可極大地提升系統(tǒng)的性能。但邊緣端的算力較弱,因此有必要將數(shù)據(jù)壓縮模塊部署在邊緣端。綜上所述,數(shù)據(jù)壓縮是實(shí)現(xiàn)基于云邊協(xié)同的用戶異常用電模式識別的基礎(chǔ),若數(shù)據(jù)壓縮造成大量的信息缺失,則會直接影響云端異常識別的準(zhǔn)確性。此外,邊緣端將壓縮后的低維數(shù)據(jù)上傳至云端,還能降低對傳輸帶寬的要求。云端在接收到經(jīng)壓縮的數(shù)據(jù)后,基于本文所提方法進(jìn)行異常用電識別,相較于直接處理原始數(shù)據(jù)的方法,在本文的架構(gòu)下云端的壓力和整個協(xié)同架構(gòu)的延遲都明顯小得多。云邊協(xié)同計(jì)算的構(gòu)架如圖1所示。

        圖1 云邊協(xié)同計(jì)算構(gòu)架Fig.1 Computing architecture of cloud-edge collaboration

        2 信息動態(tài)表達(dá)的PAA方法

        電網(wǎng)中各種儀表的采樣率不斷提高,使電力企業(yè)能掌握到的用戶用電數(shù)據(jù)更為精細(xì),但是這些高精度的數(shù)據(jù)對算力提出了更高的要求。為了節(jié)約計(jì)算資源,可以先對數(shù)據(jù)進(jìn)行壓縮,然而數(shù)據(jù)壓縮往往會帶來數(shù)據(jù)信息的損失,為此本文提出了一種信息動態(tài)表達(dá)的PAA 方法來對用電數(shù)據(jù)進(jìn)行壓縮處理,在減少數(shù)據(jù)量的同時保證信息的完備性。

        PAA 的基本思想為:用等寬度窗口分割時間序列,并用窗口平均值表示每個窗口內(nèi)的時間序列,從而達(dá)到數(shù)據(jù)壓縮處理的目的。對于1 條長度為n的負(fù)荷數(shù)據(jù)X=[x1,x2,…,xj,…,xn],若m能被n整除,則可將其壓縮為1 條長度為m的數(shù)據(jù)Y=[y1,y2,…,yi,…,ym],Y中元素yi的計(jì)算式為:

        考慮到不同的用戶甚至是同一用戶在不同時段內(nèi)用電曲線的整體特征和變化趨勢有所不同,且由異常用電波形特征可知,用電曲線中的大部分波形較為平穩(wěn),反而是少部分波動較大的信號段包含了較多的信息,對于其中波動劇烈的數(shù)據(jù)段而言,若直接利用PAA 方法進(jìn)行壓縮處理,則會丟失許多重要的特征信息,無法實(shí)現(xiàn)用電信息的動態(tài)表達(dá)。利用經(jīng)典PAA 方法的壓縮效果如圖2(a)所示,可見不論用電曲線如何變化,PAA 始終以固定的窗口進(jìn)行數(shù)據(jù)壓縮,對于一些波動較大的分段而言,均值已明顯不能精確表示該段的信息。在此基礎(chǔ)上,本文對經(jīng)典PAA 方法的分段策略進(jìn)行改進(jìn),根據(jù)數(shù)據(jù)自身的統(tǒng)計(jì)特征選取分段窗口的長度,動態(tài)調(diào)整壓縮率,使用電數(shù)據(jù)的信息得到動態(tài)表達(dá)。信息動態(tài)表達(dá)的PAA 方法的壓縮效果如圖2(b)所示。由圖可見:用電曲線平穩(wěn)處的分段不再受到固定壓縮率的限制,而是根據(jù)曲線自身的變化進(jìn)行動態(tài)調(diào)整,以平衡數(shù)據(jù)量;對于波動段而言,其壓縮窗口明顯變窄,使得到的均值具有代表性,從而保留更多的數(shù)據(jù)信息。

        圖2 不同PAA方法的壓縮效果Fig.2 Compression effects of different PAA methods

        本文所提信息動態(tài)表達(dá)的PAA 方法的具體步驟如下。

        1)對負(fù)荷數(shù)據(jù)X=[x1,x2,…,xn]進(jìn)行差分運(yùn)算并取絕對值得到X′=[x′1,x′2,…,x′n-1],其中x′g=|xg+1-xg|(g=1,2,…,n-1)。

        2)對于負(fù)荷數(shù)據(jù)X中的每個值xj(j=1,2,…,n),取其前k個和后k個值作為一個閾值計(jì)算窗口,閾值的計(jì)算方法為:

        式中:δg為xg+1相對xg的最大允許變化量;μ為計(jì)算窗口中數(shù)據(jù)的平均值;σ為標(biāo)準(zhǔn)差;由于μ/σ沒有量綱,因此引入校正參數(shù)Ccnt,用以校正δg的數(shù)量級,使之與x′g相匹配,同時也可以通過控制該參數(shù)的大小,得到最匹配邊緣服務(wù)器算力的數(shù)據(jù)量。

        由式(2)可知,閾值與計(jì)算窗口內(nèi)的用電水平正相關(guān),當(dāng)出現(xiàn)用電波動大的情況時,閾值會降低以使分段更精細(xì)。此外,校正參數(shù)的引入使得閾值可根據(jù)實(shí)際情況下壓縮率和壓縮精度的要求進(jìn)行動態(tài)調(diào)整,以應(yīng)對不同情況下對數(shù)據(jù)量和精度的要求。

        3)若x′g>δg,則x′g對應(yīng)的元素xg會作為分段點(diǎn)。找到所有的分段點(diǎn)后,取每個分段數(shù)據(jù)的平均值可得到改進(jìn)后的考慮信息動態(tài)表達(dá)的壓縮數(shù)據(jù)序列。

        上述分段方法的關(guān)鍵點(diǎn)在于:利用數(shù)據(jù)滑動窗口的統(tǒng)計(jì)特征計(jì)算逐點(diǎn)的閾值作為分段的依據(jù),最大限度地細(xì)化分段點(diǎn)的選取,有效地避免基于固定壓縮率的經(jīng)典PAA 方法對數(shù)據(jù)波動段特征信息的丟失。利用該思想可以將數(shù)據(jù)序列劃分為波動段和平穩(wěn)段,并分別進(jìn)行近似重表達(dá),這不僅確保了對包含較多信息的波動段的壓縮準(zhǔn)確度,還增大了對平穩(wěn)信號段的壓縮率,可以達(dá)到壓縮率和精確度的平衡。整體而言,信息動態(tài)表達(dá)的PAA 方法在保證數(shù)據(jù)壓縮度的情況下盡可能地保留了原序列的特征,充分考慮了用電數(shù)據(jù)所含信息的動態(tài)表達(dá),為后續(xù)邊緣計(jì)算的有效運(yùn)行創(chuàng)造了可能性。

        3 基于分段加權(quán)DTW 距離的異常用電識別算法

        為了使云端準(zhǔn)確地衡量壓縮后的用電數(shù)據(jù)之間的相似度,本文提出了分段加權(quán)DTW 距離。其通過對分段內(nèi)的數(shù)據(jù)取平均值得到綜合數(shù)據(jù)點(diǎn)的方式,衡量用電曲線的局部特征信息,準(zhǔn)確度量壓縮數(shù)據(jù)間的相似度,再結(jié)合帶噪聲檢測的密度空間聚類DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法得到異常用電識別結(jié)果。

        3.1 基于分段加權(quán)DTW距離的相似性度量

        用電數(shù)據(jù)在經(jīng)過信息動態(tài)表達(dá)的PAA 方法壓縮后,其長度是不可控的,為此,本文使用分段加權(quán)的DTW 距離來衡量用電數(shù)據(jù)間的相似度,動態(tài)壓縮后的數(shù)據(jù)也能彌補(bǔ)DTW 距離在運(yùn)行效率上的劣勢。DTW 距離最早被用于解決語音識別領(lǐng)域中的時間對準(zhǔn)難題,之后被引入時間序列的相似性研究中。經(jīng)典DTW距離的具體計(jì)算步驟如下。

        設(shè)2 個時間序列A=[a1,a2,…,am]和B=[b1,b2,…,bn],其長度分別為m和n,為了求得A和Β之間的DTW 距離,需先構(gòu)造一個m×n階的初始距離矩陣M,如式(3)所示。

        計(jì)算DTW 距離的關(guān)鍵是要找到1 條滿足邊界條件和單調(diào)性的規(guī)整路徑P={p1,p2,…,pK},其中pk=(ai,bj)k(k=1,2,…,K)為路徑中的第k組點(diǎn),表示ai與bj相匹配,且有max{m,n}≤K≤m+n-1。滿足上述條件的路徑P有多條,需要找到1 條最優(yōu)路徑使得根據(jù)該路徑中各組匹配關(guān)系計(jì)算得到的距離之和最短??刹捎眠f歸法快速求取累加距離,如式(4)所示。

        式中:D(i,j)為按照規(guī)整路徑的匹配關(guān)系計(jì)算得到的終點(diǎn)為pK=(ai,bj)K的累加距離。

        則時間序列A和Β之間的DTW 距離dDTW(A,B)可表示為:

        式中:d(pk)為最優(yōu)路徑中匹配點(diǎn)pk之間的歐氏距離。

        由于本文使用的用電數(shù)據(jù)經(jīng)過信息動態(tài)表達(dá)的PAA 方法壓縮處理,當(dāng)計(jì)算時間序列A和Β之間的DTW 距離時,匹配所得的2個點(diǎn)ai和bj實(shí)際上是2個分段的數(shù)據(jù)平均值,分別如式(6)和式(7)所示。

        式中:ais為第i個數(shù)據(jù)分段的第s個元素;bjy為第j個數(shù)據(jù)分段的第y個元素。ai、bj包含了分段的信息,相當(dāng)于分段內(nèi)的點(diǎn)取相同的權(quán)重值得到綜合數(shù)據(jù)點(diǎn),其包含了曲線的局部特征信息。由于經(jīng)典DTW距離能度量時間序列的整體特征,本文提出的分段加權(quán)DTW 距離在衡量由綜合數(shù)據(jù)點(diǎn)構(gòu)成的壓縮數(shù)據(jù)的相似度時,考慮了時間序列的整體和局部雙重特征。

        3.2 基于DBSCAN算法的異常用電識別

        DBSCAN 算法的核心思想是根據(jù)密度可及性關(guān)系在數(shù)據(jù)集中找到最大密度連通樣本集,并將該樣本集視為同一類。算法的主要步驟如下。

        1)輸入數(shù)據(jù)集D、DBSCAN算法的鄰域半徑E和最小聚類點(diǎn)數(shù)M。

        2)從數(shù)據(jù)集D中隨機(jī)選擇一個未被標(biāo)記的樣本di,并將其標(biāo)記為已訪問,若數(shù)據(jù)集中的樣本dj到di的DTW 距離滿足式(8)且di鄰域半徑E內(nèi)的密度滿足式(9),則將di加入新的一類C1中,其鄰域半徑E內(nèi)的樣本集合NE(di)加入候選集H。

        式中:card(·)表示括號內(nèi)集合的元素個數(shù)。

        3)從候選集H中隨機(jī)選擇一個未被訪問的樣本dk,并將其標(biāo)記為已訪問,若其鄰域半徑E內(nèi)的密度滿足式(9),且dk沒有加入其他類,則將dk加入C1中,實(shí)現(xiàn)對類簇的擴(kuò)展,并將集合NE(dk)中不屬于候選集H的元素加入候選集中。

        4)重復(fù)執(zhí)行步驟3),直到候選集H中所有樣本都被訪問。

        5)如果數(shù)據(jù)集D中的所有樣本都已被訪問,則輸出聚類結(jié)果;否則,執(zhí)行步驟2)—4)。

        DBSCAN 算法的最大特點(diǎn)在于其能根據(jù)數(shù)據(jù)間的相似度找出數(shù)據(jù)集中的離群點(diǎn)。在本文的異常用電識別算法中,將用電數(shù)據(jù)映射為2 維平面內(nèi)的點(diǎn)集,它們之間的距離由數(shù)據(jù)的分段加權(quán)DTW 距離決定,由于只是少量的異常數(shù)據(jù),因此大部分的點(diǎn)都會分布在一個密集區(qū)域內(nèi),而少量的用電行為異常數(shù)據(jù)不會匹配正常用電模式,會明顯地零星分布于稀疏區(qū)域內(nèi)。若1 條用電數(shù)據(jù)與其余數(shù)據(jù)的相似度在2 維平面上的映射關(guān)系被算法的E和M這2 個參數(shù)界定為高密度區(qū),則該數(shù)據(jù)的相似度為合格;否則,數(shù)據(jù)的相似度為不合格,該數(shù)據(jù)就是本文尋找的異常數(shù)據(jù)。

        由上述步驟可以看出,DBSCAN 算法識別異常數(shù)據(jù)完全是自動的,并不需要對聚類結(jié)果進(jìn)行二次處理,這是其優(yōu)點(diǎn)。但是其缺點(diǎn)也很明顯,DBSCAN算法需要預(yù)先確定鄰域半徑E和最小聚類點(diǎn)數(shù)M這2 個參數(shù),且對參數(shù)的取值很敏感,這會極大地影響算法的性能。如果E太小,則很多樣本將無法聚集,會出現(xiàn)許多噪聲點(diǎn);如果E太大,則很多類簇會合并,導(dǎo)致大部分的樣本被分到同一個類簇中,噪聲點(diǎn)的數(shù)量會比實(shí)際結(jié)果少。為了確定合適的參數(shù)取值,本文采用拐點(diǎn)法[19]確定鄰域半徑E和最小聚類點(diǎn)數(shù)M。

        本文所提異常用電識別云邊協(xié)同方法的流程圖如圖3所示。

        圖3 異常用電識別云邊協(xié)同方法的流程圖Fig.3 Flowchart of cloud-edge collaboration method for abnormal power consumption recognition

        4 算例分析

        本文選取我國某地區(qū)計(jì)量中心的長期日負(fù)荷曲線作為算例分析對象,每15 min 采樣一次。為了驗(yàn)證本文所提數(shù)據(jù)壓縮方法、相似性度量方法以及異常用電識別方法的性能,對基于歐氏距離的自適應(yīng)參數(shù)選擇DBSCAN 算法(方法1)、基于DTW 距離的自適應(yīng)參數(shù)選擇DBSCAN 算法(方法2)、基于DTW距離的K-means算法(方法3)、基于PAA 和分段加權(quán)DTW 距離的自適應(yīng)參數(shù)選擇DBSCAN 算法(方法4)、基于信息動態(tài)表達(dá)的PAA和分段加權(quán)DTW 距離的經(jīng)驗(yàn)參數(shù)選擇DBSCAN 算法(方法5)以及基于信息動態(tài)表達(dá)的PAA 和分段加權(quán)DTW 距離的自適應(yīng)參數(shù)選擇DBSCAN 算法(本文方法)進(jìn)行對比分析,并對壓縮效果、識別準(zhǔn)確度、計(jì)算效率進(jìn)行綜合評估。其中:方法1—3為已有常用的云端集中式異常用電識別方法,無數(shù)據(jù)壓縮階段;而方法4、5 為針對云邊協(xié)同場景下的常用異常用電識別方法,有數(shù)據(jù)壓縮階段;本文方法由Python程序?qū)崿F(xiàn)。

        4.1 數(shù)據(jù)壓縮效果分析

        為了定量地評估本文方法在壓縮率和誤差上的優(yōu)勢,此處給出壓縮率和均方根誤差的定義。設(shè)原始數(shù)據(jù)序列X=[x1,x2,…,xn],其經(jīng)壓縮后的序列為:

        PAA方法的基本思想是用分段的平均值表達(dá)整個分段的信息,因此為了計(jì)算壓縮數(shù)據(jù)和原始數(shù)據(jù)之間的均方根誤差,將分段內(nèi)的數(shù)據(jù)均用該分段內(nèi)數(shù)據(jù)的平均值表示[21],對所有分段進(jìn)行同樣的處理就能得到1 條重構(gòu)序列X″=[x″1,x″2,…,x″n],以第1 個分段為例,即:

        該重構(gòu)序列與原始序列之間的均方根誤差e為:

        對圖4(a)所示采樣點(diǎn)數(shù)為96 的典型三峰負(fù)荷曲線進(jìn)行壓縮處理:若采用經(jīng)典PAA 方法,設(shè)壓縮窗口w=3,得到的壓縮曲線如圖4(b)所示,該壓縮曲線的剩余采樣點(diǎn)數(shù)為32,壓縮率為66.67%;采用本文考慮信息動態(tài)表達(dá)的PAA 方法對曲線進(jìn)行壓縮,得到的壓縮曲線如圖4(c)所示,該壓縮曲線的剩余采樣點(diǎn)數(shù)為27,壓縮率為71.88%。可見,本文方法對原始曲線的平緩區(qū)域采用更大的壓縮率,縮減了后續(xù)數(shù)據(jù)分析的數(shù)據(jù)量。

        圖4 數(shù)據(jù)壓縮效果對比Fig.4 Comparison of data compression effect

        雖然經(jīng)典PAA 方法所得壓縮曲線與原始負(fù)荷曲線形狀在直觀上基本一致,但數(shù)據(jù)的壓縮效果不能基于壓縮曲線與原始曲線的相似度進(jìn)行直接度量,這是因?yàn)椴煌侄畏椒〞斐稍紨?shù)據(jù)分段結(jié)果的不同,且不同分段內(nèi)的壓縮率也不同。因此,需要根據(jù)壓縮曲線進(jìn)行數(shù)據(jù)重構(gòu),根據(jù)重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)的對比對壓縮效果進(jìn)行有效衡量。不同壓縮方法的重構(gòu)曲線如圖5 所示??芍?,經(jīng)典PAA 方法的均方根誤差為399 kW,而信息動態(tài)表達(dá)的PAA 方法的均方根誤差為283 kW。經(jīng)典PAA 方法的壓縮窗口固定不變,并不會隨著曲線的平穩(wěn)和波動而變化,在含有信息較多的波動段丟失了大量的信息,導(dǎo)致其均方根誤差更大;而本文所提信息動態(tài)表達(dá)的PAA 方法具有壓縮率動態(tài)特性,在一些突變點(diǎn)所在分段的壓縮率明顯變小,甚至整個分段直接被保留下來,曲線的特征沒有丟失。采用本文所提信息動態(tài)表達(dá)的PAA 方法對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)中含有的信息能得到動態(tài)的表達(dá)。

        圖5 不同壓縮方法的重構(gòu)曲線對比Fig.5 Comparison of reconstruction curves between different compression methods

        為了進(jìn)一步驗(yàn)證本文所提信息動態(tài)表達(dá)的PAA方法在壓縮率和均方根誤差方面的優(yōu)勢,對5 條負(fù)荷曲線分別添加信噪比為15、20、25 dB 的噪聲,并將經(jīng)典PAA 方法的壓縮窗口w分別設(shè)為2—4,對比信息動態(tài)表達(dá)的PAA 方法和經(jīng)典PAA 方法的性能。為了保證單一變量原則,5 條曲線原本的噪聲已被平滑,不同壓縮方法的壓縮率、均方根誤差結(jié)果見附錄A表A1,均值結(jié)果如表1所示。

        由表A1和表1可知,相較于經(jīng)典PAA方法,本文所提信息動態(tài)表達(dá)的PAA 方法在壓縮率和準(zhǔn)確度2個方面都更優(yōu),即信息動態(tài)表達(dá)的PAA 方法在壓縮率更高的情況下還能更準(zhǔn)確地體現(xiàn)原始數(shù)據(jù)的負(fù)荷特征,合理地利用云邊計(jì)算資源以及緩解帶寬的傳輸壓力,使得云邊協(xié)同架構(gòu)下的異常用電識別得以實(shí)現(xiàn)。進(jìn)一步分析結(jié)果可得:當(dāng)樣本的噪聲更大,即曲線的波動程度更大時,本文所提信息動態(tài)表達(dá)的PAA 方法相較于經(jīng)典PAA 方法的壓縮效果更明顯,這是因?yàn)樾畔討B(tài)表達(dá)的PAA 方法對數(shù)據(jù)進(jìn)行動態(tài)壓縮,較好地保留了波動段數(shù)據(jù)的特征;當(dāng)2 種壓縮方法的壓縮率在同一水平時,本文所提信息動態(tài)表達(dá)的PAA 方法明顯具有更好的準(zhǔn)確性,而若要提高經(jīng)典PAA 方法的準(zhǔn)確性,則需要犧牲壓縮率,增大數(shù)據(jù)計(jì)算量,故難以適用于云邊協(xié)同的應(yīng)用場景。

        表1 不同壓縮方法的性能比較Table 1 Performance comparison of different compression methods

        4.2 異常用電識別結(jié)果分析

        本節(jié)對含有異常樣本的日負(fù)荷曲線進(jìn)行異常用電識別,根據(jù)3.2節(jié)將由DBSCAN 算法識別出的噪聲點(diǎn)作為異常,并統(tǒng)計(jì)正檢TP(True Positive)、誤檢FP(False Positive)、漏檢FN(False Negative)的數(shù)量,計(jì)算查準(zhǔn)率P和查全率R,分別如式(14)和式(15)所示。

        式中:NTP、NFP、NFN分別為正檢、誤檢、漏檢數(shù)量。

        本文所提信息動態(tài)表達(dá)的PAA 方法的目標(biāo)之一是通過數(shù)據(jù)壓縮減少算法的計(jì)算量,因此對算法的時間復(fù)雜度進(jìn)行分析。雖然傳統(tǒng)歐氏距離的時間復(fù)雜度小,但其已被證明準(zhǔn)確性不佳。而雖然DTW距離在準(zhǔn)確性上有較好的效果,但其時間復(fù)雜度隨著曲線數(shù)據(jù)量的增加而呈現(xiàn)平方倍的增大,2 條長度為n的時間序列之間DTW 距離的時間復(fù)雜度為O(n2)。本文所提分段加權(quán)DTW 距離的時間復(fù)雜度為O((1-γ)2n2),與壓縮率有關(guān):若壓縮率為30%,則其時間復(fù)雜度減半;若壓縮率達(dá)到70%,則其時間復(fù)雜度僅為DTW 距離的10%。可見,分段加權(quán)DTW 距離能有效減少計(jì)算量,使其適用于云邊協(xié)同的應(yīng)用場景。

        不同方法的異常用電識別結(jié)果如表2 所示。由表可見:相比于方法1,方法2的效果提升明顯,這是得益于DTW 距離對相似性度量的準(zhǔn)確性,但同時也極大地降低了算法的效率;方法3 的效果明顯弱于方法2,這說明DBSCAN 算法基于樣本密度的自動異常識別顯著優(yōu)于K-means 算法依賴閾值設(shè)置的異常識別;方法4使用PAA 方法對數(shù)據(jù)進(jìn)行壓縮,可以顯著提高算法的運(yùn)行效率,但是由于PAA 方法對數(shù)據(jù)信息的保留比較粗略,導(dǎo)致方法4 的效果仍不夠理想;方法5 和本文方法的唯一差別就在于,方法5根據(jù)經(jīng)驗(yàn)選擇DBSCAN 算法的參數(shù),而沒有使用自適應(yīng)參數(shù)選擇方法,由于DBSCAN 算法對參數(shù)敏感,直接導(dǎo)致方法5 的效果不佳;本文方法改進(jìn)了數(shù)據(jù)壓縮方法,實(shí)現(xiàn)了用電信息的動態(tài)表達(dá),極大地提高了數(shù)據(jù)的重表達(dá)準(zhǔn)確性,相比于方法4,其異常用電識別性能明顯提高。

        表2 不同方法的異常用電識別結(jié)果Table 2 Abnormal power consumption recognition results of different methods

        進(jìn)一步分析不同方法的異常識別結(jié)果可發(fā)現(xiàn):方法4和方法2使用的相似性度量方法不同,但效果基本相同,這說明本文所提分段加權(quán)DTW 距離能準(zhǔn)確度量壓縮數(shù)據(jù)的相似性,且比經(jīng)典DTW 距離的計(jì)算速度更快;本文方法使用了自適應(yīng)參數(shù)選擇的DBSCAN 算法,其效果相較于方法5 提升較大,驗(yàn)證了本文所提自適應(yīng)參數(shù)選擇DBSCAN 算法的有效性,解決了DBSCAN算法對參數(shù)選擇敏感的問題。

        綜上可知,相較于其他方法,本文方法的綜合性能最優(yōu),查準(zhǔn)率和查全率均較高,且具有較好的計(jì)算效率。因此,本文方法在云邊協(xié)同架構(gòu)下有較強(qiáng)的實(shí)用性,能在解決計(jì)算資源緊張和傳輸帶寬占用大這2 個問題的同時,對最終的異常用電識別結(jié)果影響也不大。本文方法識別所得異常用電識別曲線如圖6所示,為了便于觀察,圖中只給出了38條正常曲線和2 條異常曲線。由圖可見,2條異常曲線明顯偏離正常曲線。

        圖6 本文方法的異常用電識別曲線Fig.6 Abnormal power consumption recognition curves of proposed method

        5 結(jié)論

        為了在云邊協(xié)同架構(gòu)下準(zhǔn)確識別異常用電,本文提出了一種考慮信息動態(tài)表達(dá)的異常用電模式識別云邊協(xié)同方法,主要包括邊緣端的信息動態(tài)表達(dá)的PAA數(shù)據(jù)壓縮方法、云端的基于分段加權(quán)DTW 距離的相似性度量和基于DBSCAN 算法的異常用電識別3 個部分。經(jīng)過實(shí)際數(shù)據(jù)集進(jìn)行算例分析,驗(yàn)證了本文方法在數(shù)據(jù)壓縮效果、異常識別準(zhǔn)確性、計(jì)算效率3 個方面均具有較好的性能表現(xiàn),能實(shí)現(xiàn)異常用電識別在云邊協(xié)同場景的應(yīng)用,充分考慮了計(jì)算資源不足的問題,并減輕了網(wǎng)絡(luò)傳輸壓力。同時也驗(yàn)證了本文所提信息動態(tài)表達(dá)的PAA 方法對數(shù)據(jù)壓縮的準(zhǔn)確性、基于分段加權(quán)DTW 距離衡量時間序列相似度的合理性以及將其應(yīng)用在云邊協(xié)同架構(gòu)的可行性。

        但本文方法尚未考慮異常用電原因的辨識,下一步工作將在已有研究的基礎(chǔ)上,針對異常用電原因的識別進(jìn)行進(jìn)一步的研究。

        附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。

        猜你喜歡
        信息方法
        學(xué)習(xí)方法
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        无码人妻一区二区三区免费n鬼沢| 日韩一欧美内射在线观看| 中国娇小与黑人巨大交| 日韩AV无码免费二三区| 岳好紧好湿夹太紧了好爽矜持 | 亚洲国产精品久久久久秋霞1| 朝鲜女人大白屁股ass孕交| 久久亚洲中文字幕伊人久久大| 亚洲每天色在线观看视频| 丝袜国产高跟亚洲精品91| 蜜桃麻豆www久久囤产精品| 色欲色香天天天综合网www | 国产一区二区三区av在线无码观看| 久久国产色av免费观看| 亚洲国产女性内射第一区二区 | 亚洲一区二区综合精品| 日本肥老熟妇在线观看| a级福利毛片| 欧美成人一区二区三区在线观看| 亚洲国产成人久久综合| 日本孕妇潮喷高潮视频| 亚洲岛国一区二区三区| 午夜精品一区二区三区视频免费看 | 无码精品国产一区二区三区免费| 国产熟女自拍av网站| 免费啪啪av人妻一区二区| 精精国产xxxx视频在线播放器| 欧美色综合高清视频在线| 午夜成人精品福利网站在线观看 | 国产午夜av一区二区三区| 亚洲AV秘 无码一区二区三区1| 欧美精品免费观看二区| 在线精品一区二区三区| 日本不卡的一区二区三区中文字幕 | 久久av高潮av喷水av无码| 夜色视频在线观看麻豆| 亚洲精品电影院| 欧美性猛交xxxx黑人| 中文字幕精品永久在线| 成人国产一区二区三区| 特级婬片国产高清视频|