亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自編碼的電力信息通信資產(chǎn)數(shù)據(jù)清洗算法

        2020-01-01 06:37:04王慧卿張建亮任學(xué)武
        關(guān)鍵詞:檢測(cè)模型

        趙 敏,王慧卿,張 超,李 洋,張建亮,高 楓,任學(xué)武

        1.國(guó)網(wǎng)山西省電力公司信息通信分公司,山西 太原030001

        2.北京謙潤(rùn)和科技有限公司,北京100190

        大數(shù)據(jù)技術(shù)作為新一代技術(shù),其隱藏的價(jià)值將會(huì)給很多行業(yè)帶來(lái)顛覆性的改變[1]。近年來(lái),中國(guó)電機(jī)工程學(xué)會(huì)信息化專委會(huì)正式發(fā)布《中國(guó)電力大數(shù)據(jù)發(fā)展白皮書》,國(guó)家電網(wǎng)公司也開展了各類智能電網(wǎng)大數(shù)據(jù)應(yīng)用的科研項(xiàng)目[3],智能電網(wǎng)中的大數(shù)據(jù)來(lái)源寬泛,如智能電表測(cè)量用電數(shù)據(jù)等[4]。

        當(dāng)前智能電網(wǎng)領(lǐng)域數(shù)據(jù)量總體呈現(xiàn)指數(shù)增長(zhǎng),因此可通過(guò)合理、高效利用大數(shù)據(jù)技術(shù),分析電力領(lǐng)域數(shù)據(jù)潛在價(jià)值[5]。當(dāng)前智能電網(wǎng)領(lǐng)域數(shù)據(jù)量總體呈現(xiàn)指數(shù)增長(zhǎng),因此可通過(guò)合理、高效利用大數(shù)據(jù)技術(shù),分析電力領(lǐng)域數(shù)據(jù)潛在價(jià)值[5]。

        對(duì)于電力領(lǐng)域的大數(shù)據(jù),由于行業(yè)特殊性,對(duì)數(shù)據(jù)的完整性有一定的要求。文獻(xiàn)[6]基于Spark框架對(duì)電力能源大數(shù)據(jù)的數(shù)據(jù)清洗模型進(jìn)行研究,該模型未考慮數(shù)據(jù)集中的短時(shí)相關(guān)性,不考慮時(shí)間關(guān)聯(lián),數(shù)據(jù)異常點(diǎn)的判斷偏差會(huì)增大。文獻(xiàn)[7]中提出了將棧式自編碼器網(wǎng)絡(luò)應(yīng)用于電力大數(shù)據(jù)的清洗與恢復(fù)中,在訓(xùn)練中隨機(jī)加入噪聲信息,通過(guò)對(duì)噪聲數(shù)據(jù)的特征進(jìn)行解析,消除噪聲還原數(shù)據(jù)。

        本文結(jié)合電力信息通信資產(chǎn)對(duì)數(shù)據(jù)質(zhì)量有較高要求的特點(diǎn),提出了一種基于棧式自編碼器的數(shù)據(jù)清洗算法(Data cleaning algorithm based on SDAE,DCbS),DCbS 算法可以辨別異常數(shù)據(jù),恢復(fù)重構(gòu)奇異點(diǎn)和缺失數(shù)據(jù),通過(guò)引入滑動(dòng)窗口來(lái)保存數(shù)據(jù)之間的短時(shí)相關(guān)性并從殘差的角度訓(xùn)練模型,以減少模型辨別異常數(shù)據(jù)點(diǎn)所需的訓(xùn)練數(shù)據(jù)。針對(duì)電力信息通信資產(chǎn)運(yùn)行異常的情況,該方法可以有效的過(guò)濾干擾數(shù)據(jù)。

        1 基于棧式自編碼器的數(shù)據(jù)清洗算法

        1.1 自編碼網(wǎng)絡(luò)

        降噪自編碼器(Denoising auto encoder,DAE)作為自編碼器的改進(jìn),兩者具有相同的網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo),降噪自編碼器是一類接受損壞數(shù)據(jù)作為輸入,并訓(xùn)練來(lái)預(yù)測(cè)原始未被損壞數(shù)據(jù)作為輸出的自編碼器。DAE 在訓(xùn)練時(shí)會(huì)主動(dòng)向樣本數(shù)據(jù)中隨機(jī)添加噪聲數(shù)據(jù),在訓(xùn)練的過(guò)程中主動(dòng)學(xué)習(xí)消除噪聲干擾重構(gòu)污染數(shù)據(jù),以增加系統(tǒng)的穩(wěn)定性[8]。

        輸入數(shù)據(jù)為d,在訓(xùn)練過(guò)程中數(shù)據(jù)d經(jīng)過(guò)破壞,得到d0,經(jīng)過(guò)編碼d0的隱藏層表示如下:

        此為數(shù)據(jù)的編碼模型,式中:W為m×n階的編碼權(quán)重矩陣,b為m階的偏置向量;s函數(shù)表達(dá)式為:

        Sigmoid 函數(shù)對(duì)邊緣進(jìn)行抑制,對(duì)中間的細(xì)微變化較為敏感,因此對(duì)特征識(shí)別度更好,故而選取Sigmoid 函數(shù)作為激活函數(shù)。

        經(jīng)過(guò)解碼,隱藏特征F的重構(gòu)表示如下:

        此為數(shù)據(jù)的解碼模型,式中W′為m×n階的解碼權(quán)值矩陣,b′為m階的反偏置向量。

        重構(gòu)數(shù)據(jù)的結(jié)果F并不能完全精確的與原始結(jié)果相同,為了計(jì)算誤差函數(shù)RH表示為:

        式中d為原始數(shù)據(jù)集合,F(xiàn)為恢復(fù)之后的數(shù)據(jù)集合,在進(jìn)行處理之前需要進(jìn)行歸一化處理。損失函數(shù)說(shuō)明訓(xùn)練的效果,當(dāng)損失函數(shù)最小時(shí),輸入數(shù)據(jù)d與重構(gòu)數(shù)據(jù)F所具有的共性特征被最大化的提取。將DAE 組合成深度學(xué)習(xí)的層級(jí)結(jié)構(gòu),可以最大化的提取細(xì)致抽象的特征,將殘差學(xué)習(xí)的方法引入進(jìn)而得到DCbS 算法。

        1.2 DCbS 算法

        由于電力信息通信資產(chǎn)的狀態(tài)數(shù)據(jù)異常主要來(lái)自于兩個(gè)方面,一是數(shù)據(jù)記錄異常,此種情況為DCbS 算法所需清洗的對(duì)象,另一種為由于資產(chǎn)運(yùn)行狀態(tài)異常所引起的運(yùn)行數(shù)據(jù)異常。因此在訓(xùn)練過(guò)程中,將樣本誤差和誤差持續(xù)時(shí)間作為數(shù)據(jù)類型的判斷標(biāo)準(zhǔn),將最大誤差函數(shù)預(yù)置設(shè)為RMAX,最大誤差持續(xù)時(shí)間為TMAX,將數(shù)據(jù)中誤差超過(guò)RMAX且誤差持續(xù)時(shí)長(zhǎng)低于TMAX的數(shù)據(jù)判定為一類異常數(shù)據(jù),這些數(shù)據(jù)為數(shù)據(jù)異常點(diǎn);將數(shù)據(jù)中誤差超過(guò)RMAX且長(zhǎng)期為0 或者某一特定值的數(shù)據(jù)判定為二類異常數(shù)據(jù),此數(shù)據(jù)為數(shù)據(jù)缺失,在數(shù)據(jù)中如誤差超過(guò)RMAX且存在一定變化規(guī)律,判定為三類異常數(shù)據(jù),此數(shù)據(jù)為設(shè)備狀態(tài)異常數(shù)據(jù)。DCbS 算法清洗目標(biāo)為一二類異常數(shù)據(jù)。

        電力信息通信資產(chǎn)的狀態(tài)參量信息間具有非線性相關(guān)性,且各監(jiān)測(cè)參數(shù)為時(shí)間序列數(shù)據(jù),具有短時(shí)相依特征,若直接采用電力信息通信資產(chǎn)原始監(jiān)測(cè)數(shù)據(jù)訓(xùn)練SDAE 模型,雖能學(xué)習(xí)獲得各參數(shù)間的非線性關(guān)系,然而各監(jiān)測(cè)參數(shù)固有的短時(shí)相依性會(huì)被忽略,影響機(jī)組狀態(tài)監(jiān)測(cè)結(jié)果的準(zhǔn)確性[9]。具體滑動(dòng)窗口處理方法的具體步驟為:

        記X={x(j)i}為電力信息通信資產(chǎn)狀態(tài)參數(shù)數(shù)據(jù)集,其中,i=1,2,…,n,j=1,2,…,m,n為監(jiān)測(cè)變量數(shù),m為采集的樣本數(shù)據(jù)數(shù)量。則數(shù)據(jù)X的第i個(gè)分量表示機(jī)組第i個(gè)監(jiān)測(cè)變量樣本數(shù)據(jù),即。設(shè)滑動(dòng)窗口的寬度為β(即滑動(dòng)窗口內(nèi)包含β個(gè)時(shí)間點(diǎn)數(shù)據(jù)),窗口每次移動(dòng)一個(gè)時(shí)間點(diǎn),對(duì)于m個(gè)樣本數(shù)量的數(shù)據(jù)X共有m-β+1 個(gè)滑動(dòng)窗口,記為第l個(gè)滑動(dòng)窗口采集的第i個(gè)監(jiān)測(cè)參量的數(shù)據(jù),則:

        第l個(gè)滑動(dòng)窗口采集的數(shù)據(jù)為:

        因此,由公式(5)、(6),對(duì)電力信息通信資產(chǎn)狀態(tài)參數(shù)數(shù)據(jù)采用滑動(dòng)窗口處理得到SDAE 模型的輸入數(shù)據(jù)增廣狀態(tài)數(shù)據(jù)矩陣:

        此外,當(dāng)β=1 時(shí),Y=X,此時(shí)增廣狀態(tài)數(shù)據(jù)矩陣即為原始狀態(tài)參數(shù)數(shù)據(jù)。采用滑動(dòng)窗口技術(shù)處理,SDAE 的輸入數(shù)據(jù)由原始數(shù)據(jù)X的n維增至增廣狀態(tài)數(shù)據(jù)矩陣Y的n·β維,樣本數(shù)據(jù)量也相應(yīng)由m變?yōu)閙-β+1。

        訓(xùn)練過(guò)程為對(duì)DAE 進(jìn)行逐層無(wú)監(jiān)督的預(yù)訓(xùn)練,在預(yù)訓(xùn)練過(guò)程中,誤差進(jìn)行反向傳播。傳統(tǒng)的堆式降噪自編碼器的優(yōu)化目標(biāo)為對(duì)原始數(shù)據(jù)d和破壞數(shù)據(jù)d0之間進(jìn)行端到端的優(yōu)化,這種優(yōu)化方法需要較多特征,并且計(jì)算量較大。但是如果從殘差的角度出發(fā),原始的函數(shù)映射則變?yōu)閐和d+n,n表示數(shù)據(jù)中的噪聲,DCbS 算法的目標(biāo)為d和n之間的映射,誤差函數(shù)則變更為:

        式中n為噪聲,為了防止模型的過(guò)擬合,通過(guò)引入重衰減項(xiàng)(正則項(xiàng))防止模型出現(xiàn)過(guò)擬合現(xiàn)象,式中為權(quán)值衰減項(xiàng)。

        λ為權(quán)值衰減系數(shù),λ=3e-3;表示連接l層第j個(gè)神經(jīng)元與l+1 層第i個(gè)神經(jīng)元的權(quán)值參數(shù);s1、s2、s3分別為第一、二、三層的節(jié)點(diǎn)數(shù),即網(wǎng)絡(luò)輸入層、隱藏層和輸出層的節(jié)點(diǎn)數(shù)。

        2 算例分析

        算例采用某地區(qū)部分變電站交換機(jī)2014 至2015 的狀態(tài)檢測(cè)信息作為訓(xùn)練及測(cè)試數(shù)據(jù),測(cè)試數(shù)據(jù)中,對(duì)交換機(jī)吞吐量這一指標(biāo)人為的加入噪聲以檢測(cè)算法性能。選取正常運(yùn)行狀態(tài)訓(xùn)練,得到初始模型;選取包括異常運(yùn)行狀態(tài)的真實(shí)信息進(jìn)行訓(xùn)練,得到故障數(shù)據(jù)模型。其中模型輸入層規(guī)模為80,包含3 個(gè)隱藏層,規(guī)模分別為70、50、70,學(xué)習(xí)周期為1000,訓(xùn)練樣本數(shù)量為10000 組。

        表1 DCbS 數(shù)據(jù)清洗部分結(jié)果Table 1 Cleaning partial results of DCbS data

        表1 中展示了部分增加噪聲之后進(jìn)行清洗的數(shù)據(jù)集,可以看出經(jīng)過(guò)DCbS 算法清洗的數(shù)據(jù)與真實(shí)值基本一致,對(duì)于污染數(shù)據(jù)也具有較好的恢復(fù)能力,經(jīng)過(guò)處理的無(wú)損數(shù)據(jù)與原始數(shù)據(jù)的偏差保持在5%之內(nèi),對(duì)于設(shè)備狀態(tài)異常數(shù)據(jù),也能進(jìn)行良好的識(shí)別,設(shè)備狀態(tài)異常數(shù)據(jù)經(jīng)過(guò)處理之后,依然保存其特征,方便后續(xù)進(jìn)行繼續(xù)的處理,對(duì)于第一類和第二類數(shù)據(jù)異常點(diǎn),DCbS 算法也保持了良好的識(shí)別特性,并對(duì)其進(jìn)行了預(yù)測(cè)恢復(fù),變化4 和5 的數(shù)據(jù)為缺失數(shù)據(jù),人為將真實(shí)數(shù)據(jù)置零,DCbS算法將器恢復(fù)至真實(shí)值水平,與真實(shí)值誤差最大相差3.26。編號(hào)8 和9 的數(shù)據(jù)為人為造成的奇異點(diǎn),即數(shù)據(jù)產(chǎn)生較大偏差且持續(xù)時(shí)間較短,DCbS 算法對(duì)于奇異值的恢復(fù)也較為理想。可見,通過(guò)DCbS算法對(duì)電力信息通信資產(chǎn)大數(shù)據(jù)進(jìn)行清洗,清洗結(jié)果負(fù)荷真實(shí)數(shù)據(jù)分布特點(diǎn)。

        圖1 為將某一連續(xù)時(shí)刻的檢測(cè)數(shù)據(jù)輸入CDbS 算法、SDAE模型以及DAE 模型中的數(shù)據(jù)清洗結(jié)果,時(shí)刻點(diǎn)13、37、122 和187 為測(cè)試數(shù)據(jù)設(shè)置的奇異點(diǎn),時(shí)刻點(diǎn)65、150 和166 為設(shè)置的數(shù)據(jù)缺失點(diǎn),時(shí)刻20 至26 為設(shè)備狀態(tài)異常點(diǎn)。從圖2 中可以看出,三種降噪編碼器數(shù)據(jù)清洗模型都可以對(duì)異常數(shù)據(jù)進(jìn)行一定程度上重構(gòu),其中本文提出的CDbS 算法重構(gòu)效果最優(yōu),SDAE次之,整體上SDbS 算法的重構(gòu)數(shù)據(jù)與無(wú)損數(shù)據(jù)保持在5%以內(nèi)。

        圖1 不同樣本時(shí)間點(diǎn)下路由器吞吐量Fig.1 Router throughput at different sample time points

        表2 錯(cuò)誤檢測(cè)率仿真結(jié)果Table 2 simulation results from error detection rate

        表中可以看出,隨著測(cè)試樣本數(shù)量的上升,CDbS 算法檢測(cè)的正確率有所下降,但是錯(cuò)誤的檢測(cè)率可以保持在90%以上,檢測(cè)的正確率也能保持在82%以上,可見CDbS 算法可以較好的發(fā)現(xiàn)數(shù)據(jù)集中存在的異常點(diǎn)。隨著檢測(cè)數(shù)據(jù)量的上升,CDbS 算法的錯(cuò)誤檢測(cè)率和檢測(cè)正確率有所下降,但是均保持在一個(gè)合理范圍之內(nèi),說(shuō)明CDbS 算法可以通過(guò)對(duì)于數(shù)據(jù)集中存在異常的檢驗(yàn),發(fā)現(xiàn)數(shù)據(jù)集中存在的誤差,為后續(xù)的資產(chǎn)狀態(tài)評(píng)估提供有力的數(shù)據(jù)支持。

        圖2 為訓(xùn)練樣本數(shù)量與檢測(cè)樣本數(shù)量為500 的錯(cuò)誤檢測(cè)率和檢測(cè)正確率之間的關(guān)系,隨著樣本訓(xùn)練數(shù)量的上升,錯(cuò)誤檢測(cè)率和檢測(cè)正確率也隨之上升,可見CDbS模型隨著訓(xùn)練樣本的上升,性能也在上升。樣本數(shù)量為2.5 萬(wàn)時(shí),CDbS 模型的錯(cuò)誤檢測(cè)率為93.01%,檢測(cè)正確率為86.73%,錯(cuò)誤檢測(cè)率提升2.54%,檢測(cè)正確率提升4.13%。隨著訓(xùn)練樣本的增加,更多的噪聲特征被CDbS 算法模型所學(xué)習(xí),故而檢測(cè)正確率有所提高。

        圖2 錯(cuò)誤查找準(zhǔn)確率Fig.2 Accuracy of finding error

        3 結(jié)論

        文中提出了一種基于棧式自編碼器的數(shù)據(jù)清洗算法(Data cleaning algorithm based on SDAE,DCbS),通過(guò)滑動(dòng)窗口保存數(shù)據(jù)之間的短時(shí)相關(guān)性以及含噪數(shù)據(jù)與無(wú)損數(shù)據(jù)之間的殘差分析,以減少模型辨別異常數(shù)據(jù)點(diǎn)所需的訓(xùn)練數(shù)據(jù)。針對(duì)電力信息通信資產(chǎn)運(yùn)行的異常情況,該方法可以有效地過(guò)濾干擾數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明所提算法提高了對(duì)于數(shù)據(jù)異常點(diǎn)的辨別和恢復(fù)能力,最終從數(shù)據(jù)的恢復(fù)以及異常值的辨別兩方面凸顯算法的優(yōu)越性

        猜你喜歡
        檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        最新国产美女一区二区三区| 曰本大码熟中文字幕| 中文无码制服丝袜人妻av| 精品久久杨幂国产杨幂| 色婷婷久久综合中文久久一本| 狠狠cao日日橹夜夜十橹| 成人三级a视频在线观看| 国产乱人伦AV在线麻豆A| 麻豆视频在线观看免费在线观看| 亚洲av成人综合网成人| 日本道精品一区二区三区| 久久无码高潮喷水免费看| 亚洲中文字幕免费精品| 好吊妞视频这里有精品| 亚洲av电影天堂男人的天堂| 亚洲性69影视| 蜜桃av中文字幕在线观看| 乱码av麻豆丝袜熟女系列| 亚洲色偷偷色噜噜狠狠99| 喷潮出白浆视频在线观看| 国产一区二区三区天堂| 亚洲日产精品一二三四区| 深夜国产成人福利在线观看女同| 亚洲香蕉久久一区二区| www夜片内射视频在观看视频| 真实国产老熟女粗口对白| 久久久国产不卡一区二区| 日本本土精品午夜视频| 影音先锋男人av鲁色资源网| 78成人精品电影在线播放| 美女偷拍一区二区三区| 蜜芽亚洲av无码精品色午夜| 亚洲乱亚洲乱少妇无码99p| 污污污国产免费网站| 男女做羞羞事的视频网站| 丰满少妇三级全黄| jlzzjlzz全部女高潮| 国产大屁股熟女流白浆一区二区| 国产三级精品三级| 在线免费观看国产精品| 日韩精品一区二区三区免费观影|