亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林模型的臺區(qū)相序識別方法

        2021-08-21 20:46:54蔡永智唐捷危阜勝李健郭文翀董志奎楊銀
        機電工程技術 2021年12期
        關鍵詞:隨機森林

        蔡永智 唐捷 危阜勝 李健 郭文翀 董志奎 楊銀

        摘要:低壓臺區(qū)拓撲關系識別是實現(xiàn)電網(wǎng)智能化的一個關鍵基礎,相對于人工識別,從數(shù)據(jù)挖掘角度進行識別,具有成本低、準確率高、時效性好的優(yōu)勢。就其相序識別問題,提出了基于隨機森林算法的低壓臺區(qū)相序關系自動識別方法。首先基于隨機算法原理搭建了用于臺區(qū)相序識別的隨機森林算法模型,并提出采用 F1_score統(tǒng)計值作為識別模型的評價指標;然后將搭建好的模型應用到實際臺區(qū)進行訓練,訓練方式設置了兩類測試集:口袋內臺區(qū)測試集與口袋外臺區(qū)測試集;最后將訓練好的算法模型對測試樣本進行相序分許。實證結果證明,所提方法對臺區(qū)的相序拓撲分析有較高準確性,為低壓臺區(qū)拓撲分析提供了一種技術思路和可行方法。

        關鍵詞:低壓臺區(qū);相序識別;隨機森林

        中圖分類號:TM71???????????? 文獻標志碼:A

        文章編號:1009-9492(2021)12-0050-04

        開放科學(資源服務)標識碼(OSID):

        Phase Sequence Recognition Method of Station Area Based on Random Forest Algorithm

        Cai Yongzhi1,Tang Jie2,Wei Fusheng2,Li Jian1,Guo Wenchong1,Dong Zhikui3,Yang Yin3

        (1. Metrology Center of Guangdong Power Grid Co., Ltd., Guangzhou 510060, China;

        2. Guangdong Power Grid Corp, Guangzhou 510060, China;3. Guangzhou Power Electrical Technology Co., Ltd., Guangzhou 510700, China)

        Abstract: The recognition of low-voltage station topology is a key foundation for the realization of intelligent power grid. Compared with manual recognition, recognition from the perspective of data mining has the advantages of low cost, high accuracy, and good timeliness. Regarding the phase sequence identification problem, an automatic identification method of the phase sequence relationship of low-voltage stations based on the random forest algorithm was proposed. First, based on the principle of random algorithm, a random forest algorithm model for phase sequence recognition of station area was built, and the F1_score statistical value was proposed as the evaluation index of the recognition model. Then the built model was applied to the actual station area for training. The training method was set with two types of test sets: the pocket inner station area test set and the pocket outer station area test set. Finally, the trained algorithm model was divided into the phase sequence of the test samples. The empirical results prove that the proposed method has high accuracy in the phase sequence topology analysis of the station area, then provides a technical idea and feasible method for the topology analysis of the low voltage station area.?????? Key words: low-voltage station area; phase sequence recognition; random forest

        0 引言

        隨著社會的發(fā)展,用戶對更可靠更優(yōu)質的電能供應、更優(yōu)質更貼心的供電服務的要求日益提升[1-2]。而技術進步推進了智能配電網(wǎng)建設快速發(fā)展,給電網(wǎng)公司管理電網(wǎng)運行及提升服務提供了技術支撐。配電網(wǎng)的拓撲結構是配電網(wǎng)進行線損分析、故障診斷、潮流計算、三相平衡等應用功能的基礎。隨著智能電表的普及,終端用戶用電數(shù)據(jù)的積累,這使得能夠對臺區(qū)數(shù)據(jù)進行挖掘,研究臺區(qū)運行數(shù)據(jù)高頻采集、戶變、相序與線戶關系識別算法研究變?yōu)榭赡堋?/p>

        相序識別問題是拓撲識別的一個子問題,目前從數(shù)據(jù)驅動角度來分析相序識別已有較多的研究成果,大概可分為顯式規(guī)則分析和隱式規(guī)則分析兩種技術路線,顯式規(guī)則分析是首先研究臺區(qū)供電網(wǎng)絡中各用戶的電氣物理特征,得到同相線用戶和異相線用戶的電氣關聯(lián)規(guī)律,以此為理論依據(jù)設計算法,唐捷等[3]建立了用戶時空特性模型,證明了了同相線用戶的電氣距離更近,然后采用電壓相關性來描述電表的集群特性,基于此提出了電壓相關性分類結合電流優(yōu)化的相序識別算法。張麗強等[4]采用線性回歸方式描述了單相用戶和同相母線的電壓具有更好的回歸效果。一些學者基于電壓聚類進行相序分析,在實驗中都取得了不錯的效果[5-8]。采用這種方法所建立的算法普適性較好,計算效率高,魯棒性強,但其應用效果受數(shù)據(jù)質量影響,背后機理復雜,難以分析改進。為此,從隱式規(guī)則分析來嘗試解決這些問題,借用機器學習善于處理高維、非線性的復雜映射問題的特點研究機器學習算法的相序識別模型成為可能。

        目前關于隱式規(guī)則的機器學習算法的相序識別研究較少,谷海彤等[9] 針對載波技術對網(wǎng)絡拓撲的關聯(lián),提出了基于CNN-LSTM深度學習神經(jīng)網(wǎng)絡的臺區(qū)戶變拓撲關系的識別模型,該方法對臺區(qū)戶變拓撲識別問題提出了深度學習方式解決思路,但沒有就相序識別做分析。本文從機器學習視角分析了相序識別的可行性,結合隨機森林算法,搭建了低壓臺區(qū)相序識別模型,通過對實際臺區(qū)的數(shù)據(jù)樣本進行訓練和測試,結果表明本文所提模型具有較好的適應效果。

        1隨機森林算法

        隨機森林算法是集成學習領域的常用算法,是由美國學者LeoBreiman結合Bagging方法和隨機屬性子空間理論提出的一種集成學習方法[10] 。隨機森林中的決策樹通常選用分類回歸樹決策樹算法(Classification And Re? gression Tree,CART)決策樹。Cart 決策樹算法有兩個基本思想:(1)建樹過程是通過對訓練樣本集D進行遞歸地劃分自變量空間來訓練決策樹的生長;(2)剪枝過程則利用驗證數(shù)據(jù)集V進行剪枝[11-12] 。

        1.1 建樹過程

        假設數(shù)據(jù)集D中有m個不同的類別Ci。Ci, D是數(shù)據(jù)集 D中Ci類元組的集合, |D| 和|C | i, D 分別是D和Ci, D元組的個數(shù),則CART決策樹使基尼指數(shù)Gini(D),計算公式為:

        式中:Pi為Ci類元組出現(xiàn)的頻率。

        假設存在屬性A,其數(shù)值形式為離散型,A的二元劃分將D劃分為D1和D2,則在給定劃分的條件下,D的基尼指數(shù)為:

        基于屬性A的二元劃分使得不純度降低量為:

        CART 算法遍歷每個屬性,將能產(chǎn)生最大不純度降低的屬性作為劃分點。

        1.2 剪枝過程

        為防止建樹過程過度適應數(shù)據(jù)問題,CART 算法常用的是事后剪枝進行模型修正,即在決策樹已經(jīng)完全長成后對其進行剪枝,剪枝以后會生成剪枝子樹,再利用交叉驗證法篩選效果最優(yōu)的剪枝操作,具體算法如下。

        假設任意一顆以t為根節(jié)點的決策樹Tt,其損失函數(shù)定義為:

        式中: C( Tt )為決策樹訓練過程中的損失函數(shù),在 CART 回歸樹中是均方差,在 CART分類樹中是基尼系數(shù); α為正則化參數(shù);Tt 為葉子數(shù)量,表示樹的規(guī)模,可以用來衡量模型容量。

        剪枝以后得到僅含有 t 節(jié)點的單節(jié)點決策樹,其損失函數(shù)為:

        Cα( t )= C( t )+α

        當α=0或者很小,則有不等式:

        Cα(Tt )< Cα( t )

        當α增大到一定程度則有:

        Cα(Tt )= Cα( t )

        假設此時α為α1 ,可以推導得:

        當α>α1 的時候,如果需要得到最優(yōu)子樹則必須進行剪枝。當?shù)玫溅恋膮^(qū)間,就對完整 Tt 的任意子樹{Ti , i =1, 2, 3, … , m},計算Cα(Ti ),找到最小Cα(Ti )所對應的子樹。

        2 臺區(qū)相戶關系隨機森林識別模型

        2.1? 算法模型

        隨機森林是由 B 棵 CART決策樹作為弱學習器組成的集合:{T1(X), T2(X), …, TB(X)},在分類問題中,統(tǒng)計 B 棵 CART的決策結果的投票,取最大投票數(shù)的結果作為最后隨機森林的輸出結果。

        訓練集樣本數(shù)據(jù),特征變量用 D ={(X1 , Y1), … , (XN? , YN )}, Xi (i =1, … , N )來表示,而 Yi 指采用點的真實相序關系,其中 X 是具有 M 維的特征向量,表示為 X ={x1 , x2 , x3 , … , xM },是數(shù)據(jù)集 D 的一個訓練樣本,y 為樣本標簽,原始訓練數(shù)據(jù)集有 N 個樣本集, M 個特征變量,算法流程如圖1所示。

        隨機森林相序識別模型的流程如下。

        (1) 從數(shù)據(jù)集 D 中,采用 Bootstrap采樣方法,進行有放回重抽樣得到與原始數(shù)據(jù)集數(shù)量相同的數(shù)據(jù)集,重復上述操作 k 次構造訓練樣本集 Dtr ain ={D1 , D2 , …,Dk },其中每一個數(shù)據(jù)集 Di (i

        (2) 構建隨機森林,隨機森林是 W 棵 CART決策樹經(jīng)過訓練構成的,樹的個數(shù) W 可人為設定。每顆決策樹生長訓練的過程是相互獨立的,它們之間是無關聯(lián)的,這樣就進一步增加了隨機性,提高模型的泛化能力。

        (3) 計算隨機森林的輸出結果,隨機森林的最終預測結果則是所有決策樹結果的眾數(shù)。

        2.2 模型評價指標

        相序識別分類屬于多分類任務,本文將采用 F1_score以及準確率作為評價模型性能的指標。F1_score 用于多分類問題以及樣本不平衡問題中,是查準率于查全率的綜合。F1_score指標基于混淆矩陣計算得到。混淆矩陣結構如下:

        其中真陽性記錄與假陽性記錄分別代表模型將陽性樣本標記為陽,陰性樣本標記為陽。假陰性記錄與真陰性記錄分別代表模型將陽性樣本標記為陰,陰性樣本標記為陰。為了引出 F1_score 概念,定義了查準率(recall)、查全率(precision)兩個統(tǒng)計值:

        F1_score指標考慮了查準率與查全率的平衡,計算

        公式如下:

        3 算例分析

        本文選用數(shù)據(jù)有兩部分,一部分是東莞市某臺區(qū)2019年12月份的臺區(qū)智能電表的運行數(shù)據(jù)作為,另一部分是肇慶某臺區(qū)2019年12月份的臺區(qū)智能電表的運行數(shù)據(jù)。實證分析分為兩部分,一部分是口袋內臺區(qū)實證分析,即利用臺區(qū) A 的歷史數(shù)據(jù)作為訓練集,用臺區(qū) A 的某個時期的數(shù)據(jù)作為測試集;另一個口袋外臺區(qū)實證分析,即利用臺區(qū) A 的歷史數(shù)據(jù)作為訓練集,用臺區(qū) B 的歷史數(shù)據(jù)作為測試集。

        采用隨機森林算法得到口袋內臺區(qū)和口袋外臺區(qū)的 F1_score值結果如表1所示。

        為了后續(xù)模型優(yōu)化以及拓展建模思路,對模型分類中的錯誤樣本進行畫像分析對錯誤樣本在結果信心分布、時間分布兩個方面進行統(tǒng)計刻。隨機森林相序識別模型分類信心指數(shù)分布如表2所示。從左到右本分別是隨機森林相序識別模型對 A 相、B 相、C相的分類信心。

        為了驗證是否分類錯誤樣本的模型信心指數(shù)是偏低的。統(tǒng)計分析如圖2所示。

        圖2(a)中信心均值為0.56,可以看到絕大多數(shù)都在0.4~0.68之間,極少數(shù)為0.9以上。而且,有些樣本的極大值居然比0.4小。圖2(b)中信心均值為0.785,可以看到大多數(shù)正確分類樣本的信息指數(shù)在0.65~1之間,很多是直接為1。

        對于3分類而言,當信心分數(shù)很均衡的時候,0、1、2大部分應該在0.33之間,因此可知,錯誤分類的樣本信心指數(shù)都不高。錯誤樣本中有70%的信心小于0.64,可以推斷造成錯誤的主要原因在于錯誤樣本在當前特征集空間內,難以產(chǎn)生較大的信息不純度下降,下一階段應該著重優(yōu)化特征集合,并增加訓練樣本所覆蓋的臺區(qū)量。

        對錯誤樣本的所發(fā)生的時間進行刻畫,提取每個樣本所屬的日期,將星期一到星期日映射到(0,6)數(shù)值空間。統(tǒng)計結果如圖3所示。由圖可知,分類錯誤樣本中周末的占比要遠大于分類正確樣本中周末占比,可以推斷:(1)電壓序列的特征分布存在周末與工作日的差異;(2)周末的分類難度較大;(3)由于周末于工作日存在差異,且周末樣本少可能是造成難度較大的原因。上述分析有助于接下來對模型進行優(yōu)化,理清思路。

        4 結束語

        本文在海量智能電表用電數(shù)據(jù)的基礎上,針對以往低壓臺區(qū)人工相序識別準確率低,成本高等缺陷,提出了隨機森林相序識別方法。區(qū)別于傳統(tǒng)的數(shù)據(jù)分析方法,本文對訓練樣本設置了口袋內臺區(qū)和口袋外臺區(qū),通過實證分析對兩種樣本的訓練模型進行對比,結果表明,口袋外臺區(qū)的相序識別效果和口袋內臺區(qū)的相序識別效果相當,說明所提模型具有較好的泛化性和遷移能力。此外,對分類結果進行信心分布和時間分布統(tǒng)計,發(fā)現(xiàn)分類錯誤樣本信心指數(shù)偏低,且在周末時段更容易發(fā)生分類錯誤,說明所提模型還需進一步優(yōu)化特征集合的區(qū)分度,同時為了提高模型識別效果,樣本可挑選工作日的用電數(shù)據(jù)進行相序分析。

        參考文獻:

        [1] 張勇軍, 劉斯亮, 江金群, 等. 低壓智能配電網(wǎng)技術研究綜述 [J]. 廣東電力, 2019, 32(1): 1-12.

        [2] 李西明,趙斌,楊一帆,等. 基于泛在電力物聯(lián)網(wǎng)技術的配電網(wǎng)故障診斷方法優(yōu)化[J].內蒙古電力技術,2020,38(1):63-65.

        [3] 唐捷,蔡永智,周來,等. 基于數(shù)據(jù)驅動的低壓配電網(wǎng)線戶關系識別方法[J]. 電力系統(tǒng)自動化, 2020, 44(11): 127-137.

        [4] 張麗強,叢偉,董罡,等.基于多元線性回歸的單相電表相別判斷方法[J].電力自動化設備,2020,40(5):144-156.

        [5] 徐曉東,呂干云,魯濤,等. 基于智能電表數(shù)據(jù)與模糊C均值算法的臺區(qū)識別[J].南京工程學院學報(自然科學版),2020,18(4): 1-7.

        [6] 連子寬,姚力,劉晟源,等.基于 t-SNE 降維和 BIRCH 聚類的單相用戶相位及表箱辨識 [J].電力系統(tǒng)自動化,2020,44(8): 176-184.

        [7] 張然,孫曉璐,何仲瀟,等.基于異常點檢測和改進 K-means 算法的臺區(qū)用戶相別辨識方法[J].智慧電力,2020,48(1):91-96.

        [8] 耿俊成,張小斐,萬迪明,等.基于電壓曲線聚類分析的低壓用戶相序自動識別[J].電力大數(shù)據(jù),2019,22(12):1-8.

        [9] 谷海彤,張遠亮,盧翔智,等.基于深度學習的戶變拓撲關系的識別方法研究[J].信息系統(tǒng)工程,2020(3):150-151.

        [10] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.

        [11] 李欣海.隨機森林模型在分類與回歸分析中的應用[J].應用昆蟲學報,2013,50(4):1190-1197.

        [12] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學報(工學版),2014,44(1):137-141.

        第一作者簡介:蔡永智(1984-),男,博士,工程師,研究領域為電能數(shù)據(jù)分析。

        (編輯:王智圣)

        猜你喜歡
        隨機森林
        隨機森林算法在中藥指紋圖譜中的應用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
        基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
        基于隨機森林的HTTP異常檢測
        個人信用評分模型比較數(shù)據(jù)挖掘分析
        時代金融(2017年6期)2017-03-25 22:21:13
        隨機森林在棉蚜蟲害等級預測中的應用
        基于二次隨機森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預報的隨機森林模型及應用
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        基于奇異熵和隨機森林的人臉識別
        軟件(2016年2期)2016-04-08 02:06:21
        基于隨機森林算法的B2B客戶分級系統(tǒng)的設計
        亚洲av无码乱观看明星换脸va| 国产国拍精品亚洲av在线观看| 无码av天天av天天爽| 精品成人av一区二区三区| 欧美老熟妇又粗又大| 亚洲二区三区四区太九| 久久精品国产亚洲av不卡国产 | 巨胸喷奶水www视频网站| 国产精品国产三级农村妇女| 国产亚洲av人片在线播放| 国产精品老熟女乱一区二区| 成年女人vr免费视频| 国产激情з∠视频一区二区| 久久精品国产亚洲AⅤ无码剧情| 久久久精品亚洲人与狗| 亚洲av一二三四区四色婷婷| 国产丰满老熟女重口对白| 亚洲精品一区二区三区播放| 91色区在线免费观看国产| 欧美精品亚洲精品日韩专区 | 国内精品一区二区三区| 女同另类激情在线三区| 男人的天堂手机版av| 国内精品卡一卡二卡三| 国产午夜精品一区二区三区视频| 东京道一本热码加勒比小泽| 蜜桃18禁成人午夜免费网站| 国产真实老熟女无套内射| 99热国产在线| 天堂一区二区三区精品| 精品乱码一区内射人妻无码| 日本精品一区二区三区在线视频 | 国产激情一区二区三区| 无码人妻一区二区三区免费| 国产在线一区二区视频免费观看| 免费av日韩一区二区| 最近在线更新8中文字幕免费| 国产精品无码久久久久免费AV| 男女一区视频在线观看| 亚洲一区av在线观看| 热の国产AV|