亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林算法的臺(tái)區(qū)合理線損率估計(jì)方法

        2017-05-23 06:13:30王守相
        電力自動(dòng)化設(shè)備 2017年11期
        關(guān)鍵詞:損率臺(tái)區(qū)聚類

        王守相 ,周 凱 ,蘇 運(yùn)

        (1.天津大學(xué) 智能電網(wǎng)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300072;2.國(guó)網(wǎng)上海市電力公司,上海 200122)

        0 引言

        線損率在評(píng)價(jià)電力系統(tǒng)的經(jīng)濟(jì)運(yùn)行中扮演著重要的角色,線損管理是電力公司的重點(diǎn)管理內(nèi)容之一。目前我國(guó)線損管理采用《線損四分管理標(biāo)準(zhǔn)》,根據(jù)“分壓、分區(qū)、分線、分臺(tái)區(qū)”的原則對(duì)線損進(jìn)行全面管理。根據(jù)國(guó)家電網(wǎng)的測(cè)算,380 V低壓電網(wǎng)的損耗量占總損耗量的1/5,是一個(gè)重?fù)p層[1]。而低壓電網(wǎng)的線損管理普遍采用分臺(tái)區(qū)的管理手段,所以研究臺(tái)區(qū)線損情況、分析影響臺(tái)區(qū)線損的重要因素對(duì)提高配電網(wǎng)的經(jīng)濟(jì)運(yùn)行水平具有重要的意義。

        從上海電力公司提供的線損系統(tǒng)數(shù)據(jù)發(fā)現(xiàn),線損系統(tǒng)中數(shù)據(jù)質(zhì)量問題表現(xiàn)在數(shù)據(jù)缺失上,其中供電量數(shù)據(jù)缺失是導(dǎo)致線損率缺失的主要因素(占臺(tái)區(qū)總數(shù)的60%左右)。數(shù)據(jù)缺失的原因有:供電側(cè)無測(cè)點(diǎn),即沒有表計(jì);供電側(cè)數(shù)據(jù)缺失,即通信問題。另一個(gè)主要問題是營(yíng)銷抄表日期沖突,導(dǎo)致線損率不合理。因此,為了充分研究臺(tái)區(qū)線損情況,加強(qiáng)線損管理水平,首要任務(wù)是提高線損數(shù)據(jù)的完整性。隨著智能電網(wǎng)建設(shè)的推進(jìn)和智能電表的普及,電力公司積累了大量的電網(wǎng)和用戶的歷史數(shù)據(jù),使充分分析臺(tái)區(qū)線損情況、利用多個(gè)數(shù)據(jù)源對(duì)臺(tái)區(qū)線損率進(jìn)行估計(jì)成為可能。

        配電網(wǎng)線損計(jì)算的方法主要有傳統(tǒng)方法、潮流計(jì)算方法、人工神經(jīng)網(wǎng)絡(luò)算法等。傳統(tǒng)方法基于一系列假設(shè)對(duì)電網(wǎng)進(jìn)行等值簡(jiǎn)化,如平均電流法、等值電阻法。為了克服傳統(tǒng)方法假設(shè)簡(jiǎn)單的缺點(diǎn),學(xué)者們提出了一些改進(jìn)的方法,如文獻(xiàn)[2]改進(jìn)了負(fù)荷曲線形狀系數(shù)、銅損、小(多)電源和支路功率的計(jì)算;文獻(xiàn)[3]通過引入平均電流損耗時(shí)間的概念弱化假設(shè)條件,以提高計(jì)算精度;文獻(xiàn)[4]采用了最鄰近聚類技術(shù),能快速得出理論線損。潮流計(jì)算方法主要是根據(jù)潮流計(jì)算的結(jié)果確定線損,但這類方法需要足夠的電網(wǎng)數(shù)據(jù)、對(duì)負(fù)荷曲線進(jìn)行估計(jì)和大量的計(jì)算,雖然針對(duì)此缺點(diǎn)提出了匹配潮流法[5]、改進(jìn)迭代法[6]、區(qū)間算法[7]等解決措施,但對(duì)于復(fù)雜配電網(wǎng)的可操作性仍較低?;谌斯ど窠?jīng)網(wǎng)絡(luò)的線損計(jì)算方法的研究很多,人工神經(jīng)網(wǎng)絡(luò)往往和其他智能算法相結(jié)合對(duì)線損進(jìn)行估計(jì),如遺傳算法[8]、免疫遺傳算法[9]、動(dòng)態(tài)聚類算法[10]等,這些算法的作用往往是給神經(jīng)網(wǎng)絡(luò)選參,但是人工神經(jīng)網(wǎng)絡(luò)仍然存在收斂速度慢、參數(shù)選擇難的問題。為了克服人工神經(jīng)網(wǎng)絡(luò)的不足,文獻(xiàn)[11]提出了一種基于核心向量機(jī)的線損計(jì)算方法,文獻(xiàn)[12]提出了一種基于快速獨(dú)立成分分析和支持向量回歸的計(jì)算方法。智能算法的一個(gè)不可避免的問題是特征的選擇,而特征多為有功功率、無功功率、線路長(zhǎng)度、配電變壓器容量等,沒有綜合考慮用戶的特征對(duì)線損的影響。另外,對(duì)于配電網(wǎng)線損計(jì)算的研究多為線路線損,對(duì)臺(tái)區(qū)線損的研究較少。由于低壓臺(tái)區(qū)數(shù)量眾多、線路復(fù)雜、元件繁多,給線損計(jì)算帶來很大困難,而基于潮流計(jì)算的方法也不現(xiàn)實(shí)。目前對(duì)低壓臺(tái)區(qū)的線損計(jì)算多為利用平均電流、電流方差[13]、負(fù)荷電量[14]等進(jìn)行近似計(jì)算的等值電阻法以及線性回歸方法。雖然有文獻(xiàn)通過分類負(fù)荷曲線疊加確定電流方差,在一定程度上提高了線損的計(jì)算精度[15],但效果仍不理想。 文獻(xiàn)[16]提出了一種線性回歸預(yù)測(cè)方法,但預(yù)測(cè)精度還有待提高。

        本文提出一種基于層次聚類、決策樹和隨機(jī)森林算法的臺(tái)區(qū)合理線損率估計(jì)方法。首先,結(jié)合電力公司線損系統(tǒng)、生產(chǎn)管理系統(tǒng)(PMS)、營(yíng)銷系統(tǒng)(CMS)的多源數(shù)據(jù),建立臺(tái)區(qū)特征數(shù)據(jù)庫(kù);然后,采用層次聚類算法對(duì)臺(tái)區(qū)進(jìn)行聚類分析,并建立決策樹分類模型;最后,對(duì)不同類別的臺(tái)區(qū)建立隨機(jī)森林估計(jì)模型,并對(duì)模型的性能進(jìn)行驗(yàn)證和橫向比較。

        1 層次聚類和隨機(jī)森林算法

        1.1 層次聚類

        低壓臺(tái)區(qū)的構(gòu)成復(fù)雜、所轄用戶數(shù)量和種類繁多,在研究臺(tái)區(qū)的線損特性前,有必要對(duì)臺(tái)區(qū)進(jìn)行分類,對(duì)不同的類型分別研究。由于沒有明確的指標(biāo)表明臺(tái)區(qū)的類型,所以臺(tái)區(qū)的分類是一個(gè)無監(jiān)督的聚類問題。層次聚類法[17]是一種無監(jiān)督聚類技術(shù),其基本思想是逐步分解給定的數(shù)據(jù)集以形成一個(gè)類別的層次。不同于K均值聚類、期望最大化聚類等算法,層次聚類算法不存在初始聚類數(shù)的選擇問題,這也是本文選擇層次聚類法的原因。

        層次聚類法的核心是距離的判斷準(zhǔn)則,包括樣本間距離和類間距離。

        樣本間距離是距離判斷的基礎(chǔ),對(duì)于特征的不同屬性,如數(shù)值型特征(用連續(xù)變量描述)和類別型特征(用離散型變量描述),又有不同的處理方法。

        對(duì)數(shù)值型特征而言,距離判斷準(zhǔn)則有絕對(duì)值距離、歐氏距離、閔可夫斯基距離、切比雪夫距離等,本文選取歸一化距離作為數(shù)值型特征的距離判斷準(zhǔn)則,計(jì)算式如式(1)所示。

        其中,dij為樣本i和樣本j間的距離;p為特征的維數(shù);k表示第k維特征;xik為樣本i第k維特征的值;xk為所有樣本的第k維特征的值。

        對(duì)類別型特征變量采用下述處理方法。對(duì)于二元類別型變量,即只能取值0和1的變量,用式(2)計(jì)算其樣本間距離。

        其中,m1為2個(gè)樣本取值均為1時(shí)的變量數(shù)目;m2為2個(gè)樣本取值不同時(shí)的變量數(shù)目。

        對(duì)于多元類別型變量,即取值多于2個(gè)的變量,首先將其轉(zhuǎn)化成二元類別型變量,然后再按照二元類別型變量的距離計(jì)算方法計(jì)算其距離。

        類間距離的判斷準(zhǔn)則有最小距離法、最大距離法、中間距離法、類平均法、重心法、離差平方和法。這里選擇最大距離法,因?yàn)樽畲缶嚯x法能產(chǎn)生更為緊湊的聚類。最大距離法的定義如下:

        其中,DAB為類A和類B間的距離;GSA表示類A;GSB表示類B。

        1.2 聚類效果評(píng)價(jià)指標(biāo)

        為了評(píng)價(jià)聚類分析后的效果,本文采用了DBI(Davies-Bouldin Index)指標(biāo)[18]。 DBI指標(biāo)計(jì)算類內(nèi)距離與類外距離之比,在整體上衡量聚類的效果。DBI指標(biāo)值越低,表明聚類效果越好。DBI定義如下:

        其中,K為聚類的個(gè)數(shù);Rk用于衡量類間的相似度,計(jì)算式如式(5)所示。

        其中,GA、GB分別用于衡量類A、類B的分散程度;TA為類A中的樣本數(shù)目;xm為第m個(gè)樣本;μA、μB分別為類A、類B的中心;MAB用于衡量2個(gè)類間的距離。

        1.3 隨機(jī)森林算法

        將臺(tái)區(qū)分類后,對(duì)不同的類采用隨機(jī)森林算法[19]建模。隨機(jī)森林算法是一種集成學(xué)習(xí)算法,它是一系列的回歸樹的集合,其輸出是所有回歸樹的預(yù)測(cè)值的平均值。隨機(jī)森林算法采用自助重采樣技術(shù),克服了回歸樹的過擬合問題,大幅提高了模型的性能;而且能夠處理高維度數(shù)據(jù),適用于數(shù)值型變量和類別型變量;可以并行化處理,以適應(yīng)大數(shù)據(jù)集。隨機(jī)森林算法的步驟如下:

        a.設(shè)訓(xùn)練集中預(yù)測(cè)變量為 X={x1,x2,…,xn},響應(yīng)變量為 Y={y1,y2,…,yn};

        b.對(duì) b=1,2,…,Bs重復(fù)步驟 c、d;

        c.通過自助重抽樣技術(shù)從X、Y中隨機(jī)選擇一個(gè)子樣本集Xb、Yb作為訓(xùn)練集;

        d.對(duì)Xb、Yb訓(xùn)練一個(gè)回歸樹模型rfb。

        訓(xùn)練結(jié)束后,對(duì)一個(gè)新的樣本x,隨機(jī)森林模型通過平均所有回歸樹的預(yù)測(cè)值給出該樣本的預(yù)測(cè)值為:

        影響隨機(jī)森林模型性能的主要因素有單棵樹的預(yù)測(cè)強(qiáng)度和樹與樹之間的相關(guān)度。單棵樹的預(yù)測(cè)強(qiáng)度越好,則整體隨機(jī)森林模型的預(yù)測(cè)性能越好;樹與樹之間的相關(guān)度越小,則隨機(jī)森林模型的預(yù)測(cè)性能越好。這2個(gè)因素可以通過每棵樹預(yù)選的變量個(gè)數(shù)和樹的個(gè)數(shù)2個(gè)參數(shù)進(jìn)行控制。

        在回歸樹的訓(xùn)練中,采用分類回歸樹CART(Classification And Regression Tree)算法。它是一種二分遞歸分割的技術(shù),將當(dāng)前的訓(xùn)練集分成2個(gè)子訓(xùn)練集,使得生成的樹的每個(gè)非葉子節(jié)點(diǎn)都有2個(gè)分支。非葉子節(jié)點(diǎn)代表特征,葉子節(jié)點(diǎn)就是樹模型給出的預(yù)測(cè)值。CART算法步驟如下。

        a.根據(jù)一定條件選擇一個(gè)特征,根據(jù)該特征把樹的節(jié)點(diǎn)劃分為2個(gè)分支。

        b.在每個(gè)分支上遞歸地重復(fù)以上步驟,直到滿足以下條件之一:偏差的減少小于給定的界限值;節(jié)點(diǎn)中的樣本數(shù)量小于給定的界限值;樹的深度大于一個(gè)給定的界限值。

        回歸樹自上而下構(gòu)建,特征的選擇通過計(jì)算最好的劃分點(diǎn)進(jìn)行,用節(jié)點(diǎn)的不純度指標(biāo) GINI[20]描述,GINI定義如下:

        其中,pi為節(jié)點(diǎn)中的樣本屬于類i的概率;M為節(jié)點(diǎn)中類的數(shù)目。

        為了避免回歸樹過于龐大以及由此帶來的過擬合問題,需要對(duì)回歸樹進(jìn)行剪枝,以剪去對(duì)模型貢獻(xiàn)不大的分支。剪枝通過復(fù)雜度參數(shù)cp值進(jìn)行控制,cp值衡量新增節(jié)點(diǎn)后的樹對(duì)模型擬合優(yōu)度的提升程度。另外影響回歸樹性能的重要參數(shù)還有節(jié)點(diǎn)最小樣本數(shù)、葉子節(jié)點(diǎn)的最小樣本數(shù)和樹的深度等。

        2 建模方法和估計(jì)方法

        對(duì)于臺(tái)區(qū)合理線損率估計(jì)的研究分成3個(gè)部分:臺(tái)區(qū)特征數(shù)據(jù)庫(kù)形成部分、模型建立部分和臺(tái)區(qū)線損率估計(jì)部分。臺(tái)區(qū)特征數(shù)據(jù)庫(kù)形成部分是其他2個(gè)部分的基礎(chǔ),模型建立部分的主要目的是建立臺(tái)區(qū)的分類模型和臺(tái)區(qū)線損率的估計(jì)模型,而臺(tái)區(qū)線損率估計(jì)部分的主要目的是利用估計(jì)模型估計(jì)數(shù)據(jù)缺失的臺(tái)區(qū)線損率。

        2.1 臺(tái)區(qū)特征數(shù)據(jù)庫(kù)形成部分

        臺(tái)區(qū)特征數(shù)據(jù)庫(kù)形成部分的輸入是與臺(tái)區(qū)相關(guān)的線損數(shù)據(jù)、設(shè)備臺(tái)賬數(shù)據(jù)、用戶檔案數(shù)據(jù),輸出是臺(tái)區(qū)特征數(shù)據(jù)。輸入數(shù)據(jù)來源于電力公司的線損系統(tǒng)、PMS和CMS。在數(shù)據(jù)清洗和預(yù)處理階段,首先在線損系統(tǒng)中提取售電量、線損率、質(zhì)量碼、電系編號(hào)等信息,根據(jù)電系編號(hào)從設(shè)備臺(tái)賬中提取臺(tái)區(qū)對(duì)應(yīng)的變壓器、設(shè)備編號(hào)等信息,根據(jù)設(shè)備編號(hào)從用戶檔案數(shù)據(jù)中提取臺(tái)區(qū)所轄的用戶及其相關(guān)信息。對(duì)數(shù)據(jù)中的部分缺失值采用k最鄰近算法進(jìn)行填補(bǔ),即選擇與含有缺失值的樣本距離比較接近的n個(gè)無缺失值樣本,根據(jù)這n個(gè)樣本的平均值或眾數(shù)填補(bǔ)缺失值。對(duì)于臺(tái)區(qū)所轄用戶,由于一個(gè)臺(tái)區(qū)對(duì)應(yīng)眾多用戶,因此用“投票”的方式解決一對(duì)多的問題。最后得到臺(tái)區(qū)特征。臺(tái)區(qū)特征數(shù)據(jù)庫(kù)形成部分的流程圖如圖1所示。

        圖1 臺(tái)區(qū)特征數(shù)據(jù)庫(kù)形成流程圖Fig.1 Flowchart of building feature database of transformer district

        根據(jù)特征的類型,臺(tái)區(qū)特征可以分為三大類:整體特征、變壓器特征和用戶特征。整體特征從線損系統(tǒng)中直接獲取,變壓器特征從設(shè)備臺(tái)帳數(shù)據(jù)中根據(jù)臺(tái)區(qū)的電系編號(hào)獲取,用戶特征從用戶檔案數(shù)據(jù)中經(jīng)過一定的處理獲得?!坝脩魯?shù)”是臺(tái)區(qū)所有用戶的數(shù)量,以戶為單位;“運(yùn)行(合同)容量總和”是所有用戶的運(yùn)行容量或合同容量的總和;“戶平均運(yùn)行容量”是以上2個(gè)特征的商;對(duì)于剩下的4個(gè)特征,因?yàn)槊繎舳加邢鄳?yīng)的值,所以為了表征臺(tái)區(qū)的特征,采用“投票”的方法處理。以“經(jīng)濟(jì)類型”為例,統(tǒng)計(jì)某一臺(tái)區(qū)下所有用戶的“經(jīng)濟(jì)類型”,將頻率最高的“經(jīng)濟(jì)類型”作為臺(tái)區(qū)的“經(jīng)濟(jì)類型”;如果遇到有2種“經(jīng)濟(jì)類型”頻率相同的情況,則將運(yùn)行容量大的用戶組的“經(jīng)濟(jì)類型”作為臺(tái)區(qū)的“經(jīng)濟(jì)類型”。

        根據(jù)數(shù)據(jù)類型,臺(tái)區(qū)特征可以分為兩大類:數(shù)值型特征和類別型特征。數(shù)值型特征用連續(xù)性變量描述,包括線損率、售電量等;類別型特征用離散型變量描述,包括變壓器型號(hào)、絕緣介質(zhì)等。臺(tái)區(qū)特征如圖2所示。

        圖2 臺(tái)區(qū)特征Fig.2 Features of transformer district

        2.2 模型建立部分

        模型建立部分的輸入是臺(tái)區(qū)特征數(shù)據(jù),輸出是臺(tái)區(qū)分類模型和臺(tái)區(qū)線損率估計(jì)模型。模型建立部分分為三部分:聚類部分、分類模型部分和估計(jì)模型部分。

        對(duì)于聚類部分,首先從臺(tái)區(qū)特征數(shù)據(jù)庫(kù)中選擇相應(yīng)的特征,然后利用層次聚類算法進(jìn)行聚類分析。在臺(tái)區(qū)特征中,對(duì)估計(jì)線損率而言有些特征是無關(guān)和冗余的?!八鶎賲^(qū)域”特征在臺(tái)區(qū)線損管理中有用,但不同區(qū)域的臺(tái)區(qū)線損率并沒有呈現(xiàn)不同的分布,因此在建模過程中不考慮“所屬區(qū)域”特征?!白儔浩餍吞?hào)”特征是一種類別型特征,其取值達(dá)幾十種之多,給建模帶來了不便;而且,“變壓器型號(hào)”主要反映了“額定容量”、“絕緣介質(zhì)”、“短路阻抗”、“短路損耗”和“空載損耗”,因此在其他特征存在的情況下,可以不考慮“變壓器型號(hào)”特征。利用層次聚類算法進(jìn)行聚類分析時(shí),將預(yù)設(shè)的聚類數(shù)設(shè)置為2,然后分別計(jì)算類別數(shù)為2~N時(shí)的DBI指標(biāo),選擇DBI最小時(shí)對(duì)應(yīng)的類別數(shù)作為最終的聚類數(shù)。最后標(biāo)注臺(tái)區(qū)的所屬類別。

        對(duì)已經(jīng)分好類的臺(tái)區(qū),利用決策樹算法進(jìn)行分類,建立分類模型,用于臺(tái)區(qū)線損率估計(jì)部分。決策樹模型是一種樹結(jié)構(gòu),與前文提到的回歸樹一樣采用CART算法訓(xùn)練,區(qū)別在于決策樹模型預(yù)測(cè)類別型變量,而回歸樹模型預(yù)測(cè)數(shù)值型變量。分類模型的性能用錯(cuò)誤率指標(biāo)衡量,錯(cuò)誤率指標(biāo)的計(jì)算公式如下:

        其中,γerror為模型的錯(cuò)誤率;ntotal為總的測(cè)試集的樣本數(shù)量;nerror為分類模型預(yù)測(cè)的類別與真實(shí)的類別不一致的樣本數(shù)量。

        對(duì)于估計(jì)模型部分,首先根據(jù)臺(tái)區(qū)類型選擇相應(yīng)的臺(tái)區(qū)特征輸入隨機(jī)森林算法,算法輸出相應(yīng)臺(tái)區(qū)的隨機(jī)森林模型,最后給出各類臺(tái)區(qū)的估計(jì)模型。估計(jì)模型估計(jì)的是連續(xù)變量,采用平均絕對(duì)誤差MAE(Mean Absolute Error)和標(biāo)準(zhǔn)化均方誤差 NMSE(Normalized Mean Squared Error)指標(biāo)衡量。

        MAE是比較估計(jì)值與實(shí)際值之間的差距來衡量模型的性能,指標(biāo)的計(jì)算公式如下:

        其中,N1為測(cè)試集的樣本數(shù)量;為模型對(duì)測(cè)試集中樣本i的估計(jì)值;ti為測(cè)試集樣本i的真實(shí)值。

        NMSE指標(biāo)是比較模型的估計(jì)值和訓(xùn)練集的均值,其取值范圍通常為0~1。模型的性能越好,NMSE值就越小。指標(biāo)的計(jì)算公式如下:

        其中為訓(xùn)練集中所有樣本的真實(shí)值的均值。

        本文選擇MAE指標(biāo)的同時(shí)選擇NMSE指標(biāo)的原因是:NMSE指標(biāo)用最簡(jiǎn)單的模型(即訓(xùn)練集的均值)作為基準(zhǔn),能夠有效評(píng)價(jià)不同模型的性能。

        模型建立過程中,采用十折交叉驗(yàn)證的方法估計(jì)模型的泛化誤差。十折交叉驗(yàn)證是一種常用的測(cè)試方法,它將數(shù)據(jù)集隨機(jī)等分成10份,用其中的1份作為測(cè)試集、其余的9份作為訓(xùn)練集建立模型,將10次模型的性能指標(biāo)的平均值作為泛化誤差的估計(jì)。對(duì)不同參數(shù)的模型分別進(jìn)行十折交叉驗(yàn)證,選擇最小的泛化誤差對(duì)應(yīng)下的參數(shù)作為模型的最終參數(shù)。模型建立部分的流程圖如圖3所示。

        圖3 模型建立部分流程圖Fig.3 Flowchart of establishing model

        2.3 臺(tái)區(qū)線損率估計(jì)部分

        臺(tái)區(qū)線損率估計(jì)部分的輸入是待估計(jì)臺(tái)區(qū)的特征向量,輸出是該臺(tái)區(qū)的線損率。首先從臺(tái)區(qū)特征向量中提取決策樹分類模型需要的特征,然后由決策樹分類模型得到臺(tái)區(qū)所屬的類別。再根據(jù)臺(tái)區(qū)類別選擇對(duì)應(yīng)的隨機(jī)森林模型,得到臺(tái)區(qū)線損率。臺(tái)區(qū)線損率估計(jì)部分的流程圖如圖4所示,圖中的分類模型對(duì)應(yīng)決策樹模型,估計(jì)模型對(duì)應(yīng)隨機(jī)森林模型。此外,可以選擇不同的分類模型和估計(jì)模型,從而實(shí)現(xiàn)不同模型之間的性能比較。

        圖4 臺(tái)區(qū)線損率估計(jì)部分流程圖Fig.4 Flowchart of estimating line loss of transformer district

        3 實(shí)例分析

        臺(tái)區(qū)線損相關(guān)數(shù)據(jù)由上海電力公司提供,臺(tái)區(qū)線損率按月統(tǒng)計(jì)??臻g范圍是浦東新區(qū)5個(gè)地塊,用戶包括大工業(yè)用戶、商業(yè)用戶和居民用戶;時(shí)間范圍是2014年1月至2015年6月。

        估計(jì)模型的任務(wù)是估計(jì)臺(tái)區(qū)線損率,因此在選擇訓(xùn)練集時(shí)選擇線損系統(tǒng)中線損率質(zhì)量碼沒問題的臺(tái)區(qū)。由于數(shù)據(jù)的時(shí)間跨度為1.5 a,各個(gè)臺(tái)區(qū)的月線損率有小范圍的波動(dòng),因此將各月的線損率的均值作為臺(tái)區(qū)線損率,將各月的售電量的均值作為臺(tái)區(qū)的售電量特征,然后建立臺(tái)區(qū)特征數(shù)據(jù)庫(kù)。然而不是所有臺(tái)區(qū)的各月數(shù)據(jù)都完整,因此將缺失月份超過5個(gè)月的臺(tái)區(qū)刪除,最后數(shù)據(jù)庫(kù)中有943個(gè)完整的臺(tái)區(qū)數(shù)據(jù)。

        臺(tái)區(qū)特征數(shù)據(jù)庫(kù)建好之后,根據(jù)模型建立部分的流程進(jìn)行聚類分析。首先根據(jù)第2節(jié)所提方法選擇需要的臺(tái)區(qū)特征,然后進(jìn)行聚類分析。將計(jì)算的聚類數(shù)NC設(shè)為2~9,因?yàn)槿绻鸑C>9,則至少有一類的臺(tái)區(qū)數(shù)量小于94,而過少的數(shù)據(jù)將會(huì)降低模型的估計(jì)性能。分別計(jì)算每種聚類數(shù)情況下的DBI指標(biāo),如圖5所示。從圖5中可以看出,最優(yōu)的聚類結(jié)果是聚類數(shù)為5。此時(shí)各類中的臺(tái)區(qū)數(shù)量如表1所示。從表1中發(fā)現(xiàn):類1和類4的臺(tái)區(qū)數(shù)目過少;類1和類2的距離相對(duì)較近,類3和類4的距離相對(duì)較近,所以不妨將類1和類2合并為一類,將類3和類4合并為一類。所以,最終將臺(tái)區(qū)分成3類,3類臺(tái)區(qū)的聚類中心的標(biāo)準(zhǔn)化值如圖6所示。

        圖5 不同聚類數(shù)下的DBI值Fig.5 DBI values with different cluster numbers

        表1 聚類分析結(jié)果Table 1 Result of cluster analysis

        圖6 3類臺(tái)區(qū)聚類中心的標(biāo)準(zhǔn)化值Fig.6 Standardized values of three transformer district’s cluster centers

        在建模之前,采用分層隨機(jī)抽樣的方法選取10%的臺(tái)區(qū)(94個(gè))用于模型測(cè)試,其余的臺(tái)區(qū)用于模型訓(xùn)練。根據(jù)訓(xùn)練集建立決策樹分類模型,并對(duì)每一類臺(tái)區(qū)分別建立估計(jì)模型。建模過程中采用上文所述十折交叉驗(yàn)證的方法選擇模型的參數(shù)。

        在建立決策樹分類模型過程中,重要的參數(shù)是cp值,為了得到盡可能優(yōu)的參數(shù)值,選取不同的cp值分別建立模型,并計(jì)算不同cp值下的模型在測(cè)試集中的表現(xiàn),即用分類錯(cuò)誤率評(píng)價(jià)分類模型的優(yōu)劣。不同cp值下模型的錯(cuò)誤率如圖7所示。從圖7中可以看出cp值為0.03時(shí)模型的分類性能最好。最后得到的分類模型參數(shù)如下:節(jié)點(diǎn)所含最小樣本數(shù)為20,葉子節(jié)點(diǎn)所含最小樣本數(shù)為7,cp值為0.03,測(cè)試集平均錯(cuò)誤率為0.0213。

        圖7 不同cp值時(shí)決策樹分類模型的錯(cuò)誤率Fig.7 Error rates of decision tree classification model with different cpvalues

        在建立隨機(jī)森林估計(jì)模型時(shí),重要的參數(shù)是節(jié)點(diǎn)的變量數(shù)和樹的個(gè)數(shù)。首先選擇節(jié)點(diǎn)的變量數(shù),即在其他參數(shù)固定的情況下計(jì)算不同節(jié)點(diǎn)變量數(shù)時(shí)模型的NMSE指標(biāo)。然后采用同樣的方法選擇樹的個(gè)數(shù),此時(shí)變量數(shù)選擇最優(yōu)值,并將其他參數(shù)固定。不同參數(shù)下模型的性能如圖8所示。由圖8得到最優(yōu)模型的參數(shù)如表2所示。

        圖8 不同參數(shù)下隨機(jī)森林模型的性能Fig.8 Performance of random forest model with different parameters

        表2 隨機(jī)森林模型參數(shù)及性能Table 2 Parameters and performance of random forest model

        選擇好參數(shù)后,將所有的訓(xùn)練集數(shù)據(jù)用于訓(xùn)練,建立最終的分類模型和估計(jì)模型。然后,根據(jù)估計(jì)流程將測(cè)試集輸入估計(jì)模型中,得到94個(gè)臺(tái)區(qū)線損率的估計(jì)值,然后計(jì)算模型的性能指標(biāo)。

        為了與其他模型比較,建立了多元線性回歸模型、回歸樹模型和隨機(jī)森林模型。此外,對(duì)于人工神經(jīng)網(wǎng)絡(luò)算法,由于其難以處理類別型特征,所以沒有考慮用該算法建模。下面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        圖9 不同模型的性能比較Fig.9 Performance comparison among three models

        各個(gè)模型的MAE和NMSE指標(biāo)如圖9所示,從圖9中可以看出,隨機(jī)森林模型的性能最好。對(duì)于線性回歸模型,其依賴正態(tài)性、獨(dú)立性、線性和同方差性的假設(shè)。對(duì)于臺(tái)區(qū)而言,獨(dú)立性的假設(shè)能夠滿足,但正態(tài)性、線性和同方差性的假設(shè)很難滿足。如對(duì)臺(tái)區(qū)線損率進(jìn)行Shapiro-Wilk正態(tài)分布檢驗(yàn),統(tǒng)計(jì)量W的值為0.9821,p值為2.302×10-9,明顯小于顯著性水平0.05,表明臺(tái)區(qū)線損率不滿足正態(tài)性假設(shè)。這是導(dǎo)致線性回歸模型估計(jì)性能較差的原因之一。對(duì)于回歸樹模型,雖然其具有解釋性、魯棒性好等優(yōu)點(diǎn),但也存在容易過擬合、精確性低的缺點(diǎn)。尤其是樹的深度大時(shí),由于其低偏差、高方差的特點(diǎn),總會(huì)過度擬合訓(xùn)練集,造成估計(jì)性能較差。對(duì)于隨機(jī)森林模型,生成每一棵回歸樹時(shí),訓(xùn)練集從整個(gè)訓(xùn)練集中隨機(jī)選取,應(yīng)用的特征也從所有特征中隨機(jī)選取,每個(gè)節(jié)點(diǎn)隨機(jī)選擇特征進(jìn)行分支,這樣降低了各棵回歸樹間的相關(guān)性,避免了單棵回歸樹過擬合帶來的問題,提高了估計(jì)的準(zhǔn)確度。

        抽取10個(gè)臺(tái)區(qū),采用上述方法估計(jì)其合理線損率,結(jié)果如表3所示。對(duì)線損系統(tǒng)中標(biāo)記為“合理”的臺(tái)區(qū),其線損率多在2%~8%之間。其中,編號(hào)為2、379、216、157、519 的臺(tái)區(qū)線損率估計(jì)值的絕對(duì)誤差在±1%以內(nèi),可以認(rèn)為線損率在合理范圍內(nèi)。編號(hào)為185、873的臺(tái)區(qū)估計(jì)值的絕對(duì)誤差在±1%以外,認(rèn)為其實(shí)際線損率偏高,從而管理人員可以對(duì)這些臺(tái)區(qū)進(jìn)一步分析線損率偏高的原因,制定相應(yīng)對(duì)策。對(duì)系統(tǒng)標(biāo)記為“不合理”的臺(tái)區(qū),其線損率為負(fù)值、過大值或缺失,該方法可以給出合理線損率的參考值,從而對(duì)這些臺(tái)區(qū)的線損情況有初步了解;另外,編號(hào)為185的臺(tái)區(qū)的線損率在6%以上,將其列為重點(diǎn)關(guān)注對(duì)象。

        表3 臺(tái)區(qū)合理線損率估計(jì)結(jié)果Table 3 Estimation results of transformer district line loss rate

        4 結(jié)論

        本文充分利用電力公司線損系統(tǒng)、PMS和CMS的數(shù)據(jù),從設(shè)備和用戶2個(gè)角度出發(fā)分析臺(tái)區(qū)線損情況,解決了目前對(duì)臺(tái)區(qū)線損分析不全面的問題。提出了一種基于層次聚類、決策樹和隨機(jī)森林算法的臺(tái)區(qū)線損率估計(jì)模型,克服了采用人工神經(jīng)網(wǎng)絡(luò)算法收斂速度慢、難以直接處理離散變量的缺點(diǎn);并與線性回歸模型、回歸樹模型的估計(jì)結(jié)果進(jìn)行了比較,表明所建模型性能優(yōu)越。本文所提方法可以很好地解決線損系統(tǒng)中供電量缺失和營(yíng)銷抄表日期沖突等造成的臺(tái)區(qū)線損數(shù)據(jù)缺失問題,為充分研究臺(tái)區(qū)線損情況提供了保障;而且在不增加表計(jì)的情況下提高了線損精細(xì)化管理程度,從而減小了電網(wǎng)投資,提高了電網(wǎng)的經(jīng)濟(jì)效益。

        參考文獻(xiàn):

        [1]余衛(wèi)國(guó),熊幼京,周新風(fēng),等.電力網(wǎng)技術(shù)線損分析及降損對(duì)策[J]. 電網(wǎng)技術(shù),2006,30(18):54-57,63.YU Weiguo,XIONG Youjing,ZHOU Xinfeng,et al.Analysis on technical line losses of power grids and counter measures to reduce line losses[J].Power System Technology,2006,30(18):54-57,63.

        [2]丁心海,羅毅芳,劉巍,等.改進(jìn)配電網(wǎng)線損計(jì)算方法的幾點(diǎn)建議[J]. 電力系統(tǒng)自動(dòng)化,2001,25(13):57-60.DING Xinhai,LUO Yifang,LIU Wei,et al.Proposals on improving the current methods for calculation of distribution network [J].Automation of Electric Power Systems,2001,25(13):57-60.

        [3]付學(xué)謙,陳皓勇.平均電流損耗時(shí)間法在配網(wǎng)線損計(jì)算中的應(yīng)用[J]. 電工技術(shù)學(xué)報(bào),2015,30(12):377-382.FU Xueqian,CHEN Haoyong.Energy losses estimation using equivalent time of average current[J].Transactions of China Electrotechnical Society,2015,30(12):377-382.

        [4]李濱,杜孟遠(yuǎn),韋維,等.基于準(zhǔn)實(shí)時(shí)數(shù)據(jù)的智能配電線損計(jì)算[J]. 電力自動(dòng)化設(shè)備,2014,34(11):122-128,148.LI Bin,DU Mengyuan,WEI Wei,et al.Calculation of theoretical line loss based on quasi real-time data of smart distribution network[J].Electric Power Automation Equipment,2014,34(11):122-128,148.

        [5]李學(xué)平,劉怡然,盧志剛,等.基于聚類的階段理論線損快速計(jì)算與分析[J]. 電工技術(shù)學(xué)報(bào),2015,30(12):367-376.LI Xueping,LIU Yiran,LU Zhigang,et al.Phase theoretical line loss calculation and analysis based on clustering theory[J].Transactions of China Electrotechnical Society,2015,30(12):367-376.

        [6]歐陽森,馮天瑞,安曉華.考慮饋線聚類特性的中壓配網(wǎng)線損率測(cè)算模型[J]. 電力自動(dòng)化設(shè)備,2016,36(9):33-39.OUYANG Sen,F(xiàn)ENG Tianrui,AN Xiaohua.Line loss rate calculation model considering feeder clustering features for medium voltage distribution network[J].Electric Power Automation Equipment,2016,36(9):33-39.

        [7]陳得治,郭志忠.基于負(fù)荷獲取和匹配潮流方法的配電網(wǎng)理論線損計(jì)算[J]. 電網(wǎng)技術(shù),2005,29(1):80-84.CHEN Dezhi,GUO Zhizhong.Distribution system theoretical line loss calculation based on load obtaining and matching power flow[J].Power System Technology,2005,29(1):80-84.

        [8]丁心海,羅毅芳,劉巍,等.配電網(wǎng)線損理論計(jì)算的實(shí)用方法——改進(jìn)迭代法[J]. 電網(wǎng)技術(shù),2000,33(1):39-42.DING Xinhai,LUO Yifang,LIU Wei,etal.A new practical method for calculating line loss of distribution network-improved iteration method[J].Power System Technology,2000,33(1):39-42.

        [9]王成山,劉姝,林勇.基于區(qū)間算法的配電網(wǎng)線損理論計(jì)算[J].電力系統(tǒng)自動(dòng)化,2002,26(2):22-27.WANG Chengshan,LIU Shu,LIN Yong.Electric network loss calculation using interval iteration method[J].Automation of Electric Power Systems,2002,26(2):22-27.

        [10]辛開遠(yuǎn),楊玉華,陳富.計(jì)算配電網(wǎng)線損的GA與BP結(jié)合的新方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2002,22(2):80-83.XIN Kaiyuan,YANG Yuhua,CHEN Fu.An advanced algorithm based on combination of GA with BP to energy loss of distribution system[J].Proceedings of the CSEE,2002,22(2):80-83.

        [11]李秀卿,汪海,許傳偉,等.基于免疫遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)配電網(wǎng)網(wǎng)損計(jì)算[J]. 電力系統(tǒng)保護(hù)與控制,2009,37(11):36-39,49.LIXiuqing,WANG Hai,XU Chuanwei,etal.Calculation of line losses in distribution systems using artificial neural network aided by immune genetic algorithm[J].Power System Protection and Control,2009,37(11):36-39,49.

        [12]姜惠蘭,安敏,劉曉津,等.基于動(dòng)態(tài)聚類算法徑向基函數(shù)網(wǎng)絡(luò)的配電網(wǎng)線損計(jì)算[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2005,25(10):35-39.JIANG Huilan,AN Min,LIU Xiaojin,et al.The calculation of energy losses in distribution systems based on RBF network with dynamic clustering algorithm[J].Proceedings of the CSEE,2005,25(10):35-39.

        [13]彭宇文,劉克文.基于改進(jìn)核心向量機(jī)的配電網(wǎng)理論線損計(jì)算方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2011,31(34):120-126.PENG Yuwen,LIU Kewen.A distribution network theoretical line loss calculation method based on improved core vector machine[J].Proceedings of the CSEE,2011,31(34):120-126.

        [14]彭建春,李春暉,祁學(xué)紅,等.基于快速獨(dú)立成分分析和支持向量回歸的混合饋線線損估算[J].電力系統(tǒng)保護(hù)與控制,2012,40(3):51-55.PENG Jianchun,LI Chunhui,QI Xuehong,et al.Loss estimation of power distribution systems based on fast independent component analysis and support vector regression[J].Power System Protection and Control,2012,40(3):51-55.

        [15]劉庭磊,王韶,張知,等.采用負(fù)荷電量計(jì)算低壓配電臺(tái)區(qū)理論線損的牛拉法[J]. 電力系統(tǒng)保護(hù)與控制,2015,43(19):143-148.LIU Tinglei,WANG Shao,ZHANG Zhi,et al.Newton-Raphson method for theoretical line loss calculation of low-voltage distribution transformer district by using the load electrical energy[J].Power System Protection and Control,2015,43 (19):143-148.

        [16]鄒云峰,梅飛,李悅,等.基于數(shù)據(jù)挖掘技術(shù)的臺(tái)區(qū)合理線損預(yù)測(cè)模型研究[J]. 電力需求側(cè)管理,2015,17(4):25-29.ZOU Yunfeng,MEI Fei,LI Yue,et al.Prediction model research of reasonable line loss for transformer district based on data mining technology[J].Power Demand Side Management,2015,17(4):25-29.

        [17]MURTAGH F,CONTRERAS P.Algorithms for hierarchical clustering:an overview[J].Wiley Interdisciplinary Reviews Data Mining&Knowledge Discovery,2012,2(1):86-97.

        [18]DAVIES D L,BOULDIN D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2009,PAMI-1(2):224-227.

        [19]BREIMAN L.Random forests[J].Machine Learning,2001,5(1):5-32.

        [20]STROBL C,BOULESTEIX A L,AUGUSTIN T.Unbiased split selection for classification trees based on the gini index [J].Computational Statistics&Data Analysis,2007,52(1):483-501.

        猜你喜歡
        損率臺(tái)區(qū)聚類
        我國(guó)水庫(kù)淤損情勢(shì)分析
        基于DBSACN聚類算法的XML文檔聚類
        降低臺(tái)區(qū)實(shí)時(shí)線損整治工作方法
        電子制作(2017年2期)2017-05-17 03:55:22
        無功補(bǔ)償極限線損率分析及降損措施探究
        電子制作(2017年2期)2017-05-17 03:55:17
        供電企業(yè)月度實(shí)際線損率定量計(jì)算方法
        電子制作(2016年1期)2016-11-07 08:42:53
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        三合一集中器作為臺(tái)區(qū)線損考核表計(jì)的探討
        多功能低壓臺(tái)區(qū)識(shí)別設(shè)備的研制
        提升臺(tái)區(qū)線損正確可算率的措施與實(shí)踐
        女局长白白嫩嫩大屁股| 日本成年少妇人妻中文字幕| 亚洲av成人一区二区| 国产成人精品2021| 国产精品va在线播放我和闺蜜| 啪啪网站免费观看| 97成人精品在线视频| 国产精品天干天干综合网| 最新国产av无码专区亚洲| 亚洲区精选网址| 国产久色在线拍揄自揄拍| 久久久中日ab精品综合| 欧美日韩不卡视频合集| 亚洲αv在线精品糸列| 一区二区三区av在线| 国产伦精品一区二区三区妓女| 日韩精品无码区免费专区| 亚洲毛片av一区二区三区| 一区二区三区视频在线观看| 在线欧美中文字幕农村电影| 狠狠色综合播放一区二区| 国产伦一区二区三区久久| 久久成人成狠狠爱综合网| 越南女子杂交内射bbwbbw| 久久久久人妻精品一区5555| 亚洲中文字幕乱码一二三| 国产md视频一区二区三区| 初高中生精品福利视频| 给我播放的视频在线观看| 无人区乱码一区二区三区| 国自产偷精品不卡在线| 国产自精品在线| 一区二区三区在线少妇| 国产成人av大片大片在线播放| 亚洲精品乱码久久久久久麻豆不卡 | 国产片三级视频播放| 深夜一区二区三区视频在线观看| 欧美另类人妖| AV无码中文字幕不卡一二三区| 中文字幕精品人妻丝袜| 国产成人无码av|