亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bagging 異質(zhì)集成學(xué)習(xí)的竊電檢測

        2021-02-03 07:41:00游文霞李清清吳永華李文武
        電力系統(tǒng)自動化 2021年2期
        關(guān)鍵詞:集上異質(zhì)分類器

        游文霞,申 坤,楊 楠,李清清,吳永華,李文武

        (1. 三峽大學(xué)電氣與新能源學(xué)院,湖北省宜昌市443002;2. 國網(wǎng)湖北省電力有限公司孝感供電公司,湖北省孝感市432000)

        0 引言

        電力系統(tǒng)在電能傳輸中存在能量損失,電力用戶的竊電等欺騙性用電行為是原因之一[1]。竊電會造成大量經(jīng)濟(jì)損失,因此一直受到供電企業(yè)和研究者的關(guān)注。隨著智能電表的不斷普及,過去依靠破壞傳統(tǒng)電表等竊電手段已轉(zhuǎn)變?yōu)橥ㄟ^信息技術(shù)攻擊智能電表,通過數(shù)據(jù)篡改等手段實現(xiàn)竊電[2]。傳統(tǒng)人工篩查進(jìn)行竊電檢測效率低下,已無法滿足竊電檢測需求。充分利用海量數(shù)據(jù)對竊電用戶進(jìn)行篩查并開展竊電檢測成為國內(nèi)外研究的熱點。

        竊電檢測主要有3 類方法:基于系統(tǒng)狀態(tài)、基于博弈論和基于數(shù)據(jù)挖掘技術(shù)[3]?;谙到y(tǒng)狀態(tài)的方法通過比較智能電表數(shù)據(jù)與其他儀器測量數(shù)據(jù)是否一致[4-5],從而識別是否發(fā)生竊電,但需要額外投資?;诓┺恼摰姆椒▽⒏`電檢測問題描述為竊電者與電力公司之間的博弈[6-7],但參與者的效用函數(shù)以及策略不易確定?;跀?shù)據(jù)挖掘技術(shù)的方法則只需要通過挖掘數(shù)據(jù)中潛在的規(guī)律識別竊電[8-17],目前已開展了廣泛研究。

        文獻(xiàn)[10]提出基于誤差反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)的反竊電方法,通過歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)構(gòu)建評價模型,采用遺傳算法加快收斂速度,并在國網(wǎng)某省公司提供的數(shù)據(jù)集上得到了驗證。文獻(xiàn)[11]結(jié)合決策樹(decision tree,DT)與支持向量機(jī)(support vector machine,SVM),將DT 的計算結(jié)果輸入到SVM 中,從而判斷用戶屬于竊電用戶還是正常用戶;該算法在愛爾蘭智能電表數(shù)據(jù)集上進(jìn)行測試,準(zhǔn)確率達(dá)到了92.5%。此外,以樹集成為代表的集成學(xué)習(xí)(ensemble learning)算法在竊電檢測中也取得了良好的應(yīng)用效果。文獻(xiàn)[16]對比極限梯度提升樹(eXtreme gradient boosting,XGBoost)和 類 別 提 升 樹(categorical boosting,CatBoost)、輕量梯度提升機(jī)(light gradient boosting machine,LightGBM),利用梯度提升竊電檢測器(gradient boosting theft detector,GBTD)判斷是否發(fā)生竊電。文獻(xiàn)[17]在隨機(jī)權(quán)網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建隨機(jī)森林(random forest,RF)模型來進(jìn)行竊電檢測。

        但是上述研究只是采用單一學(xué)習(xí)器或單一學(xué)習(xí)器的集合(即同質(zhì)集成學(xué)習(xí))來進(jìn)行電力用戶行為模式辨識,由于不同學(xué)習(xí)器的預(yù)測結(jié)果可能存在差異,因此單一學(xué)習(xí)器可能無法通過取長補(bǔ)短的方式訓(xùn)練出更優(yōu)異的模型。文獻(xiàn)[18]利用多模型融合Stacking 集成學(xué)習(xí)的方法對瑞士部分用電負(fù)荷情況進(jìn)行預(yù)測,其結(jié)果表明,基于多學(xué)習(xí)器融合方法的預(yù)測效果與各個體學(xué)習(xí)器的學(xué)習(xí)能力以及各學(xué)習(xí)器間的關(guān)聯(lián)程度有關(guān),且基于多學(xué)習(xí)器融合的方法相較于傳統(tǒng)單學(xué)習(xí)器有著更高的預(yù)測精度?;诖?本文提出基于Bagging 異質(zhì)集成學(xué)習(xí)方式對竊電行為進(jìn)行檢測。其中,學(xué)習(xí)器的選擇和各學(xué)習(xí)器間的集成策略是異質(zhì)集成的2 個重要研究點。首先,說明Bagging 集成學(xué)習(xí)方式的訓(xùn)練機(jī)理,以及多種學(xué)習(xí)器結(jié)合的多樣性度量;然后,在Bagging 集成框架下考慮多種學(xué)習(xí)器的性能指標(biāo)以及各學(xué)習(xí)器之間的多樣性,建立基于Bagging 異質(zhì)集成學(xué)習(xí)方式的竊電檢測模型;最后,在愛爾蘭智能電表數(shù)據(jù)集的居民用電數(shù)據(jù)上驗證算法的有效性。

        1 基于Bagging 的集成學(xué)習(xí)方式

        1.1 集成學(xué)習(xí)

        集成學(xué)習(xí)通過結(jié)合多個學(xué)習(xí)器完成學(xué)習(xí)任務(wù)。集成學(xué)習(xí)的總體結(jié)構(gòu)為:先通過訓(xùn)練確定多個個體學(xué)習(xí)器,再用某種策略將這些個體學(xué)習(xí)器結(jié)合。集成學(xué)習(xí)通過集成多個學(xué)習(xí)器,??色@得比單一學(xué)習(xí)器更優(yōu)越的性能[19]。

        根據(jù)個體學(xué)習(xí)器的生成方式,集成學(xué)習(xí)方法大致分為2 類:一是以Boosting 為代表的、各個體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系,且必須串行生成的集成學(xué)習(xí)算法;二是以Bagging 為代表的、各個體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系,可以并行生成的集成學(xué)習(xí)算法。

        1.2 Bagging 集成學(xué)習(xí)方式

        Bagging 算法是并行集成學(xué)習(xí)方法最著名的代表。為了使集成的個體學(xué)習(xí)器盡可能獨立,傳統(tǒng)的Bagging 算法通過自助采樣法(bootstrap sampling)隨機(jī)產(chǎn)生多個訓(xùn)練子集,然后基于每個訓(xùn)練子集訓(xùn)練出多個個體學(xué)習(xí)器,最后將這些個體學(xué)習(xí)器進(jìn)行結(jié)合,集成為整體。

        自助采樣法在數(shù)據(jù)集較小時,通過重采樣可以有效劃分出訓(xùn)練集和測試集。而竊電檢測需要對大量用電客戶的長期用電記錄進(jìn)行識別,所用樣本集較大。使用自助采樣法不僅會使訓(xùn)練集的數(shù)據(jù)分布和原始數(shù)據(jù)集不同,還會大大降低計算效率。故與傳統(tǒng)Bagging 不同,本文采用相同的訓(xùn)練集分別訓(xùn)練出多個個體學(xué)習(xí)器,再將其輸出進(jìn)行結(jié)合。對于竊電檢測這種分類任務(wù),Bagging 在對預(yù)測輸出進(jìn)行結(jié)合時,通常采用投票法。集成分類器構(gòu)建完畢后,用測試集中的樣本對其性能進(jìn)行測試。將用電客戶的日常用電記錄輸入到集成分類器中,通過比較預(yù)測與實際竊電情況是否一致,對集成分類器進(jìn)行評價。本文所用Bagging 異質(zhì)集成學(xué)習(xí)的結(jié)構(gòu)如圖1所示。

        2 竊電檢測

        2.1 竊電檢測業(yè)務(wù)分析

        用戶竊電的目的是通過減少支付電費從而獲得非法收益[2]。竊電用戶可通過修改用電數(shù)據(jù),根據(jù)電量和電價的差異來實現(xiàn)少交電費的目的,即達(dá)到式(1)的效果。

        圖1 Bagging 異質(zhì)集成學(xué)習(xí)結(jié)構(gòu)Fig.1 Structure of Bagging heterogeneous ensemble learning

        對于日用電數(shù)據(jù)而言,可通過削減、置零和移峰這3 類方式篡改數(shù)據(jù)達(dá)到竊電的目的。具體方式如下[3,8,16]。

        1)將智能電表的用電數(shù)據(jù)按一定比例削減,可有以下2 種方法:

        式中:h1(?)表示將t時段的用電記錄乘以0.2~0.8 之間相同的隨機(jī)數(shù),可以模擬按相同比例削減用電量的 情 況;h2(?) 表 示 隨 機(jī) 選 擇 閾 值γ(0 <γ<max(xt)),如果實際用電量大于γ,則將用電量替換為γ,否則保持不變,可以模擬按不同比例削減用電量的情況。

        2)將某些時段的用電數(shù)據(jù)直接篡改為零,可有以下2 種方法:

        式中:h3(?)定義當(dāng)用電記錄位于時間段(t1,t2)內(nèi),其值記為0,且t2≥t1+4,可以模擬將連續(xù)用電量置零的情況;h4(?)表示將用電記錄減去閾值γ,并取其差值與0 之間的最大值,可以模擬將不連續(xù)用電量置零的情況。

        3)在不改變用電量的同時將用電曲線移峰,可有以下2 種方法:

        式中:h5(?)表示將用電記錄倒序排列,可以模擬將用電曲線移峰;h6(?)表示取一天用電記錄的平均值,可以模擬與用電曲線移峰類似的情況,通過電價差別實現(xiàn)竊電;mean(?) 為求平均值函數(shù);x={x1,x2,…,xT}。

        供電公司搜集的用電數(shù)據(jù),由于包含了為實現(xiàn)竊電而篡改的數(shù)據(jù),使得供電公司的電費收益和應(yīng)得收益不一致,因此需要分析海量用電數(shù)據(jù),開展竊電檢測,找出竊電用戶。從理論上而言,竊電檢測是機(jī)器學(xué)習(xí)中的一個分類問題,判別用戶是正常用電還是竊電。

        2.2 用戶用電行為及特征指標(biāo)

        用戶的用電行為可能受季節(jié)、家庭電器、人口變化以及節(jié)假日等因素的影響,使得用戶用電曲線有不同的分布,呈現(xiàn)出不同用電行為。竊電檢測的目標(biāo)即根據(jù)用戶用電行為數(shù)據(jù),找出與正常用電行為不符的模式。開展竊電檢測,首先需要確定判別用戶行為異常的特征指標(biāo)項。

        用戶一天的用電記錄(x1,x2,…,xT)(T一般為24 的倍數(shù))直接反映用戶用電行為,是用戶用電的一般特征。但僅僅根據(jù)用電記錄的一般特征指標(biāo)項,在進(jìn)行竊電檢測時容易導(dǎo)致較高的誤檢率和較低的命中率。因此,還需考慮其他特征指標(biāo),以提高檢測性能[20]。竊電檢測常用的愛爾蘭智能電表數(shù)據(jù)集上的試驗表明,通過增加最大值、最小值、平均值和標(biāo)準(zhǔn)差幾個特征,可改善其所提算法的性能[14]。因此,本文竊電檢測的特征指標(biāo)包括用電記錄的一般特征指標(biāo)項,以及最大值、最小值、平均值和標(biāo)準(zhǔn)差的綜合特征指標(biāo)項。

        2.3 檢測流程

        基于Bagging 異質(zhì)集成學(xué)習(xí)的竊電檢測流程具體步驟如下。

        步驟1:用生成的訓(xùn)練集對常用的竊電檢測學(xué)習(xí)器進(jìn)行訓(xùn)練對比。單一學(xué)習(xí)器包括DT,BP,SVM 和k 最近鄰(k-nearest neighbor,KNN),其中DT,BP 和SVM 分別為機(jī)器學(xué)習(xí)中符號主義學(xué)習(xí)、連接主義學(xué)習(xí)和統(tǒng)計學(xué)習(xí)的代表。而同質(zhì)集成學(xué)習(xí)器包括以樹集成為代表的梯度提升決策樹(gradient boosting decision tree,GBDT)、RF 和自適應(yīng)提升器(adaptive boosting,AdaBoost)。綜合各個體學(xué)習(xí)器在訓(xùn)練集上的表現(xiàn)與各個體學(xué)習(xí)器間的多樣性,確定使模型獲得最佳預(yù)測效果的學(xué)習(xí)器組合。

        步驟2:對比步驟1 得到的最佳學(xué)習(xí)器組合在不同結(jié)合策略下的表現(xiàn),確定模型中各個體學(xué)習(xí)間的結(jié)合策略。

        步驟3:根據(jù)步驟1 和2 確定的基于Bagging 異質(zhì)集成學(xué)習(xí)的結(jié)合策略及個體學(xué)習(xí)器類型,對模型進(jìn)行訓(xùn)練。

        步驟4:將測試集輸入到步驟3 訓(xùn)練好的Bagging 分類模型中,驗證基于Bagging 異質(zhì)集成學(xué)習(xí)分類器并對分類器進(jìn)行評估。

        2.4 多樣性度量

        多樣性度量(diversity measure)用于量度集成學(xué)習(xí)中個體學(xué)習(xí)器的多樣化程度。在選擇多樣性度量方法時,需要根據(jù)具體問題的側(cè)重、每種度量方法實現(xiàn)的難易程度進(jìn)行選擇[21]。針對本文的選擇性集成,需要計算每對分類器間的多樣性,采用雙次失?。╠ouble failure,DF)度量和Q 統(tǒng)計指標(biāo)進(jìn)行多樣性度量[22]。其中DF 值和Q 統(tǒng)計量的取值分別為[0,1]和[-1,1]。二者值越小,代表每對分類器之間的多樣性程度越大。系統(tǒng)整體的DF 值和Q 統(tǒng)計值可以通過計算每對分類器之間DF 值和Q 統(tǒng)計值的平均值得到。

        2.5 評價指標(biāo)

        為了衡量學(xué)習(xí)器的好壞,在分類問題中常用表1 所示的混淆矩陣。

        表1 混淆矩陣Table 1 Confusion matrix

        混淆矩陣將所有用戶按照真實類別與學(xué)習(xí)器預(yù)測類別的組合劃分為TP,FP,TN,FN 這4 類,相應(yīng)的數(shù)量分別為MTP,MFP,MTN,MFP。本文采用準(zhǔn)確率(accuracy,ACC)iC、命 中 率(true positive rate,TPR)iT、誤檢率(false positive rate,FPR)iF、受試者工作特征曲線下面積(area under receiver operating characteristic curve,AUC)iU這4 個分類檢測評價指標(biāo),定義分別如下:

        式中:iC表示總樣本中有多少被正確預(yù)測。但在正、負(fù)樣本數(shù)量嚴(yán)重失衡的情況下,僅使用準(zhǔn)確率對模型進(jìn)行評價缺乏可信度[23]。因此,還需綜合其他指標(biāo)來評價。

        iT和iF的值表示為:

        式中:iT和iF的取值范圍均為[0,1],iT越高,iF越低,則檢測效果越好。

        采用受試者工作特征(receiver operating characteristic,ROC)曲線描述iT和iF這2 個指標(biāo)變化的相對關(guān)系[19]。進(jìn)行學(xué)習(xí)器比較時,較為合理的是比較iU。iU為1 對應(yīng)理想分類器。

        3 算例分析

        本章進(jìn)行算例對比分析。試驗使用Core-TM i5-3470@3.20 GHz 處 理 器 在 Anaconda( 基 于Python 3.6)環(huán)境下進(jìn)行。

        3.1 數(shù)據(jù)集

        本試驗選用愛爾蘭智能電表數(shù)據(jù)集,該數(shù)據(jù)集含有愛爾蘭6 000 多戶家庭和商業(yè)用戶連續(xù)535 天的用電記錄(每30 min 采集一次數(shù)據(jù))[24]。選用其中1 000 戶居民用戶進(jìn)行實驗。由于數(shù)據(jù)集中用戶均同意將其用電記錄用于研究目的,因此假設(shè)所有用戶均屬于正常用電用戶。隨機(jī)選擇10%的用電記錄修改后作為竊電樣本,竊電樣本生成方法按照2.1 節(jié)所述式(2)—式(7)進(jìn)行。

        3.2 選擇性集成與集成策略

        3.2.1 選擇性集成

        試驗研究表明,在已構(gòu)建的個體學(xué)習(xí)器中,只挑選一些性能較好的學(xué)習(xí)器,會得到更好的預(yù)測效果[25]。在構(gòu)建集成學(xué)習(xí)器時,有效地產(chǎn)生預(yù)測能力強(qiáng)、差異大的學(xué)習(xí)器是關(guān)鍵,即要獲得良好的集成,個體學(xué)習(xí)器應(yīng)“好而不同”,即個體學(xué)習(xí)器既要有一定的準(zhǔn)確性,各學(xué)習(xí)器間又要具有一定的差異。以表2 所示3 個個體學(xué)習(xí)器集成為例,其中“√”表示分類正確,“×”表示分類錯誤,表中的每個基學(xué)習(xí)器都只有66.7%的精度,但集成起來卻達(dá)到了100%。

        表2 “好而不同”的學(xué)習(xí)器Table 2 Good and different learners

        為了優(yōu)化異質(zhì)集成學(xué)習(xí)模型的性能,有必要分析每個個體學(xué)習(xí)器的單獨預(yù)測能力,并全面比較各個體學(xué)習(xí)器的組合效果。選擇性集成的目的是在減少集成系統(tǒng)中分類器數(shù)量的同時保持甚至提高系統(tǒng)的預(yù)測性能,從而減小存儲和計算開銷,提高預(yù)測速度和精度。

        立足于個體學(xué)習(xí)器的預(yù)測能力,設(shè)計試驗將各個體學(xué)習(xí)器在6 個只含單一竊電樣本數(shù)據(jù)集上的預(yù)測結(jié)果進(jìn)行比較分析,并依據(jù)經(jīng)驗選取部分模型參數(shù)。得到各個體學(xué)習(xí)器iC和iU的平均值,如表3所示。

        表3 各個體學(xué)習(xí)器的超參數(shù)以及在6 個只含單一竊電樣本數(shù)據(jù)集上的表現(xiàn)Table 3 Hyper-parameters and performance of individual learners on six data sets containing single electricity theft sample

        由表4 可知,7 種學(xué)習(xí)器的iC和iU值皆超過了50%,符合“好而不同”中“好”學(xué)習(xí)器的特性。但SVM 的iF值達(dá)到了66.05%,即有超過65%的概率將竊電檢測為正常用電,從而造成大量經(jīng)濟(jì)損失。因此,本文Bagging 集成模型中個體學(xué)習(xí)器的選擇初步排除SVM。

        另一方面,為了獲得最佳預(yù)測效果,還需要選擇差異度較大的個體學(xué)習(xí)器。因為不同的學(xué)習(xí)器是從不同的數(shù)據(jù)空間角度觀測數(shù)據(jù)。因此,選擇差異度較大的算法能夠最大程度體現(xiàn)不同算法的優(yōu)勢。表4 和表5 是除SVM 外6 種算法在6 個只含單一竊電樣本數(shù)據(jù)集上的DF 值和Q 統(tǒng)計值。如果選用所有個體學(xué)習(xí)器作為模型的基學(xué)習(xí)器,此時系統(tǒng)整體的DF 值和Q 統(tǒng)計值分別為0.047 和0.844。

        表4 各個體學(xué)習(xí)器在6 個只含單一竊電樣本數(shù)據(jù)集上的DF 值Table 4 DF values of individual learners on six data sets containing single electricity theft sample

        表5 各個體學(xué)習(xí)器在6 個只含單一竊電樣本數(shù)據(jù)集上的Q 統(tǒng)計值Table 5 Q statistical values of individual learners on six data sets containing single electricity theft sample

        由表4 和表5 可知,在各單一學(xué)習(xí)器中,DT 與其他個體學(xué)習(xí)器相比,其平均DF 值和Q 統(tǒng)計值均為最高,即多樣性最低,且在檢測能力上,以DT 為基學(xué)習(xí)器的RF,GBDT 和AdaBoost 等同質(zhì)集成學(xué)習(xí)器都遠(yuǎn)高于DT。同時,BP 和KNN 的訓(xùn)練機(jī)理差距較大,其DF 值和Q 統(tǒng)計值也相對較低。故單一學(xué)習(xí)器中選擇BP 和KNN 作為Bagging 異質(zhì)集成中的個體學(xué)習(xí)器。在同質(zhì)集成學(xué)習(xí)器中,RF,AdaBoost,GBDT 的DF 值和Q 統(tǒng)計值都較高,這是因為該3 類算法都屬于樹的集成算法,其數(shù)據(jù)觀測方式存在較強(qiáng)相似性。其中RF 在學(xué)習(xí)方式上和AdaBoost 和GBDT 又稍有不同,這是因為RF 采用Bagging 方式,為并行集成,而AdaBoost 和GBDT采用Boosting 方式,為串行集成。AdaBoost 和GBDT 在檢測能力相當(dāng)?shù)耐瑫r,GBDT 的DF 值和Q 統(tǒng)計值更低,故同質(zhì)集成學(xué)習(xí)器中選擇RF 和GBDT 作為Bagging 異質(zhì)集成中的個體學(xué)習(xí)器。模型最終的個體學(xué)習(xí)器包括BP,KNN,RF 和GBDT。此時模型中各個體學(xué)習(xí)器以及系統(tǒng)整體的DF 值和Q 統(tǒng)計值如表6 所示。由表6 可知,此時系統(tǒng)的DF值和Q 統(tǒng)計值分別為0.044 和0.78,較之前均出現(xiàn)了一定程度下降,即系統(tǒng)的多樣性較之前增加。

        表6 模型中各個體學(xué)習(xí)器以及系統(tǒng)整體的DF 值 和Q 統(tǒng) 計 值Table 6 DF and Q statistical values of individual learners and system in the model

        基于Bagging 異質(zhì)集成學(xué)習(xí)的竊電檢測在對各個體學(xué)習(xí)器進(jìn)行選擇性集成前后的性能如圖2 所示,此時個體學(xué)習(xí)器的結(jié)合策略為默認(rèn)的多數(shù)投票法。

        圖2 選擇集成前后模型的性能Fig.2 Performance of the model before and after selective ensemble

        由圖2 可知,在選擇性集成后,除iF指標(biāo)明顯降低外,其他指標(biāo)略有提高。因此,需要對個體學(xué)習(xí)器的結(jié)合策略進(jìn)一步改進(jìn)。

        3.2.2 集成策略

        Bagging 算法在對各個體學(xué)習(xí)器的輸出進(jìn)行結(jié)合時,通常使用投票法。在投票法的選擇上,應(yīng)用最廣泛的是多數(shù)投票法(majority voting)和加權(quán)投票法(weighted voting)。但是多數(shù)投票法無法有效使用不同分類器提供的互補(bǔ)信息[26]。因此,加權(quán)投票法被廣泛應(yīng)用。文獻(xiàn)[27]利用相對準(zhǔn)確度作為權(quán)重對各分類器進(jìn)行集成:

        式中:ai為第i個個體學(xué)習(xí)器的相對準(zhǔn)確度;ew和eb分別為所有個體學(xué)習(xí)器中的最大和最小錯誤率(錯誤率=1-準(zhǔn)確率);ei為第i個個體學(xué)習(xí)器的錯誤率。

        則每個分類器所占比重wi為:

        式中:L為個體學(xué)習(xí)器總數(shù)。

        但權(quán)重可來源于除準(zhǔn)確度外的其他角度,故有效性不強(qiáng)。因此,在文獻(xiàn)[27]基礎(chǔ)上,本文使用準(zhǔn)確度和AUC 值的綜合作為權(quán)重對分類器進(jìn)行集成:

        式中:Aaoc,i表示第i個個體學(xué)習(xí)器的ROC 曲線未覆蓋的面積(Aaoc,i=1-iU);Aaoc,w和Aaoc,b分別為所有個體學(xué)習(xí)器中ROC 曲線未覆蓋面積的最大值和最小值。

        分別將本文所用投票策略和文獻(xiàn)[27]以準(zhǔn)確度為基準(zhǔn)的加權(quán)投票法以及傳統(tǒng)的多數(shù)投票法命名為Vote 和Vote1,Vote2。為了確定哪種投票策略表現(xiàn)最好,設(shè)計試驗將3 種投票策略在7 個數(shù)據(jù)集上的預(yù)測結(jié)果進(jìn)行比較分析,結(jié)果如圖3 所示,各指標(biāo)值均為在7 個數(shù)據(jù)集上取得的平均值。

        圖3 3 種投票策略在7 個數(shù)據(jù)集上的表現(xiàn)Fig.3 Performance of three voting strategies on seven data sets

        由圖3 可知,本文所用投票策略的4 個指標(biāo)均優(yōu)于另外2 種投票策略。

        3.3 與其他算法的對比分析

        對比本文所提模型和上文提到的BP[10],DT[11],SVM[11],KNN[12],GBDT[16],RF[17]和AdaBoost 這7 種算法的測試結(jié)果,其中BP,DT,SVM 和KNN 屬 于 單 一 學(xué) 習(xí) 器,RF,GBDT 和AdaBoost 屬于單一學(xué)習(xí)器的集成。

        3.3.1 與單一學(xué)習(xí)器的對比分析

        將本文所提模型與上述BP,DT,SVM 和KNN這4 種單一算法在7 個數(shù)據(jù)集的測試集上的結(jié)果進(jìn)行對比,結(jié)果如表7 所示。為方便表示,將本文的Bagging 異質(zhì)集成學(xué)習(xí)用其結(jié)合策略“Vote”代替。

        表7 本文所提模型與各單一學(xué)習(xí)器的對比Table 7 Comparison of the proposed model and single learners

        由于部分樣本之間不存在顯著相關(guān)特性,因而SVM 的分類正確率對于不同數(shù)據(jù)集波動較大,且其iC和iU值均明顯低于其他對比算法。此外,雖然BP在每個數(shù)據(jù)集上的準(zhǔn)確率都超過了0.8,但其AUC值波動較大。除SVM 和BP 外,其他算法在7 個數(shù)據(jù)集上的iC和iU值均大于0.8。相比于其他算法,本文所用基于Bagging 異質(zhì)集成學(xué)習(xí)算法在6 個數(shù)據(jù)集上iU值均為最高的同時,iC值也達(dá)到了最大。對于數(shù)據(jù)集ET1,由于其生成方式為實際用電數(shù)據(jù)乘以0.2~0.8 之間的一個隨機(jī)數(shù),即二者在數(shù)值之間有一定的相似性,使算法不易區(qū)分,造成所有算法在ET1 數(shù)據(jù)集上的表現(xiàn)較其他數(shù)據(jù)集差。

        相比只含單一竊電樣本數(shù)據(jù)集,包含混合竊電樣本數(shù)據(jù)集上的檢測結(jié)果在實際應(yīng)用中更具有意義。與只含單一竊電樣本數(shù)據(jù)集相比,BP 和SVM算法在MIX 上的iC和iU值幾乎不變。DT 和KNN與基于Bagging 異質(zhì)集成學(xué)習(xí)算法的iC和iU值均出現(xiàn)了一定程度下降,但仍遠(yuǎn)高于BP 和SVM 算法。3.3.2 與集成學(xué)習(xí)算法的對比分析

        將本文所提模型與上述RF,AdaBoost 和GBDT 這3 種集成學(xué)習(xí)算法在7 個數(shù)據(jù)集的測試集上的結(jié)果進(jìn)行對比,結(jié)果如表8 所示。

        表8 本文所提模型與其他集成學(xué)習(xí)器的對比Table 8 Comparison of the proposed model and other ensemble learners

        由于RF,AdaBoost 以及GBDT 均采用樹集成的同質(zhì)集成學(xué)習(xí)方式,故相較于DT 和KNN 等單一學(xué)習(xí)算法,有更出色的學(xué)習(xí)能力。與單一學(xué)習(xí)算法相比,3 種同質(zhì)集成算法有更高的iC和iU值,但同時仍稍遜于基于Bagging 異質(zhì)集成學(xué)習(xí)方法。ROC 曲線可直觀反映各算法在數(shù)據(jù)集上的性能,8 種算法在7 個數(shù)據(jù)集上的ROC 曲線見附錄A 圖A1。

        3.4 靈敏性分析

        為了說明竊電樣本所占比例的不同對基于Bagging 異質(zhì)集成學(xué)習(xí)的竊電檢測模型的影響,在不同竊電樣本占比的取值下分別針對8 種算法的iC和iU進(jìn)行了試驗,結(jié)果分別如圖4(a)和(b)所示。

        圖4 8 種算法在不同竊電樣本占比下的iC和iU Fig.4 iC and iU of eight algorithms with different proportions of electricity theft samples

        由圖4(a)可知,隨著竊電樣本占比的減少,除SVM 外,其他7 種算法的iC值呈現(xiàn)明顯的上升趨勢。其中,AdaBoost,DT,KNN,RF 和GBDT 與本文所用算法的iC值較為接近,但本文所用算法的iC值始終最大。

        圖4(b)顯示了8 種算法的iU值。整體上,Vote,GBDT,RF,AdaBoost,DT 和KNN 這6 種算法的iU值明顯高于BP 和SVM 算法,而隨著竊電樣本占比的減小,這6 種算法的iU值也幾乎始終在0.8~1.0 之間波動,且Bagging 異質(zhì)集成學(xué)習(xí)始終最大。其中,當(dāng)竊電樣本占比從5%降到1%時,Vote,GBDT,RF,AdaBoost,DT 和KNN 等6 種算法的iU值均出現(xiàn)了一定程度下降,這是由于此時正負(fù)樣本的數(shù)量嚴(yán)重失衡,使得算法傾向于將所有樣本判定為正樣本,導(dǎo)致iU值下降。

        4 結(jié)語

        本文提出了基于Bagging 異質(zhì)集成學(xué)習(xí)的竊電檢測方法,充分利用不同學(xué)習(xí)器從不同角度對數(shù)據(jù)空間與結(jié)構(gòu)進(jìn)行觀測,使得不同學(xué)習(xí)器能夠取長補(bǔ)短。利用愛爾蘭智能電表數(shù)據(jù)集進(jìn)行對比,驗證了本文方法的精確性與有效性。后續(xù)將進(jìn)一步針對實際用電數(shù)據(jù),進(jìn)一步分析和選擇正常用電和竊電的特征指標(biāo)項,對竊電檢測開展集成學(xué)習(xí)應(yīng)用的深入研究。

        本文工作得到國網(wǎng)湖北省電力有限公司2019 年科技項目(5215K018006B)的資助,特此感謝!

        附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

        猜你喜歡
        集上異質(zhì)分類器
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        復(fù)扇形指標(biāo)集上的分布混沌
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
        Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
        MoS2/ZnO異質(zhì)結(jié)的光電特性
        物理實驗(2015年10期)2015-02-28 17:36:52
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        国产精品国产午夜免费看福利| 精品国产一区二区三区免费| 国产女精品视频网站免费| 国产精品久久久亚洲第一牛牛 | 国产一区二区精品久久岳| 天天爽夜夜爽夜夜爽| 成人午夜无人区一区二区| 日本顶级片一区二区三区| 全免费a级毛片免费看无码| 久久久精品人妻一区二区三区蜜桃 | 夜夜爽夜夜叫夜夜高潮| 少妇做爰免费视频网站| AV成人午夜无码一区二区| 少妇高潮呻吟求饶视频网站| 伊人久久大香线蕉午夜av| 国产精品免费大片| 精品无码成人片一区二区| 国产在线一区二区三区香蕉| 后入到高潮免费观看| 欧美多毛肥胖老妇做爰| 日本一区二区三区小视频| 亚洲精品一区三区三区在线 | 狠狠色噜噜狠狠狠狠97俺也去| 久久亚洲免费精品视频| 成午夜精品一区二区三区| 国产综合激情在线亚洲第一页| 亚洲国产色图在线视频| 蜜桃一区二区在线视频| a级毛片成人网站免费看 | 久久99亚洲综合精品首页| 91精品人妻一区二区三区水蜜桃| 欧美人与禽2o2o性论交| 成人三级在线| 最新国产成人自拍视频| 18禁在线永久免费观看| 免费观看又污又黄的网站| 国产成人丝袜在线无码| 国产日产桃色精品久久久| 无码不卡av东京热毛片| 色欲AV成人无码精品无码| 久久人妻少妇嫩草av蜜桃|