謝敬東, 盧浩哲, 陸池鑫, 黃溪瀅, 魯思薇
(1.上海電力大學(xué)能源電力科創(chuàng)中心, 上海 200082; 2.長(zhǎng)沙理工大學(xué)電氣與信息工程學(xué)院, 長(zhǎng)沙 410114)
中共中央、國(guó)務(wù)院《關(guān)于進(jìn)一步深化電力體制改革的若干意見》(中發(fā)〔2015〕9號(hào))[1]及其配套相關(guān)文件頒布以來(lái),新一輪電力市場(chǎng)化建設(shè)全面提速,取得了許多積極進(jìn)展,但隨之而來(lái)的是電力市場(chǎng)風(fēng)險(xiǎn)急劇加大。由于中國(guó)電力市場(chǎng)的主體相對(duì)集中,市場(chǎng)主體法規(guī)意識(shí)相對(duì)薄弱,市場(chǎng)監(jiān)管制度尚不健全,市場(chǎng)力風(fēng)險(xiǎn)成為中國(guó)電力市場(chǎng)的主要風(fēng)險(xiǎn),呈現(xiàn)出形式多、防范難、監(jiān)管難、影響大的特點(diǎn),大大增加了電力市場(chǎng)建設(shè)的難度。而伴隨著市場(chǎng)力產(chǎn)生的一系列違規(guī)行為或許是全球電力監(jiān)管機(jī)構(gòu)所面臨的最具爭(zhēng)議性和復(fù)雜性的難題[2-4]。因此,通過研究異常行為的辨識(shí)方法對(duì)交易過程中可能存在的違規(guī)行為進(jìn)行挖掘是市場(chǎng)環(huán)境下的電力監(jiān)管機(jī)構(gòu)共同關(guān)注且迫切需要研究的重點(diǎn)方向。
針對(duì)電力市場(chǎng)中的違規(guī)行為問題,中外學(xué)者已提出了一些識(shí)別方法和防范措施。文獻(xiàn)[5-7]構(gòu)建了判斷發(fā)電側(cè)市場(chǎng)力使用狀況的監(jiān)管指標(biāo)體系。文獻(xiàn)[8]構(gòu)建了電力市場(chǎng)交易全過程的違規(guī)行為識(shí)別框架。文獻(xiàn)[9-11]分別采用博弈論、遺傳算法和聯(lián)合進(jìn)化優(yōu)化法對(duì)單個(gè)發(fā)電商是否參與串謀行為進(jìn)行了判定。文獻(xiàn)[12]利用計(jì)量經(jīng)濟(jì)學(xué)的方法分析了英國(guó)兩大發(fā)電公司之間的串謀報(bào)價(jià)行為。但這些研究存在以下問題與不足:一是只注重建立市場(chǎng)監(jiān)管指標(biāo),卻沒有具體闡述如何使用指標(biāo)識(shí)別異常交易行為;二是對(duì)市場(chǎng)模型進(jìn)行了大量簡(jiǎn)化,并且關(guān)注的對(duì)象僅為少量市場(chǎng)成員,而對(duì)于處理實(shí)際市場(chǎng)運(yùn)營(yíng)產(chǎn)生的大規(guī)模數(shù)據(jù)集的研究卻很少。
相較于上述異常行為辨識(shí)的方法,基于無(wú)監(jiān)督學(xué)習(xí)的異常檢測(cè)算法具有更好的應(yīng)用前景。由于無(wú)監(jiān)督異常檢測(cè)算法在訓(xùn)練時(shí)只需要依靠沒有數(shù)據(jù)標(biāo)簽的數(shù)據(jù),就可以利用數(shù)據(jù)的整體特性得出較為準(zhǔn)確的劃分異常的規(guī)則[13-15]。因此此類方法更適應(yīng)用于電力市場(chǎng)這種標(biāo)簽數(shù)據(jù)往往難以獲取,或獲取成本極高的大數(shù)據(jù)場(chǎng)景。離群點(diǎn)檢測(cè)是一種基于無(wú)監(jiān)督學(xué)習(xí)的方法,在前人研究的基礎(chǔ)之上,現(xiàn)結(jié)合電力市場(chǎng)運(yùn)營(yíng)數(shù)據(jù)集的特點(diǎn)對(duì)普通的離群點(diǎn)檢測(cè)算法進(jìn)行改進(jìn),提出一種基于分階段的離群點(diǎn)檢測(cè)算法,并將其應(yīng)用于電力市場(chǎng)的異常行為辨識(shí)中。首先對(duì)市場(chǎng)中的異常行為進(jìn)行分析與梳理,然后闡述異常行為辨識(shí)的具體操作流程,最后使用算例對(duì)該方法進(jìn)行驗(yàn)證。
1.1.1 市場(chǎng)串謀
“串謀”這一概念源自經(jīng)濟(jì)學(xué),指企業(yè)之間為了獲得超額利潤(rùn)而采取的協(xié)調(diào)行為,這種行為一般是通過相互之間進(jìn)行商討、簽訂協(xié)議和支付暗盤來(lái)形成和維持,如眾所周知的托拉斯和卡特爾[16]。電力市場(chǎng)中的市場(chǎng)串謀是指兩個(gè)及以上不具有實(shí)際控制關(guān)系的市場(chǎng)主體通過串通報(bào)價(jià)等方式協(xié)調(diào)其相互競(jìng)爭(zhēng)關(guān)系,從而使共同利潤(rùn)最大化的行為。市場(chǎng)串謀一般可分為價(jià)格同盟型與輪流坐莊型。價(jià)格同盟型指企業(yè)間相同串通,就申報(bào)價(jià)格達(dá)成協(xié)議,共同哄抬申報(bào)價(jià)格,最直接的表現(xiàn)就是報(bào)價(jià)曲線相似,且申報(bào)價(jià)格高于其他非串謀成員;輪流坐莊型則指企業(yè)之間根據(jù)未來(lái)的發(fā)電計(jì)劃預(yù)先規(guī)劃,通過相互約定提前確定每次各企業(yè)的中標(biāo)電量。
1.1.2 容量持留
容量持留本質(zhì)上是一種行使市場(chǎng)力的行為,主要形式有物理持留和經(jīng)濟(jì)持留。物理持留指發(fā)電企業(yè)故意限制自身發(fā)電能力,從而減少市場(chǎng)有效供應(yīng)、提高市場(chǎng)價(jià)格;經(jīng)濟(jì)持留指發(fā)電企業(yè)對(duì)部分機(jī)組故意進(jìn)行高報(bào)價(jià),從而抬高同類其他機(jī)組的整體收益。發(fā)電企業(yè)進(jìn)行容量持留時(shí)最直接的表現(xiàn)形式有無(wú)故降低機(jī)組出力、謊報(bào)機(jī)組設(shè)備檢修或延長(zhǎng)檢修時(shí)間、頻繁以接近申報(bào)價(jià)格上限的價(jià)格進(jìn)行市場(chǎng)申報(bào)等。
1.1.3 極端報(bào)價(jià)
極端報(bào)價(jià)指發(fā)電公司在以機(jī)組為單位進(jìn)行市場(chǎng)申報(bào)時(shí),頻繁以超過同類機(jī)組和自身歷史報(bào)價(jià)水平進(jìn)行申報(bào)的行為。這種報(bào)價(jià)方式抬高了市場(chǎng)出清價(jià)格,使發(fā)電主體獲得超額利潤(rùn),嚴(yán)重?cái)_亂了市場(chǎng)秩序。例如在東北電力市場(chǎng)就曾經(jīng)出現(xiàn)發(fā)電企業(yè)利用斷面阻塞進(jìn)行極端報(bào)價(jià),連續(xù)多月在月度競(jìng)價(jià)中以市場(chǎng)最高限價(jià)成交,嚴(yán)重阻礙了電力市場(chǎng)化改革和電力資源的優(yōu)化配置。
1.1.4 “跳高”行為
“跳高”行為是發(fā)電公司采用的一種報(bào)價(jià)策略,表現(xiàn)為在中低容量段報(bào)較低價(jià)格,而在高容量段用小部分電量報(bào)高價(jià),但這少部分的電量卻可以影響到整個(gè)市場(chǎng)的價(jià)格。此時(shí)市場(chǎng)供給曲線的形狀為:在中前部有很長(zhǎng)一段的趨0報(bào)價(jià),但在尾部迅速上抬,形成俗稱的“跳高曲線”?!疤摺毙袨樵诒举|(zhì)上屬于市場(chǎng)成員的投機(jī)交易行為,破壞了市場(chǎng)的有序競(jìng)爭(zhēng)。
為了有效實(shí)現(xiàn)電力市場(chǎng)異常交易行為的判別和監(jiān)視,綜合考慮全面性原則、準(zhǔn)確性原則,篩選市場(chǎng)主體的申報(bào)信息及成交信息,提取異常行為的特征值并建立特征集,特征集如表1所示。
表1 異常行為特征集Table 1 Abnormal behavior feature set
1.2.1 加權(quán)平均報(bào)價(jià)
由于電力市場(chǎng)以中長(zhǎng)期差價(jià)合同管理市場(chǎng)風(fēng)險(xiǎn),使得機(jī)組在報(bào)價(jià)時(shí)為保證中長(zhǎng)期合約電量能順利成交通常對(duì)該部分電量申報(bào)接近0價(jià)。為了達(dá)到準(zhǔn)確分析機(jī)組報(bào)價(jià)行為的目的,應(yīng)關(guān)注合約電量后的申報(bào)數(shù)據(jù)。加權(quán)平均報(bào)價(jià)的計(jì)算公式為
(1)
1.2.2 中標(biāo)率
(2)
式(2)中: WR為機(jī)組的中標(biāo)率;Qwr為中標(biāo)電量;Qbid為申報(bào)總量。
1.2.3 持留比率
(3)
式(3)中:HR為機(jī)組的持留比率;Qmax為機(jī)組的最大發(fā)電量。
1.2.4 高報(bào)價(jià)比率
(4)
式(4)中:HB為機(jī)組的高報(bào)價(jià)比率;Qlim為申報(bào)價(jià)格接近上限的電量。
1.2.5 動(dòng)態(tài)市場(chǎng)份額
(5)
異常行為特征集可以反映部分的市場(chǎng)異常行為,但在實(shí)際監(jiān)測(cè)過程中卻存在著各方面的不足。因此結(jié)合電力市場(chǎng)運(yùn)營(yíng)的實(shí)際情況提出基于異常行為特征集的波動(dòng)性指標(biāo)、趨勢(shì)指標(biāo)、變動(dòng)性指標(biāo)及綜合指標(biāo)[17],并根據(jù)指標(biāo)在一次完整交易過程中可獲取的時(shí)間點(diǎn)將提取的特征指標(biāo)分為申報(bào)階段類及成交階段類。在T個(gè)交易日內(nèi),特征集的分類及特征提取如表2所示。
表2 異常行為特征指標(biāo)Table 2 Indicators of abnormal behavior
由于提取的特征指標(biāo)數(shù)量過多,特征的重疊會(huì)夸大某一因素的影響程度,影響目標(biāo)對(duì)象特征描述的準(zhǔn)確性,為了提高異常檢測(cè)的效率,需要消除原始特征指標(biāo)間的信息重疊。目前統(tǒng)計(jì)學(xué)中進(jìn)行消除指標(biāo)間信息重疊的主要方法有回歸分析法、主成分分析法、因子分析法。文獻(xiàn)[19]證明在解決此類問題中,主成分分析法的效果優(yōu)于其他方法,故使用主成分分析法。
在對(duì)申報(bào)階段與交易階段的特征指標(biāo)分別進(jìn)行降維后,取其前兩個(gè)主成分將機(jī)組以散點(diǎn)的形式映射到二維平面,然后使用離群點(diǎn)算法進(jìn)行異常檢測(cè)。
Breuning等學(xué)者在基于密度的聚類算法與異常度監(jiān)測(cè)結(jié)合的基礎(chǔ)上提出了局部離群因子(local outlier factor,LOF)的概念[20]。LOF是樣本中每個(gè)采樣點(diǎn)相于其領(lǐng)域密度差異的一種衡量量度, 用來(lái)評(píng)價(jià)采樣點(diǎn)的離群程度,由離群程度的大小來(lái)分離樣本中的離群點(diǎn)。下面給出解釋LOF算法的必要定義。
定義1 數(shù)據(jù)點(diǎn)的距離d(p,o)。
在樣本數(shù)據(jù)D中,任意兩個(gè)數(shù)據(jù)點(diǎn)p、點(diǎn)o之間的距離d(p,o)采用歐式計(jì)算方法。設(shè)點(diǎn)p和點(diǎn)o用坐標(biāo)表示為p(xi,yi)、o(xj,yj),則點(diǎn)p和點(diǎn)o的歐式距離為
(6)
定義2 點(diǎn)p的k-距離[k-dist(p)]。
對(duì)于點(diǎn)p(xi,yi),k-距離定義為與點(diǎn)p距離最近的k個(gè)點(diǎn)的最大距離,k為正實(shí)數(shù)。
定義3 點(diǎn)p的k-距離鄰域[Nk-dist(p)]。
對(duì)于點(diǎn)p(xi,yi),k-距離領(lǐng)域定義為所有與點(diǎn)p的距離不超過k-距離的對(duì)象的集合,即
Nk-dist(p)={q∈D{p}|d(p,q)≤k-dist(p)}
(7)
式(7)中:符號(hào)為不包括某一數(shù)據(jù)點(diǎn);q為在樣本數(shù)據(jù)D中除去p之外的其他數(shù)據(jù)點(diǎn)。
根據(jù)定義2和定義3,當(dāng)k=6時(shí),點(diǎn)o的k-距離及k-距離領(lǐng)域如圖1所示,點(diǎn)o的k-距離為虛線圓的半徑,而k-距離領(lǐng)域?yàn)樵撎摼€圓中除點(diǎn)o外的6個(gè)點(diǎn)。
圖1 距離領(lǐng)域的示意圖Fig.1 Schematic diagram for the distance neighborhood
定義4 可達(dá)距離
對(duì)于點(diǎn)p(xi,yi)、點(diǎn)o(xj,yj),關(guān)于點(diǎn)o的可達(dá)距離為reach-distk(p,o)=max{k-dist(o),d(p,o)}。即點(diǎn)p到點(diǎn)o的可達(dá)距離至少是點(diǎn)o的第k距離,因此reach-distk(p,o)=reach-distk(o,p)。
根據(jù)定義4,當(dāng)k=6時(shí),點(diǎn)o的可達(dá)距離如圖2所示,點(diǎn)o的k-距離是虛線圓的半徑。對(duì)于點(diǎn)p1,由于它到點(diǎn)o的距離小于點(diǎn)o的k-距離,因此點(diǎn)o關(guān)于點(diǎn)p1的可達(dá)距離為點(diǎn)o的k-距離。對(duì)于點(diǎn)p2,由于它到點(diǎn)o的距離大于點(diǎn)o的k-距離,因此點(diǎn)o關(guān)于點(diǎn)p1的可達(dá)距離為d(p2,o)。
圖2 可達(dá)距離的示意圖Fig.2 Schematic diagram for the reachability distance
定義5 局部可達(dá)密度。對(duì)于點(diǎn)p(xi,yi)、點(diǎn)o(xj,yj),局部可達(dá)密度為
(8)
式(8)中:|Nk-dist(p)|為p的k-距離領(lǐng)域內(nèi)所包含的數(shù)據(jù)點(diǎn)的個(gè)數(shù)。
定義6 局部離群因子。點(diǎn)p的局部離群因子定義為
(9)
點(diǎn)p的局部離群因子值與其是否為離群點(diǎn)的可能性是成正比的,局部離群值越大則該點(diǎn)越有可能是離群點(diǎn)。對(duì)于均勻分布的數(shù)據(jù)集,各點(diǎn)的離群因子值在1的附近。對(duì)于電力市場(chǎng)數(shù)據(jù)集中的離群點(diǎn),因其局部密度遠(yuǎn)遠(yuǎn)小于其領(lǐng)域點(diǎn)的密度,使得其離群因子值較大,故可通過機(jī)組的離群因子值的大小分辨是否為離群點(diǎn)。
由于Nk-dist(p)是數(shù)據(jù)集中所有到一個(gè)點(diǎn)的距離小于該點(diǎn)的k-領(lǐng)域距離的點(diǎn),如果離群對(duì)象在數(shù)據(jù)集中彼此非??拷纬闪艘恍〈氐碾x群對(duì)象,同時(shí)k-距離取值過小可能會(huì)導(dǎo)致算法錯(cuò)誤把這一簇離群點(diǎn)識(shí)別為正常點(diǎn)。含有離群簇的數(shù)據(jù)集如圖3所示,離群簇為X符號(hào)區(qū)域。另外,由于k-距離用于計(jì)算每個(gè)點(diǎn)的局部可達(dá)密度值,如果k-距離取值過大可能會(huì)導(dǎo)致算法的運(yùn)行時(shí)間過長(zhǎng)。為了在不降低算法效率的情況下提高算法的準(zhǔn)確率,修正k-距離局部離群因子(revisek-dist local outlier factor,RKLOF)算法先對(duì)k-距離進(jìn)行改進(jìn),然后再計(jì)算對(duì)象的離群程度。
圖3 離群簇的示意圖Fig.3 Example of a dataset with clusters of outliers
RKLOF算法的主要思想是結(jié)合鄰近算法,通過找出一個(gè)樣本的若干個(gè)最近鄰居,將樣本與這些鄰居的距離的平均值作為該樣本的距離領(lǐng)域的半徑,然后再使用新的距離領(lǐng)域計(jì)算該樣本的局部離群因子,下面給出改進(jìn)算法的后續(xù)定義。
定義7 點(diǎn)p的v-距離v-dist(p)。在給定正實(shí)數(shù)k下,點(diǎn)p(xi,yi)的v-距離定義為數(shù)據(jù)集中距離點(diǎn)p最近的k個(gè)點(diǎn)與點(diǎn)p的距離的均值,即
(10)
使用v-distk(p)替換k-distk(p)可以得到點(diǎn)p在v-distk(p)下的v-距離領(lǐng)域,點(diǎn)p對(duì)點(diǎn)o的v可達(dá)距離reach-distv(p,o)及局部可達(dá)密度lrdv(p)。
定義8 同理,點(diǎn)p在v-distk(p)下局部離群因子為
(11)
式(11)中:|Nv-dist(p)|為p的v-距離領(lǐng)域內(nèi)所包含的數(shù)據(jù)點(diǎn)的個(gè)數(shù)。
綜上所述,RKLOF算法可以分為以下幾個(gè)步驟。
(1)讀入數(shù)據(jù),建立數(shù)據(jù)集。
(2)計(jì)算每個(gè)點(diǎn)的v-distk(p),并用其代替LOF算法中的k-distk(p)。
(3)計(jì)算點(diǎn)p在v-distk(p)下的v-距離領(lǐng)域,reach-distv(p,o)及局部可達(dá)密度lrdv(p),最后算出點(diǎn)p在給定k下的改進(jìn)局部離群因子值RKLOFk(p)。
發(fā)電公司的報(bào)價(jià)策略及機(jī)組類型導(dǎo)致了申報(bào)數(shù)據(jù)的差異,這使交易結(jié)果也產(chǎn)生了較大差異。因此,某一類機(jī)組的正常交易行為可能與另一類機(jī)組的異常交易行為相似。為了降低算法的誤判率,可先對(duì)機(jī)組進(jìn)行分類,再對(duì)每一類機(jī)組分別進(jìn)行異常檢測(cè)。
通過對(duì)美國(guó)PJM、CAISO和ERCOT等大型電力市場(chǎng)數(shù)據(jù)分析可知,中長(zhǎng)期雙邊長(zhǎng)協(xié)市場(chǎng),日前市場(chǎng)和實(shí)時(shí)市場(chǎng)所占電量大約是0.7∶0.25∶0.05[21],故根據(jù)中長(zhǎng)期雙邊長(zhǎng)協(xié)電量是否大于機(jī)組發(fā)電量的0.7,將機(jī)組分為兩類。一類為報(bào)價(jià)“激進(jìn)”型機(jī)組,由于在中長(zhǎng)期市場(chǎng)中獲得較多的長(zhǎng)協(xié)電量,此類機(jī)組在日前市場(chǎng)中繼續(xù)報(bào)高價(jià)競(jìng)爭(zhēng)最后一部分電量,可獲取更大的利潤(rùn);另一類為報(bào)價(jià)“保守”型機(jī)組,其在中長(zhǎng)期市場(chǎng)中獲得長(zhǎng)協(xié)電量較少,此類機(jī)組在日前市場(chǎng)中報(bào)較低的價(jià)格可保證足夠的發(fā)電量,從而提高機(jī)組效率降低平均發(fā)電成本[22]。
由于電力市場(chǎng)所產(chǎn)生的數(shù)據(jù)集不同于其他數(shù)據(jù)集,在市場(chǎng)的運(yùn)營(yíng)過程中會(huì)產(chǎn)生海量的大數(shù)據(jù),并且具備較高的維度。這要求電力市場(chǎng)的異常行為辨識(shí)算法需要在保證效率性的基礎(chǔ)上具備對(duì)高維數(shù)據(jù)的處理能力。如果單階段地對(duì)數(shù)據(jù)集中進(jìn)行異常檢測(cè),那么則需要對(duì)數(shù)據(jù)集中的所有數(shù)據(jù)同時(shí)進(jìn)行運(yùn)算。這通常會(huì)導(dǎo)致數(shù)據(jù)集中的特征量急劇地增大,使得距離函數(shù)失效,還可能出現(xiàn)維數(shù)災(zāi)的情況。因此,單階段的異常行為辨識(shí)方法在檢測(cè)的準(zhǔn)確性方面有所欠缺。
為了解決該問題實(shí)現(xiàn)在不影響異常檢測(cè)算法效率的前提下提高算法的準(zhǔn)確率,提出了分階段跟蹤的異常交易辨識(shí)方法。該方法先對(duì)電力市場(chǎng)的申報(bào)階段的數(shù)據(jù)進(jìn)行異常檢測(cè),若機(jī)組在申報(bào)階段存在交易異常行為,則在成交階段對(duì)這些機(jī)組進(jìn)行跟蹤檢測(cè)。提出的基于RKLOF算法的分階段異常交易行為辨識(shí)方法的實(shí)現(xiàn)流程如圖4所示。
圖4 基于RKLOF的分階段異常行為辨識(shí)流程圖Fig.4 Flow chart of phased abnormal behavior identification method
采用中國(guó)某區(qū)域電力市場(chǎng)仿真系統(tǒng)10 d的數(shù)據(jù)作為數(shù)據(jù)集。數(shù)據(jù)集包含170臺(tái)發(fā)電機(jī)組在日前電力市場(chǎng)的交易數(shù)據(jù),采樣時(shí)間為每天00:00—24:00,采樣間隔為15 min,每天采樣16 320條數(shù)據(jù)。實(shí)驗(yàn)的硬件環(huán)境:CPU為Inter Core 2.3 GHz, 內(nèi)存為8 G;軟件環(huán)境:操作系統(tǒng)為Windows 10,實(shí)驗(yàn)程序使用python編寫, 開發(fā)環(huán)境為PyCharm CE version 2019.2。通過實(shí)驗(yàn)對(duì)提出的電力市場(chǎng)異常交易行為辨識(shí)方法的有效性及RKLOF算法的性能進(jìn)行分析。
3.1.1 市場(chǎng)成員分類
根據(jù)發(fā)電機(jī)組的中長(zhǎng)期市場(chǎng)合約電量是否大于機(jī)組發(fā)電量的0.7將機(jī)組分為兩類,并分別繪出不同類型機(jī)組的申報(bào)曲線,如圖5、圖6所示??梢钥闯龇诸惤Y(jié)果與理論結(jié)果基本符合,“保守”型機(jī)組的申報(bào)曲線明顯集中在低價(jià)區(qū)域,而“激進(jìn)”型機(jī)組的申報(bào)曲線明顯集中在高價(jià)區(qū)域。
圖5 “保守”型機(jī)組申報(bào)曲線Fig.5 The bid curve of the "conservative" unit
圖6 “激進(jìn)”型機(jī)組申報(bào)曲線Fig.6 The bid curve of the "aggressive" unit
3.1.2 異常行為特征指標(biāo)提取及主成分分析
基于交易數(shù)據(jù)的特征類型與異常行為特征集,分別構(gòu)造11個(gè)申報(bào)階段的異常行為特征指標(biāo)及11個(gè)成交階段的異常行為特征指標(biāo),如表3所示。在特征指標(biāo)提取后,分別對(duì)其進(jìn)行主成分分析,提取貢獻(xiàn)率最大的前兩個(gè)主成分作為橫縱坐標(biāo)軸,將發(fā)電機(jī)組在申報(bào)階段的行為及成交階段的結(jié)果以散點(diǎn)圖的形式映射到二維平面上,然后使用離群點(diǎn)檢測(cè)算法進(jìn)行異常點(diǎn)的識(shí)別。各主成分及其累計(jì)貢獻(xiàn)率如表4所示,可以看出各階段的前兩個(gè)主成分的累積貢獻(xiàn)率都較大,可以代表機(jī)組的行為。
表3 異常行為特征指標(biāo)提取Table 3 Extraction of abnormal behavior indicators
表4 主成分及貢獻(xiàn)率Table 4 Principal component and contribution rate
在評(píng)估離群點(diǎn)檢測(cè)算法性能時(shí),本文采用的度量標(biāo)準(zhǔn)是準(zhǔn)確率P(precision)、召回率R(recall)及F值(F-Measure)。假設(shè)L1是檢測(cè)出的離群點(diǎn)集合,L2是所有離群點(diǎn)的集合,3個(gè)標(biāo)準(zhǔn)的計(jì)算公式為
(12)
(13)
在本例中,準(zhǔn)確率即辨識(shí)出的有異常行為的機(jī)組有多少是準(zhǔn)確的,召回率即所有有異常行為的機(jī)組有多少被辨識(shí)出來(lái)。
(14)
式(14)中:β為反映準(zhǔn)確率和召回率相對(duì)重要的權(quán)值,若β<1,則準(zhǔn)確率的重要性大于召回率。既要保證盡可能多的發(fā)現(xiàn)有異常行為的機(jī)組,又要保證異常辨識(shí)結(jié)果的準(zhǔn)確性,因此將β設(shè)為1。
在本節(jié)中,將對(duì)基于LOF的單階段異常行為辨識(shí)方法、基于RKLOF的單階段異常行為辨識(shí)方法、基于LOF的分階段異常行為辨識(shí)方法及基于RKLOF的分階段異常行為辨識(shí)方法進(jìn)行對(duì)比。首先比較在數(shù)據(jù)集大小改變時(shí),不同方法的計(jì)算時(shí)間,如圖7所示。
由圖7可知,隨著數(shù)據(jù)集規(guī)模的增大,分階段辨識(shí)方法的計(jì)算速度比單階段辨識(shí)方法更快?;赗KLOF算法的單階段辨識(shí)方法的計(jì)算速度快于基于LOF算法的單階段辨識(shí)方法,而都使用了分階段辨識(shí)方法的RKLOF算法與LOF算法的計(jì)算速度相差不多。
圖7 不同數(shù)據(jù)集規(guī)模下的運(yùn)行時(shí)間對(duì)比圖Fig.7 Computation time of different methods for datasets of different scale
圖8繪出了隨著k取值的變化各方法的F值??梢钥闯龇蛛A段辨識(shí)方法的F值總體大于單階段辨識(shí)方法,在k取較小時(shí)即可達(dá)到最優(yōu)效果,并且隨著k的變化波動(dòng)較小。
圖8 F值與參數(shù)k的關(guān)系Fig.8 Relationship between F and parameter k
當(dāng)k取各方法的最優(yōu)值時(shí),各度量標(biāo)準(zhǔn)的對(duì)比如表5所示??梢钥闯龌赗KLOF算法的分階段辨識(shí)方法的準(zhǔn)確率P、召回率R及F都優(yōu)于其他方法。
表5 多個(gè)方法的不同度量標(biāo)準(zhǔn)比較Table 5 Comparison of the effects of methods
圖9、圖10為對(duì)機(jī)組進(jìn)行預(yù)分類后分別使用基于LOF與RKLOF的分階段異常辨識(shí)方法進(jìn)行檢測(cè)的結(jié)果,圖11為未對(duì)機(jī)組進(jìn)行預(yù)分類,而使用基于RKLOF分階段異常辨識(shí)方法進(jìn)行檢測(cè)的結(jié)果。
對(duì)比圖9、圖10可以發(fā)現(xiàn),由于RKLOF對(duì)k-距離進(jìn)行了優(yōu)化,使用樣本與鄰居的距離的平均值作為該樣本的距離領(lǐng)域的半徑,加大了離群簇中的離群點(diǎn)的離群因子密度,克服了LOF的k-距離的不足,可以有效地檢測(cè)出形成離群簇的離群點(diǎn),如圖9與圖10中的U區(qū)域所示。
圖9 基于LOF算法的分階段檢測(cè)結(jié)果(預(yù)先對(duì)機(jī)組進(jìn)行分類)Fig.9 The pre-classified detection result of the LOF-based phased method
由于在電力市場(chǎng)的交易過程中某一類機(jī)組的異常行為可能與另一類機(jī)組的正常行為相似,因此此類機(jī)組的離群因子密度較小,不能有效地被離群因子算法直接檢測(cè)出。而在對(duì)機(jī)組進(jìn)行預(yù)先分類后便可以更有效地檢測(cè)出這些離群因子密度較低的異常機(jī)組。如圖10與圖11的J區(qū)域所示。
圖10 基于RKLOF算法的分階段檢測(cè)結(jié)果(預(yù)先對(duì)機(jī)組進(jìn)行分類)Fig.10 The pre-classified detection result of the RKLOF-based phased method
圖11 基于RKLOF的分階段檢測(cè)結(jié)果(未對(duì)機(jī)組進(jìn)行預(yù)分類)Fig.11 The detection result of the RKLOF-based phased method (without unit’s pre-classified)
針對(duì)電力市場(chǎng)環(huán)境中出現(xiàn)的各種異常交易行為提出了一種基于分階段離群點(diǎn)檢測(cè)的電力市場(chǎng)異常行為辨識(shí)方法。得到了以下結(jié)論。
(1)將LOF中的k-距離改進(jìn)v-距離后的 RKLOF 算法可以有效地發(fā)現(xiàn)形成離群簇的離群點(diǎn),提高算法的準(zhǔn)確率。
(2)與直接對(duì)機(jī)組進(jìn)行異常檢測(cè)相比,事先將機(jī)組進(jìn)行預(yù)分類后再進(jìn)行檢測(cè)可以檢測(cè)出離群因子密度較低的異常機(jī)組。
(3)通過分階段地進(jìn)行異常檢測(cè)不僅可以提高算法的效率與準(zhǔn)確率,還可以減小參數(shù)對(duì)檢測(cè)效果的影響程度。
僅找出了有可能有違規(guī)行為的異常機(jī)組,后續(xù)將對(duì)異常機(jī)組的行為進(jìn)行進(jìn)一步的分析。其次,在市場(chǎng)主體成員的不斷博弈過程中,還可能產(chǎn)生其他違規(guī)形式,因此還應(yīng)繼續(xù)完善異常行為的特征集,從而提高異常交易行為辨識(shí)的準(zhǔn)確率。此外,僅進(jìn)行了發(fā)電側(cè)的交易異常行為辨識(shí),后續(xù)還將繼續(xù)研究將該算法應(yīng)用售電側(cè)的異常辨識(shí)中。