高麗杰 華回春
(華北電力大學(xué))
在電力市場(chǎng)的發(fā)展過程中,達(dá)到資源的優(yōu)化配置以及保障電力供應(yīng)安全是市場(chǎng)建設(shè)的主要目標(biāo)。我國(guó)各地區(qū)資源差異性和互補(bǔ)性較大[1],省間電力資源調(diào)劑余缺需求很大,迫切需要建立完善的省間電力現(xiàn)貨市場(chǎng)來保障供應(yīng)。在省間現(xiàn)貨市場(chǎng)建設(shè)初期,由于市場(chǎng)制度的不完善,會(huì)出現(xiàn)市場(chǎng)成員濫用市場(chǎng)力的問題,市場(chǎng)力是指發(fā)電商改變市場(chǎng)價(jià)格并使之偏離市場(chǎng)充分競(jìng)爭(zhēng)情況下的價(jià)格水平的能力。
濫用市場(chǎng)力會(huì)降低市場(chǎng)效率,損害用戶利益,妨礙市場(chǎng)健康穩(wěn)定運(yùn)行。2000年美國(guó)加州出現(xiàn)電力危機(jī),發(fā)電商行使市場(chǎng)力使得市場(chǎng)價(jià)格飆升,導(dǎo)致諸多公司負(fù)債累累并處于破產(chǎn)狀態(tài)[2],損害了用戶以及投資人的利益。在我國(guó)的電力市場(chǎng)建設(shè)過程中,一些市場(chǎng)主體為了謀得暴利采用串謀的方式進(jìn)行違規(guī)報(bào)價(jià),嚴(yán)重影響市場(chǎng)發(fā)電價(jià)格的能力,存在部分發(fā)電公司故意減產(chǎn)并試圖抬高價(jià)格的行為,而合理的價(jià)格以及可靠的電力供應(yīng)對(duì)電力市場(chǎng)的健康發(fā)展尤為重要,我國(guó)的省間電力現(xiàn)貨市場(chǎng)正在初步建設(shè)當(dāng)中,所以對(duì)市場(chǎng)進(jìn)行有效監(jiān)管以促進(jìn)公平競(jìng)爭(zhēng)迫在眉睫。
目前諸多學(xué)者進(jìn)行了對(duì)電力市場(chǎng)串謀行為識(shí)別的研究,文獻(xiàn)[3]通過對(duì)電力市場(chǎng)運(yùn)營(yíng)大數(shù)據(jù)進(jìn)行分析,建立了完善的風(fēng)險(xiǎn)評(píng)估體系。文獻(xiàn)[4]從市場(chǎng)結(jié)構(gòu)、市場(chǎng)供需等多個(gè)方面構(gòu)建了市場(chǎng)力評(píng)價(jià)指標(biāo)體系。
文獻(xiàn)[5]提出基于物理潮流分析的市場(chǎng)力評(píng)價(jià)指標(biāo)體系,能夠反映機(jī)組地理位置以及電網(wǎng)約束對(duì)市場(chǎng)力行使的影響。文獻(xiàn)[6]構(gòu)建了博弈論模型,從機(jī)理角度分析串謀,利用均衡模型分析市場(chǎng)主體的戰(zhàn)略行為是電力市場(chǎng)領(lǐng)域的研究熱點(diǎn)[7],但是模型的假設(shè)通常不符合電力市場(chǎng)的實(shí)際運(yùn)行條件,在實(shí)際中應(yīng)用價(jià)值不高。文獻(xiàn)[8]提出基于云模型和模糊Petri網(wǎng)的串謀識(shí)別方法,但是隨著交易數(shù)額增大,數(shù)據(jù)樣本增多會(huì)導(dǎo)致該方法的計(jì)算量過大。文獻(xiàn)[9]考慮到我國(guó)電力現(xiàn)貨市場(chǎng)運(yùn)行時(shí)間不長(zhǎng),帶標(biāo)簽的數(shù)據(jù)少,提出使用半監(jiān)督支持向量機(jī)算法訓(xùn)練可靠分類器。文獻(xiàn)[10]提出基于AdaBoost-DT算法的串謀行為智能識(shí)別方法,實(shí)時(shí)性和準(zhǔn)確性較好。文獻(xiàn)[11]提出了基于模糊集理論和層次分析法的電力市場(chǎng)綜合評(píng)價(jià)方法,該方法既可以從整體上把握市場(chǎng)發(fā)展趨勢(shì),又可以反映市場(chǎng)組成的微觀情況,能夠?yàn)闆Q策者提供建議。
考慮到省間電力現(xiàn)貨市場(chǎng)仍舊處于初步建設(shè)階段,發(fā)電企業(yè)之間的串謀行為影響資源優(yōu)化配置并且可能對(duì)市場(chǎng)造成破壞,為規(guī)避風(fēng)險(xiǎn)并且確保電力市場(chǎng)健康穩(wěn)定運(yùn)行,本文設(shè)計(jì)了KPCA+LR模型進(jìn)行發(fā)電企業(yè)串謀行為識(shí)別,此方法可避免數(shù)據(jù)維度過高導(dǎo)致模型過擬合的問題,而且準(zhǔn)確率較高,有很高的實(shí)用價(jià)值。
串謀是發(fā)生在兩個(gè)及以上的發(fā)電企業(yè)之間的行為,為了準(zhǔn)確評(píng)估發(fā)電企業(yè)的行為,本文從五個(gè)方面構(gòu)建了基于任意兩個(gè)發(fā)電企業(yè)的串謀行為識(shí)別指標(biāo)體系。
(1)市場(chǎng)份額
該指標(biāo)是指任意兩個(gè)發(fā)電企業(yè)的申報(bào)電量占所有發(fā)電企業(yè)申報(bào)電量的比例,具體表示如下:
式中,qi和qj為發(fā)電企業(yè)i和j的申報(bào)電量;N是指一共有N家發(fā)電企業(yè)參與此次競(jìng)價(jià)。市場(chǎng)份額越高,代表發(fā)電企業(yè)有更大的操縱市場(chǎng)的能力,發(fā)生串謀行為的可能性越大。
(2)持留比率
該指標(biāo)反映任意兩家發(fā)電企業(yè)對(duì)電量供應(yīng)的控制程度,具體表示如下:
式中,Qi和Qj表示發(fā)電企業(yè)i和j的可發(fā)電容量,持留比率越高則說明發(fā)電企業(yè)限制容量并且提高市場(chǎng)價(jià)格的可能性越大,那么發(fā)生串謀的可能性也就越大。
(3)中標(biāo)率
該指標(biāo)表示發(fā)電企業(yè)i和j的中標(biāo)電量與申報(bào)電量的比值,具體表示如下:
(4)高價(jià)中標(biāo)率
該指標(biāo)表示任意兩家發(fā)電企業(yè)報(bào)高價(jià)中標(biāo)的電量占中標(biāo)電量的比率,具體表示如下:
式中,Qhi和Qhj表示發(fā)電企業(yè)i和j報(bào)高價(jià)且中標(biāo)的電量,該指標(biāo)值越大說明這兩家企業(yè)發(fā)生串謀的可能性越大。
(5)報(bào)價(jià)相對(duì)比均值
將串謀識(shí)別問題視作二分類問題,由于串謀識(shí)別模型所用數(shù)據(jù)集具有高維特性,綜合考慮模型的復(fù)雜度以及分類的準(zhǔn)確率等因素,采用核主成分分析法結(jié)合邏輯回歸算法構(gòu)建發(fā)電企業(yè)串謀識(shí)別模型。
邏輯回歸算法(Logistic Regression,LR)是一種假設(shè)樣本數(shù)據(jù)服從伯努利分布,利用極大似然估計(jì)和梯度下降求解的用作分類的機(jī)器學(xué)習(xí)算法,是廣義線性回歸分析模型,訓(xùn)練速度快而且可解釋性強(qiáng)。模型使用sigmoid函數(shù)將預(yù)測(cè)范圍從實(shí)數(shù)域壓縮到(0,1)范圍之內(nèi)從而提高模型的準(zhǔn)確率,函數(shù)圖像如圖1所示,函數(shù)公式如式(6)所示:
圖1 sigmoid函數(shù)
f(x)表示樣本為類別1的概率,x為線性函數(shù),表達(dá)式為x=wTu+b,其中,w和b均為參數(shù)矩陣,u為輸入的特征向量,樣本被預(yù)測(cè)為正例和負(fù)例的概率表達(dá)式如式(7)所示:
y有兩個(gè)取值,分別為0和1,y=1表示樣本被預(yù)測(cè)為正樣本,y=0表示樣本被預(yù)測(cè)為負(fù)樣本。為避免陷入局部最優(yōu)解,邏輯回歸的損失函數(shù)采用對(duì)數(shù)損失函數(shù),如式(8)所示:
式中,n為樣本數(shù)量。
高維特征數(shù)據(jù)增加了計(jì)算的要求,使得數(shù)據(jù)分析變得復(fù)雜,導(dǎo)致模型復(fù)雜度增加,易導(dǎo)致過擬合問題。把數(shù)據(jù)降維在一定的信息損失范圍之內(nèi)能最大限度反映原始數(shù)據(jù)中的有用信息,可消除一些噪聲和誤差,并且?guī)椭?jié)省大量時(shí)間成本。針對(duì)這一問題,本文使用核主成分分析(Kernel Principal Component Analysis,KPCA)對(duì)數(shù)據(jù)進(jìn)行降維處理。KPCA利用非線性變換將原數(shù)據(jù)映射到高維空間中進(jìn)行主成分分析的數(shù)據(jù)處理,再將主成分映射回原來的空間當(dāng)中,得到降維之后的數(shù)據(jù)。針對(duì)本文所提問題,考慮到數(shù)據(jù)具有高維特征,先使用KPCA對(duì)數(shù)據(jù)進(jìn)行降維處理,再通過邏輯回歸算法實(shí)現(xiàn)發(fā)電企業(yè)的串謀行為識(shí)別,模型具體算法如下。
(1)輸入
含標(biāo)簽的數(shù)據(jù)集U:
(2)輸出
二分類結(jié)果:
1)對(duì)輸入樣本進(jìn)行中心化;
2)利用核函數(shù)計(jì)算核矩陣;
3)計(jì)算核矩陣的特征值和特征向量;
4)將特征向量按對(duì)應(yīng)特征值從大到小排列,取前3列數(shù)據(jù)作為降維后的數(shù)據(jù);
5)載入降維后的數(shù)據(jù),使用sigmoid函數(shù)進(jìn)行計(jì)算;
6)更新權(quán)值。
以中國(guó)某地區(qū)省間電力現(xiàn)貨市場(chǎng)交易數(shù)據(jù)為例進(jìn)行分析,應(yīng)用本文方法對(duì)其進(jìn)行發(fā)電企業(yè)串謀行為識(shí)別分析,驗(yàn)證本文所提出方法的有效性?;贙PCA+LR的串謀識(shí)別模型流程如圖2所示。
圖2 基于KPCA+LR的串謀識(shí)別模型流程
結(jié)合文中建立的指標(biāo)體系,計(jì)算任意兩家發(fā)電企業(yè)的串謀行為識(shí)別指標(biāo)數(shù)據(jù),指標(biāo)數(shù)據(jù)樣本總計(jì)3655個(gè),部分指標(biāo)數(shù)據(jù)集展示如表1所示,標(biāo)簽值為1代表該樣本為串謀樣本,標(biāo)簽值為0代表該樣本為正常樣本。
表1 部分指標(biāo)數(shù)據(jù)集
將指標(biāo)集數(shù)據(jù)進(jìn)行可視化,如圖3所示。由于指標(biāo)集為六維數(shù)據(jù),普通的三維空間不能完整刻畫數(shù)據(jù)信息,所以在本研究中使用三個(gè)常規(guī)軸以及大小、形狀、顏色來可視化六維數(shù)據(jù)。前三個(gè)指標(biāo)用常規(guī)軸表示,指標(biāo)4用圖中散點(diǎn)形狀的大小衡量,數(shù)值越大則形狀越大。指標(biāo)5由散點(diǎn)形狀表示,數(shù)值大于6則很大幾率為串謀情況,因此如果值大于6,那么散點(diǎn)形狀為三角形,否則散點(diǎn)形狀為圓形。紅色代表正常樣本,藍(lán)色代表串謀樣本。由圖3可知,原始指標(biāo)數(shù)據(jù)的串謀樣本與正常樣本分布位置難以區(qū)分,且正常樣本的個(gè)數(shù)遠(yuǎn)多于串謀樣本的個(gè)數(shù)。
圖3 原始指標(biāo)數(shù)據(jù)散點(diǎn)圖
利用KPCA進(jìn)行數(shù)據(jù)降維處理,將原始六維數(shù)據(jù)降維至三維,降維數(shù)據(jù)如圖4所示,紅色和藍(lán)色分別代表正常樣本和串謀樣本。與圖3相比,圖4中的串謀樣本和正常樣本分布位置能夠直觀判斷,發(fā)現(xiàn)大部分的串謀樣本集中在某一區(qū)域,與正常樣本有明顯的位置區(qū)分。
圖4 KPCA降維之后的指標(biāo)數(shù)據(jù)散點(diǎn)圖
對(duì)降維后的指標(biāo)數(shù)據(jù)集進(jìn)行排序并進(jìn)行劃分,70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集。
接受者操作特性曲線(Receiver Operating Characteristic Curve,ROC曲線)是以假陽性率為橫軸,真陽性率為縱軸構(gòu)成的坐標(biāo)曲線。AUC(Area Under Curve)是指ROC曲線與橫坐標(biāo)軸圍成的面積,取值范圍在0.5和1.0之間,越接近1.0,說明方法的應(yīng)用價(jià)值越高。圖5為本文模型的ROC曲線圖,AUC值為0.85,可見模型的分類效果較好,有較高的應(yīng)用價(jià)值。
圖5 接受者操作特性曲線
用混淆矩陣展示本文所提模型的預(yù)測(cè)效果,如表2所示,負(fù)樣本即為串謀樣本。
表2 KPCA+LR模型的混淆矩陣
準(zhǔn)確率表示被預(yù)測(cè)為正樣本的數(shù)量與總樣本數(shù)量的比值,精確率表示真正為正類的樣本數(shù)量與模型將樣本識(shí)別為正類的樣本數(shù)量的比值,具體計(jì)算公式如式(10)和式(11):
式中,V1為正樣本被預(yù)測(cè)為正樣本的數(shù)量;V2為負(fù)樣本被預(yù)測(cè)為正樣本的數(shù)量;V3為正樣本被預(yù)測(cè)為負(fù)樣本的數(shù)量;V4為負(fù)樣本被預(yù)測(cè)為負(fù)樣本的數(shù)量。
采用一種有監(jiān)督模型SVM(Support Vector Machine)與一種無監(jiān)督模型LOF(Local Outlier Factor)與本文模型進(jìn)行比較,如表3所示,KPCA+LR可有效檢測(cè)樣本的異常狀況。雖然LOF在訓(xùn)練過程中不需要帶有標(biāo)簽的數(shù)據(jù),但是準(zhǔn)確率和精確率遠(yuǎn)低于本文模型,具有更高的工程實(shí)用價(jià)值。
表3 不同模型的串謀識(shí)別準(zhǔn)確率和精確率
針對(duì)省間現(xiàn)貨市場(chǎng)發(fā)電企業(yè)串謀行為監(jiān)測(cè)問題,本文構(gòu)建了較全面的適用于中國(guó)電力市場(chǎng)的指標(biāo)體系,提出了KPCA+LR算法。數(shù)據(jù)維度越高導(dǎo)致模型的復(fù)雜度越高,易導(dǎo)致過擬合現(xiàn)象,針對(duì)此問題,本研究提出使用核主成分分析方法進(jìn)行數(shù)據(jù)降維處理。本文所提方法能夠基于電力交易數(shù)據(jù)實(shí)現(xiàn)對(duì)發(fā)電企業(yè)串謀行為的精準(zhǔn)識(shí)別,降低市場(chǎng)風(fēng)險(xiǎn),串謀行為不僅發(fā)生于發(fā)電企業(yè)之間,售電公司以及用戶也會(huì)存在一些串謀行為,針對(duì)不同主體之間的串謀行為識(shí)別問題此方法依舊適用。所提模型能夠?yàn)槭袌?chǎng)監(jiān)管者提供有力的幫助,有助于電力市場(chǎng)的公平穩(wěn)定發(fā)展。