楊冰芳,徐友剛,董 玥,孫 進(jìn)
(國(guó)網(wǎng)上海市電力公司青浦供電公司,上海 201700)
電力不良負(fù)荷的辨識(shí)和剔除是電力系統(tǒng)實(shí)時(shí)分析的重要組成部分,可為電力系統(tǒng)穩(wěn)定運(yùn)行提供實(shí)時(shí)依據(jù),有利于電力實(shí)時(shí)評(píng)估與分析[1-3]。簡(jiǎn)單的不良數(shù)據(jù)辨識(shí)方法容易對(duì)數(shù)據(jù)進(jìn)行漏判或者誤判,導(dǎo)致數(shù)據(jù)庫(kù)失真,不僅不利于精確地進(jìn)行負(fù)荷預(yù)測(cè),同時(shí)也對(duì)電力系統(tǒng)的調(diào)度造成了困擾[4]。因此,對(duì)不良數(shù)據(jù)的辨識(shí)和剔除具有重要的意義。
傳統(tǒng)的不良數(shù)據(jù)辨識(shí)主要采用神經(jīng)網(wǎng)絡(luò)法和聚類分析法等。文獻(xiàn)[5]在云集群環(huán)境下,利用基于 Spark 的并行 K-means 算法對(duì)負(fù)荷數(shù)據(jù)進(jìn)行聚類分析出日特征曲線,并將其作為基準(zhǔn)值辨識(shí)和處理不良數(shù)據(jù),縮短了計(jì)算時(shí)間,在海量數(shù)據(jù)下具有明顯優(yōu)勢(shì),但是在數(shù)據(jù)量不足時(shí)無(wú)法得出有效的特征值曲線。文獻(xiàn)[6]通過(guò)GSA肘形判據(jù)對(duì)量測(cè)數(shù)據(jù)進(jìn)行最優(yōu)聚類,獲得一組唯一確定正確的數(shù)據(jù)組,擬合負(fù)荷變化,但是在簡(jiǎn)單的日負(fù)荷不良數(shù)據(jù)辨識(shí)的實(shí)際應(yīng)用中得不到較好的效果。文獻(xiàn)[7]利用ARMA模型擬合電力數(shù)據(jù),將具有較大擬合殘差的數(shù)據(jù)作為不良數(shù)據(jù)剔除,但是該方法具有較大的隨機(jī)性,不利于電力系統(tǒng)的穩(wěn)定運(yùn)行。文獻(xiàn)[8]利用新息圖法,能夠單個(gè)量測(cè)壞數(shù)據(jù)和參數(shù)錯(cuò)誤同時(shí)存在的情況進(jìn)行辨識(shí),但在多不良數(shù)據(jù)情況下辨識(shí)效果較差。文獻(xiàn)[9]利用圖論的方法推導(dǎo)所給系統(tǒng)中量測(cè)值之間的數(shù)學(xué)關(guān)系,并且充分考慮其相互校驗(yàn)作用,提高不良數(shù)據(jù)辨識(shí)的可靠性,但算法耗時(shí)較長(zhǎng)。這些算法都通過(guò)大量的數(shù)據(jù)頻繁迭代來(lái)實(shí)現(xiàn)不良數(shù)據(jù)的辨識(shí),算法的復(fù)雜度高,在多不良數(shù)據(jù)情況下無(wú)法有效辨識(shí)不良數(shù)據(jù)。本文基于多不良數(shù)據(jù)情況,對(duì)模糊C均值聚類(Fuzzy c-means, 簡(jiǎn)稱FCM)算法進(jìn)行基于分化距離作為判據(jù)的改進(jìn)分析。
FCM方法是一種基于模糊隸屬度,根據(jù)有效性指標(biāo)聚類的無(wú)監(jiān)督學(xué)習(xí)算法,可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行有效分類處理。在不良負(fù)荷數(shù)據(jù)辨識(shí)中可以將具有孤立特征的數(shù)據(jù)點(diǎn)分離,但在海量數(shù)據(jù)情況下計(jì)算量大,且容易模糊不良數(shù)據(jù)的類別,無(wú)法在多不良數(shù)據(jù)狀態(tài)下進(jìn)行有效地辨識(shí)和剔除。為了減少誤判漏判,準(zhǔn)確地識(shí)別出不良數(shù)據(jù),構(gòu)建一個(gè)更加完備優(yōu)秀的數(shù)據(jù)庫(kù),本文提出一種分化距離改進(jìn)的FCM用于不良數(shù)據(jù)辨識(shí)。結(jié)果表明,該方法能夠有效識(shí)別不良數(shù)據(jù),所得數(shù)據(jù)庫(kù)對(duì)于提高負(fù)荷預(yù)測(cè)精度具有工程實(shí)用性。
對(duì)于電力負(fù)荷而言,有諸多影響因素如溫度、國(guó)民經(jīng)濟(jì)等。這些因素,通常具有較大的不確定性,例如國(guó)民經(jīng)濟(jì)發(fā)展水平、氣候條件;除此之外,用電單位和設(shè)備的特性以及用電方式變化,這些都是變化且難以預(yù)測(cè)的,并且對(duì)負(fù)荷的大小具有決定性意義。因此,綜合考慮影響負(fù)荷因素在不良數(shù)據(jù)辨識(shí)中尤為重要。
在進(jìn)行數(shù)據(jù)分析時(shí),首先考慮溫度和氣候這些不可控因素。日最高溫、最低溫采集自中國(guó)天氣網(wǎng)。氣候因素如日照強(qiáng)度,濕度影響人體舒適度,部分參與影響人的用電行為,參考文獻(xiàn)[10],量化天氣類型如表1所示。考慮到本文針對(duì)日負(fù)荷不良數(shù)據(jù)辨識(shí),一日中天氣類型并不單一的特點(diǎn),細(xì)化兩兩氣象間關(guān)聯(lián)性關(guān)系量化天氣類型,量化特征指數(shù)如表2所示。根據(jù)量化出的天氣特征值表示日照強(qiáng)度、濕度等氣候因素對(duì)負(fù)荷的影響指數(shù)。
表1 天氣類型及其對(duì)應(yīng)的量化值
表2 天氣特征值數(shù)值表
除了這些影響因素外,還有一些其他因素如人均消費(fèi)水平、項(xiàng)目經(jīng)費(fèi)指標(biāo)等也對(duì)負(fù)荷的大小具有影響。對(duì)于日負(fù)荷來(lái)說(shuō),這些因素變化緩慢。對(duì)于長(zhǎng)時(shí)間范圍的負(fù)荷大小記錄分析發(fā)現(xiàn),負(fù)荷的變化總體呈現(xiàn)穩(wěn)定的增長(zhǎng)趨勢(shì);而對(duì)日負(fù)荷影響因素而言,受這些因素影響變化趨勢(shì)基本為零,故忽略不計(jì)。
FCM算法是一種基于劃分的聚類算法,通過(guò)對(duì)數(shù)據(jù)對(duì)象之間的歐幾里德距離迭代計(jì)算,使得具有相似特征的數(shù)據(jù)聚成一類。它的主要思想使得劃分到同一類別中數(shù)據(jù)對(duì)象之間具有最大的相似度,而不同類之間具有差異性。相對(duì)于傳統(tǒng)K-means算法,F(xiàn)CM一種柔性的模糊劃分[11-12]。
2.1.1 模糊集基本知識(shí)
隸屬度函數(shù)表示一個(gè)對(duì)象x從屬于數(shù)據(jù)集合A的程度函數(shù),記做μA(x),對(duì)象x為集合A所在空間包含的所有數(shù)據(jù)對(duì)象,隸屬度取值范圍[0,1],即0<=μA(x)<=1。μA(x)=1表示x∈A,即x完全從屬于A。定義在空間X={x}上的隸屬度函數(shù)等價(jià)于定義了一個(gè)模糊集合A,即定義在論域X={x}上的模糊子集A。對(duì)于有限個(gè)對(duì)象x1,x2,……,xn模糊集合A可以表示為
A={μA(xi),xi} |xi∈X}
(1)
每個(gè)數(shù)據(jù)點(diǎn)隸屬于某類的隸屬度用[0,1]區(qū)間內(nèi)的值表示。
2.1.2 FCM算法及其缺點(diǎn)
FCM算法流程圖如圖1所示。FCM也稱作模糊ISODATA,通過(guò)隸屬度確定每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)類的程度,從而劃分?jǐn)?shù)據(jù)點(diǎn)類別。FCM把n個(gè)向量xi(i=1,2,…,n)劃分為c個(gè)模糊組,求取使得非相似性指標(biāo)的價(jià)值函數(shù)達(dá)到最小時(shí)的每組聚類中心,從而得到最佳聚類。相較傳統(tǒng)聚類而言,F(xiàn)CM用模糊劃分類別,即樣本數(shù)據(jù)點(diǎn)對(duì)各個(gè)類別的隸屬矩陣U用[0,1]內(nèi)的值模糊定義。由于進(jìn)行歸一化處理,則一個(gè)數(shù)據(jù)集的隸屬度的和總等于1。
圖1 FCM算法流程圖
(2)
則FCM的價(jià)值函數(shù)如下:
(3)
構(gòu)造如下新的目標(biāo)函數(shù):
(4)
式(4)中,λj(j=1,2,…,n),n個(gè)約束式的拉格朗日乘子,通過(guò)對(duì)所有輸入?yún)⒘壳髮?dǎo),得到使價(jià)值函數(shù)達(dá)到最小的必要條件:
(5)
(6)
由這兩個(gè)必要條件可知,F(xiàn)CM是一個(gè)簡(jiǎn)單的迭代算法。在進(jìn)行數(shù)據(jù)批處理時(shí),F(xiàn)CM通過(guò)以下步驟確定聚類中心ci和隸屬矩陣U:
步驟1:用 [0,1]內(nèi)的隨機(jī)數(shù)初始化隸屬矩陣U,使其滿足式(4)等式約束。
步驟2:計(jì)算c個(gè)聚類中心ci,i=1,…,c。
步驟3:計(jì)算價(jià)值函數(shù)。當(dāng)滿足價(jià)值函數(shù)小于設(shè)定的閾值或所求價(jià)值函數(shù)相對(duì)上次值變化量小于某個(gè)閾值,則算法停止。
步驟4:計(jì)算新的U矩陣。返回步驟2。
本文通過(guò)Matlab實(shí)現(xiàn)FCM算法程序,流程圖如圖1所示。
單一的FCM算法無(wú)法準(zhǔn)確有效地剔除不良負(fù)荷數(shù)據(jù),在數(shù)據(jù)量不足的情況下,電力負(fù)荷的孤立點(diǎn)容易被作為離群數(shù)據(jù)剔除,真正的離群數(shù)據(jù)和優(yōu)秀的負(fù)荷數(shù)據(jù)容易由于特征值的選取被聚到同一類當(dāng)中。所謂的孤立點(diǎn),即沒(méi)有足夠多的相似輸入的點(diǎn)。在后續(xù)離群點(diǎn)剔除中,由于沒(méi)有相似輸入,容易會(huì)被判定為錯(cuò)誤數(shù)據(jù),其實(shí)是由于數(shù)據(jù)量不足造成的不具備有足夠的相似輸入。因此本文提出了基于分化距離改進(jìn)的FCM算法。
基于兩極分化的思想,綜合考慮對(duì)象之間的密度和距離,本文提出了分化距離改進(jìn)的FCM算法,在聚類的基礎(chǔ)上能夠精準(zhǔn)快速地發(fā)現(xiàn)離群點(diǎn)。雙重不良數(shù)據(jù)辨識(shí)屏障有利于構(gòu)建一個(gè)更加優(yōu)秀的電力負(fù)荷數(shù)據(jù)庫(kù)。
2.2.1 分化距離
經(jīng)過(guò)FCM處理后,分別計(jì)算各類別中任意倆個(gè)數(shù)據(jù)點(diǎn)xi和xj之間的實(shí)際歐式距離D(i,j)和最大距離Dmax,選取一個(gè) [0,1]內(nèi)的數(shù)值作為分化度μ,對(duì)全部D(i,j)進(jìn)行分化計(jì)算[13-14], 即放大數(shù)據(jù)對(duì)象之間的距離,得到處理后xi和xj之間的分化距離為r(i,j),其關(guān)系式:
(7)
分化距離的思想實(shí)質(zhì)是比較分化度μ與D(i,j)與Dmax的比值,若比值小于μ,則會(huì)縮小比值使得分化距離小于實(shí)際距離;反之,分化距離會(huì)被放大。比值和μ的差值與分化距離呈現(xiàn)斜率增大的反比趨勢(shì),即差值越大,其分化距離就會(huì)越小;差值越小,其分化距離反而越大。通過(guò)分化處理,聚類中關(guān)聯(lián)性大的數(shù)據(jù)更加緊密,同時(shí)分離具有差異性的數(shù)據(jù),使得離群點(diǎn)距離正常值更遠(yuǎn),從而達(dá)到兩極分化的目的。
2.2.2 算法流程
基于分化距離改進(jìn)的FCM不良數(shù)據(jù)檢測(cè)算法的基礎(chǔ)是基于數(shù)據(jù)密度和距離的離群點(diǎn)檢測(cè)算法。通過(guò)討論數(shù)據(jù)對(duì)象鄰居密度來(lái)判定其是不是不良數(shù)據(jù)點(diǎn)。
假設(shè)數(shù)據(jù)集質(zhì)心到所有數(shù)據(jù)點(diǎn)距離的平均距離為Adistance,定義R,代表數(shù)據(jù)對(duì)象周圍的距離大。
(8)
則對(duì)象周圍的鄰居密度即該對(duì)象R范圍內(nèi)其他數(shù)據(jù)點(diǎn)的個(gè)數(shù)。當(dāng)友鄰居密度即鄰居點(diǎn)個(gè)數(shù)小于設(shè)定數(shù)目Knum,則被認(rèn)為是離群數(shù)據(jù),即不良數(shù)據(jù)點(diǎn)。通過(guò)比較r(i,j)和R的關(guān)系,不用計(jì)算最大距離,即可判斷對(duì)象鄰居點(diǎn)的個(gè)數(shù),簡(jiǎn)化算法流程,提高了算法的效率。
算法步驟如下。
(1)輸入聚類所得數(shù)據(jù)集,分化度μ,最少鄰居數(shù)Knum。
(2)計(jì)算聚類各類別中質(zhì)心及Adistance。
(3)計(jì)算數(shù)據(jù)集距離R1和數(shù)據(jù)對(duì)象xi的分化距離r1(i,j)。
R1=μ·Adistance
(9)
(10)
(4)比較r1(i,j)與R1的關(guān)系。若r1(i,j)
(5)不滿足K>Knum的數(shù)據(jù)對(duì)象作為不良數(shù)據(jù)剔除。
本文采用華南地區(qū)某大學(xué)126日負(fù)荷作為歷史數(shù)據(jù)庫(kù)分析。首先將負(fù)荷影響因素按聚類原則將負(fù)荷類型分類。在同類數(shù)據(jù)中,通過(guò)分化距離判斷數(shù)據(jù)是否異常,對(duì)該大學(xué)數(shù)據(jù)進(jìn)行不良負(fù)荷數(shù)據(jù)辨識(shí),結(jié)果如圖2所示。圓點(diǎn)表示優(yōu)秀數(shù)據(jù),正方形表示不良數(shù)據(jù),不良數(shù)據(jù)如表3所示。
圖2 不良數(shù)據(jù)辨識(shí)
表3 聚類不良數(shù)據(jù)分析
由表3可知,用電量493.6 kWh和用電量292.0 kWh具有相似的特征值輸入,輸出均偏離該輸入下應(yīng)有的輸出,電量值具有離群特性,可作為不良數(shù)據(jù)剔除。通過(guò)查閱相關(guān)信息,用電量為493.6 kWh當(dāng)天,某試驗(yàn)室通宵開(kāi)放使用大功率實(shí)驗(yàn)儀器;用電量為292.0 kWh當(dāng)天,某試驗(yàn)室人員由于集體活動(dòng)未在實(shí)驗(yàn)室工作,因此出現(xiàn)用電量異常。因此本方法能夠識(shí)別出異常數(shù)據(jù)。
進(jìn)一步采用預(yù)測(cè)算法對(duì)原數(shù)據(jù)、簡(jiǎn)單聚類不良數(shù)據(jù)剔除后的數(shù)據(jù)、分化距離剔除不良數(shù)據(jù)后的數(shù)據(jù),基于分化距離改進(jìn)FCM不量數(shù)據(jù)剔除后的數(shù)據(jù)庫(kù)分別進(jìn)行預(yù)測(cè)校驗(yàn),預(yù)測(cè)結(jié)果見(jiàn)表4。
由表4結(jié)果表明,通過(guò)本文所用方法不良數(shù)據(jù)個(gè)數(shù)為6,能在傳統(tǒng)聚類方法的基礎(chǔ)上,結(jié)合分化距離的優(yōu)點(diǎn),準(zhǔn)確地辨識(shí)出隱藏的不良數(shù)據(jù)點(diǎn),有效地提高了不良數(shù)據(jù)的辨識(shí)效果。所得歷史數(shù)據(jù)在預(yù)測(cè)校驗(yàn)中的預(yù)測(cè)精度為7.91%,有利于負(fù)荷預(yù)測(cè)數(shù)據(jù)庫(kù)的構(gòu)建。從表4分析得出,本文提出的算法執(zhí)行速度優(yōu)于單方面考慮兩種算法,在改善辨識(shí)精度的同時(shí)提高了算法效率。
表4 算法結(jié)果比較分析
本文在對(duì)普通FCM應(yīng)用于不良負(fù)荷數(shù)據(jù)辨識(shí)的研究基礎(chǔ)上提出了一種以分化距離作為判據(jù)識(shí)別不良數(shù)據(jù),并將其與FCM相結(jié)合形成基于分化距離改進(jìn)的FCM算法。
本文將該方法應(yīng)用于某大學(xué)的不良負(fù)荷數(shù)據(jù)辨識(shí),通過(guò)仿真對(duì)不同方法進(jìn)行簡(jiǎn)化處理后的數(shù)據(jù)庫(kù)仿真可以發(fā)現(xiàn),與傳統(tǒng)的FCM方法相比,該方法可以尋找出隱藏的不良數(shù)據(jù)點(diǎn),可以有效避免數(shù)據(jù)淹沒(méi)。與分化距離方法相比,該方法基于聚類,細(xì)分?jǐn)?shù)據(jù)類別,客觀準(zhǔn)確地識(shí)別不良數(shù)據(jù),并且相對(duì)原方法,簡(jiǎn)化了算法運(yùn)算范圍,提高了計(jì)算速度。在海量數(shù)據(jù)情況下,該方法能夠有效辨識(shí)多不良數(shù)據(jù),具有很好的應(yīng)用前景。