國(guó)家電投集團(tuán)內(nèi)蒙古能源有限公司 高建民
由于火電機(jī)組設(shè)備的狀態(tài)數(shù)據(jù)來(lái)源廣泛,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)統(tǒng)計(jì)口徑不同、數(shù)據(jù)錄入員輸入錯(cuò)誤等問(wèn)題,又因?yàn)槿鄙贆z測(cè)機(jī)構(gòu)而造成間歇性的數(shù)據(jù)異常,這些異常數(shù)據(jù)會(huì)直接影響到電力數(shù)據(jù)傳輸?shù)臏?zhǔn)確性。為能夠準(zhǔn)確整理這些電力數(shù)據(jù),電力中心大多采用聚類(lèi)分析的方法對(duì)這些火電機(jī)組設(shè)備的狀態(tài)數(shù)據(jù)進(jìn)行整理和分析,從中判斷出異常數(shù)據(jù)。目前已有很多火電機(jī)組設(shè)備的狀態(tài)異常數(shù)據(jù)的檢測(cè)方法,如基于統(tǒng)計(jì)的火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)檢測(cè)、基于近鄰模型的火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)檢測(cè)等,但這些方法大多準(zhǔn)確性很低,在檢測(cè)異常值的過(guò)程中經(jīng)常出錯(cuò)。
為得到具備高準(zhǔn)確性的檢測(cè)方法,本文提出了基于密度峰值聚類(lèi)的火電機(jī)組設(shè)備狀態(tài)檢修技術(shù)改進(jìn)方法。首先需基于密度峰值聚類(lèi)算法計(jì)算兩個(gè)樣本點(diǎn)的基礎(chǔ)參數(shù),并根據(jù)這兩個(gè)參數(shù)進(jìn)行火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)的類(lèi)間距離進(jìn)行優(yōu)化。通過(guò)樣本點(diǎn)與聚類(lèi)中心的距離集合構(gòu)建決策圖,有了決策圖后,就能直接計(jì)算密度峰值聚類(lèi)算法的無(wú)標(biāo)簽歸類(lèi),以此判斷故障數(shù)據(jù)并應(yīng)用于火電機(jī)組設(shè)備狀態(tài)檢修技術(shù)中。最后設(shè)計(jì)實(shí)驗(yàn),驗(yàn)證本文算法的準(zhǔn)確性與優(yōu)越性。
密度峰值聚類(lèi)算法是一種新的基于數(shù)據(jù)挖掘的密度聚類(lèi)方法,該算法的中心思想在于對(duì)中心聚類(lèi)點(diǎn)的描述[1]。在該算法中通??蓪ふ乙恍┍旧砭途邆湎喈?dāng)大的目的的樣本點(diǎn),這些樣本點(diǎn)與聚類(lèi)中心相對(duì)距離較遠(yuǎn),位置上對(duì)聚類(lèi)中心呈包圍狀。樣本點(diǎn)通常具備密度和距離兩種特征值,密度通常作為特征點(diǎn)的基本特征,距離則表示該組數(shù)據(jù)的特征點(diǎn)與聚類(lèi)中心間的聯(lián)系緊密度。因此,通過(guò)優(yōu)化火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)的類(lèi)間距離,形成檢修的決策圖,完成聚類(lèi)中心在樣本點(diǎn)中的選擇,其特征離散屬性與連續(xù)屬性的定義式如下所示:
其中,i表示特征離散的樣本點(diǎn),j表示特征連續(xù)的樣本點(diǎn);χ表示樣本點(diǎn)離散分布的分布規(guī)律;dij表示樣本點(diǎn)i到j(luò)之間的距離;dc表示兩個(gè)樣本點(diǎn)間的截?cái)嗑嚯x[2]。當(dāng)數(shù)據(jù)集集中于樣本點(diǎn)即理想密度切割時(shí),可通過(guò)將樣本i與局部密度間的距離獲取類(lèi)間密度的最大樣本式(3),此時(shí)的類(lèi)間密度最大樣本即為最大距離,則該樣本點(diǎn)就會(huì)被自動(dòng)識(shí)別為聚類(lèi)中心。因此,對(duì)于數(shù)據(jù)集的所有樣本點(diǎn),均可通過(guò)(ρi,δi)的坐標(biāo)設(shè)置二維平面圖,這個(gè)二維平面圖又可稱(chēng)為決策圖[3]。
在決策圖中有著諸多樣本點(diǎn)與聚類(lèi)中心之間的關(guān)聯(lián)信息,通過(guò)決策圖就能直接找到最優(yōu)的火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)類(lèi)間距離。在利用決策圖進(jìn)行計(jì)算時(shí)需額外考慮變量γi,通過(guò)ρi和δi能得到一個(gè)綜合性的變量信息,其表達(dá)式為式(4),式中i屬于整個(gè)樣本集。且根據(jù)定義式,γi的值越大則該樣本點(diǎn)越有可能成為聚類(lèi)中心。當(dāng)該點(diǎn)成為聚類(lèi)中心后,其他樣本點(diǎn)則自動(dòng)成為具備最優(yōu)類(lèi)間距離的類(lèi)簇點(diǎn)。通過(guò)該方法對(duì)原始的密度峰值聚類(lèi)算法進(jìn)行一定的優(yōu)化,得到了一個(gè)能夠容納極大體量、空間結(jié)構(gòu)也相對(duì)復(fù)雜的算法結(jié)構(gòu)。
得到基本的算法結(jié)構(gòu)后,就需集中計(jì)算密度峰值聚類(lèi)算法的無(wú)標(biāo)簽歸類(lèi),將該算法的幾種情況分別用數(shù)據(jù)表達(dá)出來(lái)[4]。在這個(gè)算法中主要有兩種思想為基礎(chǔ):一是聚類(lèi)中心與周?chē)臉颖军c(diǎn)相對(duì)密度較低,二是聚類(lèi)中心與其他相對(duì)密度較高的樣本點(diǎn)距離較大。基于此,每個(gè)樣本點(diǎn)進(jìn)行無(wú)標(biāo)簽歸類(lèi)前提是得到公式(1)和公式(3)的基礎(chǔ)參數(shù)。當(dāng)該聚類(lèi)中心所在的空間z被曲線和高維數(shù)據(jù)點(diǎn)填充滿(mǎn)后,就能夠構(gòu)造出一個(gè)相對(duì)簡(jiǎn)單的二維空間。
此時(shí)為推導(dǎo)出樣本點(diǎn)的標(biāo)簽歸類(lèi),可對(duì)火電機(jī)組設(shè)備的狀態(tài)數(shù)據(jù)即理想樣本采樣,設(shè)樣本為S,樣本點(diǎn)i與樣本點(diǎn)j之間的間隔為z,對(duì)多個(gè)間隔進(jìn)行排序,同時(shí)將這些間隔構(gòu)建為一個(gè)樣本點(diǎn)集K={n1,n2,n3,…,nn-1}。同時(shí),還需要將這些樣本集K中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),取出上限和下限以及平均數(shù)和眾數(shù)。按照標(biāo)準(zhǔn)火電機(jī)組設(shè)備的狀態(tài)數(shù)據(jù)分組復(fù)制,求出其標(biāo)準(zhǔn)參數(shù)[5]。
綜上所述,此時(shí)將最大密度的火電機(jī)組設(shè)備狀態(tài)的標(biāo)準(zhǔn)值劃分到其他標(biāo)簽中,并求出區(qū)分標(biāo)準(zhǔn),即密度峰值聚類(lèi)算法的標(biāo)準(zhǔn)參數(shù)與劃分依據(jù),通過(guò)這些數(shù)據(jù)可直接帶入到火電機(jī)組設(shè)備故障檢測(cè)中,得到其檢修的改進(jìn)技術(shù)。
利用上文中推導(dǎo)出的密度峰值聚類(lèi)算法進(jìn)行火電機(jī)組設(shè)備狀態(tài)故障數(shù)據(jù)檢測(cè),需盡量排除聚類(lèi)簇的影響,也不能使檢測(cè)結(jié)果受到聚類(lèi)中心周邊樣本點(diǎn)個(gè)數(shù)的影響,因此密度峰值聚類(lèi)算法的檢測(cè)精度十分依賴(lài)于dc的數(shù)值[6]。在考慮樣本類(lèi)間密度和距離的前提下,將整個(gè)數(shù)據(jù)集的局部特征和數(shù)據(jù)異常的規(guī)則判斷明確地表示出來(lái),就能得到較為理想的結(jié)果。首先需構(gòu)造一個(gè)原始的樣本集,并計(jì)算該樣本集的聚類(lèi)中心與其他樣本點(diǎn)間的歐式距離d(xi,xj)。將所有距離結(jié)果按照升序排列容納進(jìn)一個(gè)數(shù)據(jù)集,此時(shí)第n個(gè)距離結(jié)果可表示為Nn(xi)??赏ㄟ^(guò)距離結(jié)果的集合計(jì)算樣本點(diǎn)之間的局部密度,此時(shí)的距離近鄰公式可表示為:N(xi)={j∈X|d(xi,xj)≤d(xiN(xi))}(5),式中N(xi)表示樣本點(diǎn)與聚類(lèi)中心距離的集合,j表示某一樣本點(diǎn),X表示樣本點(diǎn)的樣本集。這時(shí)可計(jì)算火電機(jī)組設(shè)備狀態(tài)檢修的兩個(gè)參數(shù)并確定其中的異常值。
在計(jì)算機(jī)中設(shè)計(jì)算法時(shí),需要首先根據(jù)公式(1)和公式(3)計(jì)算兩個(gè)基礎(chǔ)參數(shù),并求出樣本集中各樣本點(diǎn)的歐式距離,此時(shí)可集中進(jìn)行歸一化處理。然后將所有樣本點(diǎn)與聚類(lèi)中心的位置信息集結(jié)為一個(gè)集合,并根據(jù)局部距離因子是否小于1判斷是否需要計(jì)算相對(duì)密度[7]。若小于1,則可直接將樣本點(diǎn)的相對(duì)密度賦值為0;若大于1,則需要根據(jù)公式(3)計(jì)算相對(duì)密度。得到故障樣本點(diǎn)之間的相對(duì)密度之后,就能夠根據(jù)公式(5)距離近鄰公式得到樣本點(diǎn)的相對(duì)距離,并以此繪制樣本空間的決策圖,并通過(guò)決策圖直接判斷異常點(diǎn)的位置信息。
本實(shí)驗(yàn)通過(guò)對(duì)比分析,驗(yàn)證上文中設(shè)計(jì)的基于密度峰值聚類(lèi)的火電機(jī)組設(shè)備狀態(tài)檢修改進(jìn)技術(shù)是否能夠更好地進(jìn)行火電機(jī)組設(shè)備故障點(diǎn)的檢測(cè),與其他傳統(tǒng)檢測(cè)算法相比是否更具備優(yōu)越性。
本實(shí)驗(yàn)通過(guò)python軟件實(shí)現(xiàn)仿真設(shè)計(jì),先后在該仿真軟件上運(yùn)行本文基于密度峰值聚類(lèi)改進(jìn)算法、基于統(tǒng)計(jì)的火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)檢測(cè)算法、基于近鄰模型的火電機(jī)組設(shè)備狀態(tài)數(shù)據(jù)檢測(cè)算法。通過(guò)這三種算法在運(yùn)行過(guò)程中的對(duì)比,得到其算法準(zhǔn)確度的優(yōu)劣比較,驗(yàn)證本文的研究目的是否實(shí)現(xiàn)。實(shí)驗(yàn)中的數(shù)據(jù)來(lái)源于某電力公司的一臺(tái)火電機(jī)組設(shè)備,每0.5h采樣一次,測(cè)得其所有有功功率,即每日采集樣本48個(gè)。如此一月后將所有樣本整合,得到正常的樣本點(diǎn)1023個(gè)、異常樣本點(diǎn)417個(gè)。在其中抽取20個(gè)樣本點(diǎn),其中正常樣本點(diǎn)15個(gè)、異常樣本點(diǎn)5個(gè),分散在仿真軟件的程序中。
通過(guò)計(jì)算火電機(jī)組設(shè)備狀態(tài)的數(shù)據(jù)情況,驗(yàn)證該樣本點(diǎn)是否為異常樣本,計(jì)算公式為:其中表示經(jīng)過(guò)歸一化處理后的火電機(jī)組設(shè)備狀態(tài)的數(shù)據(jù)負(fù)荷值,取值區(qū)間為[0,1];i表示該火電機(jī)組模型中的樣本點(diǎn)個(gè)數(shù),該實(shí)驗(yàn)中取20;Pi表示單次計(jì)算該火電機(jī)組模型的電力數(shù)據(jù)波動(dòng)值。對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)利用上文所述三種算法進(jìn)行異常值檢測(cè),對(duì)比實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,判斷三種算法的優(yōu)越性。
表1 實(shí)驗(yàn)結(jié)果
當(dāng)負(fù)荷值大于0.3340時(shí)檢測(cè)結(jié)果為異常,否則為正常,因此得到如表1所示的三種算法的檢測(cè)結(jié)果。由實(shí)驗(yàn)結(jié)果可知,本文設(shè)計(jì)的基于密度峰值聚類(lèi)的火電機(jī)組設(shè)備狀態(tài)檢修改進(jìn)技術(shù)在20個(gè)樣本點(diǎn)中均沒(méi)有錯(cuò)誤發(fā)生,而其他兩種傳統(tǒng)算法均產(chǎn)生了檢測(cè)結(jié)果的錯(cuò)誤,正確率均為90%。由此可知,本文的算法改進(jìn)所得到的檢測(cè)結(jié)果均與標(biāo)準(zhǔn)數(shù)據(jù)相吻合,沒(méi)有錯(cuò)檢或漏檢的情況發(fā)生,確實(shí)能夠解決傳統(tǒng)算法檢測(cè)準(zhǔn)確性低的問(wèn)題。然而密度峰值聚類(lèi)改進(jìn)算法還存在一定的局限性,雖然在數(shù)據(jù)的準(zhǔn)確度上有所提高,但是卻在一定程度上降低了運(yùn)算效率,接下來(lái)可以根據(jù)這方面進(jìn)行一定的研究。