國家電投集團內(nèi)蒙古能源有限公司 高建民
由于火電機組設(shè)備的狀態(tài)數(shù)據(jù)來源廣泛,經(jīng)常會出現(xiàn)數(shù)據(jù)統(tǒng)計口徑不同、數(shù)據(jù)錄入員輸入錯誤等問題,又因為缺少檢測機構(gòu)而造成間歇性的數(shù)據(jù)異常,這些異常數(shù)據(jù)會直接影響到電力數(shù)據(jù)傳輸?shù)臏?zhǔn)確性。為能夠準(zhǔn)確整理這些電力數(shù)據(jù),電力中心大多采用聚類分析的方法對這些火電機組設(shè)備的狀態(tài)數(shù)據(jù)進行整理和分析,從中判斷出異常數(shù)據(jù)。目前已有很多火電機組設(shè)備的狀態(tài)異常數(shù)據(jù)的檢測方法,如基于統(tǒng)計的火電機組設(shè)備狀態(tài)數(shù)據(jù)檢測、基于近鄰模型的火電機組設(shè)備狀態(tài)數(shù)據(jù)檢測等,但這些方法大多準(zhǔn)確性很低,在檢測異常值的過程中經(jīng)常出錯。
為得到具備高準(zhǔn)確性的檢測方法,本文提出了基于密度峰值聚類的火電機組設(shè)備狀態(tài)檢修技術(shù)改進方法。首先需基于密度峰值聚類算法計算兩個樣本點的基礎(chǔ)參數(shù),并根據(jù)這兩個參數(shù)進行火電機組設(shè)備狀態(tài)數(shù)據(jù)的類間距離進行優(yōu)化。通過樣本點與聚類中心的距離集合構(gòu)建決策圖,有了決策圖后,就能直接計算密度峰值聚類算法的無標(biāo)簽歸類,以此判斷故障數(shù)據(jù)并應(yīng)用于火電機組設(shè)備狀態(tài)檢修技術(shù)中。最后設(shè)計實驗,驗證本文算法的準(zhǔn)確性與優(yōu)越性。
密度峰值聚類算法是一種新的基于數(shù)據(jù)挖掘的密度聚類方法,該算法的中心思想在于對中心聚類點的描述[1]。在該算法中通??蓪ふ乙恍┍旧砭途邆湎喈?dāng)大的目的的樣本點,這些樣本點與聚類中心相對距離較遠(yuǎn),位置上對聚類中心呈包圍狀。樣本點通常具備密度和距離兩種特征值,密度通常作為特征點的基本特征,距離則表示該組數(shù)據(jù)的特征點與聚類中心間的聯(lián)系緊密度。因此,通過優(yōu)化火電機組設(shè)備狀態(tài)數(shù)據(jù)的類間距離,形成檢修的決策圖,完成聚類中心在樣本點中的選擇,其特征離散屬性與連續(xù)屬性的定義式如下所示:
其中,i表示特征離散的樣本點,j表示特征連續(xù)的樣本點;χ表示樣本點離散分布的分布規(guī)律;dij表示樣本點i到j(luò)之間的距離;dc表示兩個樣本點間的截斷距離[2]。當(dāng)數(shù)據(jù)集集中于樣本點即理想密度切割時,可通過將樣本i與局部密度間的距離獲取類間密度的最大樣本式(3),此時的類間密度最大樣本即為最大距離,則該樣本點就會被自動識別為聚類中心。因此,對于數(shù)據(jù)集的所有樣本點,均可通過(ρi,δi)的坐標(biāo)設(shè)置二維平面圖,這個二維平面圖又可稱為決策圖[3]。
在決策圖中有著諸多樣本點與聚類中心之間的關(guān)聯(lián)信息,通過決策圖就能直接找到最優(yōu)的火電機組設(shè)備狀態(tài)數(shù)據(jù)類間距離。在利用決策圖進行計算時需額外考慮變量γi,通過ρi和δi能得到一個綜合性的變量信息,其表達(dá)式為式(4),式中i屬于整個樣本集。且根據(jù)定義式,γi的值越大則該樣本點越有可能成為聚類中心。當(dāng)該點成為聚類中心后,其他樣本點則自動成為具備最優(yōu)類間距離的類簇點。通過該方法對原始的密度峰值聚類算法進行一定的優(yōu)化,得到了一個能夠容納極大體量、空間結(jié)構(gòu)也相對復(fù)雜的算法結(jié)構(gòu)。
得到基本的算法結(jié)構(gòu)后,就需集中計算密度峰值聚類算法的無標(biāo)簽歸類,將該算法的幾種情況分別用數(shù)據(jù)表達(dá)出來[4]。在這個算法中主要有兩種思想為基礎(chǔ):一是聚類中心與周圍的樣本點相對密度較低,二是聚類中心與其他相對密度較高的樣本點距離較大?;诖?,每個樣本點進行無標(biāo)簽歸類前提是得到公式(1)和公式(3)的基礎(chǔ)參數(shù)。當(dāng)該聚類中心所在的空間z被曲線和高維數(shù)據(jù)點填充滿后,就能夠構(gòu)造出一個相對簡單的二維空間。
此時為推導(dǎo)出樣本點的標(biāo)簽歸類,可對火電機組設(shè)備的狀態(tài)數(shù)據(jù)即理想樣本采樣,設(shè)樣本為S,樣本點i與樣本點j之間的間隔為z,對多個間隔進行排序,同時將這些間隔構(gòu)建為一個樣本點集K={n1,n2,n3,…,nn-1}。同時,還需要將這些樣本集K中的數(shù)據(jù)進行統(tǒng)計,取出上限和下限以及平均數(shù)和眾數(shù)。按照標(biāo)準(zhǔn)火電機組設(shè)備的狀態(tài)數(shù)據(jù)分組復(fù)制,求出其標(biāo)準(zhǔn)參數(shù)[5]。
綜上所述,此時將最大密度的火電機組設(shè)備狀態(tài)的標(biāo)準(zhǔn)值劃分到其他標(biāo)簽中,并求出區(qū)分標(biāo)準(zhǔn),即密度峰值聚類算法的標(biāo)準(zhǔn)參數(shù)與劃分依據(jù),通過這些數(shù)據(jù)可直接帶入到火電機組設(shè)備故障檢測中,得到其檢修的改進技術(shù)。
利用上文中推導(dǎo)出的密度峰值聚類算法進行火電機組設(shè)備狀態(tài)故障數(shù)據(jù)檢測,需盡量排除聚類簇的影響,也不能使檢測結(jié)果受到聚類中心周邊樣本點個數(shù)的影響,因此密度峰值聚類算法的檢測精度十分依賴于dc的數(shù)值[6]。在考慮樣本類間密度和距離的前提下,將整個數(shù)據(jù)集的局部特征和數(shù)據(jù)異常的規(guī)則判斷明確地表示出來,就能得到較為理想的結(jié)果。首先需構(gòu)造一個原始的樣本集,并計算該樣本集的聚類中心與其他樣本點間的歐式距離d(xi,xj)。將所有距離結(jié)果按照升序排列容納進一個數(shù)據(jù)集,此時第n個距離結(jié)果可表示為Nn(xi)??赏ㄟ^距離結(jié)果的集合計算樣本點之間的局部密度,此時的距離近鄰公式可表示為:N(xi)={j∈X|d(xi,xj)≤d(xiN(xi))}(5),式中N(xi)表示樣本點與聚類中心距離的集合,j表示某一樣本點,X表示樣本點的樣本集。這時可計算火電機組設(shè)備狀態(tài)檢修的兩個參數(shù)并確定其中的異常值。
在計算機中設(shè)計算法時,需要首先根據(jù)公式(1)和公式(3)計算兩個基礎(chǔ)參數(shù),并求出樣本集中各樣本點的歐式距離,此時可集中進行歸一化處理。然后將所有樣本點與聚類中心的位置信息集結(jié)為一個集合,并根據(jù)局部距離因子是否小于1判斷是否需要計算相對密度[7]。若小于1,則可直接將樣本點的相對密度賦值為0;若大于1,則需要根據(jù)公式(3)計算相對密度。得到故障樣本點之間的相對密度之后,就能夠根據(jù)公式(5)距離近鄰公式得到樣本點的相對距離,并以此繪制樣本空間的決策圖,并通過決策圖直接判斷異常點的位置信息。
本實驗通過對比分析,驗證上文中設(shè)計的基于密度峰值聚類的火電機組設(shè)備狀態(tài)檢修改進技術(shù)是否能夠更好地進行火電機組設(shè)備故障點的檢測,與其他傳統(tǒng)檢測算法相比是否更具備優(yōu)越性。
本實驗通過python軟件實現(xiàn)仿真設(shè)計,先后在該仿真軟件上運行本文基于密度峰值聚類改進算法、基于統(tǒng)計的火電機組設(shè)備狀態(tài)數(shù)據(jù)檢測算法、基于近鄰模型的火電機組設(shè)備狀態(tài)數(shù)據(jù)檢測算法。通過這三種算法在運行過程中的對比,得到其算法準(zhǔn)確度的優(yōu)劣比較,驗證本文的研究目的是否實現(xiàn)。實驗中的數(shù)據(jù)來源于某電力公司的一臺火電機組設(shè)備,每0.5h采樣一次,測得其所有有功功率,即每日采集樣本48個。如此一月后將所有樣本整合,得到正常的樣本點1023個、異常樣本點417個。在其中抽取20個樣本點,其中正常樣本點15個、異常樣本點5個,分散在仿真軟件的程序中。
通過計算火電機組設(shè)備狀態(tài)的數(shù)據(jù)情況,驗證該樣本點是否為異常樣本,計算公式為:其中表示經(jīng)過歸一化處理后的火電機組設(shè)備狀態(tài)的數(shù)據(jù)負(fù)荷值,取值區(qū)間為[0,1];i表示該火電機組模型中的樣本點個數(shù),該實驗中取20;Pi表示單次計算該火電機組模型的電力數(shù)據(jù)波動值。對標(biāo)準(zhǔn)化后的數(shù)據(jù)利用上文所述三種算法進行異常值檢測,對比實驗結(jié)果的準(zhǔn)確性,判斷三種算法的優(yōu)越性。
表1 實驗結(jié)果
當(dāng)負(fù)荷值大于0.3340時檢測結(jié)果為異常,否則為正常,因此得到如表1所示的三種算法的檢測結(jié)果。由實驗結(jié)果可知,本文設(shè)計的基于密度峰值聚類的火電機組設(shè)備狀態(tài)檢修改進技術(shù)在20個樣本點中均沒有錯誤發(fā)生,而其他兩種傳統(tǒng)算法均產(chǎn)生了檢測結(jié)果的錯誤,正確率均為90%。由此可知,本文的算法改進所得到的檢測結(jié)果均與標(biāo)準(zhǔn)數(shù)據(jù)相吻合,沒有錯檢或漏檢的情況發(fā)生,確實能夠解決傳統(tǒng)算法檢測準(zhǔn)確性低的問題。然而密度峰值聚類改進算法還存在一定的局限性,雖然在數(shù)據(jù)的準(zhǔn)確度上有所提高,但是卻在一定程度上降低了運算效率,接下來可以根據(jù)這方面進行一定的研究。