高 瑜, 仝衛(wèi)國(guó)
(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,河北保定071003)
?
基于關(guān)聯(lián)規(guī)則的一次風(fēng)機(jī)故障預(yù)警方法研究
高瑜, 仝衛(wèi)國(guó)
(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,河北保定071003)
為了減少發(fā)電廠設(shè)備故障造成的損失和降低檢修費(fèi)用,基于DCS數(shù)據(jù)庫(kù)中的大量運(yùn)行數(shù)據(jù),利用關(guān)聯(lián)數(shù)據(jù)挖掘的方法發(fā)現(xiàn)一次風(fēng)機(jī)各測(cè)量量之間隱藏的關(guān)系,建立關(guān)聯(lián)規(guī)則庫(kù),通過(guò)當(dāng)前運(yùn)行數(shù)據(jù)與規(guī)則庫(kù)的匹配程度,判斷設(shè)備是否處于故障形成過(guò)程,從而達(dá)到故障預(yù)警的目的。實(shí)驗(yàn)結(jié)果表明,該方法能夠在設(shè)備故障形成早期及時(shí)發(fā)現(xiàn)問(wèn)題,提前報(bào)警,進(jìn)而證明基于運(yùn)行數(shù)據(jù)的關(guān)聯(lián)規(guī)則,可以準(zhǔn)確地反映一次風(fēng)機(jī)各測(cè)量量之間的關(guān)系,并在故障預(yù)警中達(dá)到良好的效果。
電廠;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;故障;預(yù)警
關(guān)聯(lián)規(guī)則是指從大量的,看似沒(méi)有關(guān)系的數(shù)據(jù)中發(fā)現(xiàn)潛藏在數(shù)據(jù)多個(gè)屬性之間的相互關(guān)聯(lián)或者某種規(guī)律,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是數(shù)據(jù)挖掘中最重要的任務(wù)之一[1]。火電廠DCS數(shù)據(jù)庫(kù)中蘊(yùn)含著大量的機(jī)組運(yùn)行數(shù)據(jù),而這些數(shù)據(jù)中隱藏著大量不為人所知的知識(shí),關(guān)聯(lián)規(guī)則即是設(shè)備各測(cè)點(diǎn)之間隱含的耦合關(guān)系,當(dāng)故障開(kāi)始形成時(shí),這種關(guān)系就逐漸被打破。據(jù)此,本文旨在運(yùn)用數(shù)據(jù)挖掘的方法,發(fā)現(xiàn)蘊(yùn)藏在大量數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,從而利用關(guān)聯(lián)規(guī)則建立設(shè)備故障預(yù)警模型,并驗(yàn)證關(guān)聯(lián)規(guī)則在設(shè)備預(yù)警中的有效性。DCS數(shù)據(jù)庫(kù)中各測(cè)點(diǎn)均為數(shù)量型屬性,本文采用CA算法將數(shù)量型屬性劃分成若干個(gè)優(yōu)化的區(qū)間,從而達(dá)到將數(shù)量型屬性離散化的目的[2],然后用經(jīng)典的Apriori挖掘算法發(fā)現(xiàn)頻繁項(xiàng)集并挖掘關(guān)聯(lián)規(guī)則。再利用所挖掘出的關(guān)聯(lián)規(guī)則建立預(yù)警模型,并驗(yàn)證本文所提出的預(yù)警方法的有效性。本文采集了某電廠1號(hào)一次風(fēng)機(jī)的歷史運(yùn)行數(shù)據(jù)作為研究對(duì)象。
布爾型關(guān)聯(lián)規(guī)則″W?Z″的支持率定義為:
其中,Support(W∪Z)為數(shù)據(jù)庫(kù)所有記錄中包含W∪Z的記錄個(gè)數(shù),稱為W∪Z的支持?jǐn)?shù);n為數(shù)據(jù)庫(kù)的記錄總條數(shù)。即支持率代表事物在所有記錄中出現(xiàn)的頻率。
布爾型關(guān)聯(lián)規(guī)則″W?Z″的信任度定義為:
即信任度代表某事物在已經(jīng)發(fā)生的事務(wù)中出現(xiàn)的條件概率。
滿足給定的最小支持率(minSup)和最小信任度(minConf)條件的關(guān)聯(lián)規(guī)則稱為有意義的關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的挖掘問(wèn)題就是要從數(shù)據(jù)庫(kù)的記錄中找出有意義的關(guān)聯(lián)規(guī)則。
Aprori算法是一種廣度優(yōu)先算法,用來(lái)產(chǎn)生頻繁項(xiàng)集。通過(guò)對(duì)數(shù)據(jù)庫(kù)T的多次掃描來(lái)發(fā)現(xiàn)所有的頻繁屬性集,在每一次掃描中只考慮包含相同屬性個(gè)數(shù)的所有集合(含有k個(gè)屬性的集合稱為k-屬性集)。在第1次掃描中,Apriori算法計(jì)算I中所有屬性的支持度,生成所有1-頻繁屬性集L1;然后根據(jù)L1確定2-候選屬性集的集合C2,從C2找出所有2-頻繁屬性集L2;然后再根據(jù)L2確定3-候選屬性集的集合C3,從C3找出所有3-頻繁屬性集L3;如此下去直到不再有候選屬性集產(chǎn)生。算法中采用任何非(k-1)-頻繁屬性集都不可能是k-頻繁屬性集的子集這樣一個(gè)性質(zhì)修剪候選屬性集,有效地減少了候選集支持?jǐn)?shù)的計(jì)算量,同時(shí)還引入散列樹(shù)來(lái)有效地計(jì)算每個(gè)屬性集的支持?jǐn)?shù)[3]。
本文選取了某電廠1號(hào)一次風(fēng)機(jī)20個(gè)測(cè)量量作為關(guān)聯(lián)變量,從DCS數(shù)據(jù)庫(kù)中導(dǎo)出該一次風(fēng)機(jī)自2013年8月至2014年3月的歷史記錄,經(jīng)數(shù)據(jù)預(yù)處理后將各測(cè)點(diǎn)采樣間隔統(tǒng)一為5 s,選取其中5 000組運(yùn)行數(shù)據(jù)組成待挖掘數(shù)據(jù)庫(kù),測(cè)量量信息及數(shù)據(jù)形式如表1、表2所示,都是連續(xù)型屬性,如溫度、壓力、振動(dòng)等。而Apriori算法針對(duì)的是離散型數(shù)據(jù),要求每個(gè)測(cè)量量的取值是有限個(gè),因此,需要將連續(xù)型屬性離散化。當(dāng)屬性的取值連續(xù)變化時(shí),將其劃分為若干個(gè)區(qū)間,然后將每個(gè)區(qū)間映射為一個(gè)值,這樣一個(gè)連續(xù)的量就變?yōu)橛邢迋€(gè)取值。為此,可以用聚類(lèi)的方法將連續(xù)量劃分為若干個(gè)區(qū)間,并要求這些區(qū)間能有效反應(yīng)數(shù)據(jù)的實(shí)際分布情況。
2.1區(qū)間劃分方法
聚類(lèi)算法主要分為兩大類(lèi):硬聚類(lèi)與模糊聚類(lèi)。硬聚類(lèi)有層次凝聚算法、C-均值算法和球型C-均值算法等。模糊聚類(lèi)算法有FCM算法、關(guān)系模糊C-均值算法(RFCM)、模糊競(jìng)爭(zhēng)凝聚算法(CA)和FC-MDE算法等。
表1 測(cè)量量信息
表2 部分測(cè)量數(shù)據(jù)
C-均值和球型C-均值等硬聚類(lèi)算法,是基于某一目標(biāo)數(shù)據(jù)只能被劃分到一個(gè)類(lèi)而展開(kāi)的。例如,C-均值算法可以根據(jù)數(shù)據(jù)的實(shí)際分布情況將連續(xù)型屬性離散化成若干個(gè)區(qū)間,但C-均值算法的類(lèi)個(gè)數(shù)是預(yù)先給定的,在迭代過(guò)程中不再改變,因此聚類(lèi)個(gè)數(shù)依賴于人的經(jīng)驗(yàn)。
本文采用模糊聚類(lèi)算法將連續(xù)型屬性劃分成若干個(gè)優(yōu)化的區(qū)間,CA算法(競(jìng)爭(zhēng)凝聚算法)綜合了分層聚類(lèi)與劃分聚類(lèi)的優(yōu)點(diǎn),對(duì)于預(yù)先給定的不同類(lèi)個(gè)數(shù),能夠隨著迭代過(guò)程不斷改變類(lèi)的數(shù)目,一些競(jìng)爭(zhēng)力差的類(lèi)在迭代過(guò)程中不斷消失,并最終得到能夠有效地體現(xiàn)數(shù)據(jù)的實(shí)際分布情況的優(yōu)化聚類(lèi)個(gè)數(shù),從而將連續(xù)型屬性離散化成若干個(gè)優(yōu)化的區(qū)間[4]。
2.2區(qū)間劃分過(guò)程
CA算法將記錄在連續(xù)型屬性“一次風(fēng)機(jī)A相電流”上的取值劃分成c個(gè)區(qū)間:把“一次風(fēng)機(jī)A相電流”的所有取值放在一起作為數(shù)據(jù)集Y,用CA算法對(duì)Y進(jìn)行聚類(lèi),迭代過(guò)程中不斷改變劃分矩陣U和聚類(lèi)中心,矩陣U中每一行的元素即是Y中的每一個(gè)取值分別在c個(gè)模糊集上的隸屬度。根據(jù)最大隸屬度原則將Y中的元素聚成c類(lèi),并取出類(lèi)中最小、最大的值作為區(qū)間的左右端點(diǎn),這樣“一次風(fēng)機(jī)A相電流”就被離散化為12個(gè)優(yōu)化的區(qū)間。20個(gè)測(cè)點(diǎn)通過(guò)CA算法劃分得到的優(yōu)化區(qū)間個(gè)數(shù)分別為:9,5,9,20,16,12,9,11,20,11,5,7,7,9,15,13,11,10,20,13。
給每一個(gè)測(cè)量量對(duì)應(yīng)的所有區(qū)間從小到大編號(hào),例如“一次風(fēng)機(jī)入口調(diào)節(jié)檔板開(kāi)度”的9個(gè)優(yōu)化區(qū)間分別編號(hào)1-9,這樣所采集到的“一次風(fēng)機(jī)入口調(diào)節(jié)檔板開(kāi)度”每個(gè)數(shù)據(jù)就映射到這9個(gè)區(qū)間中,另外,鑒于數(shù)據(jù)挖掘的需要,20個(gè)測(cè)量量的區(qū)間要加以區(qū)分,故將20個(gè)測(cè)量量的序號(hào)體現(xiàn)在最終的待挖掘數(shù)據(jù)庫(kù)中。例如,“一次風(fēng)機(jī)入口調(diào)節(jié)檔板開(kāi)度”為55.66,即該值落在1號(hào)測(cè)量量“一次風(fēng)機(jī)入口調(diào)節(jié)檔板開(kāi)度”的第4個(gè)區(qū)間,故將該數(shù)據(jù)記為104。同樣,將20個(gè)測(cè)量量的數(shù)據(jù)全部轉(zhuǎn)變?yōu)樵摲N形式。
最終得到如表3所示的離散化數(shù)據(jù)庫(kù)。
表3 離散化數(shù)據(jù)庫(kù)
3.1minSup與minConf的選取及規(guī)則庫(kù)的建立
為了使挖掘出的規(guī)則準(zhǔn)確地表達(dá)一次風(fēng)機(jī)各測(cè)點(diǎn)之間的關(guān)系,minSup與minConf的選取是關(guān)鍵。本文采用匹配率作為評(píng)價(jià)在某一組minSup與minConf參數(shù)下關(guān)聯(lián)規(guī)則的準(zhǔn)確性的指標(biāo),并通過(guò)多組實(shí)驗(yàn),找到一組最佳的minSup與minConf作為最終故障預(yù)警規(guī)則庫(kù)的挖掘參數(shù)。
用5 000組訓(xùn)練數(shù)據(jù)與規(guī)則庫(kù)進(jìn)行匹配,匹配率mr=k1/k2×100%,其中k1為該組數(shù)據(jù)符合的關(guān)聯(lián)規(guī)則總數(shù),k2為只符合規(guī)則前件而不符合規(guī)則后件的規(guī)則數(shù),mr即表示規(guī)則庫(kù)對(duì)該組數(shù)據(jù)的適用性。mr越大,表示規(guī)則更正確地反映了該組數(shù)據(jù)各屬性的內(nèi)在聯(lián)系。同理,用所有訓(xùn)練數(shù)據(jù)的匹配率均值mean來(lái)表達(dá)規(guī)則庫(kù)對(duì)訓(xùn)練數(shù)據(jù)的平均匹配程度。同時(shí),用各組數(shù)據(jù)匹配率的方差variance來(lái)表達(dá)規(guī)則庫(kù)適用于訓(xùn)練數(shù)據(jù)的穩(wěn)定程度,方差小即表示規(guī)則很好的覆蓋所有運(yùn)行數(shù)據(jù),并且匹配率波動(dòng)不是很大。
通過(guò)觀察在不同minSup與minConf下均值與方差的變化,尋找一對(duì)最佳的minSup與minConf,作為挖掘算法的參數(shù)。實(shí)驗(yàn)結(jié)果如圖1、圖2所示。
圖1 不同支持率下,匹配率均值與信任度的關(guān)系
由圖1、圖2,總體而言支持率數(shù)值越大、信任度越高,那么均值越大、方差越小,但支持率和信任度過(guò)大都會(huì)導(dǎo)致均值驟然降低、方差驟然升高。這是由于支持率和信任度過(guò)大導(dǎo)致規(guī)則數(shù)驟減,降低了規(guī)則庫(kù)的覆蓋率,也就是大量運(yùn)行數(shù)據(jù)找不到與之相配的規(guī)則,反而使匹配率降低。支持率和信任度過(guò)小則會(huì)導(dǎo)致挖掘時(shí)間過(guò)長(zhǎng),且規(guī)則數(shù)過(guò)多,會(huì)拉低平均匹配率,也就是很多規(guī)則并不可信。另外,由于Apriori算法效率不高,需考慮挖掘過(guò)程的時(shí)間成本。表4為不同支持率下,尋找頻繁項(xiàng)集所用時(shí)間,支持率越小時(shí),用時(shí)越長(zhǎng)。據(jù)此,本文選擇minSup=2%,minConf=95%作為Apriori算法的參數(shù)。挖掘出的頻繁項(xiàng)集共計(jì)14 089條,關(guān)聯(lián)規(guī)則共計(jì)27 729條,部分頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則形式如表5、表6所示。
支持率/支持?jǐn)?shù)1%/502%/1003%/1504%/2005%/2506%/300時(shí)間/min>1000123261276
表5 部分頻繁項(xiàng)集
表6 部分關(guān)聯(lián)規(guī)則
對(duì)表5所列關(guān)聯(lián)規(guī)則進(jìn)行解釋?zhuān)绲?條關(guān)聯(lián)規(guī)則的意思是:如果1號(hào)測(cè)量量(一次風(fēng)機(jī)入口調(diào)節(jié)檔板開(kāi)度)取值落在第1個(gè)區(qū)間([34.14,41.02]),11號(hào)測(cè)量量(一次風(fēng)機(jī)后軸承溫度2)取值落在第1個(gè)區(qū)間([28.96,31.96]),18號(hào)測(cè)量量(一次風(fēng)機(jī)電動(dòng)機(jī)定子線圈溫度4)取值落在第1個(gè)區(qū)間([69.86,73.60]),那么15號(hào)測(cè)量量(一次風(fēng)機(jī)電動(dòng)機(jī)定子線圈溫度1)取值落在第1個(gè)區(qū)間([73.24,77.29]),16號(hào)測(cè)量量取值落在第1個(gè)區(qū)間([72.88,78.48])的可能性為98.88%。
3.2規(guī)則庫(kù)的有效性驗(yàn)證
由挖掘出的所有規(guī)則組成規(guī)則庫(kù),另外選取了風(fēng)機(jī)在2014年7月的一次故障報(bào)警前共5 019組數(shù)據(jù)(經(jīng)插值處理后各測(cè)量量時(shí)間間隔統(tǒng)一為5 s)進(jìn)行規(guī)則庫(kù)的有效性驗(yàn)證。為了避免因不確定因素及隨機(jī)干擾導(dǎo)致的實(shí)時(shí)數(shù)據(jù)偏離正常值,而產(chǎn)生誤報(bào)警,本文采用滑動(dòng)窗口的統(tǒng)計(jì)方法。設(shè)窗口寬度為20,即把包括當(dāng)前匹配率在內(nèi)的前20組數(shù)據(jù)的匹配率取均值,作為當(dāng)前的匹配率。在實(shí)驗(yàn)中,預(yù)警閾值選為80%。實(shí)驗(yàn)結(jié)果如圖3。
圖3 實(shí)驗(yàn)結(jié)果
由圖3,當(dāng)運(yùn)行數(shù)據(jù)與規(guī)則庫(kù)的匹配率降至80%時(shí)即發(fā)生報(bào)警,較原有系統(tǒng)超限報(bào)警時(shí)間提前約2.5 h,有效地起到了預(yù)警作用。
故障往往是一個(gè)逐漸發(fā)生的過(guò)程,在故障早期,各測(cè)點(diǎn)值雖均未超限,但實(shí)際上設(shè)備各測(cè)點(diǎn)之間原有的關(guān)系正在被逐漸打破,不斷惡化。關(guān)聯(lián)規(guī)則即是設(shè)備在正常狀態(tài)下各測(cè)點(diǎn)之間關(guān)系的體現(xiàn),在故障形成的過(guò)程中,原本的關(guān)聯(lián)規(guī)則對(duì)當(dāng)前運(yùn)行數(shù)據(jù)的適用性逐漸降低,直至低于閾值,發(fā)生報(bào)警。通過(guò)實(shí)驗(yàn),驗(yàn)證了關(guān)聯(lián)規(guī)則在故障預(yù)警過(guò)程中的有效性,且該預(yù)警方法不依賴于任何有關(guān)設(shè)備的先驗(yàn)知識(shí),完全依靠歷史數(shù)據(jù)即可方便地建立設(shè)備的“預(yù)警模型”——關(guān)聯(lián)規(guī)則庫(kù)。當(dāng)各參數(shù)選擇恰當(dāng),該規(guī)則庫(kù)能夠準(zhǔn)確地體現(xiàn)設(shè)備的正常狀態(tài),故具備良好的預(yù)警效果。
[1]王鳳良, 富學(xué)斌, 許志銘.發(fā)電廠一次風(fēng)機(jī)異常振動(dòng)故障診斷及處理[J].風(fēng)機(jī)技術(shù),2014(3):88-92.
[2]崔建,李強(qiáng),吳瑕.大型數(shù)據(jù)庫(kù)的模糊關(guān)聯(lián)規(guī)則挖掘算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011(10):3424-3427.
[3]郭康維.基于相似性建模的鍋爐一次風(fēng)機(jī)故障預(yù)警研究[D].保定:華北電力大學(xué),2014.
[4]郭嘉美.模糊關(guān)聯(lián)規(guī)則挖掘及在工業(yè)數(shù)據(jù)中的應(yīng)用[D].鄭州:鄭州大學(xué),2014.
[5]陸建江.模糊關(guān)聯(lián)規(guī)則的研究與應(yīng)用[M].北京:科學(xué)出版社,2008.
[6]高明.火電廠送風(fēng)機(jī)故障預(yù)警系統(tǒng)的研究[D].保定:華北電力大學(xué),2013.
[7]楊錫運(yùn),郭鵬,岳俊紅. 風(fēng)力發(fā)電機(jī)組故障診斷技術(shù)[M]. 北京:中國(guó)水利水電出版社,2015.
[8]朱彥廷.連續(xù)屬性的關(guān)聯(lián)規(guī)則挖掘[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,47(2):178-180.
[9]魯緒閣,范云霄,錢(qián)抗抗.設(shè)備故障診斷技術(shù)綜述及其發(fā)展趨勢(shì)陰[J].礦山機(jī)械,2008,35(12):15-18.
[10]SIMON J W,XIANG B J,YANG W X.Condition monitoring of the power output of wind turbine generators using wavelets[J].IEEE Transactions on Energy Conversion,2010,25(3):715-721.
[11]AGRAWAL R, INIELINSKI T,SWAMI A. Database mining:A performance perspective[J].IEEE Transactions on Knowledge and Data Engineering, 1993, 5(6):914-925.
[12]周子煜,文麗書(shū).數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法探討[J]. 電子技術(shù)與軟件工程,2016(14):27-29.
Research of Method to Failure Prognostic of Primary Air Fan Based on Association Rules
GAO Yu,TONG Weiguo
(School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China)
Aiming at reducing the loss and cost caused by equipment failure, by using the method of data mining to find the hidden relationships among each measuring point of primary air fan, a collection of association rules basing on mass DCS operation data in the database are established. By judging the matching degree of the running current data with the rule base, the primary air fan state is analyzed and judged so as to achieve a goal of prognostic. The experimental results show that this method is able to find the problem and give an alarm in time. And then it proves that association rules based on the operation data can accurately reflect the relationship between each measuring point of the fan, and achieve good results in the early prognostic.
power plant; data mining; association rules; failure; prognostic
2016-05-31。
高瑜(1990-),男,碩士研究生,主要從事數(shù)據(jù)挖掘與故障預(yù)警方面的研究,E-mail:285640220@qq.com。
TM614
ADOI:10.3969/j.issn.1672-0792.2016.10.007