馮濤,劉廣東,王強(qiáng)
(1.都城偉業(yè)集團(tuán)有限公司,北京 100020;2.國網(wǎng)山西省電力公司,山西 太原 030000)
風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)治理方法研究
馮濤1,劉廣東1,王強(qiáng)2
(1.都城偉業(yè)集團(tuán)有限公司,北京 100020;2.國網(wǎng)山西省電力公司,山西 太原 030000)
本文首先對企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)進(jìn)行現(xiàn)狀分析。然后,針對指標(biāo)數(shù)據(jù)中存在的問題,提出相應(yīng)的解決方法。最后,利用風(fēng)電設(shè)備可靠性評估模型對治理前后的樣本數(shù)據(jù)進(jìn)行對比分析,說明數(shù)據(jù)治理的必要性和有效性。
風(fēng)電設(shè)備可靠性指標(biāo);數(shù)據(jù)質(zhì)量;貝葉斯網(wǎng)絡(luò);風(fēng)電設(shè)備可靠性模型
風(fēng)電設(shè)備可靠性指標(biāo)綜合反映了電力企業(yè)設(shè)備運行狀況以及日常維護(hù)水平,而可靠性指標(biāo)數(shù)據(jù)質(zhì)量的好壞,直接影響著企業(yè)對風(fēng)電設(shè)備可靠性的評估精度。在原始數(shù)據(jù)的產(chǎn)生過程中,由于員工素質(zhì)、統(tǒng)計口徑、數(shù)據(jù)采集方法、組織安排等方面的不同和漏洞,導(dǎo)致數(shù)據(jù)在完整性、準(zhǔn)確性、時效性、可信性和可解釋性等維度上存在問題,不能滿足不同的業(yè)務(wù)需求,也影響到設(shè)備可靠性指標(biāo)的數(shù)據(jù)質(zhì)量。因此,數(shù)據(jù)的質(zhì)量管理日益成為電力企業(yè)關(guān)注的話題。本文在梳理前人研究的基礎(chǔ)上,首先對企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)現(xiàn)狀進(jìn)行分析,并就其中存在的問題提出相應(yīng)的治理方法,然后利用風(fēng)電設(shè)備可靠性評估模型進(jìn)行對比分析,說明企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)治理的必要性和有效性。
業(yè)內(nèi)人士也對相關(guān)問題展開了分析和研究。李欣然(2013)在分析電力統(tǒng)計數(shù)據(jù)現(xiàn)狀的基礎(chǔ)上,對電力統(tǒng)計數(shù)據(jù)的質(zhì)量評估和異常檢測方法進(jìn)行了研究;陳超(2014)通過分析電力數(shù)據(jù)產(chǎn)生質(zhì)量問題的原因,結(jié)合相關(guān)分析研究,提出了適合于電力大數(shù)據(jù)數(shù)據(jù)質(zhì)量控制與評估體系模型;黨芳芳(2014)以國網(wǎng)河北省電力有限公司為研究對象,研究了數(shù)據(jù)質(zhì)量管控技術(shù)在電網(wǎng)企業(yè)業(yè)務(wù)系統(tǒng)中的應(yīng)用;胡冬梅(2014)對影響發(fā)電企業(yè)數(shù)據(jù)質(zhì)量做出了因素分析,并就提升發(fā)電企業(yè)數(shù)據(jù)質(zhì)量提出了相應(yīng)的策略和建議;李遠(yuǎn)寧、劉森(2016)針對電力企業(yè)面臨的數(shù)據(jù)質(zhì)量問題,提出了分布式數(shù)據(jù)質(zhì)量管理解決方案。
企業(yè)風(fēng)電設(shè)備可靠性評估的關(guān)鍵是構(gòu)建風(fēng)電設(shè)備可靠性的指標(biāo)體系。參閱《發(fā)電設(shè)備可靠性評價規(guī)程》,通過相關(guān)性分析,得出相關(guān)性系數(shù)矩陣,篩選出 10個指標(biāo)構(gòu)建企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)體系,體系劃分為三級,我們選取可用性指標(biāo)、出力指標(biāo)、啟動指標(biāo)和其他指標(biāo)四個二級指標(biāo)對風(fēng)電設(shè)備可靠性一級指標(biāo)進(jìn)行評估,同時用 10個三級指標(biāo)對四個二級指標(biāo)進(jìn)行評價,具體指標(biāo)體系如圖1所示。
圖1 風(fēng)電設(shè)備可靠性指標(biāo)體系
盡管電力企業(yè)通過業(yè)務(wù)管理信息系統(tǒng)獲取了大量的風(fēng)電設(shè)備可靠性指標(biāo)的基礎(chǔ)數(shù)據(jù),但在基礎(chǔ)數(shù)據(jù)的整個產(chǎn)生過程中,由于人員素質(zhì)、數(shù)據(jù)采集方法、統(tǒng)計口徑、管理機(jī)制等方面存在的不足,導(dǎo)致一些數(shù)據(jù)在準(zhǔn)確性、完整性、時效性、可信性和可解釋性等方面不能滿足不同用戶的需求,數(shù)據(jù)質(zhì)量存在一定的問題,從而影響企業(yè)風(fēng)電設(shè)備可靠性評估的有效性。
2.1 數(shù)據(jù)的完整性
人為因素造成的數(shù)據(jù)項漏填或者數(shù)據(jù)向數(shù)據(jù)中心推送時造成的數(shù)據(jù)項缺失,都會造成數(shù)據(jù)的不完整,不完整的指標(biāo)數(shù)據(jù)會對風(fēng)電設(shè)備可靠性評估帶來不利影響。以啟動可靠度為例,SR=啟動成功次數(shù) /(啟動成功次數(shù) +啟動失敗次數(shù))×100%,在啟動成功次數(shù)一定的情況下,假設(shè)由于人為原因造成啟動失敗次數(shù)項的漏填,則啟動可靠度這一指標(biāo)會被高估,進(jìn)而影響風(fēng)電設(shè)備可靠性的啟動指標(biāo)。
2.2 數(shù)據(jù)的準(zhǔn)確性
由于人為誤差、抽樣誤差、范圍誤差、時間誤差、統(tǒng)計方法誤差等方面,造成數(shù)據(jù)觀測值與目標(biāo)特征值即“真值”存在著偏差。以可用系數(shù)為例,AF=可用小時 /統(tǒng)計期間小時 ×100%,在統(tǒng)計期間小時數(shù)一定的情況下,由于可用小時觀測值準(zhǔn)確性存在問題,高于或低于其目標(biāo)特征值,從而造成可用系數(shù)這一指標(biāo)被高估或者低估,進(jìn)而影響風(fēng)電設(shè)備可靠性的可用性指標(biāo)。
2.3 數(shù)據(jù)的時效性
就是要縮短統(tǒng)計數(shù)據(jù)從采集、加工整理到數(shù)據(jù)傳輸?shù)恼麄€過程,縮短調(diào)查基準(zhǔn)期與數(shù)據(jù)結(jié)果發(fā)布時間的間隔時間,數(shù)據(jù)質(zhì)量在很大程度上受數(shù)據(jù)時效性的制約,電力企業(yè)數(shù)據(jù)的時效性影響著發(fā)電設(shè)備運行的效果。以暴露率為例,EXR=運行小時 /可用小時×100%,如果運行小時、可用小時數(shù)據(jù)不能得到及時的更新、發(fā)布,則暴露率這一指標(biāo)不能得到有效計算,進(jìn)而發(fā)電機(jī)組在網(wǎng)運行時間得不到有效評估。
針對上述企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)中存在的質(zhì)量問題,提出相應(yīng)的數(shù)據(jù)治理方法。
3.1 數(shù)據(jù)的完整性
針對數(shù)據(jù)項的缺失或者數(shù)據(jù)項的漏填,可以通過以下途徑加以管控:(1)可以為數(shù)據(jù)庫中某些字段添加非空約束,保證指標(biāo)數(shù)據(jù)的完整性。(2)對于已經(jīng)存在的數(shù)據(jù)缺失項,可以通過人工填補(bǔ),以可用系數(shù)為例,AF=可用小時 /統(tǒng)計期間小時 ×100%,我們選取 30臺風(fēng)電機(jī)組的指標(biāo)數(shù)據(jù),其中第k臺風(fēng)電機(jī)組的可用小時缺失,則一般可用其他 29臺風(fēng)電機(jī)組可用小時的平均值對第k臺風(fēng)電機(jī)組的可用小時的缺失值進(jìn)行填充。
3.2 數(shù)據(jù)的準(zhǔn)確性
可以通過以下途徑予以解決:(1)界定指標(biāo)數(shù)據(jù)的有效范圍,判斷數(shù)據(jù)是否在有效范圍內(nèi)波動,進(jìn)而判斷數(shù)據(jù)的準(zhǔn)確性;數(shù)據(jù)的有效范圍,可以通過對歷史數(shù)據(jù)進(jìn)行統(tǒng)計分析,總結(jié)出指標(biāo)數(shù)據(jù)的分布區(qū)間,也可以通過電力領(lǐng)域的專家或技術(shù)人員予以劃定。以平均無故障可用小時為例,我們選取 30臺風(fēng)電機(jī)組的指標(biāo)數(shù)據(jù),利用 SPSS軟件中的非參數(shù)檢驗單樣本 K-S 檢驗對其進(jìn)行正態(tài)分布檢測,發(fā)現(xiàn)平均無故障可用小時服從正態(tài)分布,并得到相應(yīng)的平均值 u=6948.23和標(biāo)準(zhǔn)差δ =878.79,根據(jù)拉依達(dá)準(zhǔn)則法 )( δ3 ,對大于 δ3+u 或者小于 δ3?u 的觀測數(shù)據(jù)值視為異常值,應(yīng)予以剔除,得到正常值的波動范圍為 ]3,3[ δδ +? uu ,并以此作為平均無故障可用小時指標(biāo)數(shù)據(jù)的有效范圍。(2)規(guī)定相關(guān)指標(biāo)數(shù)據(jù)的類型,為其設(shè)立合理的類型、精度、單位、長度、格式等,篩選出不符合類型標(biāo)準(zhǔn)的指標(biāo)數(shù)據(jù),進(jìn)而判定數(shù)據(jù)的準(zhǔn)確性。(3)組織相關(guān)領(lǐng)域的專家和工作技術(shù)人員,直接對存在質(zhì)量問題的關(guān)鍵性指標(biāo)數(shù)據(jù)予以校正。
3.3 數(shù)據(jù)的時效性
應(yīng)根據(jù)原始數(shù)據(jù)的業(yè)務(wù)特點和上報周期,為其設(shè)定合理的采集周期,保證數(shù)據(jù)庫中數(shù)據(jù)的時效性。以月報數(shù)據(jù)為例,采集周期不能超過一個月,否則指標(biāo)數(shù)據(jù)的有效性將會受到影響;針對需要計算得出的指標(biāo)數(shù)據(jù),這部分?jǐn)?shù)據(jù)隨著其他數(shù)據(jù)的更新而更新,應(yīng)為其設(shè)定合理的指標(biāo)數(shù)據(jù)計算周期,確保指標(biāo)數(shù)據(jù)的時效性。
本文以某企業(yè) 30臺風(fēng)電機(jī)組可靠性指標(biāo)數(shù)據(jù)為基礎(chǔ),利用貝葉斯信念網(wǎng)絡(luò)建立企業(yè)風(fēng)電設(shè)備可靠性評估模型,并對治理前后的相關(guān)指標(biāo)數(shù)據(jù)結(jié)果進(jìn)行對比分析,說明企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)治理的必要性和有效性。
首先,為了消除樣本數(shù)據(jù)的不同量綱對訓(xùn)練結(jié)果的影響,利用 SPSS Modeler 軟件對 30臺風(fēng)電機(jī)組可靠性指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理。然后,建立貝葉斯網(wǎng)絡(luò)與訓(xùn)練。最后,在完成貝葉斯網(wǎng)絡(luò)的訓(xùn)練后,將剩下的21-30號風(fēng)電機(jī)組的樣本數(shù)據(jù)(分為未經(jīng)治理前的樣本數(shù)據(jù)和治理后的樣本數(shù)據(jù))作為測試樣本集輸入貝葉斯網(wǎng)絡(luò)進(jìn)行計算,計算完成后,將數(shù)據(jù)治理前后的網(wǎng)絡(luò)輸出值與實際的鑒定值進(jìn)行比較,對比結(jié)果如表1。
表1 數(shù)據(jù)治理前后的網(wǎng)絡(luò)輸出值與實際鑒定值的對比分析
從表1中可以看出治理前的網(wǎng)絡(luò)輸出值與實際鑒定值的誤差率較大,10臺風(fēng)電機(jī)組中共有 5臺機(jī)組的誤差率在 10%以上;治理后的網(wǎng)絡(luò)輸出值與實際鑒定值的誤差率較小,10臺風(fēng)電機(jī)組中只有 2臺機(jī)組的誤差率在 10%以上,其余的普遍控制在 10%以下;對比分析顯示,經(jīng)過治理后的樣本數(shù)據(jù)對風(fēng)電設(shè)備可靠性的評估精度較好,而未經(jīng)治理的樣本數(shù)據(jù)對風(fēng)電設(shè)備可靠性的評估精度較差,這不僅說明了企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)治理的必要性,也說明了指標(biāo)數(shù)據(jù)治理的有效性。
本文通過對企業(yè)風(fēng)電設(shè)備可靠性指標(biāo)數(shù)據(jù)的現(xiàn)狀進(jìn)行分析,并就數(shù)據(jù)質(zhì)量中存在的問題提出相應(yīng)解決方法,利用風(fēng)電設(shè)備可靠性評估模型對治理前后的指標(biāo)數(shù)據(jù)進(jìn)行對比分析,說明了數(shù)據(jù)治理的必要性和有效性。但由于各種原因,文章還存在以下諸多局限需在以后的學(xué)習(xí)中做進(jìn)一步的研究。(1)未對諸如辦公文檔、文本、圖片、XML、HTML、各類報表和音頻 /視頻信息等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行詳細(xì)的現(xiàn)狀和治理方法分析。(2)由于數(shù)據(jù)采集困難,文章只選取了 30臺風(fēng)電機(jī)組的樣本數(shù)據(jù),建立企業(yè)風(fēng)電設(shè)備可靠性評估模型,在以后的研究中,可以通過增加可靠性指標(biāo)數(shù)據(jù)、擴(kuò)大樣本量等方法建立評估模型,以提高模型的評估精度。
[1]范明,孟小峰 .數(shù)據(jù)挖掘概念與技術(shù)(第三版)[M].北京:機(jī)械工業(yè)出版社,2016.
[2]黨芳芳 .電網(wǎng)企業(yè)業(yè)務(wù)數(shù)據(jù)質(zhì)量管控技術(shù)的研究 [D].北京:華北電力大學(xué),2014.
[3]賈曉鴿 .數(shù)據(jù)挖掘在發(fā)電設(shè)備可靠性控制中的應(yīng)用與改進(jìn)研究 [D].北京:華北電力大學(xué),2014.
[4]馮麗紅 .調(diào)查數(shù)據(jù)缺失值常用插補(bǔ)方法比較的實證分析 [D].石家莊:河北經(jīng)貿(mào)大學(xué),2014.
[5]蘇海峰 .貝葉斯網(wǎng)絡(luò)及其在發(fā)電系統(tǒng)可靠性評估中的應(yīng)用 [D].石家莊:河北農(nóng)業(yè)大學(xué),2004.
[6]許滌龍,葉少波 .統(tǒng)計數(shù)據(jù)質(zhì)量評估方法研究述評 [J].統(tǒng)計與信息論壇,2011(7):3-12.
[7]陳超 .電力大數(shù)據(jù)質(zhì)量評價模型及動態(tài)探查技術(shù)研究 [J].現(xiàn)代電子技術(shù),2014(4):153-155.
[8]宋亞奇,周國亮,朱永利 .智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn) [J].電網(wǎng)技術(shù),2013(4):927-935.
TM315
A
1671-0711(2017)07(下)-0227-03
國家電網(wǎng)公司科技項目《企業(yè)級數(shù)據(jù)治理體系研究》,項目編號: 國家電網(wǎng)科 [2015]709號 -43。