程 政,雷 霞,柏小麗,徐博海
(1.瀘州電業(yè)局,四川 瀘州 646000;2.西華大學(xué)電氣信息學(xué)院,四川成都 610039;3.國(guó)電大渡河瀑布溝水利發(fā)電總廠,四川雅安 625304)
安全性評(píng)價(jià)屬于風(fēng)險(xiǎn)管理范疇,是預(yù)防和控制企業(yè)事故行之有效的方法[1]。安全性評(píng)價(jià)是度量、預(yù)測(cè)系統(tǒng)安全基礎(chǔ)、控制事故的重要措施。中國(guó)已用法律形式將“安全第一,預(yù)防為主”確定為勞動(dòng)保護(hù)方針,也是電力安全生產(chǎn)和建設(shè)管理的基本方針。編制安全性評(píng)價(jià)標(biāo)準(zhǔn)就是要切實(shí)貫徹“安全第一,預(yù)防為主”的方針。針對(duì)電網(wǎng)運(yùn)行、設(shè)備工況、生產(chǎn)環(huán)境、作業(yè)過(guò)程等進(jìn)行安全性評(píng)價(jià)實(shí)現(xiàn)對(duì)事故的超前預(yù)測(cè)和控制,達(dá)到消滅和減少事故的目的。1990年,華北電網(wǎng)公司借鑒國(guó)外風(fēng)險(xiǎn)評(píng)估等現(xiàn)代安全管理辦法,開(kāi)始了發(fā)電機(jī)組并網(wǎng)安全性評(píng)價(jià),目前已在全國(guó)全面推開(kāi)。隨著安全性評(píng)價(jià)在電力系統(tǒng)中的應(yīng)用,一些安全性評(píng)價(jià)管理系統(tǒng)已投入實(shí)際應(yīng)用,但僅僅完成了安評(píng)數(shù)據(jù)的統(tǒng)計(jì)以及個(gè)別數(shù)據(jù)的追蹤功能,對(duì)于查評(píng)中隱藏的信息沒(méi)有進(jìn)行有效的分析和挖掘。如何處理這些安評(píng)數(shù)據(jù)成為研究的首要問(wèn)題,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘也稱數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn),它從大量的、不完全的、有噪聲的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程[2]。下面建立了數(shù)據(jù)挖掘模型,挖掘影響輸電網(wǎng)安全的危險(xiǎn)點(diǎn),從而指導(dǎo)管理者開(kāi)展輸電網(wǎng)安全性評(píng)價(jià)工作。
關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個(gè)事物就能通過(guò)其他事物預(yù)測(cè)到。一般來(lái)說(shuō),關(guān)聯(lián)規(guī)則就是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)(屬性、變量)之間所存在的潛在關(guān)系的規(guī)則。設(shè)I={i1,i2,…,im}是m個(gè)不同項(xiàng)目的集合,D是針對(duì)I事物的集合,每一筆事物包含若干項(xiàng)目i1,i2,…,ik∈I。關(guān)聯(lián)規(guī)則形如 X?Y 的蘊(yùn)含式,其中X?I,Y?I,X∩Y=Φ。關(guān)聯(lián)規(guī)則 X?Y在事務(wù)集 D中成立,具有兩個(gè)規(guī)則興趣度度量-支持度和置信度,它們分別反映發(fā)現(xiàn)規(guī)則的有用性和確定性。
定義1 支持度 X的支持度是事物集中A出現(xiàn)的事物數(shù)與總的事物數(shù)之比,即
定義2 置信度 規(guī)則X?Y的置信度是事物集中X、Y同時(shí)出現(xiàn)的事物數(shù)與X出現(xiàn)的事物數(shù)之比,即
如果規(guī)則的支持度大于最小支持度則認(rèn)為此規(guī)則是頻繁項(xiàng)集,否則為非頻繁項(xiàng)集。同時(shí)滿足最小支持度與最小可信度兩屬性的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的目的就是從數(shù)據(jù)庫(kù)中挖掘出滿足用戶要求的最小支持度與最小可信度的強(qiáng)關(guān)聯(lián)規(guī)則。
挖掘關(guān)聯(lián)規(guī)則問(wèn)題一般可以分解為以下兩個(gè)子問(wèn)題[9]。
(1)找出存在于事物數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即找出所有支持度滿足用戶所規(guī)定的最小支持度閾值的項(xiàng)集。
(2)用頻繁項(xiàng)集生成候選關(guān)聯(lián)規(guī)則,然后驗(yàn)證候選關(guān)聯(lián)規(guī)則是否滿足用戶所規(guī)定的最小可信度閾值。若滿足,該候選關(guān)聯(lián)規(guī)則為要找的關(guān)聯(lián)規(guī)則。
要處理的問(wèn)題是如何從數(shù)據(jù)源中挖掘到想要的危險(xiǎn)點(diǎn)。那么建立了圖1給出了關(guān)聯(lián)規(guī)則模型。
圖1 關(guān)聯(lián)規(guī)則模型
模型解釋:數(shù)據(jù)源選擇是輸電網(wǎng)安全性評(píng)價(jià)管理系統(tǒng)中的數(shù)據(jù);ETL技術(shù)指的是對(duì)數(shù)據(jù)源中數(shù)據(jù)的清理、轉(zhuǎn)換等;應(yīng)用Apriori算法時(shí)用戶需對(duì)算法中的參數(shù)進(jìn)行設(shè)置,其中min_sup代表最小支持度,min_conf代表最小置信度。通過(guò)數(shù)據(jù)挖掘技術(shù)挖掘出的危險(xiǎn)點(diǎn),可以直觀地展現(xiàn)給決策者。
2.2.1 數(shù)據(jù)預(yù)處理
由于自查評(píng)表中數(shù)據(jù)比較完整、數(shù)據(jù)易處理的。下面對(duì)數(shù)據(jù)進(jìn)行如下處理。
(1)問(wèn)題嚴(yán)重程度缺失的處理
在自查評(píng)過(guò)程中,問(wèn)題嚴(yán)重程度的缺失是由于用戶在填寫(xiě)自查評(píng)結(jié)果時(shí)漏填,因此為了不遺漏任何危險(xiǎn)的因素,默認(rèn)為問(wèn)題的嚴(yán)重程度為嚴(yán)重。
(2)數(shù)據(jù)錯(cuò)誤的處理
數(shù)據(jù)錯(cuò)誤產(chǎn)生的原因主要有兩個(gè):設(shè)計(jì)數(shù)據(jù)時(shí)沒(méi)有進(jìn)行約束;數(shù)據(jù)的人為輸入錯(cuò)誤。前者是在系統(tǒng)設(shè)計(jì)時(shí)沒(méi)有對(duì)用戶的輸入進(jìn)行約束,使得用戶可以輸入不滿足要求的數(shù)據(jù)。后者是由于很多數(shù)據(jù)都是以字符串的形式來(lái)存儲(chǔ)的,無(wú)法使用約束來(lái)保證數(shù)據(jù)的正確性,而且由于用戶知識(shí)水平和文化背景的差異,輸入時(shí)往往會(huì)拼寫(xiě)出錯(cuò)或者錄入完全錯(cuò)誤的數(shù)據(jù)。
在自查過(guò)程中,由于參評(píng)人員對(duì)標(biāo)準(zhǔn)的理解有差異,打出的分?jǐn)?shù)不滿足系統(tǒng)要求,甚至可能打出錯(cuò)誤的分?jǐn)?shù),因此得分率就有可能大于1或者小于0,必須進(jìn)行清理。首先通過(guò)SQL語(yǔ)句找到所有錯(cuò)誤的得分率,將這些得分率都默認(rèn)為0。
(3)數(shù)據(jù)轉(zhuǎn)換
由于自查評(píng)表中的得分率在[0-1]區(qū)間,問(wèn)題的嚴(yán)重程度分為一般和嚴(yán)重兩種。所用的Apriori算法是基于布爾型關(guān)聯(lián)規(guī)則的挖掘,那么現(xiàn)在將數(shù)據(jù)離散化處理。將得分率記為selfrate,問(wèn)題的嚴(yán)重程度記為plevel。得分率在區(qū)間[0-0.5]之間記為 A1;在[0.5-1]之間記為A2。問(wèn)題一般記為B1;問(wèn)題嚴(yán)重記為B2。那么自查評(píng)表就轉(zhuǎn)化為最終的數(shù)據(jù)表,如表1所示。
表1 關(guān)聯(lián)規(guī)則模型最終事務(wù)表
2.2.2 數(shù)據(jù)挖掘的實(shí)現(xiàn)
首先采用Apriori算法生成頻繁項(xiàng)集,然后由頻繁項(xiàng)集根據(jù)最小支持度和最小置信度產(chǎn)生強(qiáng)規(guī)則?;贏priori算法的數(shù)據(jù)挖掘流程如圖2所示。
2.2.3 關(guān)聯(lián)規(guī)則在輸電網(wǎng)安全性評(píng)價(jià)中的應(yīng)用
圖2 數(shù)據(jù)挖掘流程
輸電網(wǎng)自查評(píng)表保存著輸電網(wǎng)安全性評(píng)價(jià)中用戶自查評(píng)時(shí)產(chǎn)生的數(shù)據(jù),其中包括查評(píng)項(xiàng)目、查評(píng)得分、得分率等等。以自查評(píng)的項(xiàng)目為挖掘?qū)ο螅宰圆樵u(píng)表中的得分率(selfrate)和問(wèn)題嚴(yán)重程度(plevel)為研究對(duì)象。通過(guò)前200次查評(píng)的歷史數(shù)據(jù)進(jìn)行挖掘,對(duì)得分率和問(wèn)題嚴(yán)重程度之間的關(guān)聯(lián)規(guī)則來(lái)判斷輸電網(wǎng)安全性評(píng)價(jià)指標(biāo)是否存在危險(xiǎn)點(diǎn)。
對(duì)于《輸電網(wǎng)安全性評(píng)價(jià)標(biāo)準(zhǔn)》中查評(píng)項(xiàng)目2.2.1[3],國(guó)家標(biāo)準(zhǔn)是這樣描述的:主力大容量電廠是否介入本網(wǎng)最高一級(jí)電壓電網(wǎng)。評(píng)分標(biāo)準(zhǔn)及方法:符合要求的滿分,基本符合要求得60%標(biāo)準(zhǔn)分,不符合要求不得分。對(duì)于次項(xiàng)目,取之前200次的查評(píng)數(shù)據(jù)進(jìn)行分析,通過(guò)數(shù)據(jù)挖掘找到得分率和問(wèn)題嚴(yán)重程度之間的關(guān)聯(lián)規(guī)則,對(duì)于得分率低且問(wèn)題嚴(yán)重的關(guān)聯(lián)規(guī)則,可以得出項(xiàng)目2.2.1是存在危險(xiǎn)點(diǎn)的。
2.2.4 挖掘結(jié)果及解釋
本模型對(duì)自查評(píng)表中查評(píng)項(xiàng)目2.2.1項(xiàng)前200次的查評(píng)歷史數(shù)據(jù)進(jìn)行分析,設(shè)定最小支持度為0.5,最小置信度為0.6。最后得到3條強(qiáng)關(guān)聯(lián)規(guī)則。例如規(guī)則:A1?B2,其中支持度為50.2%,置信度為67.5%。意味著當(dāng)“得分率”在[0-0.5]之間時(shí),“問(wèn)題嚴(yán)重程度”的概率為67.5%。那么針對(duì)這種得分率低而且問(wèn)題嚴(yán)重的關(guān)聯(lián)規(guī)則,管理者可以對(duì)2.2.1項(xiàng)提前提出控制措施,達(dá)到預(yù)防事故的目的。
介紹了關(guān)聯(lián)規(guī)則在輸電網(wǎng)安全性評(píng)價(jià)中的應(yīng)用,并建立了關(guān)聯(lián)規(guī)則模型,挖掘輸電網(wǎng)中存在的危險(xiǎn)點(diǎn)。針對(duì)危險(xiǎn)點(diǎn),對(duì)輸電網(wǎng)提出相應(yīng)的整改措施,對(duì)輸電網(wǎng)安全性評(píng)價(jià)有一定的指導(dǎo)作用。
[1]JiaweiHan,MichelineKambe著,范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[2]王金萍,樊鳳林,劉發(fā)旺,等.安全性評(píng)價(jià)在電力企業(yè)中的應(yīng)用研究[J].華北電力技術(shù),2005(5):23-26.
[3]國(guó)家電網(wǎng)公司.供電企業(yè)安全性評(píng)價(jià)標(biāo)準(zhǔn)[S].北京:中國(guó)電力出版社,2002.
[4]駱嘉偉,彭蔓蔓,陳景燕,等.基于消費(fèi)行為的Apriori算法的研究[J].計(jì)算機(jī)工程,2003,29(5):72 -74.
[5]楊輔祥,劉云超,段智華.數(shù)據(jù)清理綜述[J].計(jì)算機(jī)應(yīng)用研究,2002,19(3):3 -5.
[6]高艷霞.Apriori算法在學(xué)生成績(jī)管理中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2009(8):30-31.
[7]陶建江,張文獻(xiàn).關(guān)聯(lián)規(guī)則挖掘的基本算法[J].計(jì)算機(jī)工程,2004,15(30):34 -35.
[8]高杰,理紹軍,錢(qián)鋒,數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究及應(yīng)用[J].2006(36):128 -131.
[9]程政,雷霞,廖翔,等.數(shù)據(jù)挖掘在電網(wǎng)安全性評(píng)價(jià)中的應(yīng)用[J].2010(8):97-99.