胡楠 胡畔 劉鵬宇 吳赫 夏雨
摘 要:在科學(xué)技術(shù)的推動(dòng)下,智能電網(wǎng)已經(jīng)建成,這樣就可通過先進(jìn)的信息技術(shù)對(duì)電網(wǎng)進(jìn)行控制,但同時(shí)也會(huì)產(chǎn)生內(nèi)容極其繁雜且數(shù)量較多的電力數(shù)據(jù),因此需要通過挖掘技術(shù)從中提煉出有意義的數(shù)據(jù),并進(jìn)行分類處理,以此作為衡量設(shè)備是否可靠的重要指標(biāo)。本文就以文本缺陷數(shù)據(jù)為例,對(duì)如何應(yīng)用挖掘技術(shù)進(jìn)行了詳細(xì)探討。
關(guān)鍵詞:電網(wǎng)企業(yè);文本數(shù)據(jù)挖掘技術(shù);可靠性
引言
在電力系統(tǒng)運(yùn)行的各個(gè)階段均會(huì)產(chǎn)生大量的數(shù)據(jù)信息,并且數(shù)據(jù)更新速度極快,通過這些數(shù)據(jù)能夠反映設(shè)備的狀態(tài)及可靠性,但為了達(dá)到這一目的,必須充分挖掘有價(jià)值的數(shù)據(jù),并且需要將文本類型的數(shù)據(jù)作為挖掘的重點(diǎn)。此外,以往在搜索時(shí)主要運(yùn)用的是引擎及查詢技術(shù),但這種方法已經(jīng)無法滿足當(dāng)前的數(shù)據(jù)處理要求,因此必須應(yīng)用文本挖掘技術(shù),并構(gòu)建語(yǔ)義框架。本文就對(duì)此問題進(jìn)行了具體分析。
一、電網(wǎng)內(nèi)文本類型
智能電網(wǎng)在運(yùn)行過程中會(huì)產(chǎn)生數(shù)量極其龐大的數(shù)據(jù)信息,并儲(chǔ)存于數(shù)據(jù)庫(kù)中。具體來說,電網(wǎng)內(nèi)的文本類型主要包括以下幾種。第一是資產(chǎn)配置信息,主要與電力設(shè)備有關(guān),其中涉及設(shè)備參數(shù)、名稱、購(gòu)置廠家等。第二是票據(jù),可分為工作和操作兩種類型的票據(jù),但兩者具有許多類似之處,因此通常情況下可劃分為同一類別。工作票指的是在檢修設(shè)備的過程中上級(jí)所下發(fā)的指令及具體的操作步驟,檢修人員在操作過程中必須將此作為基本依據(jù)。同時(shí),運(yùn)行人員也必須遵守該票據(jù)中的基本規(guī)則。操作票歸運(yùn)行人員所有,其主要指的是在調(diào)整設(shè)備的運(yùn)行方式時(shí)所應(yīng)遵循的基本依據(jù),并且可發(fā)揮許可證的作用[1]。第三是日志,其主要指的是在巡視與檢修設(shè)備后必須進(jìn)行記錄,并且還需要對(duì)故障的特點(diǎn)及維修過程詳細(xì)記錄。日志通常以文本的形式存在,主要包括時(shí)間、設(shè)備狀態(tài)、故障原因等多個(gè)方面的信息。第四是語(yǔ)音記錄,目的在于提高調(diào)度效率,主要是通過人機(jī)接口實(shí)現(xiàn)的。第五是長(zhǎng)文檔報(bào)告,主要指的是工程師在設(shè)計(jì)與運(yùn)維期間需要對(duì)設(shè)備的狀態(tài)進(jìn)行評(píng)價(jià),并以長(zhǎng)文檔的形式記錄,同時(shí)還要需要分析故障原因并給出建議。長(zhǎng)文檔中所記錄的公式通常較為復(fù)雜,如果要進(jìn)行深層次文本理解具有較大的難度,因此還需要在分類與檢索的基礎(chǔ)上持續(xù)進(jìn)行研究。第六是權(quán)威標(biāo)準(zhǔn),其主要指的是企業(yè)及權(quán)威機(jī)構(gòu)所制定的標(biāo)準(zhǔn),通常情況下文本篇幅較長(zhǎng),并且包括表格、圖像等多種類型的數(shù)據(jù)信息[2]。
二、可靠性應(yīng)用
(一)概述
電網(wǎng)企業(yè)中的設(shè)備所處的運(yùn)行環(huán)境較為復(fù)雜,進(jìn)而導(dǎo)致設(shè)備在運(yùn)行過程中故障較為常見,因此需要對(duì)運(yùn)維管理的整個(gè)過程進(jìn)行記錄,信息記錄包括多種形式,其中設(shè)備故障、及缺陷主要是采用中文形式進(jìn)行記錄的,這樣就可了解每個(gè)設(shè)備以往在運(yùn)行過程中的狀態(tài)。而要想從繁雜的數(shù)據(jù)信息中挖掘出能夠體現(xiàn)設(shè)備可靠性的數(shù)據(jù),還需要應(yīng)用相關(guān)的信息挖掘技術(shù)。結(jié)合企業(yè)當(dāng)前的情況來看,在統(tǒng)計(jì)數(shù)據(jù)時(shí)以人工處理為主,需要花費(fèi)大量的時(shí)間及人力資源,并且難以保障統(tǒng)計(jì)結(jié)果的準(zhǔn)確性,因此當(dāng)前最重要的是針對(duì)缺陷文本研究出相應(yīng)的挖掘技術(shù)。另外,中文文本數(shù)據(jù)的挖掘難度較高,原因在于其在應(yīng)用過程中需要與相關(guān)領(lǐng)域內(nèi)的專業(yè)知識(shí)進(jìn)行匹配,并且由于中文與英文的差異性,導(dǎo)致國(guó)外的研究成果無法應(yīng)用于中文文本的處理中[3],因此目前國(guó)內(nèi)有許多學(xué)者就針對(duì)不同的文本類型進(jìn)行了優(yōu)化,在處理過程中工作票和操作票較為簡(jiǎn)單,但缺陷類型的文本極其復(fù)雜,因此需要重點(diǎn)針對(duì)此種類型的文本研究出相關(guān)的挖掘技術(shù)。
(二)電力語(yǔ)義框架
一個(gè)文本并不僅針對(duì)一種缺陷,而是對(duì)設(shè)備多個(gè)部件的缺陷進(jìn)行描述,因此首先需要進(jìn)行分類處理,否則就會(huì)嚴(yán)重影響統(tǒng)計(jì)結(jié)果的精確性,在具體操作的過程中可將設(shè)備的可靠性作為任務(wù),并通過語(yǔ)義框架進(jìn)行處理,其作用在于能夠使語(yǔ)義的呈現(xiàn)更加完整,主要以數(shù)據(jù)結(jié)構(gòu)的形式存在。此外,還可運(yùn)用語(yǔ)義槽,其構(gòu)成部分是彼此之間具有一定關(guān)聯(lián)性的信息,通常情況下四個(gè)槽體可組成一個(gè)框架,并且可根據(jù)槽體的類型對(duì)電力詞性進(jìn)行準(zhǔn)確定義[4]。在這樣的狀況下,多個(gè)不同的缺陷就可分別以相應(yīng)的語(yǔ)義框架的形式呈現(xiàn),進(jìn)而對(duì)不同類型的缺陷加以區(qū)分。
(三)文本挖掘模型
為了促使缺陷信息的挖掘更加充分,需要構(gòu)建挖掘模型,模型結(jié)構(gòu)如圖1所示,該模型共分為三個(gè)層次,第一是預(yù)處理層,其作用在于處理缺陷和構(gòu)建字典。在構(gòu)建字典的過程中以人工處理為主,其與缺陷處理的結(jié)果及效率密切相關(guān)。此外,該層級(jí)還可完成中文分詞任務(wù)并順利提取不同詞匯的特征。第二是處理層,其具有三項(xiàng)功能。首先是槽填充,該處理環(huán)節(jié)處于詞匯的提取之后,主要指的是將文本與數(shù)字兩種類型的符號(hào)準(zhǔn)確填入相對(duì)應(yīng)的槽中。其次是構(gòu)建語(yǔ)義框架,在此之前首先需要明確不同語(yǔ)義之間的關(guān)聯(lián)性,進(jìn)而與相應(yīng)類型的槽進(jìn)行匹配。為了避免出現(xiàn)槽缺失的問題,必須確保每個(gè)框架至少包含兩個(gè)槽,但同時(shí)也不能多于四個(gè)。最后是詞串合并,其指的是同一框架中的不同槽可以合并,最后統(tǒng)一錄入字典中。第三是統(tǒng)計(jì)應(yīng)用層,其主要發(fā)揮的是統(tǒng)計(jì)可靠性的功能,可將某地區(qū)特定時(shí)間段內(nèi)某種設(shè)備的缺陷類型進(jìn)行匯總與分析,并計(jì)算出相應(yīng)的統(tǒng)計(jì)結(jié)果,該結(jié)果可作為衡量設(shè)備性能的可靠性指標(biāo),之后在設(shè)計(jì)與制造設(shè)備的過程中就可以此為依據(jù),并且在對(duì)設(shè)備進(jìn)行運(yùn)行及維護(hù)時(shí)也可參考這些指標(biāo)。
三、結(jié)語(yǔ)
總而言之,電網(wǎng)數(shù)據(jù)庫(kù)中的信息類型較多,導(dǎo)致在提煉有效信息時(shí)具有一定的難度,尤其是文本數(shù)據(jù),因此當(dāng)前需要加大研究力度,明確不同文本的類型及特征,促使語(yǔ)義分析更加深入,同時(shí)還需要通過構(gòu)建挖掘模型加以處理。此外,字典的構(gòu)建盡管需要花費(fèi)大量的時(shí)間,但是一旦建成,則可長(zhǎng)期使用,并且通過字典提取數(shù)據(jù)的方式在使用過程中較為簡(jiǎn)便,因此本文所提出的方法具有較強(qiáng)的可行性。
參考文獻(xiàn):
[1]邱健,王慧芳,應(yīng)高亮.文本信息挖掘技術(shù)及其在斷路器全壽命狀態(tài)評(píng)價(jià)中的應(yīng)用[J].電力系統(tǒng)自動(dòng)化,2015,40(6):112-117.
[2]蔡榮言.數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用研究[J].管理方略,2015,12(18):128-129.
[3]饒友平.數(shù)據(jù)挖掘技術(shù)在電力行業(yè)的應(yīng)用[J].電工研究,2014,(15):137-140.
[4]梁宇.數(shù)據(jù)挖掘技術(shù)及其在電力決策支持系統(tǒng)中的應(yīng)用[J].上海電力學(xué)院學(xué)報(bào),2014,31(17):151-155.