宋立華
(福建億榕信息技術(shù)有限公司,福建福州 350003)
在對(duì)電網(wǎng)設(shè)備進(jìn)行運(yùn)行管理的過程中,會(huì)將設(shè)備故障、缺陷、維修和故障排除等信息記錄在文檔中[1],并以文字的形式存儲(chǔ)于信息管理系統(tǒng)中,其中,既包含各種電力設(shè)備的歷史信息,又包含各種電力設(shè)備的近期使用信息[2]。電力企業(yè)對(duì)設(shè)備缺陷的分類、分析、統(tǒng)計(jì)多采用人工進(jìn)行,不僅工作量大、時(shí)間長,而且由于主觀因素和經(jīng)驗(yàn)差異,分類統(tǒng)計(jì)結(jié)果不夠準(zhǔn)確[3]。因此,對(duì)缺陷文本信息挖掘技術(shù)的研究顯得尤為重要和迫切。目前,缺陷文本挖掘主要采用矢量空間方法,但單純使用統(tǒng)計(jì)方法不能準(zhǔn)確提取重要數(shù)字信息和量詞;采用語義框架槽充填法進(jìn)一步建立基于已有“故障與缺陷基本詞匯”的本體論詞典。在研究總結(jié)大量缺陷文本的基礎(chǔ)上,建立了電網(wǎng)缺陷文本的基本語法模型。但是該模型既不存在詞與詞之間的空格,也不存在詞與句之間的空格,詞性與句法結(jié)構(gòu)差異較大,文本挖掘結(jié)果不準(zhǔn)確。為實(shí)現(xiàn)更深層次的信息挖掘,設(shè)計(jì)了一種基于信息抽取的電網(wǎng)缺陷文本挖掘系統(tǒng)。
在電網(wǎng)缺陷文本挖掘系統(tǒng)中,設(shè)備故障內(nèi)容經(jīng)常有詳細(xì)的記錄,系統(tǒng)硬件結(jié)構(gòu)如圖1 所示。
圖1 系統(tǒng)硬件結(jié)構(gòu)
由圖1 可知,數(shù)據(jù)采集模塊主要負(fù)責(zé)從互聯(lián)網(wǎng)獲取數(shù)據(jù);網(wǎng)頁分析模塊主要負(fù)責(zé)對(duì)HTML 網(wǎng)頁進(jìn)行預(yù)處理;數(shù)據(jù)存儲(chǔ)模塊主要負(fù)責(zé)對(duì)大量文本信息進(jìn)行存儲(chǔ);文字預(yù)處理模塊主要負(fù)責(zé)對(duì)原始采集的文字?jǐn)?shù)據(jù)進(jìn)行處理;特征提取模塊主要負(fù)責(zé)對(duì)文字內(nèi)容挖掘中的熱點(diǎn)信息進(jìn)行提取;文本建模模塊主要負(fù)責(zé)提取文字內(nèi)容挖掘中的主題相關(guān)信息[4-6]。
自定義數(shù)據(jù)采集方案的功能是實(shí)現(xiàn)瀏覽器端用戶和系統(tǒng)之間的連接,并控制數(shù)據(jù)采集規(guī)則;交互事件響應(yīng)模塊負(fù)責(zé)接收用戶請(qǐng)求,并與服務(wù)器端數(shù)據(jù)存儲(chǔ)設(shè)備進(jìn)行通信;可視視圖生成模塊負(fù)責(zé)將客戶端返回的文本挖掘結(jié)果顯示給用戶,并根據(jù)用戶的交互需求實(shí)現(xiàn)頁面的重置[7-9]。
存儲(chǔ)器是數(shù)據(jù)存儲(chǔ)模塊的核心,是數(shù)據(jù)存儲(chǔ)的主要場(chǎng)所[10]。存儲(chǔ)器分為內(nèi)存儲(chǔ)器和外存儲(chǔ)器,其中內(nèi)存儲(chǔ)器可以直接訪問存儲(chǔ)器內(nèi)部數(shù)據(jù),而外存儲(chǔ)器需要借助主存指令,才能訪問存儲(chǔ)器內(nèi)部數(shù)據(jù)[11-13]。從外存儲(chǔ)器中獲取信息后,中央處理器才能把數(shù)據(jù)傳輸?shù)絻?nèi)存中,內(nèi)存儲(chǔ)模塊如圖2 所示。
圖2 內(nèi)存儲(chǔ)模塊
由圖2 可知,在用office 處理文檔時(shí),鍵盤輸入的字符會(huì)儲(chǔ)存在內(nèi)存中。當(dāng)數(shù)據(jù)保存到磁盤上時(shí),存儲(chǔ)器中的數(shù)據(jù)將被存儲(chǔ)到外存儲(chǔ)器(如硬盤)中[14]。一階(L1)、二階(L2)和三階(L3)緩存是一階緩存的模組,位于內(nèi)存儲(chǔ)器與外存儲(chǔ)器之間,借此可避免數(shù)據(jù)儲(chǔ)存等待時(shí)間過長。用外存儲(chǔ)器存儲(chǔ)數(shù)據(jù)時(shí),需要經(jīng)過這3 個(gè)等級(jí)的緩存模塊;相反,用內(nèi)存儲(chǔ)器存儲(chǔ)數(shù)據(jù)時(shí),可以直接讀取數(shù)據(jù)[15]。
應(yīng)用服務(wù)器主要負(fù)責(zé)處理用戶發(fā)送的、通常是無狀態(tài)的請(qǐng)求信息,服務(wù)程序本身并不需要為用戶請(qǐng)求記錄上下文信息。該設(shè)計(jì)的優(yōu)點(diǎn)是任何用戶的請(qǐng)求都可以提交到任何應(yīng)用服務(wù)器上[16]。事實(shí)上,應(yīng)用服務(wù)器集群通常由負(fù)載均衡服務(wù)器來構(gòu)建。
瀏覽器端可以是單進(jìn)程的應(yīng)用程序,也可以是使用IPC 通信的多進(jìn)程應(yīng)用程序,多進(jìn)程具體分為:
瀏覽器進(jìn)程:完成瀏覽標(biāo)簽的前進(jìn)、后退,瀏覽地址欄、書簽欄等任務(wù),處理瀏覽器中一些不可見的底層操作,比如網(wǎng)絡(luò)請(qǐng)求,文件訪問等。
渲染進(jìn)程:當(dāng)顯示標(biāo)簽時(shí),負(fù)責(zé)相關(guān)工作,也稱為繪圖引擎。
插件進(jìn)程:負(fù)責(zé)控制所用到的插件。
GPU 進(jìn)程:負(fù)責(zé)處理整個(gè)應(yīng)用程序GPU 任務(wù)。
信息抽取就是把包含在文本中的信息進(jìn)行結(jié)構(gòu)化處理,建立便于使用數(shù)據(jù)庫存儲(chǔ)的組織形式。信息提取系統(tǒng)的輸入信息是文本的原版,輸出信息是固定格式的。抽取來自不同文件的信息并以統(tǒng)一格式進(jìn)行集成,該集成方法的優(yōu)勢(shì)是數(shù)據(jù)易于檢查、比較和自動(dòng)處理?;谛畔⒊槿〉碾娋W(wǎng)缺陷文本挖掘模型如圖3 所示。
圖3 挖掘模型
基于信息抽取挖掘過程包括以下5 個(gè)步驟:
將試驗(yàn)一所得數(shù)據(jù)制成時(shí)間函數(shù)和上拉桿角度(如圖5所示)、上拉桿垂直力(如圖6所示)、上拉桿水平力(如圖7所示)、右拉桿垂直力(如圖8所示)、右拉桿水平(如圖9所示)、左拉桿垂直力(如圖10所示)及在拉桿水平力(如圖11所示),從上圖可以看出,當(dāng)毒餌噴撒機(jī)做提升試驗(yàn)時(shí)上拉桿角度在(32°~68°)的范圍內(nèi)。上拉桿垂直力在(0~7 285N)范圍內(nèi);上拉桿水平力在(0~5 189N)范圍內(nèi);右拉桿垂直力在(0~5 721N)范圍內(nèi);右拉桿水平力在(0~5 575N)范圍內(nèi);左拉桿垂直力在(0~5 238N)范圍內(nèi);左拉桿水平力在(856~5 863N)范圍內(nèi)。
step1:預(yù)測(cè)有用信息。自動(dòng)獲取所有相關(guān)文件時(shí),有必要盡可能地搜索不相關(guān)的信息,而有價(jià)值的信息可以通過網(wǎng)絡(luò)爬蟲來顯示。
step2:抽取信息。作為數(shù)據(jù)挖掘的預(yù)處理階段,信息提取包含了大量的信息元素,電網(wǎng)缺陷術(shù)語表如表1 所示。
表1 電網(wǎng)缺陷術(shù)語表
輸入電網(wǎng)缺陷文本后,利用術(shù)語注解標(biāo)準(zhǔn)形式識(shí)別術(shù)語表1 中的內(nèi)容,由此得到文本中的標(biāo)準(zhǔn)詞匯。調(diào)度人員在某一固定周期內(nèi)會(huì)對(duì)電網(wǎng)設(shè)備進(jìn)行不同描述,由于調(diào)度人員對(duì)不同電網(wǎng)缺陷信息描述習(xí)慣a不同,其行為標(biāo)簽ti在固定周期中的覆蓋率可表示為:
式(1)中,sum 表示調(diào)度員對(duì)某種電網(wǎng)設(shè)備出現(xiàn)故障缺陷問題的標(biāo)簽描述;T表示系統(tǒng)出現(xiàn)故障缺陷的時(shí)長。
電網(wǎng)缺陷記錄的平均時(shí)間間隔計(jì)算公式為:
式(2)中,k表示電網(wǎng)缺陷記錄次數(shù);d表示時(shí)間間隔,則電網(wǎng)缺陷描述偏離度計(jì)算公式為:
如果電網(wǎng)設(shè)備出現(xiàn)故障是無周期性的,那么偏離度為0,否則偏離度與時(shí)間間隔d一致。設(shè)在固定時(shí)間內(nèi)某種電網(wǎng)缺陷標(biāo)簽標(biāo)記的時(shí)間間隔為d1,d2,…,dn,電網(wǎng)缺陷標(biāo)簽標(biāo)記的周期可表示為:
如果電網(wǎng)缺陷發(fā)生在該周期內(nèi),則說明電網(wǎng)缺陷是具有周期性的,即在相同時(shí)間段內(nèi)會(huì)出現(xiàn)周期性電網(wǎng)故障,在該段周期內(nèi),調(diào)度人員應(yīng)當(dāng)在標(biāo)簽中加入時(shí)間段描述標(biāo)簽。對(duì)于表1 中的缺陷等級(jí)術(shù)語分類,使用已標(biāo)記的標(biāo)準(zhǔn)詞匯分析后,輸出語法角色標(biāo)記的片段,如表2 所示。
表2 語法角色標(biāo)記的缺陷等級(jí)術(shù)語片段
step3:建立數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是一個(gè)集成的、用于支持管理決策的穩(wěn)定數(shù)據(jù)集。作為一個(gè)信息平臺(tái),數(shù)據(jù)倉庫主要利用星型模型和雪花型模型組織數(shù)據(jù),使用戶能夠通過數(shù)據(jù)挖掘從數(shù)據(jù)中獲取信息和知識(shí)。
step4:挖掘數(shù)據(jù)。數(shù)據(jù)采掘就是挖掘大量結(jié)構(gòu)化數(shù)據(jù)的知識(shí)。
step5:結(jié)果可視化。運(yùn)用信息可視化技術(shù)輔助展示挖掘結(jié)果。
選擇某電網(wǎng)公司2015-2019 年的數(shù)據(jù),共包括1 515 條有關(guān)變壓器缺陷的文本歷史記錄,以該數(shù)據(jù)為基礎(chǔ),對(duì)基于信息抽取的電網(wǎng)缺陷文本挖掘系統(tǒng)設(shè)計(jì)的合理性進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。
分別使用向量空間法、語義框架槽填充方法和基于信息抽取方法分析變壓器缺陷文本挖掘精準(zhǔn)度,對(duì)比結(jié)果如圖4 所示。
圖4 不同方法缺陷文本挖掘精準(zhǔn)度對(duì)比
由圖4 可知,使用傳統(tǒng)方法挖掘缺陷文本時(shí),挖掘精準(zhǔn)度明顯低于所提方法;而所提方法的挖掘精準(zhǔn)度較高,最低精準(zhǔn)度也達(dá)到了85%,說明該方法的挖掘結(jié)果更可靠。
以斷路器為對(duì)象,對(duì)斷路器發(fā)生故障下缺陷文本的挖掘精度進(jìn)行分析,機(jī)械電磁拖動(dòng)檢流動(dòng)作精度低是造成斷路器出現(xiàn)缺陷的主要原因,機(jī)械電磁拖動(dòng)檢流動(dòng)作如圖5 所示。
圖5 機(jī)械電磁拖動(dòng)檢流動(dòng)作
根據(jù)圖5 所示,對(duì)比不同方法的斷路器缺陷文本挖掘精準(zhǔn)度,結(jié)果如圖6 所示。
圖6 斷路器缺陷文本挖掘精準(zhǔn)度對(duì)比
由圖6 可知,傳統(tǒng)方法針對(duì)斷路器缺陷文本進(jìn)行挖掘時(shí),挖掘精度較低。而使用所提方法對(duì)斷路器缺陷文本進(jìn)行挖掘時(shí),挖掘精度明顯更高。說明所提方法對(duì)斷路器缺陷文本挖掘結(jié)果更可靠,充分驗(yàn)證了所提方法的有效性。
電網(wǎng)缺陷文本挖掘系統(tǒng)是一個(gè)基于信息抽取技術(shù)的網(wǎng)絡(luò)熱點(diǎn)內(nèi)容挖掘系統(tǒng),它將文本采集、大數(shù)據(jù)處理和文本信息可視化融為一體。該系統(tǒng)能夠根據(jù)目標(biāo)文本集合整合詞匯信息,快速識(shí)別目標(biāo)文本中的關(guān)鍵內(nèi)容,幫助用戶快速獲取網(wǎng)絡(luò)信息重載環(huán)境下的宏觀信息。從系統(tǒng)性能方面,利用信息提取技術(shù),實(shí)現(xiàn)了文本分析模塊,在文本特征和主題挖掘過程中,計(jì)算了網(wǎng)絡(luò)缺陷描述的偏差度,從而大大提高了網(wǎng)絡(luò)缺陷處理結(jié)果的準(zhǔn)確性。