國(guó)網(wǎng)新疆電力有限公司信息通信公司 尹 蕊 王曉磊 王 濤
面對(duì)當(dāng)下變動(dòng)越來(lái)越頻繁的電力網(wǎng)絡(luò),社會(huì)生產(chǎn)與民眾生活對(duì)與電力資源的需求也在不斷地?cái)U(kuò)張,網(wǎng)絡(luò)技術(shù)的快速發(fā)展促使信息資源量飛速提升,傳統(tǒng)模式下對(duì)信息進(jìn)行獲取的方式已經(jīng)難以滿足現(xiàn)代化社會(huì)的發(fā)展需求。因此,相關(guān)工作人員應(yīng)當(dāng)積極的意識(shí)到給方面的不足,對(duì)電力信息分類(lèi)以及搜索進(jìn)行深入地分析,提升電力信息分類(lèi)及搜索水平。
伴隨著日益增多的信息資源,現(xiàn)階段較為成熟的大型通用搜索引擎以及無(wú)法充分滿足現(xiàn)代化電力信息分類(lèi)與搜索的工作需求。因此,電力部門(mén)應(yīng)當(dāng)積極針對(duì)客戶實(shí)際需要,制定電力人群以及制定電力領(lǐng)域電力信息分類(lèi)搜索技術(shù)順勢(shì)而生,進(jìn)而為人們提供特定價(jià)值的信息以及有關(guān)的電力服務(wù)。
從不完全的、有噪聲的、隨機(jī)的、龐大的以及模糊的數(shù)據(jù)中發(fā)掘有效的、新穎的以及有用的數(shù)據(jù),最后將數(shù)據(jù)中可以理解的知識(shí)以及信息進(jìn)行識(shí)別的過(guò)程就是數(shù)據(jù)挖掘。作為一個(gè)涵蓋多方面技術(shù)的技術(shù)學(xué)科,數(shù)據(jù)挖掘中包含神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、數(shù)理統(tǒng)計(jì)、模糊教學(xué)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)庫(kù)等技術(shù)。
對(duì)于數(shù)據(jù)挖掘的分類(lèi)可以采用多種方法,站在挖掘的角度而言,可將其分為機(jī)器學(xué)習(xí)法、統(tǒng)計(jì)法、神經(jīng)網(wǎng)絡(luò)法以及數(shù)據(jù)庫(kù)法,其中數(shù)據(jù)庫(kù)法主要是采用多維數(shù)據(jù)進(jìn)行分析;神經(jīng)網(wǎng)絡(luò)法主要采用有組織神經(jīng)網(wǎng)絡(luò)以及前向神經(jīng)網(wǎng)絡(luò)等進(jìn)行數(shù)據(jù)挖掘;統(tǒng)計(jì)法則書(shū)要是采用回歸分析、判別分析、聚類(lèi)分析以及探索性分析等對(duì)數(shù)據(jù)信息進(jìn)行分析分類(lèi);機(jī)器學(xué)習(xí)法則主要采用歸納學(xué)習(xí)法、基于范例學(xué)習(xí)法以及遺傳算法等方式對(duì)數(shù)據(jù)進(jìn)行分析歸類(lèi)。站在挖掘人物的角度里,數(shù)據(jù)挖掘可以細(xì)分為預(yù)測(cè)模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、依賴(lài)模型發(fā)現(xiàn)等種類(lèi)。數(shù)據(jù)挖掘在電力信息搜索中的應(yīng)用流程如圖1所示。
圖1 數(shù)據(jù)挖掘在電力信息搜索中的應(yīng)用流程
電力信息分類(lèi)及搜索就是指根據(jù)企業(yè)經(jīng)營(yíng)過(guò)程中會(huì)計(jì)核算記錄以及相關(guān)管理資料,與企業(yè)內(nèi)外部環(huán)境信息相結(jié)合,通過(guò)數(shù)據(jù)分析的方式來(lái)對(duì)企業(yè)經(jīng)營(yíng)狀況以及電量使用狀況進(jìn)行評(píng)價(jià),以此保障能夠?yàn)槠髽I(yè)的運(yùn)營(yíng)提供科學(xué)的依據(jù)。
傳統(tǒng)電力信息采集與搜索工作具備較強(qiáng)的片面性。在過(guò)去采用的電力信息報(bào)表秉承數(shù)量分析、以及定性分析的原則,統(tǒng)計(jì)匯總以及簡(jiǎn)單計(jì)算是其主要的分析方式,因此得出的結(jié)論主要是問(wèn)題投資、盈利能力、償債能力、運(yùn)營(yíng)能力、籌資以及為主。但是,但下很多電力企業(yè)都在大力的應(yīng)用云計(jì)算以及物聯(lián)網(wǎng)等多種新型技術(shù),企業(yè)的全部業(yè)務(wù)數(shù)據(jù)都能夠被及時(shí)的獲取,同時(shí)數(shù)據(jù)的類(lèi)型也開(kāi)始向著評(píng)價(jià)、地址以及時(shí)間等多個(gè)形式進(jìn)行轉(zhuǎn)變。在這種情況下,傳統(tǒng)企業(yè)電力信息采集與搜索工作難以對(duì)這些數(shù)據(jù)進(jìn)行分析、計(jì)算、排序與篩選,企業(yè)難以得到數(shù)據(jù)所提供的支持,管理層的相關(guān)需求難以被充分的滿足。
傳統(tǒng)電力信息采集與搜索工作在時(shí)間上有滯后性。現(xiàn)階段,我國(guó)很多電力信息采集與搜索方法主要依賴(lài)核算數(shù)據(jù),但是匯總核算通常都是針對(duì)歷史數(shù)據(jù)進(jìn)行核算,因此傳統(tǒng)的電力信息采集與搜索工作只能對(duì)歷史進(jìn)行評(píng)價(jià),根據(jù)歷史對(duì)未來(lái)進(jìn)行預(yù)測(cè)。但是,我們應(yīng)當(dāng)充分的意識(shí)到,電力企業(yè)在運(yùn)行的過(guò)程中無(wú)時(shí)無(wú)刻不在產(chǎn)生數(shù)據(jù),并且在發(fā)展日新月異的今天,企業(yè)的生命線就是時(shí)間,企業(yè)財(cái)務(wù)分析決策開(kāi)始迫切的需要企業(yè)能夠及時(shí)的獲取所有的數(shù)據(jù)與信息。
總而言之,傳統(tǒng)的電力信息采集與搜索方式已經(jīng)難以充分滿足現(xiàn)現(xiàn)代化企業(yè)針對(duì)業(yè)務(wù)數(shù)據(jù)的搜集、存儲(chǔ)以及分析等多種需求,電力信息采集與搜索工作方式的弊端原來(lái)越明顯。
電力企業(yè)在建立電力信息數(shù)據(jù)庫(kù)的過(guò)程中應(yīng)當(dāng)注重以下幾個(gè)方面:首先,要全面地收集各種電力信息資源數(shù)據(jù),并對(duì)收集到的電力信息資源內(nèi)進(jìn)行科學(xué)的整理、分類(lèi)以及存儲(chǔ),最大限度利用電力信息資源,保障電力信息資源的作用能夠充分地發(fā)揮出來(lái)。其次,電力部門(mén)應(yīng)當(dāng)充分結(jié)合電力信息數(shù)據(jù)的語(yǔ)言特征創(chuàng)建相應(yīng)的電力專(zhuān)業(yè)詞庫(kù),采用文本聚類(lèi)的方式對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行整理,筆者采用文本聚類(lèi)的關(guān)聯(lián)算法驗(yàn)證數(shù)據(jù)倉(cāng)庫(kù)的可行。
采用這樣的方式能夠保障用戶應(yīng)用兩種方式進(jìn)行電力信息搜索:第一,用戶需要將需要查詢(xún)的電力信息問(wèn)題的關(guān)鍵詞以及自認(rèn)語(yǔ)言在表中進(jìn)行描述輸入,并且明確的歸類(lèi)問(wèn)題所屬的領(lǐng)域,采用這種方式將搜索相似度這個(gè)問(wèn)題定位在某一個(gè)領(lǐng)域或者是多個(gè)領(lǐng)域中,隨后在相關(guān)領(lǐng)域中將用戶所需要的信息或者是有關(guān)信息找出,大大提升搜索的速度;第二,如果在用戶沒(méi)有對(duì)問(wèn)題的所述領(lǐng)域進(jìn)行明確的情況下,那么就需要以所有。領(lǐng)域得到電力專(zhuān)業(yè)詞庫(kù)來(lái)進(jìn)行搜索。
本文筆者所研究的搜索方案主要包括索引模塊、用戶接口、搜索模塊以及檢索模塊四個(gè)部分。其中,用戶接口模塊主要為了顯示查詢(xún)的結(jié)果、登錄注冊(cè)、用戶資料查詢(xún)以及信息輸入查詢(xún);而檢索模塊的主要內(nèi)容包括依據(jù)相似度對(duì)查詢(xún)的結(jié)果進(jìn)行有效的排序,并且對(duì)用戶的信息進(jìn)行搜集,檢索相應(yīng)文檔。索引模塊的主要功能包括生成索引表、抽取索引項(xiàng)以及理解各種信息等等。搜索模塊的主要功能則是針對(duì)于電力信息的采集與分析。
該方案中主要包括中文分詞、關(guān)聯(lián)規(guī)則、相似度規(guī)則、聚類(lèi)規(guī)則以及搜索規(guī)則。首先,我們建立數(shù)據(jù)庫(kù)的過(guò)程中應(yīng)當(dāng)根據(jù)論壇搜索的原則,隨后再借助整理好的數(shù)據(jù)庫(kù)對(duì)信息進(jìn)行檢索,為用戶提供便捷的搜索界面。數(shù)據(jù)庫(kù)中主要包括關(guān)聯(lián)規(guī)格模塊、相似度規(guī)則模塊以及聚類(lèi)模塊,第二階段的數(shù)據(jù)收縮依賴(lài)于搜索模塊開(kāi)展。中文分詞模塊是整個(gè)方案設(shè)計(jì)的基礎(chǔ),方案中后續(xù)的各個(gè)功能模塊都需要中文分詞模塊去進(jìn)行結(jié)果處理,該方案能夠?qū)崿F(xiàn)的主要功能有數(shù)據(jù)庫(kù)文本分詞、計(jì)算文本中的詞條、詞庫(kù)的顯示與添加等等。
該方案中幾個(gè)模塊設(shè)計(jì)的根本目的就是為了對(duì)數(shù)據(jù)庫(kù)進(jìn)行整理,充分保障能夠及時(shí)地對(duì)各種數(shù)據(jù)信息進(jìn)行有效的匯總與整理,并對(duì)數(shù)據(jù)進(jìn)行有效地管理與儲(chǔ)存,保障工作人員能夠及時(shí)地獲取需要的數(shù)據(jù)。當(dāng)用戶采用中文語(yǔ)言描述電力問(wèn)題之后,該方案能夠執(zhí)行應(yīng)用分次算法收集數(shù)據(jù)庫(kù)中的相關(guān)資料,隨后采用一維數(shù)組對(duì)其進(jìn)行有效的儲(chǔ)存,最后在數(shù)據(jù)庫(kù)中的事物數(shù)據(jù)表中分類(lèi)為O的記錄單獨(dú)的存入到一個(gè)一維數(shù)組里。當(dāng)數(shù)組中對(duì)用戶的語(yǔ)言描述的關(guān)鍵詞分類(lèi)儲(chǔ)存之后可以其在二維數(shù)組之中進(jìn)行處理,第一個(gè)關(guān)鍵詞用Y表示,第二個(gè)關(guān)鍵詞則用I便是,通過(guò)與一維數(shù)組里的數(shù)據(jù)進(jìn)行對(duì)比若存在差異,該條信息將會(huì)保持不變繼續(xù)進(jìn)行檢索,若結(jié)果完全一致,那么相關(guān)度權(quán)限值則為20,隨后再對(duì)下一個(gè)關(guān)鍵詞進(jìn)行檢索。在進(jìn)行完美連詞以及關(guān)鍵詞對(duì)比的過(guò)程中,同樣可以采用這樣的辦法,但是有些地方則會(huì)出現(xiàn)明顯的不同,大多數(shù)情況下,尋找到一個(gè)關(guān)鍵詞并且完成相關(guān)度權(quán)值計(jì)算之后會(huì)舍去5的關(guān)聯(lián)度,若關(guān)聯(lián)詞的相關(guān)權(quán)值超過(guò)5將會(huì)被系統(tǒng)自動(dòng)歸納到另一個(gè)數(shù)組之后,在采用從大到小的方法進(jìn)行檢索,進(jìn)而準(zhǔn)確的尋找出需要的信息數(shù)據(jù)。
結(jié)語(yǔ):總而言之,在電力企業(yè)信息管理的過(guò)程中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠促使電力資源文檔庫(kù)的有效分類(lèi)存儲(chǔ),確保相關(guān)工作人員能夠快速及時(shí)的尋找出需要的電力信息,為電力工作的順利開(kāi)展打下良好的基礎(chǔ)。因此,相關(guān)部門(mén)應(yīng)當(dāng)深入地對(duì)基于數(shù)據(jù)挖掘的電力信息分類(lèi)及搜索技術(shù)進(jìn)行分析,探究其應(yīng)用過(guò)程中出現(xiàn)的不足,及時(shí)采取相應(yīng)的優(yōu)化措施,提升電力企業(yè)電力信息分類(lèi)及搜索技術(shù)水平。