梅傲琪 張 銳 周立德
(廣東電網(wǎng)有限責(zé)任公司東莞供電局,廣東東莞523008)
在信息技術(shù)逐漸走向完善的當(dāng)下,數(shù)據(jù)不斷膨脹的情況無法避免,在電網(wǎng)數(shù)據(jù)治理方面,全面分析由現(xiàn)場數(shù)據(jù)構(gòu)成的大數(shù)據(jù)已成為大勢所趨,這也是相關(guān)人員紛紛選擇利用由大數(shù)據(jù)所衍生出的理念和技術(shù),圍繞數(shù)據(jù)質(zhì)量對治理體系進(jìn)行設(shè)計(jì)的原因。由此可見,本文所研究課題有較為突出的社會(huì)價(jià)值,應(yīng)當(dāng)引起重視。
對電網(wǎng)數(shù)據(jù)進(jìn)行治理的初衷是為用戶提供優(yōu)質(zhì)服務(wù)以及給用戶帶來更符合預(yù)期的體驗(yàn),而持續(xù)增長的電網(wǎng)數(shù)據(jù)致使用來存儲(chǔ)和分析數(shù)據(jù)的常規(guī)體系面臨著被淘汰的風(fēng)險(xiǎn),要想使數(shù)據(jù)提取及分析工作發(fā)揮出應(yīng)有價(jià)值,并為調(diào)度工作指明方向,優(yōu)化現(xiàn)有系統(tǒng)是必然選擇。由研究所得結(jié)論可知,要想使數(shù)據(jù)治理及相關(guān)工作取得和預(yù)期相符的良好效果,最有效的方法便是對大數(shù)據(jù)進(jìn)行引入,這是因?yàn)橛纱髷?shù)據(jù)延伸出的技術(shù)可使高效檢測數(shù)據(jù)、離線分析數(shù)據(jù)等設(shè)想成為現(xiàn)實(shí)?;诖?,本文選擇以大數(shù)據(jù)調(diào)度為基礎(chǔ),借助云平臺(tái)所擁有的功能,參考數(shù)據(jù)所表現(xiàn)出的特點(diǎn),通過分布存儲(chǔ)并處理數(shù)據(jù)的方式,對大數(shù)據(jù)容錯(cuò)性進(jìn)行凸顯,另外,數(shù)據(jù)存儲(chǔ)量也會(huì)得到顯著增加。與此同時(shí),本文還以分離器為載體,對電網(wǎng)數(shù)據(jù)所適用調(diào)度方法進(jìn)行了設(shè)計(jì),通過將調(diào)度方法融入處理框架的方式,確保輸入數(shù)據(jù)可獲得理想的挖掘及處理質(zhì)效,檢測精度隨之提升,數(shù)據(jù)治理自然也會(huì)擁有符合預(yù)期的精度。
研究表明,若將數(shù)據(jù)質(zhì)量視為核心,對電網(wǎng)數(shù)據(jù)進(jìn)行治理,與常規(guī)數(shù)據(jù)治理模式間有十分明顯的差異存在,具體表現(xiàn)為:對數(shù)據(jù)挖掘、云平臺(tái)存儲(chǔ)及其他相關(guān)技術(shù)進(jìn)行引入。技術(shù)人員對治理體系的設(shè)計(jì)如圖1所示,此體系涵蓋諸多功能模塊,例如數(shù)據(jù)挖掘/存儲(chǔ)、輸入解析等[1]。其中,輸入解析強(qiáng)調(diào)對數(shù)據(jù)進(jìn)行解壓縮處理,明確數(shù)據(jù)所處陣營為實(shí)時(shí)數(shù)據(jù)或是歷史數(shù)據(jù),判斷數(shù)據(jù)控制方向?yàn)榇鎯?chǔ)還是應(yīng)用展示。另外,在傳輸或存儲(chǔ)數(shù)據(jù)時(shí),通常以壓縮數(shù)據(jù)為依托,旨在避免大量帶寬、存儲(chǔ)空間被數(shù)據(jù)占用的情況出現(xiàn),所引入云平臺(tái),在解壓縮方面,現(xiàn)已擁有相對完善的技術(shù),這也為壓縮數(shù)據(jù)得到充分利用提供了有力的技術(shù)支持。
在數(shù)據(jù)挖掘方面,本文擬采用以映射規(guī)約所衍生出的并行設(shè)計(jì),通過篩選并全面評(píng)價(jià)電網(wǎng)數(shù)據(jù)的方式,確保所設(shè)計(jì)治理體系可發(fā)揮出應(yīng)有作用。從本質(zhì)上說,映射規(guī)約是映射、規(guī)約的集合體,通常要先分別處理再進(jìn)行整合,才能滿足大數(shù)據(jù)所提出的訴求。
圖1 治理框架圖
而數(shù)據(jù)存儲(chǔ)所依托工具為數(shù)據(jù)庫,本文所選用數(shù)據(jù)庫即可借助鍵值對,高效完成標(biāo)記存儲(chǔ)數(shù)據(jù)的操作,且擁有理想的存儲(chǔ)質(zhì)效。另外,這樣做對非關(guān)系數(shù)據(jù)的處理操作,具備較為突出的積極影響,這點(diǎn)應(yīng)尤為重視。
眾所周知,數(shù)據(jù)治理的切入點(diǎn)通常為實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù),這也給調(diào)度系統(tǒng)提出了較為嚴(yán)格的要求,一方面,要對數(shù)據(jù)流進(jìn)行從容應(yīng)對,另一方面,要擁有分布存儲(chǔ)數(shù)據(jù)所適用的處理功能,可借助Hadoop等平臺(tái),為分布存儲(chǔ)數(shù)據(jù)提供融合框架,并為業(yè)務(wù)處理及后續(xù)環(huán)節(jié)的開展做鋪墊。研究表明,映射和規(guī)約都是調(diào)度管理不可或缺的步驟,二者往往被用來對數(shù)據(jù)集合進(jìn)行分割與并發(fā)排序,在落實(shí)相關(guān)工作時(shí),技術(shù)人員應(yīng)確保映射結(jié)果可向規(guī)約任務(wù)進(jìn)行實(shí)時(shí)發(fā)送,而規(guī)約任務(wù)的作用主要是重新融合所接收子集,獲得以原始數(shù)據(jù)為主要內(nèi)容的集合,并借助作業(yè)跟蹤器完成分析及調(diào)度壓縮集合的操作。
下文將以優(yōu)化治理效果為出發(fā)點(diǎn),以調(diào)度技術(shù)為依托,綜合考慮數(shù)據(jù)層次及其他相關(guān)因素,對管理過程進(jìn)行描述,供技術(shù)人員參考。
首先,管理層要控制大量數(shù)據(jù),在存儲(chǔ)和傳輸數(shù)據(jù)的同時(shí),對數(shù)據(jù)集合進(jìn)行精準(zhǔn)分割。
其次,處理層強(qiáng)調(diào)以作業(yè)跟蹤器為依托,將任務(wù)融入計(jì)算架構(gòu),參考鍵值對所表現(xiàn)出的方式,完成映射及排序現(xiàn)有任務(wù)的操作,并向規(guī)約操作進(jìn)行傳輸。隨后,經(jīng)由規(guī)約操作,逐一合并相關(guān)子集,以鍵值對為參考,通過逆運(yùn)算的方式,得到未經(jīng)處理的真實(shí)數(shù)據(jù)。
最后,挖掘?qū)油c映射、規(guī)約存在密切聯(lián)系,通過檢測識(shí)別預(yù)處理大數(shù)據(jù)的方式,獲得可被用來衡量電能質(zhì)量及其狀態(tài)的結(jié)論。
上文所提映射規(guī)約操作,現(xiàn)階段常被用來并行分析及深入挖掘數(shù)據(jù),其中,并行操作與大數(shù)據(jù)調(diào)度表現(xiàn)出特征高度契合,對數(shù)據(jù)集合進(jìn)行分割時(shí),技術(shù)人員往往會(huì)選擇對分類器加以運(yùn)用,現(xiàn)有分類器較多,Naive Bayes的出鏡率較高,一方面,此分類器對參數(shù)的依賴性較弱,另一方面,此分類器未對參數(shù)完整與否提出要求,穩(wěn)定性突出。本文用X={x1,x2,…,xn}代表電網(wǎng)數(shù)據(jù)集合,通過數(shù)據(jù)計(jì)算的方式,明確不同數(shù)據(jù)特點(diǎn)對應(yīng)條件概率公式為:
式中:P(Ci)指代基于原始數(shù)據(jù)所得先驗(yàn)概率;Ci指代分割子集[2]。
另外,技術(shù)人員僅需直接計(jì)算,便可明確離散數(shù)據(jù)所表現(xiàn)出特征,而連續(xù)數(shù)據(jù)的計(jì)算流程,通常是先轉(zhuǎn)化為離散數(shù)據(jù),再利用相關(guān)公式完成計(jì)算。
在借助分類器對數(shù)據(jù)子集進(jìn)行分割后,技術(shù)人員應(yīng)對不同任務(wù)適用處理和分配加以設(shè)計(jì),一般來說,客戶端程序是配置任務(wù)的主體,待配置環(huán)節(jié)結(jié)束,再向任務(wù)跟蹤器對任務(wù)進(jìn)行下發(fā),確保任意跟蹤器都有需要映射和規(guī)約的任務(wù)與之對應(yīng),并且所產(chǎn)生數(shù)據(jù)均利用固定文件系統(tǒng)加以保存。
若以分類器為依托,對數(shù)據(jù)進(jìn)行全面處理,通常要經(jīng)歷以下步驟:
第一步為輸入分離,落實(shí)該步驟時(shí),技術(shù)人員應(yīng)借助文件處理的方式,使映射規(guī)約數(shù)據(jù)分離,經(jīng)由分離所得輸入數(shù)據(jù),通常由分片大小及位置構(gòu)成,另外,還應(yīng)在數(shù)據(jù)區(qū)對原始數(shù)據(jù)進(jìn)行系統(tǒng)存儲(chǔ)。
第二步為拆分任務(wù),以貝葉斯公式為依托,明確不同節(jié)點(diǎn)對應(yīng)選擇概率及先驗(yàn)概率,為參數(shù)拆解提供便利,待獲得映射規(guī)約任務(wù)后,技術(shù)人員應(yīng)借助追蹤器對概率計(jì)算流程進(jìn)行管理,并確保所輸入數(shù)據(jù)滿足鍵值對特征。
第三步為數(shù)據(jù)分類,從全局的視角出發(fā),結(jié)合上文所介紹公式,對未得到識(shí)別數(shù)據(jù)的選擇概率進(jìn)行計(jì)算,確保任意數(shù)據(jù)樣本都有分類與之對應(yīng)。
信息時(shí)代的到來,使電網(wǎng)系統(tǒng)擁有了更加廣泛的覆蓋范圍,對數(shù)據(jù)進(jìn)行獲取的途徑也不斷增加,在落實(shí)數(shù)據(jù)治理的相關(guān)工作時(shí),只有及時(shí)轉(zhuǎn)變觀念,對大數(shù)據(jù)及所涉及技術(shù)進(jìn)行充分運(yùn)用,通過建立治理體系的方式,為電網(wǎng)系統(tǒng)提供可靠而安全的運(yùn)行環(huán)境,才能使電力企業(yè)乃至整個(gè)行業(yè)擁有源源不斷的前進(jìn)動(dòng)力。
本文擬利用仿真實(shí)驗(yàn),對數(shù)據(jù)檢測流程、計(jì)算處理環(huán)節(jié)、最終結(jié)果評(píng)估分別進(jìn)行模擬,搭建分布處理平臺(tái),其中,主節(jié)點(diǎn)的作用是拆解并分配數(shù)據(jù),子節(jié)點(diǎn)的功能則是計(jì)算與存儲(chǔ)數(shù)據(jù),將檢測精度打造成核心評(píng)價(jià)指標(biāo),確保治理成果經(jīng)由直觀且準(zhǔn)確的方式展現(xiàn)。由檢測精度實(shí)驗(yàn)所得曲線(圖2)可知,在數(shù)據(jù)量不斷增加的前提下,檢測精度的下降趨勢十分明顯且平緩,8×104的數(shù)據(jù)量,通常對應(yīng)80%的檢測精度,由此可見,檢測精度和理想水平的差距較小,可被用來對電網(wǎng)數(shù)據(jù)進(jìn)行治理[3]。另外,圖2所繪制曲線還表明,檢測過程無震蕩問題存在,這也佐證了“基于數(shù)據(jù)質(zhì)量所開展治理工作,擁有良好抗噪能力”的觀點(diǎn)。
圖2 實(shí)驗(yàn)曲線
綜上,在調(diào)度和檢測數(shù)據(jù)不斷增加的當(dāng)下,持續(xù)膨脹的電網(wǎng)數(shù)據(jù)使治理工作面臨著巨大挑戰(zhàn),原有模式所取得成績與理想狀態(tài)相距甚遠(yuǎn),這便是本文所研究課題的提出背景。事實(shí)證明,將數(shù)據(jù)質(zhì)量打造成治理核心,以大數(shù)據(jù)云平臺(tái)為依托,經(jīng)由數(shù)據(jù)庫存儲(chǔ)相關(guān)數(shù)據(jù),并對調(diào)度方法進(jìn)行設(shè)計(jì)與完善,可使電網(wǎng)數(shù)據(jù)得到深入挖掘和系統(tǒng)解析。
從數(shù)據(jù)治理的視角來看,大數(shù)據(jù)所帶來的影響有明顯的兩面性,一方面,使電網(wǎng)運(yùn)行擁有了強(qiáng)有力的技術(shù)支持,另一方面,后續(xù)開展的信息處理等工作,無形中被賦予了更高難度。基于此,技術(shù)人員以數(shù)據(jù)質(zhì)量為切入點(diǎn),結(jié)合電網(wǎng)數(shù)據(jù)所表現(xiàn)特點(diǎn),對治理工作適用體系進(jìn)行了設(shè)計(jì),投入運(yùn)行后,此體系所取得成績較為醒目。