趙小凡,杜舒明,梁雪青
摘 要:電網(wǎng)數(shù)據(jù)中臺建設(shè)和實踐探索的目的是夯實電網(wǎng)數(shù)據(jù)應(yīng)用基礎(chǔ),提升數(shù)據(jù)應(yīng)用的質(zhì)量以及服務(wù)水平,借助技術(shù)手段,采集、分析數(shù)據(jù),彌補(bǔ)數(shù)據(jù)系統(tǒng)存在的漏洞。文章圍繞電網(wǎng)數(shù)據(jù)中臺數(shù)據(jù)質(zhì)量展開探索,提出數(shù)據(jù)質(zhì)量校驗的實踐方案,為政府科學(xué)決策、電網(wǎng)建設(shè)與質(zhì)量服務(wù)效能提升、資源共享與數(shù)據(jù)精準(zhǔn)分析等方面提供參考。
關(guān)鍵詞:電網(wǎng)數(shù)據(jù);數(shù)據(jù)質(zhì)量;數(shù)據(jù)校驗
中圖分類號:C39 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-1064(2021)12-0-03
DOI:10.12310/j.issn.1674-1064.2021.12.018
電網(wǎng)質(zhì)量保障要確保電力調(diào)度系統(tǒng)中各類運行數(shù)據(jù)正常傳輸,依靠技術(shù)手段和平臺建設(shè),解決數(shù)據(jù)采集、數(shù)據(jù)傳輸、外界因素的影響和網(wǎng)絡(luò)傳輸速度延遲等問題,保障數(shù)據(jù)運行中不會因為上述不正常因素造成傳輸中斷,造成源數(shù)據(jù)異常和錯誤,影響和干擾數(shù)據(jù)調(diào)度綜合數(shù)系統(tǒng)中數(shù)據(jù)運行的正確性與及時性。因此,需要可靠的數(shù)據(jù)質(zhì)量校驗方法,保障各類數(shù)據(jù)質(zhì)量以及系統(tǒng)運行穩(wěn)定。
1 電網(wǎng)企業(yè)數(shù)據(jù)平臺和系統(tǒng)功能優(yōu)化的背景
結(jié)合國家電網(wǎng)企業(yè)相關(guān)數(shù)據(jù)分析,接入智能電表等各類終端5.4億臺,采集數(shù)據(jù)日增量超過60 TB,車聯(lián)網(wǎng)接入充電樁超過28萬個,電商平臺注冊用戶2.25億,在線采集全國約4.71億用戶的用電信息,線上繳費率超過50%。電網(wǎng)企業(yè)信息化系統(tǒng)建設(shè)為業(yè)務(wù)進(jìn)展和企業(yè)經(jīng)營提供支持,保障電網(wǎng)運行穩(wěn)定和數(shù)據(jù)傳輸暢通無阻,為電力用戶提供優(yōu)質(zhì)的服務(wù),實現(xiàn)各級業(yè)務(wù)展開和部門及時溝通,并以信息化手段全方位監(jiān)測電力系統(tǒng)。
雖然借助技術(shù)手段處理電力系統(tǒng)數(shù)據(jù)以及業(yè)務(wù)開展有很大的優(yōu)勢,但是也存在一些不足之處:一是電力業(yè)務(wù)上仍是“部門級”,各業(yè)務(wù)系統(tǒng)圍繞各自部門的業(yè)務(wù)單獨運用,造成業(yè)務(wù)流程斷點,形成數(shù)據(jù)壁壘;二是技術(shù)上信息化資產(chǎn)和能力未能積累,電力系統(tǒng)中的業(yè)務(wù)服務(wù)能力和數(shù)據(jù)共享與處理能力都相對薄弱,建設(shè)成本投入較大;三是管理和服務(wù)理念上有待強(qiáng)化。
從現(xiàn)階段各部門系統(tǒng)數(shù)據(jù)的實際應(yīng)用看,各部門仍未充分發(fā)揮數(shù)據(jù)在業(yè)務(wù)運行、工作效率等方面的作用和價值,要完整采集所有數(shù)據(jù)信息,實現(xiàn)數(shù)據(jù)信息的實時共享,挖掘數(shù)據(jù)信息的作用價值,確保數(shù)據(jù)信息在各部門業(yè)務(wù)運行中的價值最大化。針對這一現(xiàn)狀,首要任務(wù)是要采集與整合數(shù)據(jù)資源,加強(qiáng)數(shù)據(jù)資源的實時共享與對外合作程度,全面優(yōu)化改進(jìn)中臺系統(tǒng)。數(shù)據(jù)中臺能夠?qū)⑾到y(tǒng)的前臺與后臺有效銜接,通過加強(qiáng)數(shù)據(jù)的建模、數(shù)據(jù)信息的聚合,創(chuàng)建多元化的系統(tǒng)平臺,更好地支撐前臺與后臺的運作。
數(shù)據(jù)中臺與企業(yè)部門業(yè)務(wù)活動聯(lián)系密切,在企業(yè)業(yè)務(wù)運作中發(fā)揮至關(guān)重要的優(yōu)勢作用。一方面,通過建立完整的數(shù)據(jù)模型實現(xiàn)了數(shù)據(jù)信息的準(zhǔn)確出入,最大限度地避免了多個數(shù)據(jù)源數(shù)據(jù)信息重復(fù)歸集的現(xiàn)象產(chǎn)生,提升了系統(tǒng)處理和分析數(shù)據(jù)的運行質(zhì)量和效率;另一方面,節(jié)省系統(tǒng)數(shù)據(jù)處理時間和成本,通過提高處理運行效率,減少數(shù)據(jù)信息重復(fù)濫用現(xiàn)象。
2 數(shù)據(jù)應(yīng)用系統(tǒng)功能分析
2.1 數(shù)據(jù)校驗與修復(fù)
數(shù)據(jù)校驗功能要立足于長期業(yè)務(wù)工作,并對其各項業(yè)務(wù)數(shù)據(jù)經(jīng)過系統(tǒng)分析總結(jié)而成。國家電網(wǎng)經(jīng)過數(shù)據(jù)中臺建設(shè)可以在綜合數(shù)據(jù)調(diào)度平臺運行中及時發(fā)現(xiàn)和解決各種問題,根據(jù)企業(yè)業(yè)務(wù)的實際需求應(yīng)用系統(tǒng)對數(shù)據(jù)分析,經(jīng)過數(shù)據(jù)校驗與修復(fù)建立數(shù)據(jù)規(guī)則庫,利用數(shù)據(jù)規(guī)則庫確定問題解決的路徑,通過一系列規(guī)則建立推理過程[1]。
數(shù)據(jù)校驗與修復(fù)的具體操作方案可以通過同步與采集組件從外系統(tǒng)接入模型設(shè)備信息和各類運行數(shù)據(jù),然后校驗數(shù)據(jù)。如果校驗結(jié)果顯示數(shù)據(jù)問題,就會自動根據(jù)相應(yīng)的規(guī)則進(jìn)行修復(fù),再將修復(fù)的結(jié)果錄入數(shù)據(jù)庫,反映至人機(jī)界面,便于用戶判斷及操作。
2.2 缺失數(shù)據(jù)處理
數(shù)據(jù)平臺采集數(shù)據(jù)會出現(xiàn)數(shù)據(jù)缺失的情況,對后續(xù)數(shù)據(jù)分析和處理造成很大的影響,要盡可能彌補(bǔ)統(tǒng)計領(lǐng)域和數(shù)據(jù)庫領(lǐng)域數(shù)據(jù)缺失造成的損失。
統(tǒng)計領(lǐng)域中處理缺失數(shù)據(jù)的方法主要有單一填補(bǔ)法和多重填補(bǔ)法。單一填補(bǔ)法是對缺失的數(shù)據(jù)構(gòu)造單一替代數(shù)據(jù)進(jìn)行填補(bǔ),填補(bǔ)方式通常有平均值或中間數(shù)填補(bǔ)法、回歸填補(bǔ)法、最大期望填補(bǔ)法、hot deck填補(bǔ)法等。其中,hot deck填補(bǔ)法采用與缺失數(shù)值最相似的觀測變應(yīng)量值作為填充值,但其無法準(zhǔn)確反映原有數(shù)據(jù)的情況,因為相似性填補(bǔ)方式會造成數(shù)據(jù)集的不確定性,產(chǎn)生數(shù)據(jù)偏差[2]。多重填補(bǔ)法是通過應(yīng)用多個數(shù)據(jù)值進(jìn)行填補(bǔ),其優(yōu)勢在于通過對缺失數(shù)據(jù)分布情況的模擬保持變量之間的關(guān)系,通過采集完整數(shù)據(jù)集,利用系統(tǒng)規(guī)則獲得相應(yīng)的結(jié)果,填補(bǔ)方式通常有趨勢得分法等。
2.3 異常數(shù)據(jù)檢測
數(shù)據(jù)出現(xiàn)異常情況主要由兩種原因造成:一是數(shù)據(jù)的固有變異性;二是度量或執(zhí)行錯誤。
檢測與校驗數(shù)據(jù)異常問題的方法要通過數(shù)據(jù)審計,深入挖掘數(shù)據(jù)質(zhì)量。第一,數(shù)據(jù)概化,采用數(shù)據(jù)統(tǒng)計方式概化描述數(shù)據(jù)分布,并自動獲取數(shù)據(jù)的分布特點以及相關(guān)情況。第二,圍繞個別數(shù)據(jù)質(zhì)量問題以及異常情況進(jìn)一步挖掘和分析,可以將數(shù)據(jù)按照距離細(xì)化為不同的數(shù)據(jù)層,按照每一數(shù)據(jù)層統(tǒng)計數(shù)據(jù)特征,結(jié)合定義的距離算出每個數(shù)據(jù)節(jié)點與中心的距離,以此作為判斷數(shù)據(jù)異常的依據(jù)。第三,采用數(shù)據(jù)統(tǒng)計發(fā)現(xiàn)數(shù)據(jù)異常情況,這種方法大體依靠數(shù)據(jù)挖掘算法,通過數(shù)據(jù)算法準(zhǔn)確辨別數(shù)據(jù)異常情況,挖掘數(shù)據(jù)價值,在此基礎(chǔ)上采用決策樹算法進(jìn)行數(shù)據(jù)模擬,通過數(shù)據(jù)算法發(fā)現(xiàn)數(shù)據(jù)偏差[3]。
2.4 邏輯錯誤檢測
數(shù)據(jù)編輯修正研究的核心內(nèi)容在于運用自動化方法,尋找并解決與業(yè)務(wù)邏輯運行相違背的數(shù)據(jù)錯誤,對此,要充分考慮到電力調(diào)度范圍內(nèi)各項數(shù)據(jù)的不同特點,針對不同數(shù)據(jù)的不同特征實現(xiàn)具體化、差異化應(yīng)用,最大程度地反映數(shù)據(jù)邏輯錯誤。
對于這一方式的數(shù)據(jù)錯誤檢測思路,主要是以相關(guān)領(lǐng)域的知識原理為應(yīng)用基礎(chǔ),建立起相應(yīng)的規(guī)則體系,借助自動化設(shè)備、技術(shù),實現(xiàn)各項數(shù)據(jù)的自動化處理,這種自動化處理結(jié)果主要通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型,體現(xiàn)各項數(shù)據(jù)的實際變量,同時依據(jù)相應(yīng)的數(shù)據(jù)編輯修正規(guī)則有針對性地做出最小的改動,以達(dá)到規(guī)則要求的實際效果。
2.5 不一致數(shù)據(jù)處理
電力調(diào)度范圍內(nèi)常會出現(xiàn)多個獨立數(shù)據(jù)源相互重疊。數(shù)據(jù)內(nèi)容相互重復(fù)的現(xiàn)象,造成數(shù)據(jù)不一致、不統(tǒng)一的情況,而多幾個數(shù)據(jù)源數(shù)據(jù)內(nèi)容的集成清晰成為當(dāng)前最重要的內(nèi)容,如何從數(shù)據(jù)不一致情況中提煉出最精確的數(shù)據(jù)結(jié)果是集成清晰工作面臨的一大難題。當(dāng)前主要通過排序、融合和依據(jù)規(guī)則的方式,進(jìn)行不一致數(shù)據(jù)處理,系統(tǒng)平臺將不一致數(shù)據(jù)自動識別為上下獨立性沖突和依賴性沖突。獨立性沖突受到外部環(huán)境隨意性因素的影響而導(dǎo)致出現(xiàn)數(shù)據(jù)不一致情況,因而常需要通過人為干預(yù)和固定的方式進(jìn)行處理。依賴性沖突多受到系統(tǒng)內(nèi)部不同數(shù)據(jù)源之間的差異、重疊等因素的影響,針對這種情況常通過轉(zhuǎn)換系統(tǒng)內(nèi)部學(xué)習(xí)規(guī)則,運用相關(guān)知識原理加強(qiáng)系統(tǒng)學(xué)習(xí)的方式,解決數(shù)據(jù)不一致問題。
除此之外,要評估各項數(shù)據(jù)值依據(jù)不同的指標(biāo)參數(shù),注重評估值的完整性,依據(jù)各項數(shù)據(jù)值的線性組合序列確定唯一可信的數(shù)據(jù)值。
3 質(zhì)量校驗方法實踐分析
3.1 數(shù)據(jù)校驗索引的構(gòu)建
基于關(guān)聯(lián)規(guī)則電網(wǎng)不安全大數(shù)據(jù)下獲取的不安全數(shù)據(jù),要針對這類不安全數(shù)據(jù)利用電網(wǎng)大數(shù)據(jù)技術(shù)進(jìn)行質(zhì)量校驗研究,對于計算出的誘發(fā)度,以增量式校驗方法全面校驗誘發(fā)因子,確定增量數(shù)據(jù)記錄結(jié)果。
隨著電網(wǎng)企業(yè)業(yè)務(wù)數(shù)據(jù)的增多,數(shù)據(jù)質(zhì)量校驗涉及的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),所有數(shù)據(jù)都會如實記錄在HBase表中,要及時更新數(shù)據(jù),校驗數(shù)據(jù)庫中的歷史數(shù)據(jù)及增量數(shù)據(jù),結(jié)合數(shù)據(jù)規(guī)則完成相應(yīng)處理。對增量式校驗要保障在電網(wǎng)大數(shù)據(jù)誘發(fā)計算結(jié)果全部錄入并儲存到基準(zhǔn)表。電網(wǎng)每天會產(chǎn)生1萬左右的數(shù)據(jù)量,為提高數(shù)據(jù)質(zhì)量,要對比電網(wǎng)大數(shù)據(jù),對照基準(zhǔn)表每條數(shù)據(jù)記錄,經(jīng)過數(shù)據(jù)索引,檢索兩張表中是否同時存在某一待比對字段值,其對應(yīng)的記錄是否一致,完成對電網(wǎng)數(shù)據(jù)記錄和數(shù)據(jù)校驗。
此外,要結(jié)合數(shù)據(jù)校驗規(guī)則,設(shè)計快速數(shù)據(jù)索引表。要結(jié)合數(shù)據(jù)校驗的索引構(gòu)建,建立快速索引和存儲機(jī)制,提高數(shù)據(jù)校驗的計算速度,提高數(shù)據(jù)質(zhì)量校驗效果。
3.2 數(shù)據(jù)中臺設(shè)計的總體思路
建設(shè)數(shù)據(jù)中臺要圍繞需求導(dǎo)向,結(jié)合電力企業(yè)的業(yè)務(wù)及數(shù)據(jù)分析應(yīng)用的需求,設(shè)立數(shù)據(jù)校驗統(tǒng)一標(biāo)準(zhǔn),建設(shè)數(shù)據(jù)模型,實現(xiàn)數(shù)據(jù)接入轉(zhuǎn)換和整合貫通,突破數(shù)據(jù)壁壘,建立健全電網(wǎng)企業(yè)數(shù)據(jù)質(zhì)量把控與服務(wù)管理體系,打造電網(wǎng)建設(shè)、電力產(chǎn)業(yè)以及金融經(jīng)濟(jì)等各個模塊的數(shù)據(jù)互通共聯(lián),實現(xiàn)數(shù)據(jù)接入、傳輸及整合,提升數(shù)據(jù)應(yīng)用的服務(wù)效能。
第一,打造電力企業(yè)數(shù)據(jù)共享的管理體系要融合人員、組織、客戶、供應(yīng)商等各項數(shù)據(jù),建立多維度管理內(nèi)容。
第二,圍繞企業(yè)大數(shù)據(jù)應(yīng)用,要積極開發(fā)數(shù)據(jù)化產(chǎn)品,利用企業(yè)內(nèi)外數(shù)據(jù)支撐數(shù)據(jù)管理體系和數(shù)據(jù)分析應(yīng)用的構(gòu)建,提高數(shù)據(jù)服務(wù)能力,推動企業(yè)數(shù)據(jù)運營和系統(tǒng)服務(wù)水平,利用各種數(shù)據(jù)分析和校驗方法挖掘其價值。
第三,要建立企業(yè)內(nèi)外管理一體化,集政府決策、社會服務(wù)、領(lǐng)導(dǎo)決策等內(nèi)容的精細(xì)化管理,實現(xiàn)內(nèi)外互通,支撐企業(yè)內(nèi)部決策與管理,并對外為社會提供服務(wù),積淀具有高價值的數(shù)據(jù)服務(wù)空間。
第四,構(gòu)建數(shù)據(jù)中臺,要充分借助現(xiàn)代信息技術(shù)和通信技術(shù),讓電力系統(tǒng)各環(huán)節(jié)數(shù)據(jù)實現(xiàn)人機(jī)交互,提升數(shù)據(jù)采集、獲取信息、靈活應(yīng)用等能力,建立統(tǒng)一化的數(shù)據(jù)中臺,打造一網(wǎng)通辦、實時數(shù)據(jù)更新的一套業(yè)務(wù)流程。
總體來說,為全面加強(qiáng)數(shù)據(jù)中臺系統(tǒng)信息化建設(shè),要從以下幾個方面入手,注重數(shù)據(jù)信息外部價值與內(nèi)部價值的有機(jī)結(jié)合。
首先,要充分明確中臺系統(tǒng)建設(shè)理念,從數(shù)據(jù)內(nèi)外部環(huán)節(jié)結(jié)合的方向考慮并改進(jìn),打破內(nèi)外部數(shù)據(jù)壁壘,實現(xiàn)數(shù)據(jù)信息內(nèi)外部環(huán)境的交互作用;制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)版,實現(xiàn)數(shù)據(jù)信息出入口徑的統(tǒng)一,為后續(xù)數(shù)據(jù)信息的處理分析以及價值挖掘夯實基礎(chǔ);重視數(shù)據(jù)信息的資產(chǎn)化功能,通過對數(shù)據(jù)進(jìn)行收集整合并形成系統(tǒng)建模,促使數(shù)據(jù)信息形成可通用的信息資產(chǎn)。促進(jìn)中臺數(shù)據(jù)信息與企業(yè)業(yè)務(wù)之間的聯(lián)系,通過為企業(yè)決策提供更精確的數(shù)據(jù)分析結(jié)果,全面體現(xiàn)數(shù)據(jù)信息的作用和價值;優(yōu)化數(shù)據(jù)的智能化程度,充分利用算法等技術(shù)提高數(shù)據(jù)信息的智能化服務(wù)水平,為系統(tǒng)前臺、后臺提供更全面的需求。
其次,注重數(shù)據(jù)信息功能作用的重點建設(shè)。一是指數(shù)據(jù)的接入,注重數(shù)據(jù)收集轉(zhuǎn)換、復(fù)制遷移等功能的提取,將不同獨立數(shù)據(jù)源有序接入中臺系統(tǒng)。二是指數(shù)據(jù)的管理與存儲、計算,依據(jù)相應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)和要求,結(jié)合中臺系統(tǒng)提供的多個數(shù)據(jù)源,對各項數(shù)據(jù)實行差異化具體分析與存儲,運用AI算法進(jìn)行數(shù)據(jù)的分析處理。三是數(shù)據(jù)建模要提取中臺系統(tǒng)內(nèi)部數(shù)據(jù)集,借助建模工具建立相應(yīng)的數(shù)據(jù)模型,包括證據(jù)整合模型、分析應(yīng)用模型等。
最后,中臺系統(tǒng)數(shù)據(jù)信息的服務(wù)功能包括數(shù)據(jù)信息的自動化識別記錄以及數(shù)據(jù)智能化監(jiān)控功能,只有明確系統(tǒng)優(yōu)化改進(jìn)的建設(shè)理念與建設(shè)功能,才能確保系統(tǒng)設(shè)計方案制定的完整性和可行性。
3.3 數(shù)據(jù)校驗與修復(fù)的架構(gòu)
數(shù)據(jù)平臺建設(shè)主要用于完成對系統(tǒng)數(shù)據(jù)調(diào)度、對外網(wǎng)多元業(yè)務(wù)數(shù)據(jù)的采集與質(zhì)量校對、對歷史數(shù)據(jù)與新的數(shù)據(jù)的整合融通,實現(xiàn)統(tǒng)一化、系統(tǒng)化的數(shù)據(jù)模型構(gòu)建,完成調(diào)度整合數(shù)據(jù)的發(fā)布與共享,通過信息技術(shù)和通信技術(shù)展現(xiàn)不同階段業(yè)務(wù)信息,為調(diào)度信息化提供數(shù)據(jù)支持和參考依據(jù)。
對于綜合性數(shù)據(jù)平臺建設(shè)的邏輯結(jié)構(gòu)可以劃分為基礎(chǔ)服務(wù)層、數(shù)據(jù)整合層、模型層等?;A(chǔ)服務(wù)層主要包含統(tǒng)一任務(wù)調(diào)度服務(wù)、電網(wǎng)社會模型服務(wù)、通用數(shù)據(jù)訪問服務(wù)、權(quán)限管控服務(wù)。數(shù)據(jù)整合層主要包含數(shù)據(jù)整合、設(shè)備同步、加工處理、管理監(jiān)控、數(shù)據(jù)維護(hù)、數(shù)據(jù)校驗、遷移重載、共享發(fā)布。數(shù)據(jù)模型層主要包含電網(wǎng)設(shè)備對象模型和整合數(shù)據(jù)模型。通過在其綜合數(shù)據(jù)平臺的數(shù)據(jù)處理層進(jìn)行數(shù)據(jù)校驗,平臺能夠以最快的速度識別、記錄、校驗和修復(fù),及時發(fā)現(xiàn)數(shù)據(jù)異常問題。
4 結(jié)語
電網(wǎng)運行和每天涉及的業(yè)務(wù)量會產(chǎn)生大量數(shù)據(jù),要通過數(shù)據(jù)系統(tǒng)支持完成數(shù)據(jù)質(zhì)量校驗事務(wù),通過分析不同數(shù)據(jù)完成業(yè)務(wù)和工作調(diào)度。
在電網(wǎng)信息化建設(shè)和運行管理與服務(wù)中,涉及內(nèi)容和影響因素較多,因此,要通過信息技術(shù)等手段和平臺建設(shè)完成對數(shù)據(jù)的精確測量和分析,通過綜合評價方法系統(tǒng)評估。同時,要圍繞需求導(dǎo)向,以數(shù)據(jù)質(zhì)量為切入點,建立系統(tǒng)化管理體系。
參考文獻(xiàn)
[1] 谷泓杰,黃麗麗,王佳妮.電網(wǎng)綜合數(shù)據(jù)質(zhì)量評價系統(tǒng)及其軟件實現(xiàn)[J].電工技術(shù),2021(10):122-124,128.
[2] 冷俊.大力推進(jìn)數(shù)字化轉(zhuǎn)型 打造高質(zhì)量發(fā)展新引擎[N].國家電網(wǎng)報,2021-04-01(003).
[3] 梅傲琪,張銳,周立德.以數(shù)據(jù)質(zhì)量為核心的電網(wǎng)調(diào)度數(shù)據(jù)治理應(yīng)用研究[J].機(jī)電信息,2020(33):14-15.