中國華電集團有限公司廣東分公司 俞利鋒 馮佳峰
近些年,華電集團提出了從戰(zhàn)略層面推動“數(shù)字華電”建設,打造具有華電特色的“傳統(tǒng)產(chǎn)業(yè)+互聯(lián)網(wǎng)”競爭新優(yōu)勢。隨著數(shù)據(jù)清洗技術越來越廣泛的關注和深入的研究。數(shù)據(jù)生命周期的各個階段都會發(fā)生數(shù)據(jù)質量問題,大致可以從數(shù)據(jù)源、數(shù)據(jù)組織結構進行分類研究。首先,這需要在設計數(shù)據(jù)庫模式時定義數(shù)據(jù)規(guī)則,盡管數(shù)據(jù)庫產(chǎn)品自身提供相應機制保證數(shù)據(jù)質量,依然不能保證進入數(shù)據(jù)庫的數(shù)據(jù)完全符合業(yè)務需求。其次是數(shù)據(jù)庫設計并不能盡善盡美。第三,數(shù)據(jù)庫操作往往是應用程序的效率瓶頸,在數(shù)據(jù)庫之中進行完整性驗證會導致應用程序性能下降,大量數(shù)據(jù)的插入、修改等操作需要更多的時間。第二種數(shù)據(jù)解決方案由自應用程序實施,這是一種高通過邏輯層的事務操作完整地插入記錄,后者指對數(shù)據(jù)庫中的數(shù)據(jù)進行監(jiān)管控制,清除不滿足要求的數(shù)據(jù)。在各類數(shù)據(jù)分忻工具中,ETL[1]工具往往具有數(shù)據(jù)審核與數(shù)據(jù)清洗功能,但是這些工具只適用于特定的數(shù)據(jù)庫系統(tǒng),處理一些普遍的數(shù)據(jù)質量問題,在數(shù)據(jù)集成時解決異構數(shù)據(jù)的問題。有一些開源的ETL框架不屬于任何數(shù)據(jù)庫系統(tǒng),就會發(fā)生數(shù)據(jù)異常或者不能清洗的問題。
目前,國內的人工智能數(shù)據(jù)清洗技術研究,缺乏規(guī)模性組織和研究成果,缺乏針對我國信息化特點的數(shù)據(jù)質量研究。在企業(yè)項目建設過程中,數(shù)據(jù)集成環(huán)境比國外復雜,據(jù)調查,72%的企業(yè)存在相似重復數(shù)據(jù),60%的企業(yè)存在不完整數(shù)據(jù)[2]。
鑒于以上問題,本文設計了結合發(fā)電企業(yè)的實際情況,選擇和企業(yè)戰(zhàn)略、部門管理相關指標作為基礎,對數(shù)據(jù)成熟度進行評估,并且實現(xiàn)集中抽取,從而實現(xiàn)編碼、標準、數(shù)據(jù)及模型的統(tǒng)一管理,避免出現(xiàn)數(shù)據(jù)多頭管理及沖突,將數(shù)據(jù)冗余進行消除,實現(xiàn)數(shù)據(jù)集中管理、共享的目的。逐漸實現(xiàn)事前防范、事后管理及集中監(jiān)控的閉環(huán)管理,對企業(yè)級數(shù)據(jù)質量管理規(guī)范、制度的創(chuàng)建,從而對高價值數(shù)據(jù)屬性的識別,保證能夠提高數(shù)據(jù)質量,使其支撐業(yè)務運營及經(jīng)營分析。
隨著業(yè)務的快速發(fā)展以及IT 系統(tǒng)的不斷建設,公司所面臨的數(shù)據(jù)環(huán)境越來越復雜。在數(shù)據(jù)應用過程中逐步暴露出數(shù)據(jù)缺失、重復、分散、延時、質量較差等一系列問題。
缺乏全局視角的主數(shù)據(jù)視圖,各業(yè)務領域主數(shù)據(jù)分散在各應用系統(tǒng)中,各系統(tǒng)相互獨立,各自維護一套自己的數(shù)據(jù)結構,缺少統(tǒng)一和共享;系統(tǒng)建立時,業(yè)務單位主要考慮本業(yè)務領域應用和業(yè)務范圍內的數(shù)據(jù),對于跨部門、跨系統(tǒng)的數(shù)據(jù)管理職責沒有定義;各領域業(yè)務利用各自系統(tǒng)或人工收集導入方式開展數(shù)據(jù)統(tǒng)計分析工作,主數(shù)據(jù)分散在各應用系統(tǒng)中;數(shù)據(jù)掌握在各個業(yè)務部門手中,存在數(shù)據(jù)壁壘,數(shù)據(jù)共享交換較為困難。
指標和維度無統(tǒng)一定義、規(guī)范和管控:各部門指標和維度無統(tǒng)一定義、規(guī)范和管控,重復統(tǒng)計和不一致現(xiàn)象較為突出。
各部門根據(jù)管理和上報需要各自定義指標和維度,重復統(tǒng)計現(xiàn)象較為突出;指標數(shù)據(jù)各自表述,同一指標的管理口徑、統(tǒng)計口徑不一致,但指標名稱相同;基本維度信息各部門獨自定義,同樣的維度,各部門對其分類,規(guī)則定義不一致;沒有主數(shù)據(jù)相關的業(yè)務流程,相同的主數(shù)據(jù)新增或變更時不考慮其它部門。各系統(tǒng)之前缺少統(tǒng)一的數(shù)據(jù)規(guī)范,接口交互標準不統(tǒng)一。
數(shù)據(jù)中心建設是一項系統(tǒng)工程,數(shù)據(jù)治理更是一項長期艱巨的工作,需要自上而下統(tǒng)一思想、堅定落實、長效管理。
公司采用數(shù)據(jù)管控先進理念與成熟方法,從短期、中期和長期分步有序實現(xiàn)數(shù)字化、智慧化經(jīng)營管理的角度,通過全面評估公司數(shù)據(jù)管控成熟度,制定提升目標和行動計劃,支持公司建立企業(yè)級的數(shù)據(jù)資產(chǎn)管控體系及支撐平臺,從根源上解決目前在各業(yè)務領域存在的數(shù)據(jù)問題。以數(shù)據(jù)中心為核心,以數(shù)據(jù)治理為基礎,提升公司在業(yè)務發(fā)展中數(shù)據(jù)支撐能力,增強公司在行業(yè)競爭中的核心能力。
在規(guī)劃部分通過對區(qū)域的業(yè)務和系統(tǒng)調研,了解區(qū)域目前的數(shù)據(jù)使用情況,根據(jù)行業(yè)數(shù)據(jù)治理成熟度模型[3]評估方法論量化打分,了解企業(yè)當前所處數(shù)據(jù)治理的極端,據(jù)此規(guī)劃未來3年數(shù)據(jù)平臺建設和數(shù)據(jù)治理路徑;通過全面的調研,確定數(shù)據(jù)治理的主體流程和規(guī)范,通過對具體業(yè)務主題的深入調研,確定詳細的執(zhí)行標準和方法。
建立企業(yè)級數(shù)據(jù)中心是對公司跨業(yè)務領域的數(shù)據(jù)進行整合,并滿足公司不同部門的數(shù)據(jù)訪問和數(shù)據(jù)分析需求,技術架構設計的總體目標就是為企業(yè)級數(shù)據(jù)中心提供技術、數(shù)據(jù)及管理能力上的規(guī)劃和支持。
系統(tǒng)接入數(shù)據(jù)方式多樣化,包括關系型數(shù)據(jù)庫數(shù)據(jù)、實時數(shù)據(jù)、文件數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、音視頻等。面對多種數(shù)據(jù)接入的需求,數(shù)據(jù)平臺提供多種針對性的接入方式以及工具。
基于行業(yè)的通用標準,公司數(shù)據(jù)治理的架構:
數(shù)據(jù)標準定義。在數(shù)據(jù)資產(chǎn)盤點過程中,對數(shù)據(jù)資產(chǎn)進行業(yè)務、技術和管理定義并獲得對口部門的確認,從中挑選必須訂立數(shù)據(jù)標準的資產(chǎn)項,開展數(shù)據(jù)標準編制工作,并最終發(fā)布。
數(shù)據(jù)質量規(guī)范編制。在數(shù)據(jù)資產(chǎn)盤點過程中,基于數(shù)據(jù)定義及規(guī)則,與業(yè)務部門共同商定基礎質量要求,編制數(shù)據(jù)質量規(guī)范。
元數(shù)據(jù)登記。采集相關系統(tǒng)的元數(shù)據(jù)信息,包括表、字段、代碼等信息,與數(shù)據(jù)資產(chǎn)建立關聯(lián)關系,形成數(shù)據(jù)分布地圖。
數(shù)據(jù)資產(chǎn)盤點。本期數(shù)據(jù)資產(chǎn)目錄范圍:設備主數(shù)據(jù),物料,財務指標,形成資產(chǎn)目錄清單。通過業(yè)務調研、技術調研,開展資產(chǎn)盤點,完成數(shù)據(jù)資產(chǎn)目錄及數(shù)據(jù)資產(chǎn)管理方法。
主數(shù)據(jù)管理體系。遵循行業(yè)規(guī)范指引,梳理主數(shù)據(jù)分類,合并數(shù)據(jù)資產(chǎn)項,明確主數(shù)據(jù)歸口部門,建立主數(shù)據(jù)標準規(guī)范和管控流程。
數(shù)據(jù)資產(chǎn)管理體系架構。構建公司數(shù)據(jù)資產(chǎn)管理體系,制定組織架構、認責機制、數(shù)據(jù)管理辦法、數(shù)據(jù)標準管理辦法和流程、數(shù)據(jù)質量管理辦法和流程、元數(shù)據(jù)管理辦法和流程、數(shù)據(jù)管控平臺建設方案等。
數(shù)據(jù)整合及模型。目前公司以生產(chǎn)經(jīng)營和過程數(shù)據(jù)為基礎,建立了關系型數(shù)據(jù)庫,覆蓋公司主要信息系統(tǒng),并且建立了實時數(shù)據(jù)庫,覆蓋公司生產(chǎn)、設備、安環(huán)、能源所有實時數(shù)據(jù)源。關系型數(shù)據(jù)庫和實時數(shù)據(jù)庫的數(shù)據(jù)沒有經(jīng)過很好的數(shù)據(jù)整合,在使用時產(chǎn)生大量重復數(shù)據(jù),數(shù)據(jù)不一致的情況。在數(shù)據(jù)整合基礎上建設企業(yè)級數(shù)據(jù)倉庫,加強數(shù)據(jù)深度收集和管理,挖掘數(shù)據(jù)價值,破解數(shù)據(jù)密碼,并逐步形成完整的報表體系,輔助各級領導和管理人員及時掌握業(yè)務運營情況,并基于數(shù)據(jù)進行精準決策。
技術架構設計與規(guī)劃。深入開展系統(tǒng)集成和多系統(tǒng)協(xié)同應用,基本消除信息孤島,提升系統(tǒng)集成共享水平;推進全局業(yè)務流程優(yōu)化和主要信息系統(tǒng)的集成,發(fā)揮協(xié)同增值效應,逐步消除信息孤島。
培訓和宣貫。完成匯報材料及培訓課件的編制工作,并開展培訓和宣貫。
上述十項主要服務工作,以及貫穿始終的項目管理、培訓宣貫,即相互獨立、又相互支持,部分工作可并行執(zhí)行。
在數(shù)據(jù)倉庫規(guī)劃階段,借鑒行業(yè)數(shù)倉建設經(jīng)驗結合公司數(shù)據(jù)現(xiàn)狀和長遠規(guī)劃作為工作的指導,確保數(shù)據(jù)倉庫規(guī)劃成果的完整性、全面性、發(fā)展性、先進性及可操作性。
公司的企業(yè)級數(shù)據(jù)倉庫的架構設計,結合公司的各個業(yè)務部門和IT 部門的需求及應用現(xiàn)狀,綜合考慮數(shù)據(jù)交換平臺、數(shù)據(jù)準備區(qū)、操作型數(shù)據(jù)存儲、基礎數(shù)據(jù)模型、數(shù)據(jù)挖掘、元數(shù)據(jù)、數(shù)據(jù)質量等組件之間的關系和實施方法,并就其中將會使用到的關鍵技術提供支持[4]。
結合公司的數(shù)據(jù)倉庫架構規(guī)劃的需求,公司數(shù)據(jù)倉庫的建設采用長期的循序漸進的過程,通過不斷創(chuàng)新、修復、完善的過程,伴隨著應用系統(tǒng)的發(fā)展而發(fā)展。根據(jù)公司的業(yè)務特點以及行業(yè)內系統(tǒng)建設的現(xiàn)狀和未來發(fā)展藍圖,全力打造一個可擴展的、高可用性的、安全的、高效的、跨部門的可以快速處理海量數(shù)據(jù)的數(shù)據(jù)倉庫系統(tǒng)。
吸取市場數(shù)倉建設經(jīng)驗,結合公司的業(yè)務現(xiàn)狀和長遠規(guī)劃,公司的整體數(shù)倉架構。架構分為六個主要部分,分別是:數(shù)據(jù)源、獲取層、集成層、應用層、大數(shù)據(jù)環(huán)境、數(shù)據(jù)管控。下面分別描述這六個部分。
數(shù)據(jù)源:數(shù)據(jù)源層主要內容和功能有各類結構化數(shù)據(jù)庫數(shù)據(jù)、非結構化的視頻、圖片和文檔、半結構化的其它文件,是數(shù)據(jù)治理的基礎。
獲取層:獲取層又稱之為數(shù)據(jù)接口層,數(shù)據(jù)接口層主要完成批量數(shù)據(jù)的獲取,準實時數(shù)據(jù)的同步,其它形態(tài)數(shù)據(jù)源數(shù)據(jù)的接入。
集成層:數(shù)據(jù)整合層。數(shù)據(jù)整合層主要完成企業(yè)數(shù)據(jù)模型的構建,能夠涵蓋公司業(yè)務的各個層面,包括交易數(shù)據(jù)、主數(shù)據(jù)和參考數(shù)據(jù),為整個企業(yè)級的數(shù)據(jù)集成提供一個完整的一致的邏輯視圖。
交付層:交付層是數(shù)據(jù)倉庫的最終數(shù)據(jù)應用價值的體現(xiàn)所在,提供業(yè)務人員直接的數(shù)據(jù)應用,在公司的數(shù)據(jù)倉庫架構中,交付層主要內容和功能有統(tǒng)一報表、KPI、自主分析、數(shù)據(jù)挖掘等應用。
大數(shù)據(jù)環(huán)境:大數(shù)據(jù)環(huán)境結合了結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)的統(tǒng)一的處理、訪問與管理。
數(shù)據(jù)管控:數(shù)據(jù)管控又叫數(shù)據(jù)治理或數(shù)據(jù)管理,數(shù)據(jù)管控主要的功能與組成有數(shù)據(jù)標準、數(shù)據(jù)質量、元數(shù)據(jù)。
數(shù)據(jù)挖掘其實就是從大量繁雜的數(shù)據(jù)中找出數(shù)據(jù)的密碼,剖析數(shù)據(jù)本質,提升數(shù)據(jù)價值。主要依據(jù)業(yè)務管理要求,以業(yè)務驅動模型建設,以模型數(shù)據(jù)反饋業(yè)務決策。
預測算法一般情況下,預測要借助分類或估值才能發(fā)揮效果。具體來說就是利用人工智能的手段探索未知領域發(fā)生的各種結果。檢測的目的就是利用時間以及空間驗證模型的準確性,分析未知領域事件發(fā)生的可能性。
聚類算法[5]就是對各類的數(shù)據(jù)進行歸集,將同源以及不同源的數(shù)據(jù)放在一個池子里進行分析,通過建模的手段達到數(shù)據(jù)最大化應用。
借助數(shù)據(jù)挖掘的手段,公司的信息化已經(jīng)有了很大的進步,不僅僅是傳統(tǒng)的以人為本的分析方法,而是真的打通了各個環(huán)節(jié),能夠使內部的管理工作更加高效,打通了管理數(shù)據(jù)以及生產(chǎn)數(shù)據(jù)的壁壘,實現(xiàn)數(shù)據(jù)閉環(huán),讓數(shù)據(jù)產(chǎn)生價值。
第一階段:數(shù)字化轉型建設階段
與數(shù)字華電相適應,應用互聯(lián)網(wǎng)+、物聯(lián)網(wǎng)、移動技術、云服務和大數(shù)據(jù)等前沿技術,實現(xiàn)以大數(shù)據(jù)為核心的數(shù)字區(qū)域管控模式,構建公司數(shù)字管控平臺,實現(xiàn)區(qū)域的生產(chǎn)、營銷、管理等中心建設,完成區(qū)域數(shù)字化轉型的頂層建設,實現(xiàn)區(qū)域的數(shù)字、信息一體化。
同時,推進區(qū)域數(shù)字電廠、燃氣分布式“一廠多站”、新能源“遠程集控”項目,推進基層企業(yè)數(shù)字化轉型。
第二階段:智能化應用賦能階段
與集團公司智能化戰(zhàn)略管控要求相適應,利用人工智能、大數(shù)據(jù)等先進的信息技術,先進的控制技術,以及機器人、智能終端等硬件設備賦能數(shù)字生產(chǎn)、數(shù)字營銷、數(shù)字管理,完善綜合能源互聯(lián)網(wǎng)生態(tài),通過數(shù)字技術引領企業(yè)擴展管控能力,深入挖掘各類用戶的綜合能源服務需求,利用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等先進技術,積極開展能效診斷、節(jié)能優(yōu)化、能源托管等綜合能效服務,實現(xiàn)上下游產(chǎn)業(yè)鏈的資源最優(yōu)化配置,開展互聯(lián)網(wǎng)+綜合能源服務項目,增加客戶粘性,提升市場占有率。
數(shù)據(jù)治理實施步驟:基于企業(yè)愿景和規(guī)劃,以及數(shù)據(jù)治理目標和原則,圍繞數(shù)據(jù)治理的六大要素,把數(shù)據(jù)轉變?yōu)檎系?、可信任的和安全的信息。在治理和管理?shù)據(jù)中,將人員能力、技術發(fā)展、企業(yè)規(guī)劃等因素有機融合。
數(shù)據(jù)標準管理:數(shù)據(jù)標準建設是一項長期的、涉及面廣的基礎設施項目,需要在時間和人力等生產(chǎn)資源上有意識、有計劃的、持續(xù)的投入。數(shù)據(jù)標準的總體規(guī)劃目的是根據(jù)企業(yè)的戰(zhàn)略目標和實際情況,確立數(shù)據(jù)標準化的價值和最終目標,并為達到最終目標訂立行動計劃和資源調配。
數(shù)據(jù)質量規(guī)范編制:數(shù)據(jù)質量管理包含組織架構、管理流程、管理工具、技術平臺等方面。
所謂數(shù)據(jù)質量規(guī)范,即數(shù)據(jù)質量校驗規(guī)則,是指判斷數(shù)據(jù)項在系統(tǒng)落地字段中所存儲的真實數(shù)據(jù)是否符合特定要求。數(shù)據(jù)質量要求在有相關數(shù)據(jù)標準時以數(shù)據(jù)標準為準;在未制定數(shù)據(jù)標準時以監(jiān)管要求、業(yè)務要求為準。根據(jù)數(shù)據(jù)質量標準制定詳細的數(shù)據(jù)質量規(guī)則。
元數(shù)據(jù)登記:元數(shù)據(jù)管理[6]成為一項重要功能,讓數(shù)據(jù)的管理者,無論在任何時間任何地點,都對數(shù)據(jù)具有絕佳的掌控能力,讓元數(shù)據(jù)更好的為企業(yè)分析決策打下基礎。