洪德華,張翠翠,徐敏,孫佳麗
(國網(wǎng)安徽省電力有限公司信息通信分公司,合肥230041)
信息系統(tǒng)和數(shù)據(jù),是大數(shù)據(jù)建設(shè)的基礎(chǔ)[1-2]。國家電網(wǎng)公司高度重視信息化工作,始終將信息化作為公司核心戰(zhàn)略[3-4]。經(jīng)過過年的信息化建設(shè),信息化取得顯著成效,建成全球規(guī)模最大的電力通信網(wǎng)和一體化集團級信息系統(tǒng),覆蓋各級單位、各項業(yè)務(wù)和各類人員,在能源互聯(lián)網(wǎng)公司建設(shè)中發(fā)揮了重要作用,多年來位居央企和國內(nèi)各行業(yè)信息化水平前列[5-6]。當前,電力信息化已經(jīng)進入“深水區(qū)”和“無人區(qū)”,各專業(yè)、各單位精益化管理、創(chuàng)新發(fā)展和數(shù)據(jù)價值挖掘需求呈“井噴”趨勢,需要進一步加強業(yè)務(wù)數(shù)據(jù)治理,促進數(shù)據(jù)共享,發(fā)揮信息化價值[7-8]。
目前電力企業(yè)已經(jīng)全面開展數(shù)據(jù)綜合治理工作,圍繞數(shù)據(jù)梳理、數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)應(yīng)用四條主線開展數(shù)據(jù)綜合治理工作,并取得了一定成效。隨著信息化建設(shè)和應(yīng)用不斷深入,用戶對數(shù)據(jù)的需求持續(xù)增長,用戶范圍從數(shù)據(jù)部門擴展到全業(yè)務(wù)全場景,數(shù)據(jù)治理不能再只是面向數(shù)據(jù)部門,需要成為面向全場景用戶的工作環(huán)境,從給用戶提供服務(wù)的角度,管理好數(shù)據(jù)的同時為用戶提供自助獲得大數(shù)據(jù)的能力,幫助企業(yè)完成數(shù)字化轉(zhuǎn)型。
數(shù)據(jù)基礎(chǔ)較為薄弱,電網(wǎng)積累了海量的數(shù)據(jù),為電力大數(shù)據(jù)應(yīng)用工作奠定了基礎(chǔ)。但電力信息化主要從各專業(yè)角度出發(fā)開展建設(shè),信息系統(tǒng)中的數(shù)據(jù)內(nèi)容、頻度僅考慮了各專業(yè)當前自身業(yè)務(wù)需求,未考慮后期分析應(yīng)用和跨業(yè)務(wù)領(lǐng)域的需求,存在系統(tǒng)間數(shù)據(jù)標準不一致,以及數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問題,給大數(shù)據(jù)應(yīng)用帶來困難。
數(shù)據(jù)治理能力不足,以往數(shù)據(jù)治理人為干預(yù)比較多,未形成了一整套以用戶為中心的大數(shù)據(jù)治理能力,最終為用戶直接使用數(shù)據(jù)提供了幫助,從而使數(shù)據(jù)治理完成了從以管控為中心到以業(yè)務(wù)為中心的轉(zhuǎn)變。
上述現(xiàn)象,是信息化發(fā)展到一定階段必然面臨的問題,信息化反映業(yè)務(wù),信息系統(tǒng)固化流程,信息化與企業(yè)管理相互促進,螺旋上升。國內(nèi)外領(lǐng)先企業(yè)的信息化成功實踐也經(jīng)歷了類似過程,符合信息化發(fā)展的客觀規(guī)律。
數(shù)據(jù)整理技術(shù)是數(shù)據(jù)治理工作中一項繁重的工作,本文提出了基于知識圖譜的數(shù)據(jù)資產(chǎn)庫與企業(yè)級數(shù)據(jù)庫訪問管理要求,重點給出了數(shù)據(jù)資產(chǎn)庫和知識庫的自動補全算法。
數(shù)據(jù)資產(chǎn)梳理是構(gòu)建數(shù)據(jù)資產(chǎn)庫的基礎(chǔ),是保證數(shù)據(jù)安全使用和統(tǒng)一管理的重要手段,能夠?qū)崿F(xiàn)數(shù)據(jù)安全保護、敏感數(shù)據(jù)管理和合規(guī)性的需求。數(shù)據(jù)資產(chǎn)梳理涉及相關(guān)的關(guān)鍵流程、內(nèi)容和方法,具體數(shù)據(jù)資產(chǎn)梳理流程如圖1 所示。
圖1 數(shù)據(jù)資產(chǎn)梳理流程
數(shù)據(jù)資產(chǎn)定位是數(shù)據(jù)資產(chǎn)梳理的第一步,其目的是掌握目前企業(yè)已有數(shù)據(jù)庫和它們各自的組織方式,充分掃描發(fā)現(xiàn)數(shù)據(jù)庫后,由企業(yè)內(nèi)數(shù)據(jù)管理技術(shù)人員建立數(shù)據(jù)資產(chǎn)的底單,以便為后續(xù)的數(shù)據(jù)資產(chǎn)標識和建立清單提供數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)資產(chǎn)標識是在數(shù)據(jù)資產(chǎn)定位和建立數(shù)據(jù)資產(chǎn)底單后,像整理企業(yè)實體資產(chǎn)一樣獲取數(shù)據(jù)資產(chǎn)的擁有者和訪問權(quán)限情況,使數(shù)據(jù)資產(chǎn)形成統(tǒng)一的數(shù)據(jù)資產(chǎn)標識,便于后續(xù)的數(shù)據(jù)管理和數(shù)據(jù)治理。因此數(shù)據(jù)資產(chǎn)標識的主要內(nèi)容是定位數(shù)據(jù)資產(chǎn)的擁有者,同時獲得數(shù)據(jù)的訪問權(quán)限。
數(shù)據(jù)資產(chǎn)標識只是獲得了單個數(shù)據(jù)資產(chǎn)的信息,但是還需要形成體系,因此下一個難點就是要對數(shù)據(jù)類型進行標識,掃描數(shù)據(jù)資產(chǎn)的具體內(nèi)容,對數(shù)據(jù)資產(chǎn)進行分類,按照統(tǒng)一標準進行數(shù)據(jù)類型的標識。
在掃描獲取數(shù)據(jù)資產(chǎn)標識和數(shù)據(jù)類型的標識后,首先確認前兩個步驟形成的數(shù)據(jù)類型和數(shù)據(jù)資產(chǎn)標識,并對整個電網(wǎng)企業(yè)進行數(shù)據(jù)資產(chǎn)統(tǒng)一梳理,形成數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)資產(chǎn)清單。
由于數(shù)據(jù)資產(chǎn)也在不斷的增長,所以數(shù)據(jù)資產(chǎn)梳理不是一勞永逸的,而要對已梳理的數(shù)據(jù)資產(chǎn)進行持續(xù)監(jiān)控,并設(shè)定定期數(shù)據(jù)資產(chǎn)梳理的機制,對新增的數(shù)據(jù)資產(chǎn)進行新的梳理,對整個企業(yè)的數(shù)據(jù)資產(chǎn)形成持續(xù)的監(jiān)控。
根據(jù)電網(wǎng)企業(yè)數(shù)據(jù)資產(chǎn)庫的需求分析,采用雙向建模的設(shè)計思路。一方面,從現(xiàn)有系統(tǒng)的數(shù)據(jù)出發(fā),梳理國網(wǎng)數(shù)據(jù)平臺所接入的數(shù)據(jù)實體,以及數(shù)據(jù)實體之間的關(guān)系,對其進行抽象、提煉,分析數(shù)據(jù)實體所屬的數(shù)據(jù)主題域并進行歸并,分析主題域之間關(guān)系,形成非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)模型。另一方面,從業(yè)務(wù)需求出發(fā),基于SG-CIM 統(tǒng)一信息模型和現(xiàn)有業(yè)務(wù)系統(tǒng),分析提煉和梳理各業(yè)務(wù)線條的非結(jié)構(gòu)化數(shù)據(jù)的業(yè)務(wù)需求,根據(jù)業(yè)務(wù)流程,提煉關(guān)鍵實體,分析實體所屬主題域及實體間的關(guān)系,以及非結(jié)構(gòu)化數(shù)據(jù)實體與結(jié)構(gòu)化數(shù)據(jù)實體之間的關(guān)聯(lián)關(guān)系,形成數(shù)據(jù)關(guān)聯(lián)模型。
數(shù)據(jù)資產(chǎn)庫屬于非結(jié)構(gòu)化關(guān)聯(lián)模型,其中主要描述的是非結(jié)構(gòu)化數(shù)據(jù)實體與結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。非結(jié)構(gòu)化模型與結(jié)構(gòu)化模型進行關(guān)聯(lián),結(jié)構(gòu)化數(shù)據(jù)中心的表中添加非結(jié)構(gòu)化數(shù)據(jù)實體的編碼進行關(guān)聯(lián)。申請訪問數(shù)據(jù)資產(chǎn)庫中的數(shù)據(jù)的過程分為四步,數(shù)據(jù)資產(chǎn)庫的訪問過程如圖2 所示。
圖2 數(shù)據(jù)資產(chǎn)庫的訪問過程
業(yè)務(wù)應(yīng)用調(diào)用數(shù)據(jù)資產(chǎn)庫管理平臺對外提供的服務(wù),向結(jié)構(gòu)化數(shù)據(jù)中心發(fā)送請求,查詢相關(guān)設(shè)備的基礎(chǔ)信息與非結(jié)構(gòu)化數(shù)據(jù)實體編碼。結(jié)構(gòu)化數(shù)據(jù)中心根據(jù)業(yè)務(wù)應(yīng)用提交的請求,將設(shè)備等基礎(chǔ)信息和非結(jié)構(gòu)化數(shù)據(jù)實體編碼返回給業(yè)務(wù)應(yīng)用。業(yè)務(wù)應(yīng)用根據(jù)結(jié)構(gòu)化數(shù)據(jù)中心提供的非結(jié)構(gòu)化數(shù)據(jù)實體編碼,向非結(jié)構(gòu)化數(shù)據(jù)管理平臺發(fā)送請求,查詢相關(guān)文檔等信息。非結(jié)構(gòu)化數(shù)據(jù)管理平臺根據(jù)業(yè)務(wù)應(yīng)用的請求,通過數(shù)據(jù)實體編碼來獲取目標文檔,最終返回給業(yè)務(wù)應(yīng)用。
知識庫補全是知識庫自動構(gòu)建的重要技術(shù),也是實現(xiàn)數(shù)據(jù)資產(chǎn)庫各實體間關(guān)系分類和鏈接預(yù)測的重要手段。知識庫補全的作用是,在數(shù)據(jù)資產(chǎn)庫中引入新的數(shù)據(jù)實體時,知識庫補全能夠通過已有的結(jié)構(gòu)化三元組和實體集與關(guān)系集,推理與此數(shù)據(jù)實體存在關(guān)系的已有實體。
對于知識圖譜G,假設(shè)G 中含有實體集E={e1,e2,…,eM}(M 為實體的數(shù)量)、關(guān)系集R={r1,r2,…,rN}(N為關(guān)系的數(shù)量)以及三元組集T={(ei,rk,ej)|ei、ej 屬于E,rk 屬于R}。由于知識圖譜G 中實體和關(guān)系的數(shù)量通常是有限的,因此,可能存在一些實體和關(guān)系不在G中。記不在知識圖譜G 中的實體集為E*={e1*,e2*,…,es*}(S 為實體的數(shù)量),關(guān)系集為R*={r1*,r2*,…,rT*}(T 為關(guān)系的數(shù)量)。根據(jù)三元組中具體的預(yù)測對象,知識圖譜補全可以分成3 個子任務(wù):頭實體預(yù)測、尾實體預(yù)測以及關(guān)系預(yù)測。對于頭(尾)實體預(yù)測,需給定三元組的尾(頭)實體以及關(guān)系,然后預(yù)測可以組成正確三元組的實體。數(shù)據(jù)資產(chǎn)庫補全算法流程圖如圖3所示。
圖3 數(shù)據(jù)資產(chǎn)庫補全算法流程圖
知識庫補全步驟:對于缺失的尾實體,將語義空間中頭實體的向量表示與關(guān)系的向量表示相加,得到預(yù)測的尾實體向量表示,從實體列表中選擇與預(yù)測尾實體最接近的實體作為預(yù)測結(jié)果;對于兩個實體之間缺失的關(guān)系,以尾實體的嵌入向量減頭實體的嵌入向量,然后將結(jié)果與備選關(guān)系的嵌入向量做差,選擇與預(yù)測關(guān)系向量最相似的關(guān)系作為預(yù)測結(jié)果。
本文選取公開通用的設(shè)備時序數(shù)據(jù)集,即凱斯西儲大學(Case Western Reserve University)的軸承數(shù)據(jù)庫來進行試驗[9-10]。作為對比,統(tǒng)計正確實體在所有實體中的平均排名(Mean Rank)以及正確實體在所有實體中排名前十的數(shù)據(jù)所占百分比(Hit@10%)作為實體鏈接預(yù)測評價指標。知識庫補全鏈接預(yù)測結(jié)果如表1所示。
表1 知識庫補全鏈接預(yù)測結(jié)果
為進一步驗證數(shù)據(jù)治理方法的可行性和有效性,選擇電網(wǎng)資產(chǎn)設(shè)備開展數(shù)據(jù)治理應(yīng)用,針對輸變電數(shù)據(jù)設(shè)備臺帳與圖形存在不一致情況,選擇合肥供電公司所轄范圍內(nèi)的輸變電設(shè)備,通過校驗數(shù)據(jù)與模型對應(yīng)關(guān)系,核查系統(tǒng)垃圾數(shù)據(jù),進行刪除或退役處理,臺帳與圖形對應(yīng)率由85%提升至98%,大幅提升輸變電數(shù)據(jù)質(zhì)量。生產(chǎn)管理系統(tǒng)與ERP 中設(shè)備帳卡物存在不一致情況,對主變壓器、斷路器、開關(guān)柜、組合電器及輸電線路五類設(shè)備展開治理,通過檢查錯誤字段、維護校驗規(guī)則,在大數(shù)據(jù)治理原型系統(tǒng)中實現(xiàn)帳卡物一致率100%。數(shù)據(jù)治理前后對比結(jié)果如表2 所示。
表2 數(shù)據(jù)治理前后結(jié)果對比結(jié)果
綜合來說,本文的數(shù)據(jù)資產(chǎn)庫補全算法相對其他傳統(tǒng)的算法在數(shù)據(jù)補全預(yù)測性方面指標方面表現(xiàn)更好,數(shù)據(jù)補全方法可以為數(shù)據(jù)治理工作提供可以遵循的方法,改變傳統(tǒng)人工方式開展數(shù)據(jù)治理工作,進一步提升數(shù)據(jù)治理的效率。除此之外,隨著數(shù)據(jù)的積累,數(shù)據(jù)補全算法模型的準確率能夠進一步提高。
為了解決當前電力大數(shù)據(jù)治理難題,本文提出了大數(shù)據(jù)治理中的數(shù)據(jù)整理算法,給出了數(shù)據(jù)資產(chǎn)梳理方法流程,闡述了數(shù)據(jù)資產(chǎn)庫模型構(gòu)建過程,設(shè)計了基于知識圖譜的數(shù)據(jù)補全算法,通過實驗驗證了數(shù)據(jù)補全算法的可行性。