繆新萍 汪浩 葛松
(1.貴州電網(wǎng)有限責(zé)任公司信息中心 貴州省貴陽市 550003 2.貴州電網(wǎng)有限責(zé)任公司 貴州省貴陽市 550002)
指標是指示、衡量目標達成的參數(shù),在企業(yè)的經(jīng)營、管理以及決策過程中起著十分重要的作用。指標數(shù)據(jù)的可信和準確直接關(guān)系到企業(yè)能否制定恰當(dāng)?shù)墓芾泶胧⒆龀稣_的經(jīng)營決策。
指標數(shù)據(jù)的產(chǎn)生,通常是基于一些基礎(chǔ)數(shù)據(jù)、經(jīng)歷一個復(fù)雜的統(tǒng)計和計算過程得到。因此,指標是典型的派生類、加工類數(shù)據(jù),指標數(shù)據(jù)的質(zhì)量依賴參與加工處理的源數(shù)據(jù)及實施計算的過程。從數(shù)據(jù)治理的角度,指標數(shù)據(jù)質(zhì)量的提升和保障應(yīng)當(dāng)正本清源,通過指標溯源追溯其源頭數(shù)據(jù),同時對源數(shù)據(jù)項進行數(shù)據(jù)職責(zé)的分配和落實,從源頭施治確保數(shù)據(jù)項的質(zhì)量,進而保證指標數(shù)據(jù)的質(zhì)量。
本文針對貴州電網(wǎng)企業(yè)指標實用化工作推進的需要,在提升指標數(shù)據(jù)可信和準確性的質(zhì)量問題上,闡述結(jié)合數(shù)據(jù)溯源與數(shù)據(jù)認責(zé)技術(shù)方法的研究與實施,實現(xiàn)提升企業(yè)指標數(shù)據(jù)質(zhì)量、促進企業(yè)指標實用化的一個可行、有效的方案。
指標數(shù)據(jù)是反映企業(yè)經(jīng)營運行狀況的重要指針,同時也是進行管理決策的重要依據(jù)。根據(jù)南網(wǎng)公司加強企業(yè)數(shù)據(jù)資產(chǎn)管理,推動公司經(jīng)營決策數(shù)字化轉(zhuǎn)型的重要決定,正在大力建設(shè)和推廣業(yè)務(wù)運營指標監(jiān)控系統(tǒng)等一批數(shù)據(jù)應(yīng)用,以期提供及時、準確、可信的數(shù)據(jù)參考和支撐。同時,指標數(shù)據(jù)也已經(jīng)成為指導(dǎo)各部門按照精益化管理要求開展年度業(yè)務(wù)工作的重要指揮棒。
電網(wǎng)企業(yè)的指標數(shù)據(jù)通常是基于多個單位和部門的若干個數(shù)據(jù)元按照一定的統(tǒng)計口徑進行計算而得到,因此指標數(shù)據(jù)的真實性和準確性有賴于這些數(shù)據(jù)元的質(zhì)量狀況,同時這些數(shù)據(jù)元又因業(yè)務(wù)活動的不斷開展而處于不斷變化之中。指標數(shù)據(jù)與相關(guān)指標數(shù)據(jù)元形成了一個相互關(guān)聯(lián)、影響的金字塔結(jié)構(gòu),處于這個結(jié)構(gòu)中的每個指標數(shù)據(jù)元的質(zhì)量波動都將對頂端的指標數(shù)據(jù)造成影響。
因此,一方面,對指標數(shù)據(jù)的相關(guān)數(shù)據(jù)元進行溯源管理,理清指標數(shù)據(jù)的數(shù)據(jù)脈絡(luò)成為評估指標可信度和影響的重要依據(jù);另一方面,指標數(shù)據(jù)元的質(zhì)量管控成為保障指標質(zhì)量的重要基礎(chǔ)。
數(shù)據(jù)溯源(data provenance)的概念大致誕生于20世紀90年代,最初命名各異,如數(shù)據(jù)族系(Data Lineage)、數(shù)據(jù)系譜(Data Pedigree)、數(shù)據(jù)來源(Data Origin)等。經(jīng)歷一段時間的發(fā)展完善,大部分文獻將其命名為數(shù)據(jù)溯源,有追蹤數(shù)據(jù)的起源和重現(xiàn)數(shù)據(jù)的歷史狀態(tài)之意。至此,數(shù)據(jù)溯源開始作為正式術(shù)語使用。
圖1:指標數(shù)據(jù)依賴關(guān)系示意圖
目前,數(shù)據(jù)溯源還沒有公認的定義,因應(yīng)用領(lǐng)域不同含義有所差別。Goble 從生物信息學(xué)角度指出,數(shù)據(jù)溯源除了要追溯目標數(shù)據(jù)的源頭數(shù)據(jù)和過程信息外,還需記錄數(shù)據(jù)演變過程中涉及的工具信息,需要更加詳細的信息記錄以保證數(shù)據(jù)的可重用性[1]。Lanter在GIS 中將其定義為,數(shù)據(jù)溯源是對目標數(shù)據(jù)衍生前的原始數(shù)據(jù)以及演變過程的描述。Greenwood 等認為數(shù)據(jù)溯源是一種記錄信息的派生路徑和注釋的元數(shù)據(jù)[2]。Simmhan 等也認為數(shù)據(jù)溯源是一種元數(shù)據(jù),用于記錄數(shù)據(jù)產(chǎn)品最原始數(shù)據(jù)和演變轉(zhuǎn)換過程的信息[3]。Glavic 等認為數(shù)據(jù)溯源包括兩方面,一方面是將數(shù)據(jù)項的溯源描述為導(dǎo)致其創(chuàng)建的過程,另一方面則關(guān)注派生數(shù)據(jù)項的原始數(shù)據(jù)來源[4]。戴超凡等比較系統(tǒng)地研究了數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)溯源追蹤技術(shù),將數(shù)據(jù)溯源定義為記錄數(shù)據(jù)在整個生命周期內(nèi)(從產(chǎn)生、轉(zhuǎn)換、傳播到消亡)的演變信息和演變處理內(nèi)容[5]。
上述定義展示了數(shù)據(jù)溯源的不同側(cè)重點,但均關(guān)注兩個重要內(nèi)容:數(shù)據(jù)本源(即源頭數(shù)據(jù)),以及數(shù)據(jù)隨時間推移而演化的整個過程。因此,可以將數(shù)據(jù)溯源概括為追溯數(shù)據(jù)的原生數(shù)據(jù)和衍生過程。
在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的生成規(guī)模、傳播速度急劇增長,數(shù)據(jù)的來源以及衍生路徑呈現(xiàn)出多樣化、復(fù)雜化的特點,許多數(shù)據(jù)不是直接觀察、測量獲得,而是通過計算機程序的應(yīng)用從其他數(shù)據(jù)中得到。原生數(shù)據(jù)常常經(jīng)過多次流轉(zhuǎn)、遷移、集成、抽取、計算等操作后形成海量派生數(shù)據(jù)。如果不對原生數(shù)據(jù)的溯源信息進行記錄,將在很大程度上降低數(shù)據(jù)的真實性和有效性,以致給數(shù)據(jù)的應(yīng)用帶來風(fēng)險。數(shù)據(jù)溯源正是為評估數(shù)據(jù)的真實性、增加數(shù)據(jù)信任、再現(xiàn)數(shù)據(jù)生成過程提供了必要的基礎(chǔ)和手段,數(shù)據(jù)溯源技術(shù)應(yīng)需而生。
圖2:認責(zé)數(shù)據(jù)管理
圖3:認責(zé)計劃管理
圖4:認責(zé)關(guān)系建立
指標數(shù)據(jù)就是典型的經(jīng)原生數(shù)據(jù)計算、加工轉(zhuǎn)化而來的派生或衍生數(shù)據(jù)。對指標數(shù)據(jù)進行數(shù)據(jù)溯源,是保障和提升指標可信性、準確性的必要前提。
數(shù)據(jù)溯源應(yīng)用廣泛,涉及食品安全、歷史考古、科學(xué)研究、生物醫(yī)療、數(shù)據(jù)開放共享等對數(shù)據(jù)真實性、可靠性要求較高的領(lǐng)域。針對不同的應(yīng)用場景、不同的應(yīng)用目的,溯源的目標和內(nèi)容是不同的。指標數(shù)據(jù)溯源,首先從應(yīng)用目的出發(fā)來分析和確定其溯源的內(nèi)容和目標。
指標,具體來說就是業(yè)務(wù)統(tǒng)計報表中的一個字段,比如售電量、應(yīng)收電費等。一個指標具體到計算加工,主要涉及幾個部分:
圖5:認責(zé)關(guān)系維護
圖6:認責(zé)工作管控
(1)指標計算邏輯,比如count,sum,avg 等;
(2)維度,指定不同值對象的描述屬性或特征,比如按部門、地域進行指標統(tǒng)計,對應(yīng)SQL 中的group by;
(3)業(yè)務(wù)限定、修飾詞,比如以不同的時段來進行指標統(tǒng)計,對應(yīng)SQL 中的where 子句。
除此之外,指標本身還可以派生、衍生出更多的指標,基于這些加工特點,可以將指標進行分類:
(1)原子指標:基本業(yè)務(wù)事實,沒有維度、沒有業(yè)務(wù)限定,表達業(yè)務(wù)實體原子量化屬性的且不可再分的指標,如用戶數(shù)、工單數(shù)都算原子指標。
(2)復(fù)合指標:建立在其它指標之上,通過一定運算規(guī)則形成的指標,如資產(chǎn)負債率(由負債總額和資產(chǎn)總額兩個指標計算得到)。
(3)派生指標:某個指標與維度、統(tǒng)計屬性、管理屬性等業(yè)務(wù)限定相結(jié)合產(chǎn)生的新指標,如當(dāng)期售電量(加上時間限定),主營業(yè)務(wù)收入(加上業(yè)務(wù)屬性限制)等。復(fù)合指標也可以派生出新的指標。
不同分類指標之間、以及指標與源數(shù)據(jù)項的依賴關(guān)系示意,如圖1所示。
實際業(yè)務(wù)統(tǒng)計中直接使用原子指標的情況是很少的,絕大多數(shù)都為派生類或復(fù)合類指標,且指標間的關(guān)系要比上述指標數(shù)據(jù)依賴關(guān)系示意圖更復(fù)雜,也就是說大多指標數(shù)據(jù)的生成需要經(jīng)歷復(fù)雜的計算加工過程。
指標數(shù)據(jù)溯源的目標,就是要以指標數(shù)據(jù)為頂端向下拆解,梳理和繪制出指標數(shù)據(jù)依賴關(guān)系圖,進一步挖掘和追溯到參與指標計算的相關(guān)源數(shù)據(jù)項,確定源數(shù)據(jù)項所在的應(yīng)用系統(tǒng)、數(shù)據(jù)表及數(shù)據(jù)字段,掌握指標源數(shù)據(jù)項在業(yè)務(wù)系統(tǒng)中的分布情況。
通過指標數(shù)據(jù)溯源梳理得到的指標數(shù)據(jù)依賴關(guān)系圖,呈現(xiàn)了由源數(shù)據(jù)項到指標數(shù)據(jù)的衍生路徑和加工脈絡(luò),成為評估指標可信度和影響分析的重要依據(jù)。
另一方面,通過指標數(shù)據(jù)溯源挖掘得到指標計算相關(guān)的源數(shù)據(jù)項及其系統(tǒng)位置分布,即可采取從源頭施治、對指標源數(shù)據(jù)項進行數(shù)據(jù)認責(zé),以確保數(shù)據(jù)項的質(zhì)量,從而保證和提升指標數(shù)據(jù)的準確性。
數(shù)據(jù)認責(zé)是企業(yè)構(gòu)建數(shù)據(jù)治理體系的一項重要的基礎(chǔ)性工作。數(shù)據(jù)認責(zé)的根本目的,就是通過明確企業(yè)內(nèi)的各類數(shù)據(jù)責(zé)任者、明確人與數(shù)據(jù)之間的職責(zé)關(guān)系,建立起以責(zé)任為基礎(chǔ)的數(shù)據(jù)治理組織,為全面、協(xié)調(diào)推動各項數(shù)據(jù)治理工作、提升保障數(shù)據(jù)質(zhì)量提供基礎(chǔ)和保障。
數(shù)據(jù)認責(zé)實施,通過梳理企業(yè)數(shù)據(jù)資產(chǎn)中的數(shù)據(jù)項與企業(yè)組織機構(gòu)、崗位人員之間的操作和使用關(guān)系,明確數(shù)據(jù)項的主責(zé)、錄入、審核、改進等各類型責(zé)任者,使得數(shù)據(jù)責(zé)任關(guān)系明確化,從而為數(shù)據(jù)問題的分析、定位和解決,以及數(shù)據(jù)管理各項措施、制度的有效落實提供保障[6]。
貴州電網(wǎng)公司從2018年開始,便將建立數(shù)據(jù)認責(zé)管理機制作為公司信息化的一項重點工作,圍繞數(shù)據(jù)全生命周期開展數(shù)據(jù)認責(zé)管理機制的研究、制定以及實施工作。2018年,在部分區(qū)局開展數(shù)據(jù)認責(zé)管理試點實施,構(gòu)建認責(zé)組織架構(gòu),以問題為導(dǎo)向梳理核心數(shù)據(jù)項,并完成一批89 個數(shù)據(jù)項的認責(zé)關(guān)系梳理和責(zé)任分配落實,實現(xiàn)了數(shù)據(jù)管理“認責(zé)到崗、層層管控”的目標,為進一步在全省推廣數(shù)據(jù)認責(zé)管理奠定基礎(chǔ)。
2019年,在上一年數(shù)據(jù)認責(zé)體系建設(shè)和數(shù)據(jù)認責(zé)試點實施成功經(jīng)驗的基礎(chǔ)上,進一步完善數(shù)據(jù)認責(zé)體系和工作機制,優(yōu)化認責(zé)方法及模板,明確數(shù)據(jù)認責(zé)管理組織架構(gòu)、崗位及人員。通過面向全省開展數(shù)據(jù)認責(zé)管理機制的宣貫培訓(xùn)、開展年度數(shù)據(jù)認責(zé)實施工作,在全省范圍完成數(shù)據(jù)認責(zé)機制建設(shè),建立起明確的數(shù)據(jù)認責(zé)管理組織,實現(xiàn)數(shù)據(jù)認責(zé)在全省范圍的推廣實施。
過去數(shù)據(jù)認責(zé)工作的具體實施是利用Excel 文檔工具來支撐。隨著公司數(shù)據(jù)認責(zé)工作深化,數(shù)據(jù)認責(zé)范圍不斷擴大、認責(zé)粒度不斷細化,相關(guān)工作量和工作復(fù)雜性持續(xù)增長。此時,亟待一套操作簡便,能快速建立責(zé)任關(guān)系、同時又便于長期維護認責(zé)關(guān)系的工具來支撐數(shù)據(jù)認責(zé)工作。
2020年,在基本成熟的認責(zé)組織架構(gòu)、認責(zé)職責(zé)分配、認責(zé)操作流程的基礎(chǔ)上,在指標數(shù)據(jù)認責(zé)工作的驅(qū)動下,公司提出了數(shù)據(jù)認責(zé)管理系統(tǒng)建設(shè)需求。
數(shù)據(jù)認責(zé)管理系統(tǒng)通過工作流的方式把認責(zé)實施工作各個環(huán)節(jié)串聯(lián)起來,以圖形化的方式展示,實現(xiàn)從數(shù)據(jù)認責(zé)計劃制定、過程實施到結(jié)果監(jiān)控的全過程流程化支撐和管控,大幅提升數(shù)據(jù)認責(zé)工作效率。
第一批針對40 個重點業(yè)務(wù)指標,通過指標數(shù)據(jù)溯源得到91 個認責(zé)相關(guān)指標數(shù)據(jù)項,借助數(shù)據(jù)認責(zé)工具面向企業(yè)全省各層級組織機構(gòu)同步開展指標數(shù)據(jù)質(zhì)量提升數(shù)據(jù)認責(zé)保障工作:
(1)認責(zé)數(shù)據(jù)管理,實現(xiàn)對指標數(shù)據(jù)項信息的維護。91 個指標數(shù)據(jù)項導(dǎo)入認責(zé)工具系統(tǒng)并在此進行必要的數(shù)據(jù)項信息管理維護。如圖2所示。
(2)認責(zé)計劃管理,實現(xiàn)認責(zé)計劃的發(fā)起、計劃執(zhí)行狀態(tài)及進度跟蹤管理。2020 企業(yè)指標數(shù)據(jù)項認責(zé)工作計劃同時下發(fā)到各地市、區(qū)縣局及班站所,工作推進進度在系統(tǒng)中實時統(tǒng)計反饋。如圖3所示。
(3)認責(zé)關(guān)系建立,實現(xiàn)指標數(shù)據(jù)項主責(zé)認領(lǐng),主責(zé)人對數(shù)據(jù)錄入/改進、審核的操作責(zé)任人分配,以及被分配責(zé)任人的責(zé)任關(guān)系確認。建立起指標數(shù)據(jù)項認責(zé)到崗、到人的明確、清晰的責(zé)任關(guān)系網(wǎng)絡(luò)。如圖4所示。
(4)認責(zé)關(guān)系維護,支持數(shù)據(jù)責(zé)任關(guān)系變更需求。數(shù)據(jù)責(zé)任人可以主動發(fā)起變更申請、經(jīng)審核確認后完成責(zé)任關(guān)系變更。也可以在出現(xiàn)如人員崗位變遷觸發(fā)認責(zé)關(guān)系預(yù)警的情況下,由主責(zé)人或數(shù)據(jù)資產(chǎn)管理員來發(fā)起責(zé)任變更申請及另外分配責(zé)任人。責(zé)任變更流程進度可跟蹤。如圖5所示。
(5)認責(zé)工作管控,通過交互式綜合視圖,可總覽全省認責(zé)工作進展,也可以下鉆查看地市區(qū)縣的工作情況。有整體、有局部,靈活管控。如圖6所示。
指標數(shù)據(jù)認責(zé),目標在于構(gòu)建指標源數(shù)據(jù)項與數(shù)據(jù)責(zé)任人之間確定、明晰的責(zé)任關(guān)系。信息化數(shù)據(jù)認責(zé)工具解決了認責(zé)實踐過程中效率低、難落地、難維護的問題,提升數(shù)據(jù)認責(zé)工作效率、保障數(shù)據(jù)認責(zé)工作成果。當(dāng)出現(xiàn)指標數(shù)據(jù)問題時,借助認責(zé)工具便可以直接、快速定位到問題數(shù)據(jù)項及相關(guān)責(zé)任人,實現(xiàn)問題一鍵溯源、信息一鍵推送,及時推進數(shù)據(jù)整改,使數(shù)據(jù)問題得到解決、數(shù)據(jù)質(zhì)量得以提升,進而實現(xiàn)指標數(shù)據(jù)的業(yè)務(wù)價值。
指標是反映企業(yè)經(jīng)營運行狀況的重要指針,也是企業(yè)管理決策的重要依據(jù)。在企業(yè)數(shù)字化轉(zhuǎn)型的進程中,保障和提升指標數(shù)據(jù)的質(zhì)量是利用和發(fā)揮指標數(shù)據(jù)價值的前提和基礎(chǔ)。本文首先分析指標數(shù)據(jù)質(zhì)量的需求在于指標的真實可信和準確可靠。結(jié)合數(shù)據(jù)溯源思想,研究了指標數(shù)據(jù)溯源的應(yīng)用目標:溯源指標計算的數(shù)據(jù)依賴關(guān)系圖、形成評估指標可信度和影響分析的重要依據(jù);溯源定位指標源數(shù)據(jù)項,掌握數(shù)據(jù)項的系統(tǒng)分布詳情。進一步,探索在公司實踐多年的數(shù)據(jù)認責(zé)工作經(jīng)驗的基礎(chǔ)上,對指標數(shù)據(jù)項從源頭施治進行數(shù)據(jù)認責(zé),實現(xiàn)保障指標數(shù)據(jù)準確性、提升指標質(zhì)量的目的?;跀?shù)據(jù)溯源和數(shù)據(jù)認責(zé)實現(xiàn)指標數(shù)據(jù)的質(zhì)量控制與可信管理,具有重要的研究價值和實踐意義。
指標數(shù)據(jù)流轉(zhuǎn)、加工、計算的復(fù)雜度決定了指標溯源數(shù)據(jù)分解的難度。當(dāng)前,指標數(shù)據(jù)溯源還依賴人工實現(xiàn)。下一步,將深入數(shù)據(jù)溯源技術(shù)及模型的研究,設(shè)計適合指標溯源應(yīng)用的溯源模型與方法,實現(xiàn)指標數(shù)據(jù)自動溯源,與數(shù)據(jù)認責(zé)工具集成,進一步提高指標數(shù)據(jù)質(zhì)量保障和提升的效率。