方 津
(中國移動通信集團(tuán)福建有限公司 福州350001)
隨著電信行業(yè)業(yè)務(wù)的快速發(fā)展,運營商通信網(wǎng)絡(luò)不斷擴(kuò)大,由此導(dǎo)致網(wǎng)管數(shù)據(jù)逐步海量化、復(fù)雜化和多樣化。如何有效地存儲和查詢這些數(shù)據(jù),通過數(shù)據(jù)挖掘從海量數(shù)據(jù)中獲得有用的信息,是當(dāng)前面臨的一個挑戰(zhàn)。
目前電信網(wǎng)絡(luò)運維工作面向全業(yè)務(wù)發(fā)展,逐步實現(xiàn)網(wǎng)管體系轉(zhuǎn)型。為了支撐跨專業(yè)關(guān)聯(lián)和全業(yè)務(wù)運營,需要進(jìn)一步建立基于共享數(shù)據(jù)結(jié)構(gòu)的全業(yè)務(wù)支撐運維體系,對數(shù)據(jù)質(zhì)量提出了更高的要求。數(shù)據(jù)共享化后,不僅要使用數(shù)據(jù)源系統(tǒng)和屬主系統(tǒng),還要使用大量的消費系統(tǒng),一旦有劣質(zhì)數(shù)據(jù),影響的范圍更廣。因此需要對數(shù)據(jù)質(zhì)量進(jìn)行統(tǒng)一管控。數(shù)據(jù)質(zhì)量控制是依據(jù)數(shù)據(jù)質(zhì)量評估模型,由各系統(tǒng)通過設(shè)置數(shù)據(jù)質(zhì)量考察點對外提供可供評估的數(shù)據(jù)質(zhì)量原始數(shù)據(jù),經(jīng)數(shù)據(jù)管控平臺加工處理后形成數(shù)據(jù)質(zhì)量業(yè)務(wù)數(shù)據(jù)后進(jìn)行統(tǒng)一呈現(xiàn),從而實現(xiàn)對網(wǎng)管數(shù)據(jù)質(zhì)量的全面評估管理。
研究者們普遍認(rèn)為,應(yīng)該從數(shù)據(jù)使用者的角度定義數(shù)據(jù)質(zhì)量。因此,基本的數(shù)據(jù)質(zhì)量定義是“適用”,還有一個比較流行的觀點是“高質(zhì)量的數(shù)據(jù)應(yīng)該是能充分滿足用戶使用要求的數(shù)據(jù)”。除此之外,其他比較有影響的定義有:
·反映了數(shù)據(jù)滿足特定規(guī)則或者需求的特性;
·反映了數(shù)據(jù)對用戶有較高價值的特性;
·反映了數(shù)據(jù)的內(nèi)容、格式以及時間特性滿足特定的最終用戶要求的程度。
綜上所述,數(shù)據(jù)質(zhì)量是指數(shù)據(jù)能夠充分滿足用戶使用需求的特性。
數(shù)據(jù)質(zhì)量評估從用戶對數(shù)據(jù)綜合應(yīng)用要求的角度考慮,對數(shù)據(jù)的生產(chǎn)、存儲和消費進(jìn)行全面的考察和評價,從而提高數(shù)據(jù)的可信度和有效度,為數(shù)據(jù)的使用提供更有利的基礎(chǔ)。
所有的數(shù)據(jù)都是為客戶服務(wù)的,通過各種業(yè)務(wù)來滿足客戶的需求,因此提升數(shù)據(jù)質(zhì)量也是各種業(yè)務(wù)的共同目標(biāo)。對于數(shù)據(jù)使用者而言,數(shù)據(jù)質(zhì)量是一個多維度或者多屬性的概念。這些維度包括數(shù)據(jù)的精確性、可信度、關(guān)聯(lián)度和實效性等。
依據(jù)數(shù)據(jù)質(zhì)量定義的精神,分析網(wǎng)管數(shù)據(jù)的生命周期,數(shù)據(jù)從產(chǎn)生到消費,總共可分成三大環(huán)節(jié)。
(1)數(shù)據(jù)模型定義
對網(wǎng)管數(shù)據(jù)進(jìn)行分類,按照層次關(guān)系劃分為不同的域,每個域中包含一組類,每個類的定義由類的名稱、一組類的屬性和方法來描述,對于每個類的屬性,給出屬性名稱、屬性類型、該屬性是否可空、數(shù)據(jù)值域范圍等。
(2)數(shù)據(jù)實體化
根據(jù)數(shù)據(jù)模型定義,從數(shù)據(jù)源采集數(shù)據(jù),按數(shù)據(jù)質(zhì)量定義要求對數(shù)據(jù)進(jìn)行加工處理,通常包含采集、解析、裝載、預(yù)處理、匯總等環(huán)節(jié)。不同的數(shù)據(jù)處理環(huán)節(jié)可能略有差異。
(3)數(shù)據(jù)消費
依據(jù)數(shù)據(jù)使用特點,對外提供各種類型的數(shù)據(jù)接口,包含實時數(shù)據(jù)分發(fā)、定時數(shù)據(jù)分發(fā)、同步查詢、異步查詢、文件傳輸?shù)取?/p>
在數(shù)據(jù)生命周期的不同環(huán)節(jié),數(shù)據(jù)質(zhì)量有著不同的關(guān)注點。在數(shù)據(jù)模型定義時,主要關(guān)注數(shù)據(jù)的完整性和數(shù)據(jù)的有效性;在數(shù)據(jù)實體化過程中,主要關(guān)注數(shù)據(jù)采集處理過程的準(zhǔn)確性和及時性;在數(shù)據(jù)消費環(huán)節(jié),主要關(guān)注數(shù)據(jù)的一致性。
基于以上網(wǎng)管數(shù)據(jù)的生命周期以及數(shù)據(jù)生命周期的每個環(huán)節(jié),結(jié)合網(wǎng)管數(shù)據(jù)的自身特點,提出從數(shù)據(jù)完整性、有效性、準(zhǔn)確性、一致性、及時性5個維度評估系統(tǒng)的數(shù)據(jù)質(zhì)量。其具體定義如下。
·數(shù)據(jù)完整性:主要包括網(wǎng)管系統(tǒng)被管實體缺失、屬性缺失、記錄缺失和字段值缺失4個方面。
·數(shù)據(jù)準(zhǔn)確性:網(wǎng)管應(yīng)用系統(tǒng)的結(jié)果值、計算值與網(wǎng)絡(luò)中真實值之間的差異大小。數(shù)據(jù)的采集、錄入、傳輸和處理等環(huán)節(jié),都可能影響數(shù)據(jù)準(zhǔn)確性。
·數(shù)據(jù)有效性:主要包括格式、類型、值域和業(yè)務(wù)規(guī)則的有效性。對于采集到的數(shù)據(jù),需要考慮這個數(shù)據(jù)的絕對門限和波動門限。超出門限范圍的數(shù)據(jù)為無效數(shù)據(jù)。
·數(shù)據(jù)一致性:指數(shù)據(jù)的屬主系統(tǒng)、數(shù)據(jù)源系統(tǒng)以及消費系統(tǒng)之間的數(shù)據(jù)差異和相互矛盾的一致性。
·數(shù)據(jù)及時性:指網(wǎng)管數(shù)據(jù)提取、傳送、處理、裝載、展現(xiàn)的及時性和快速性。應(yīng)用系統(tǒng)在日常數(shù)據(jù)的管理中,往往要求能夠更快、更準(zhǔn)地收集到所需的數(shù)據(jù),也就是說數(shù)據(jù)必須要有及時性。
在理解數(shù)據(jù)質(zhì)量定義的基礎(chǔ)上,要提高數(shù)據(jù)質(zhì)量,必須對數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量評估。數(shù)據(jù)質(zhì)量評估實際上是統(tǒng)計綜合評價問題,數(shù)據(jù)質(zhì)量的評估模型通常包括6個方面:評估對象、評估指標(biāo)、評估規(guī)則、權(quán)值、期望值、評估結(jié)果。結(jié)合網(wǎng)管系統(tǒng)數(shù)據(jù)的特點,提出如圖1所示的評估模型中的對象關(guān)系。
評估對象是指需要進(jìn)行評估的數(shù)據(jù)集對象。網(wǎng)管系統(tǒng)產(chǎn)生的所有數(shù)據(jù)對象或數(shù)據(jù)對象的子集都可以作為評估對象。網(wǎng)管域業(yè)務(wù)產(chǎn)生的數(shù)據(jù)的特點是數(shù)據(jù)量大,數(shù)據(jù)模型相對較復(fù)雜,因此數(shù)據(jù)的評估過程也較為復(fù)雜。
建立對象層次,是一種有效降低復(fù)雜性的系統(tǒng)方法。為了更好地從5個維度評價數(shù)據(jù)質(zhì)量,結(jié)合對于網(wǎng)管的理解,對評估對象自上而下劃分為如下幾個層次:系統(tǒng)、數(shù)據(jù)域、對象指標(biāo)。每層對象的數(shù)據(jù)質(zhì)量評估值都由若干個下層評估值計算得到,如圖2所示,具體介紹如下。
·對象指標(biāo):對象指標(biāo)是對基礎(chǔ)對象數(shù)據(jù)質(zhì)量的綜合評價。具體體現(xiàn)為某個評估值。
·數(shù)據(jù)域:按照數(shù)據(jù)類別,屬主系統(tǒng)、數(shù)據(jù)源對數(shù)據(jù)進(jìn)行分類,可分為業(yè)務(wù)域、資源域、配置域、事件域、統(tǒng)計域等10大數(shù)據(jù)域。數(shù)據(jù)域結(jié)合具體的質(zhì)量評估目標(biāo)以及對象之間的邏輯關(guān)系,可以進(jìn)一步按照地理、網(wǎng)元等維度進(jìn)行細(xì)分。
·系統(tǒng):單個系統(tǒng)整體數(shù)據(jù)質(zhì)量評估值。一個系統(tǒng)包含多個數(shù)據(jù)域。
評估指標(biāo)是針對基礎(chǔ)對象定義的,數(shù)據(jù)質(zhì)量基礎(chǔ)評估指標(biāo)一般包含數(shù)據(jù)完整性、準(zhǔn)確性、一致性、有效性、及時性等,詳細(xì)如圖3所示。
與評估指標(biāo)對應(yīng)的是評估規(guī)則,規(guī)則可以使用規(guī)范化的自然語言或形式化語言來描述。通常一個評估指標(biāo)可以對應(yīng)一個或多個評估規(guī)則。
權(quán)值包含規(guī)則權(quán)值和指標(biāo)權(quán)值。規(guī)則權(quán)值指計算基礎(chǔ)指標(biāo)時,指標(biāo)規(guī)則對應(yīng)的權(quán)值,描述該規(guī)則在所有規(guī)則中所占的比重;指標(biāo)權(quán)值指在計算上層指標(biāo)時,評估指標(biāo)在所有同層指標(biāo)中相對于上層指標(biāo)所占的比重。
期望值指評估之前所期望得到的結(jié)果或參考值。為了方便地評估指標(biāo),進(jìn)一步區(qū)分為挑戰(zhàn)值、達(dá)標(biāo)值、最差值。
評估結(jié)果指使用評估規(guī)則評估后得到的實際結(jié)果值。
在得到數(shù)據(jù)質(zhì)量評估模型的對象關(guān)系后,數(shù)據(jù)質(zhì)量的評估可劃分為下面幾個步驟。
(1)評估準(zhǔn)備。確定數(shù)據(jù)評估對象,選擇評估指標(biāo),制定規(guī)則集。
(2)計算基礎(chǔ)對象評估值。通過規(guī)則權(quán)值和規(guī)則評估值計算出基礎(chǔ)指標(biāo)值;通過基礎(chǔ)指標(biāo)權(quán)值和基礎(chǔ)指標(biāo)值算出基礎(chǔ)對象評估值。其中,規(guī)則權(quán)值和基礎(chǔ)指標(biāo)權(quán)值的計算方法有多種,如層次分析法、專家調(diào)查法、Delphi法等,這里采用層次分析法。
(3)計算上層評估對象的指標(biāo)。通過基礎(chǔ)對象指標(biāo)權(quán)值和上層評估對象指標(biāo)值的線性加權(quán),計算得出上層評估對象指標(biāo)值。依次可獲得數(shù)據(jù)域評估值、系統(tǒng)評估值。
網(wǎng)管數(shù)據(jù)質(zhì)量評估流程如圖4所示。
3.3.1 基礎(chǔ)指標(biāo)計算
(1)計算評估規(guī)則在所有評估規(guī)則中相對于評估指標(biāo)的權(quán)值
采用層次分析法對所有評估規(guī)則進(jìn)行分析,得到所有評估規(guī)則權(quán)值。層次分析法是將與決策總是有關(guān)的元素分解成目標(biāo)、準(zhǔn)則、方案等層次,在此基礎(chǔ)上進(jìn)行定性和定量分析的決策方法。該方法是美國運籌學(xué)家匹茨堡大學(xué)教授薩蒂于20世紀(jì)70年代初提出的一種層次權(quán)重決策分析方法。假設(shè)得到的權(quán)值集合為:
(2)分析計算基礎(chǔ)指標(biāo)評估結(jié)果值
根據(jù)評估規(guī)則,獲得每個數(shù)據(jù)對象每個規(guī)則的評估結(jié)果值。假定規(guī)則權(quán)值為W,評估規(guī)則評估值為R,那么基礎(chǔ)指標(biāo)的評估值S計算如下:
為了更加直觀地反映數(shù)據(jù)質(zhì)量的高低,使用百分制評價每個評估指標(biāo),對每個指標(biāo)的期望值進(jìn)一步細(xì)分,定義了最差值、達(dá)標(biāo)值、挑戰(zhàn)值3個值反映當(dāng)前指標(biāo)健康度,其對應(yīng)的得分范圍見表1。
表1 指標(biāo)評估結(jié)果對應(yīng)分值規(guī)則
這里,給出每個評估指標(biāo)得分的具體算法。假設(shè)評估值為K、最差值為A、達(dá)標(biāo)值為B、挑戰(zhàn)值為C,那么評估值的得分計算式為:
3.3.2 上層指標(biāo)計算
參考國際電信管理論壇(TMF)的GB917文檔中提到的相關(guān)算法,使用線性加權(quán)算法計算上層指標(biāo)值。
首先,針對每個下層KPI,通過層次分析法,確定其聚合到對應(yīng)上層指標(biāo)KPI’的權(quán)重。假設(shè)下層指標(biāo)評估值為KPI,上層指標(biāo)評估值為KPI’,那么KPI’計算如下:
對象指標(biāo)可通過基礎(chǔ)指標(biāo)線性加權(quán)計算得到,同理可計算得到數(shù)據(jù)域評估值和應(yīng)用系統(tǒng)的數(shù)據(jù)質(zhì)量總評估值。
結(jié)合實際應(yīng)用場景,使用評估模型進(jìn)行質(zhì)量評估。對于模型的應(yīng)用示例,主要是介紹整個評估的過程,所以抽取少量考核指標(biāo)來計算,抽取的指標(biāo)含TCH掉話率、TCH話 務(wù) 量、SDCCH話 務(wù) 量、SDCCH接 通 率、SDCCH掉 話 率、GSM接通率,具體模型如圖5所示。
針對簡化的評估對象,根據(jù)數(shù)據(jù)的生命周期,每個對象定義如下5個評估指標(biāo):數(shù)據(jù)完整性、準(zhǔn)確性、有效性、一致性、及時性。從這5個評估維度考量數(shù)據(jù)質(zhì)量。以無線接通率完整性為例進(jìn)行說明。
以某省話務(wù)網(wǎng)管地市級別,小時粒度的數(shù)據(jù)為例,數(shù)據(jù)時間跨度為24 h,評估的是一天的數(shù)據(jù),空間維度粒度為地市(9地市),數(shù)據(jù)的時間粒度為h,那么總的記錄數(shù)應(yīng)該有9×24=216條??紤]到凌晨等時段允許部分?jǐn)?shù)據(jù)缺失,制定對象指標(biāo)的完整性挑戰(zhàn)值為99%,達(dá)標(biāo)值為95%,最差值為85%。完整性計算包括記錄完整率和字段完整率。通過層次分析法計算出其權(quán)值。假設(shè)其對應(yīng)權(quán)值為(0.5,0.5)T。根據(jù)式(2),得到計算規(guī)則為:完整性=實際記錄數(shù)/總記錄數(shù)×0.5+非空字段數(shù)/總字段數(shù)據(jù)×0.5。
其數(shù)據(jù)完整性情況見表2。
表2 無線接通率完整性
可以算出完整性為:
根據(jù)式(3)可計算出評估值為:
同理,可以算出其他指標(biāo)的完整性。
使用層次分析法,計算得出的指標(biāo)權(quán)值為:
根據(jù)式(4)計算得出無線域數(shù)據(jù)完整性A1:
同理,可計算出無線域有效性A2、無線域準(zhǔn)確性A3、無線域數(shù)據(jù)及時性A4、無線域數(shù)據(jù)一致性A5。
通過層次分析法,得到無線域評估維度質(zhì)量指標(biāo)(含數(shù)據(jù)完整性、有效性、準(zhǔn)確性、及時性、一致性)的權(quán)重,假設(shè)權(quán)值為W1、W2、W3、W4、W5,那么無線域的數(shù)據(jù)質(zhì)量評估得分為:
獲取到評估結(jié)果后,可以進(jìn)一步生成數(shù)據(jù)質(zhì)量評估報告,數(shù)據(jù)質(zhì)量報告是對數(shù)據(jù)質(zhì)量評估結(jié)果各種信息進(jìn)行匯總、梳理、統(tǒng)計和分析,形成統(tǒng)計報告的過程。數(shù)據(jù)質(zhì)量報告提供了一個集中展示系統(tǒng)數(shù)據(jù)質(zhì)量狀況的窗口,數(shù)據(jù)質(zhì)量管理人員召集相關(guān)人員對數(shù)據(jù)質(zhì)量報告進(jìn)行分析討論,以總結(jié)經(jīng)驗、沉淀知識和改進(jìn)方法,不斷提高系統(tǒng)的數(shù)據(jù)質(zhì)量問題的處理能力。
網(wǎng)管數(shù)據(jù)質(zhì)量的控制及有效提升,主要依據(jù)數(shù)據(jù)質(zhì)量評估模型?;诒疚牡臄?shù)據(jù)質(zhì)量評估模型,結(jié)合數(shù)據(jù)質(zhì)量評估報告,可以實現(xiàn)網(wǎng)管對數(shù)據(jù)質(zhì)量評估的要求。在實際應(yīng)用方面,可按照實際情況,對現(xiàn)有網(wǎng)管系統(tǒng)進(jìn)行改造,增加考察點,嵌入數(shù)據(jù)質(zhì)量評估模型,生成評估報告,作為數(shù)據(jù)質(zhì)量控制和提升的依據(jù)。在指導(dǎo)規(guī)劃方面,考慮建立數(shù)據(jù)質(zhì)量管理規(guī)范,指導(dǎo)新系統(tǒng)的建設(shè),這是下一步要研究的工作。
1 ITU-T E.800.Terms and Definitions Related to Quality of Service and Network Performance Including Dependability,1994
2 Aebi D,Perrochon L.Towards improving data quality.Proceedings of the International Conference on Information Systems and Management of Data,1993:273~281
3 Wang R Y.A product perspective on total data quality management.Communications of the ACM,1998,41(2):58~65
4 Saaty T L.The Analytic Hierarchy Process.McGraw Hill,New York,1980
5 韓京宇,徐立臻,董逸生.數(shù)據(jù)質(zhì)量研究綜述.計算機(jī)科學(xué),2008,35(2)
6 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述.軟件學(xué)報,2002(11)
7 高明飛.移動綜合網(wǎng)管數(shù)據(jù)缺失原因的分析及處理.電信技術(shù),2009(1)
8 王維虎,劉延申.淺析提升電信企業(yè)數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量的方法.高等函授學(xué)報(自然科學(xué)版),2006,20(1)
9 王曉華,蘇宏業(yè),渠瑜等.面向電信欠費挖掘的數(shù)據(jù)質(zhì)量評估策略研究.計算機(jī)工程與應(yīng)用,2011,47(12)
10 倪萍,廖建新,王純等.一種KPI映射到KQI的通用算法.電子與信息學(xué)報,2008,30(10)