亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于主數(shù)據(jù)流分析的數(shù)據(jù)比對方法

        2013-12-31 00:00:00陸忠
        電子世界 2013年24期

        【摘要】數(shù)據(jù)比對工作是數(shù)據(jù)整合過程的核心工作之一,決定著數(shù)據(jù)整合的成敗。文章介紹了一種通過定義數(shù)據(jù)比對過程中的主數(shù)據(jù),結(jié)合主數(shù)據(jù)流而進行數(shù)據(jù)比對的方法,并通過實際案例做了詳細說明;通過分析數(shù)據(jù)不一致的原因并給出完善建議,避免錯誤數(shù)據(jù)的再次發(fā)生。最后文章討論了數(shù)據(jù)質(zhì)量對數(shù)據(jù)比對結(jié)果的影響以及業(yè)務流程對保障數(shù)據(jù)質(zhì)量的重要性。

        【關(guān)鍵詞】數(shù)據(jù)比對;數(shù)據(jù)整合;主數(shù)據(jù);業(yè)務流程

        1.介紹

        隨著信息化應用的推廣,大型機構(gòu)中信息系統(tǒng)的數(shù)量在逐漸增多。但由于各系統(tǒng)數(shù)據(jù)規(guī)范不完整、系統(tǒng)間缺少數(shù)據(jù)接口,而使數(shù)據(jù)整合工作成為IT部門的一項重要工作;關(guān)于數(shù)據(jù)整合的重要性、數(shù)據(jù)整合的工具有很多論著[1-5]。數(shù)據(jù)整合包含了數(shù)據(jù)的提取、轉(zhuǎn)換和加載,其中涉及計算機技術(shù)和業(yè)務邏輯。數(shù)據(jù)整合是非常重要的,甚至會影響信息系統(tǒng)/數(shù)據(jù)倉庫建設的成敗。一個對象存儲在多個系統(tǒng)中,使得在數(shù)據(jù)整合的過程中必須要進行數(shù)據(jù)的比對,而且,此時的數(shù)據(jù)比對工作也是數(shù)據(jù)整合的核心內(nèi)容。

        每個系統(tǒng)對同一對象的理解角度不同,因此給出的對象定義也不相同;同時考慮數(shù)據(jù)的完整性,數(shù)據(jù)的時間局限性等導致數(shù)據(jù)的比對工作并不順利。數(shù)據(jù)比對一般由計算機程序自動處理,后期則需要人工參與。涉及到數(shù)據(jù)比對的數(shù)據(jù)整合存在于諸多信息系統(tǒng)建設過程中,如國家基礎信息庫系統(tǒng)的建設;人口庫數(shù)據(jù)分別來源于公安局、勞動局、教育局、勞動和社會保障局等,法人庫數(shù)據(jù)來源于工商局、稅務局、經(jīng)委等;地理信息資源庫來源于規(guī)劃局、房地局、水務局、建管局、交管局等。

        本文先定義了一種以主數(shù)據(jù)定義和分析主數(shù)據(jù)流為主線的數(shù)據(jù)比對方法。結(jié)合實際項目案例給出具體比對過程。

        2.數(shù)據(jù)比對過程和方法

        本文介紹的數(shù)據(jù)比對方法,以原因分析為重點,強調(diào)不匹配數(shù)據(jù)的原因分析并結(jié)合業(yè)務邏輯,對歷史數(shù)據(jù)和增量數(shù)據(jù)給出整改方法。

        數(shù)據(jù)比對的過程可以分為以下7個步驟分別是:數(shù)據(jù)獲取、主數(shù)據(jù)定義、主數(shù)據(jù)流分析、程序比對邏輯、人工比對邏輯、原因分析、處理建議。

        2.1 數(shù)據(jù)獲取

        從兩個(或多個)源系統(tǒng)中獲得待比對的原始數(shù)據(jù)。需要注意的是每個信息系統(tǒng)均為運行的系統(tǒng),數(shù)據(jù)會產(chǎn)生變化。因此應該首先統(tǒng)一數(shù)據(jù)獲取的時間。如獲取截止到2008年10月1日24:00止的數(shù)據(jù)。并對該時間點之后的增量數(shù)據(jù)做標記,以備后續(xù)的數(shù)據(jù)比對。

        2.2 主數(shù)據(jù)定義

        按照新系統(tǒng)或數(shù)據(jù)比對的業(yè)務要求,定義比對的關(guān)鍵數(shù)據(jù)項(數(shù)據(jù)字段)。確定這些數(shù)據(jù)項的含義、來源(以哪個系統(tǒng)數(shù)據(jù)為準)、在各自系統(tǒng)中的名稱、各自系統(tǒng)中對應的數(shù)據(jù)項(數(shù)據(jù)字段)。此步驟是數(shù)據(jù)比對工作的核心部分,需要明確關(guān)鍵數(shù)據(jù)項的來源和責任。如對于人口數(shù)據(jù):姓名和身份證號碼來源于公安局,教育程度來源于教育局,就業(yè)單位信息來源于勞動和社會保障局等。

        在定義好主數(shù)據(jù)之后,需要視具體應用系統(tǒng)情況而定,對原始數(shù)據(jù)進行數(shù)據(jù)清洗。以便剔出非法數(shù)據(jù),降低人工比對的工作量和提高數(shù)據(jù)比對的成功率。數(shù)據(jù)清洗工作一般由計算機程序進行。

        2.3 主數(shù)據(jù)流分析

        根據(jù)具體的業(yè)務邏輯和業(yè)務流程,確定所有主數(shù)據(jù)在相關(guān)信息系統(tǒng)中的生命周期。需要明確以下內(nèi)容:

        (1)主數(shù)據(jù)的責任部門或責任人:是誰在何時創(chuàng)建、修改、交換或刪除主數(shù)據(jù);

        (2)主數(shù)據(jù)的相關(guān)系統(tǒng):相對于主數(shù)據(jù)生命周期的每個階段,分別在哪個信息系統(tǒng)中保存,系統(tǒng)間接口關(guān)系。

        (3)主數(shù)據(jù)流與業(yè)務流程的關(guān)系:新增流程、修改流程、刪除流程對主數(shù)據(jù)的影響。

        本步驟主要是關(guān)注主數(shù)據(jù)的修改記錄。

        2.4 程序比對邏輯

        數(shù)據(jù)比對的第一階段,一般通過計算機程序處理進行。需要整理出程序比對的邏輯,盡可能分析各原始數(shù)據(jù)的業(yè)務邏輯,尋找盡可能多的數(shù)據(jù)對應關(guān)系。有些數(shù)據(jù)只能通過唯一的標識進行比對,如人口信息通過身份證號碼進行比對或者通過聯(lián)合身份證號碼和姓名一起進行比對;有些數(shù)據(jù)可以有多種程序比對邏輯,如電路數(shù)據(jù)中第一種程序是電路編號相同,第二種程序是工程編號相同,第三種程序是電路兩端地址均相同。

        2.5 人工比對邏輯

        由于信息系統(tǒng)建設的時間不同、業(yè)務流程與IT系統(tǒng)的結(jié)合程度不同、部分業(yè)務數(shù)據(jù)不完整等情況,程序比對往往達不到100%。因此在程序比對后產(chǎn)生的遺留數(shù)據(jù)必須由人工來完成。

        在人工比對過程中,需要整理出人工比對的方法。如人口數(shù)據(jù)比對中,不同身份證號碼相同配偶名稱和身份證號碼,則可以認定為同一個人。

        2.6 原因分析

        對于人工比對的數(shù)據(jù),我們需要分析數(shù)據(jù)不匹配的原因??赡苁怯捎跓o業(yè)務流程或紙制流程的問題,可能由于流程與IT系統(tǒng)銜接的問題,可能由于系統(tǒng)間數(shù)據(jù)交換導致的數(shù)據(jù)不完整的問題,可能是人工輸入錯誤的問題等等。

        在分析的過程中需要考慮哪些原因影響存量數(shù)據(jù),只影響到歷史數(shù)據(jù)并且修正后不會再次出現(xiàn);哪些原因是由于業(yè)務流程導致的,在修正該業(yè)務流程之前還會再次出現(xiàn)。

        數(shù)據(jù)不匹配的原因分析是一項具有挑戰(zhàn)性的工作,同時也是一項有意義的工作。通過原因分析,可以對業(yè)務部門的工作進行評價考核,對業(yè)務流程進行梳理改造,對業(yè)務與IT系統(tǒng)結(jié)合給出完善意見。

        2.7 處理建議

        人工比對的數(shù)據(jù),按照不同的原因提供不同的處理意見。直接修改:對于不影響業(yè)務流程、不影響業(yè)務操作的數(shù)據(jù),按照主數(shù)據(jù)的定義和責任直接在相關(guān)系統(tǒng)中修改;

        業(yè)務部門盡快修正:對于一些影響正常業(yè)務操作的數(shù)據(jù),如帳務系統(tǒng)中應收帳而未收帳數(shù)據(jù)、財務系統(tǒng)中存款或余額不一致、資源系統(tǒng)中應使用而未用資源等情況,由相關(guān)業(yè)務部門牽頭盡快改修正。

        制定細致解決方案:對于原因比較復雜的、涉及到業(yè)務流程的數(shù)據(jù),則需要招集各相關(guān)部門研究,制定細致的解決方案。由于業(yè)務流程導致的數(shù)據(jù)不匹配,需要給出流程改進的建議。不匹配數(shù)據(jù)的修改越快越好。

        3.項目案例數(shù)據(jù)比對

        下面以實際項目作為例,介紹數(shù)據(jù)比對的過程。

        某通信運營商大客戶網(wǎng)管系統(tǒng)中包含傳輸專業(yè)、交換專業(yè)和數(shù)據(jù)專業(yè)(IP、ATM、DDN)總計五種電路數(shù)據(jù)。需要從前端CRM中獲取客戶名稱和電路編號(簡稱前端電路);從后端NetMaster資源系統(tǒng)中獲取電路編號和電路狀態(tài)等詳細信息(簡稱后端電路)。以下數(shù)據(jù)是20家樣本大客戶的傳輸專業(yè)電路數(shù)據(jù)(簡稱樣本數(shù)據(jù))的比對結(jié)果。

        3.1 數(shù)據(jù)獲取

        截止時間為2013年10月30日24:00,分別獲取了樣本數(shù)據(jù)的前端電路總計2110條,后端電路總計2428條。前端電路根據(jù)客戶名稱以及客戶層次關(guān)系獲取,后端電路的客戶名稱沒有層次關(guān)系因而采用客戶名稱的關(guān)鍵字模糊查詢進行獲取。

        3.2 主數(shù)據(jù)定義

        如表1所示,樣本數(shù)據(jù)的主數(shù)據(jù)為:客戶名稱、電路編號、電路A端地址、電路Z端地址。

        3.3 主數(shù)據(jù)流分析

        該通信運營商傳輸業(yè)務分為本地業(yè)務和長途業(yè)務,本文只介紹本地業(yè)務流程。由于目前傳輸本地業(yè)務的拆機和移機流程未固化到信息系統(tǒng),因此本文分析了早期的新增電路流程(如圖1所示)。

        (1)政企客戶部負責受理大客戶的傳輸電路業(yè)務;

        (2)政企客戶部通過CRM系統(tǒng)錄入客戶的名稱、電路甲端地址、電路乙端地址以及其他數(shù)據(jù)并保存;

        (3)由CRM系統(tǒng)自動產(chǎn)生客戶編號;

        (4)由CRM系統(tǒng)調(diào)用97系統(tǒng)產(chǎn)生電路編號,同時記錄到CRM系統(tǒng)和97系統(tǒng)中;

        (5)業(yè)務流程流轉(zhuǎn)到NetMaster系統(tǒng),由網(wǎng)絡運行部錄入A端地址、Z端地址,報完工;

        (6)完工信息經(jīng)97系統(tǒng)流轉(zhuǎn)到CRM系統(tǒng),完成開帳。

        3.4 程序比對邏輯

        (1)CRM中的資產(chǎn)編號和NetMaster系統(tǒng)中的鏈路編號相同的,程序比對成功。

        (2)CRM中的電路一端地址中記錄相關(guān)長途電路編號,而且和NetMaster系統(tǒng)中的鏈路編號為長途電路編號相同的,程序比對成功。

        (3)程序比對結(jié)果:

        前端電路:電路總數(shù)2110條,程序比對成功總數(shù)1614條,程序比對成功76.49%。

        后端電路:電路總數(shù)2428條,程序比對成功總數(shù)1838條,程序比對成功75.70%。

        3.5 人工比對邏輯

        由于傳輸電路業(yè)務開展時間較長,并且信息系統(tǒng)建設情況比較復雜,因此出現(xiàn)了部分程序比對不成功的電路數(shù)據(jù)。經(jīng)過各相關(guān)部門的人工比對,整理出以下人工比對邏輯:

        前端電路存在,查找不到后端電路:

        (1)根據(jù)前端電路編號在長途資源庫中查找對應的的后端電路的鏈路編號(電路編號);

        (2)前端電路中部分電路是郊區(qū)電路,暫時未整合在一起。

        可以不計在前端電路中;后端電路存在,查找不到前端電路:

        (1)根據(jù)后端電路的工程編號在CRM中查找對應的前端電路資產(chǎn)編號(電路編號);

        (2)根據(jù)后端電路的兩端地址、電路類型、客戶經(jīng)理保存資料等信息在CRM中查找對應的前端電路的資產(chǎn)編號(電路編號);

        (3)后端電路中部分電路是局內(nèi)中繼電路,不屬于大客戶的保障電路??梢圆挥嬙诤蠖穗娐分?;

        經(jīng)過程序和人工比對傳輸電路數(shù)據(jù)比對結(jié)果總匹配率為98.33%,如下:

        前端電路:電路總數(shù)2110條,程序比對1614條,人工比對445條,總成功率97.58%。

        后端電路:電路總數(shù)2428條,程序比對1838條,人工比對565條,總成功率98.97%。

        3.6 不匹配數(shù)據(jù)原因

        經(jīng)過分析得知,導致數(shù)據(jù)比對不成功的原因如下:

        (1)部分后端電路保存在長途資源庫中,未保存在NetMaster系統(tǒng)中。記錄數(shù)28條。

        (2)前后端記錄相同工程編號,而不同電路編號,記錄數(shù)14條。

        (3)部分前端電路保存在大客戶一站式受理系統(tǒng)中,未保存在前端CRM系統(tǒng)中,記錄數(shù)12條。

        (4)部分后端電路屬于總頭客戶,不保存在前端CRM中。不計在20家大客戶電路中,記錄數(shù)3條。

        (5)CRM中電路狀態(tài)不匹配(正常流程中),分別為未報完工、移機未報完工和拆機,記錄數(shù)8條。

        (6)其他未知原因,記錄數(shù)8條。

        3.7 處理建議

        針對數(shù)據(jù)不匹配的原因分析,我們給出的處理意見如下:

        第一,對不匹配數(shù)據(jù)的處理意見。

        (1)對于配置類錯誤數(shù)據(jù)直接修改。

        這些數(shù)據(jù)包括由于客戶名稱不一致、電路編號不一致而導致數(shù)據(jù)比對不成功;此類數(shù)據(jù)的修改對業(yè)務運行以及各業(yè)務系統(tǒng)的數(shù)據(jù)完整性不產(chǎn)生影響。由相關(guān)部門按照主數(shù)據(jù)的定義規(guī)則直接修改。

        (2)不屬于大客戶保障范圍電路做標記。

        這些數(shù)據(jù)本不應該屬于大客戶保障范圍電路,應該在系統(tǒng)中對這些電路做標記。

        (3)對于其他復雜原因,招集相關(guān)部門討論解決。

        第二,對業(yè)務流程的改進意見。

        (1)傳輸專業(yè)“移機流程”和“拆機流程”的完善。

        “拆機流程”未固化到系統(tǒng)中,“拆機流程”以“先裝后拆”代替。因此會產(chǎn)生導致早期數(shù)據(jù)完整性錯誤,現(xiàn)已完善業(yè)務流程。

        (2)長途電路的流程存在缺陷,會導致前后端電路編號不一致。需要盡快招集相關(guān)部門討論解決方案。

        4.總結(jié)

        通過對樣本大客戶電路數(shù)據(jù)比對過程的研究,總結(jié)了程序比對和人工比對的方法,發(fā)現(xiàn)了業(yè)務流程上的少量問題。為下一步大批量數(shù)據(jù)比對提供參考,有效提高程序比對、人工比對、數(shù)據(jù)修正的工作效率;同時為完善IT系統(tǒng)、加強業(yè)務流程和IT系統(tǒng)之間的配合提供了參考依據(jù)。

        參考文獻

        [1]Monge,A.E.Matching algorithm within a duplicate detection system.IEEE Data Engineering Bulletin,2000, 23(4):14-20.

        [2]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學報,2002,13(11):2076-2081.

        [3]田芳,劉震.數(shù)據(jù)倉庫清洗技術(shù)討論[J].青海師范大學學報(自然科學版),2005(4):50-53.

        [4]王新英,陳語林.數(shù)據(jù)抽取、轉(zhuǎn)換、轉(zhuǎn)載綜述[J].企業(yè)技術(shù)開發(fā),2004,23(8):3-5.

        [5]郭芝懋.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學報,2002,13(11).

        作者簡介:陸忠(1971—),男,上海人,碩士,上海眾恒信息產(chǎn)業(yè)股份有限公司工程師,主要從事軟件開發(fā),項目管理工作。

        久久精品午夜免费看| 中文字幕丰满乱子无码视频| 国产在线无码制服丝袜无码| 欧美亚洲韩国国产综合五月天| 亚洲一区二区三区高清视频| 国产精品国产三级国产av中文| 少妇aaa级久久久无码精品片| 亚洲人成7777影视在线观看| 国产黄片一区视频在线观看| 国产片在线一区二区三区| 亚洲av无码专区在线观看下载| 欧美黑人疯狂性受xxxxx喷水 | 国产成人精品日本亚洲专区6| 亚洲日本国产一区二区三区| 国产欧美va欧美va香蕉在线| 九九精品国产亚洲av日韩| 国产麻豆一精品一AV一免费软件| 97超碰中文字幕久久| 无码专区一ⅴa亚洲v天堂| 国产精品美女久久久久| 丝袜欧美视频首页在线| 免费人成黄页网站在线观看国产 | 成人欧美一区二区三区在线| 欧美gv在线观看| 最新国产成人综合在线观看| 亚洲熟少妇一区二区三区| 亚洲av永久无码一区二区三区| 乱码午夜-极国产极内射| 久久久久无码中文字幕| 国产三级精品三级在线专区2| 亚洲妇女自偷自偷图片| 亚洲成a人片在线看| 国产大学生自拍三级视频 | 揄拍成人国产精品视频| 久久久精品人妻一区二区三区四| 国产成人亚洲欧美三区综合| 亚洲熟妇一区二区蜜桃在线观看 | 91亚洲精品福利在线播放| 蓝蓝的天空,白白的云| 亚洲国产精品无码专区在线观看| 在线视频精品免费|