高洪美,李保東
(上海計算機軟件技術開發(fā)中心,上海 201112)
在大數(shù)據(jù)時代,高質(zhì)量數(shù)據(jù)是發(fā)揮數(shù)據(jù)價值的前提。數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理的重要組成部分,面對復雜、多樣、多變的大數(shù)據(jù),需要時刻保持高質(zhì)量數(shù)據(jù),方能做出準確、高效的決策[1-2]。因此,數(shù)據(jù)質(zhì)量相關研究越來越受重視,數(shù)據(jù)質(zhì)量的評估與監(jiān)測在高校、運營商、電網(wǎng)等諸多領域都有廣闊的應用前景。袁滿等[3]提出了一種基于規(guī)則的數(shù)據(jù)質(zhì)量評價模型,定義了七項數(shù)據(jù)質(zhì)量評價指標和十五類數(shù)據(jù)質(zhì)量約束規(guī)則,并構建了實現(xiàn)功能的元數(shù)據(jù)模型。楊冬菊等[4]提出了基于元數(shù)據(jù)模型控制的ETL集成模型,有效保證數(shù)據(jù)集成后的數(shù)據(jù)質(zhì)量。張曉冉等[5]提出了通用數(shù)據(jù)質(zhì)量評估模型,定義了從通用數(shù)學模型到本體模型映射的轉換規(guī)則,并最終實現(xiàn)了對不同來源、不同格式的數(shù)據(jù)質(zhì)量的檢測與評估。朱玲等[6]通過基于日志詳情、統(tǒng)計報告、樣本測試三種評估手段,對高校圖書館電子資源使用監(jiān)控與統(tǒng)計系統(tǒng)的數(shù)據(jù)質(zhì)量進行評估。巫莉莉等[7]從多個維度出發(fā),設計了高校數(shù)據(jù)治理中數(shù)據(jù)質(zhì)量改進的方法和規(guī)則,提出了相關數(shù)據(jù)質(zhì)量提升流程。楊迪等[8]提出了一個數(shù)據(jù)質(zhì)量監(jiān)控保障體系模型,建立了質(zhì)量管理域、評估域和監(jiān)控域,實現(xiàn)對電信運營商數(shù)據(jù)生產(chǎn)線的各個環(huán)節(jié)質(zhì)量的管理、評估、監(jiān)控。黃彥等[9]基于分布式架構和通信監(jiān)聽技術,搭建了一個多源數(shù)據(jù)比對平臺,顯著提高了對電網(wǎng)EMS 系統(tǒng)的數(shù)據(jù)質(zhì)量控制效率和故障診斷效率。張志亮等[10]針對數(shù)據(jù)校驗的索引存儲機制,設計了并行化校驗規(guī)則執(zhí)行算法,顯著提升了電網(wǎng)數(shù)據(jù)質(zhì)量校驗處理性能。彭建新[11]設計了基于頻率的數(shù)據(jù)特征值采集方法及基于支持向量機的數(shù)據(jù)智能分類算法,實現(xiàn)對機房數(shù)據(jù)質(zhì)量管理和分析。包盼盼等[12]為提升智能化軟件開發(fā)相關數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,從項目作者可信度、項目健康度、源碼質(zhì)量、功能常用性、功能原子性五個方面,提出一種針對開源大數(shù)據(jù)的代碼數(shù)據(jù)質(zhì)量評估方法。
通過研究分析可知,目前學者對數(shù)據(jù)質(zhì)量監(jiān)控的研究多聚焦于數(shù)據(jù)質(zhì)量的評估規(guī)則、模型和方法,并針對具體行業(yè)或場景進行應用。實際上,組織的數(shù)據(jù)質(zhì)量問題存在于數(shù)據(jù)全生命周期的各個環(huán)節(jié)中,且數(shù)據(jù)價值隨著數(shù)據(jù)生命周期而發(fā)生變化,需要做好數(shù)據(jù)質(zhì)量的實時動態(tài)監(jiān)控,建立全生命周期數(shù)據(jù)質(zhì)量評價體系,保障全生命周期數(shù)據(jù)質(zhì)量,以實現(xiàn)全面的數(shù)據(jù)質(zhì)量提升[13-15]。因此,本文提出了面向數(shù)據(jù)全生命周期的數(shù)據(jù)質(zhì)量智能化監(jiān)控模型,從數(shù)據(jù)的采集、接入、集成、處理、使用、歸檔等環(huán)節(jié)建立全面、規(guī)范的數(shù)據(jù)質(zhì)量評價體系和監(jiān)控流程,并引入人工智能算法進行數(shù)據(jù)質(zhì)量智能預測,達到數(shù)據(jù)全生命周期的質(zhì)量評估和智能化監(jiān)控的目標[8]。最后,通過研發(fā)面向公共安全的數(shù)據(jù)質(zhì)量監(jiān)控分析平臺,以治安卡口分析和旅客入住登記兩個應用場景驗證了該模型的可行性和有效性。
數(shù)據(jù)全生命周期指數(shù)據(jù)從采集到銷毀的整個過程,通常包括數(shù)據(jù)采集、數(shù)據(jù)接入、數(shù)據(jù)集成、數(shù)據(jù)預處理、數(shù)據(jù)使用、數(shù)據(jù)歸檔、數(shù)據(jù)銷毀等環(huán)節(jié)[16]。在線數(shù)據(jù)是持續(xù)流動的,數(shù)據(jù)質(zhì)量問題可能出現(xiàn)在數(shù)據(jù)生命周期的任何環(huán)節(jié),進而流轉到后續(xù)環(huán)節(jié),影響整個數(shù)據(jù)應用效果。
本文建立了包括評價標準層、評價體系層、全生命周期數(shù)據(jù)層(WDLC 層)和監(jiān)控體系層的四層數(shù)據(jù)質(zhì)量監(jiān)控模型,如圖1所示。本模型面向除數(shù)據(jù)銷毀外的全生命周期,以數(shù)據(jù)質(zhì)量評價標準為基礎底座,以數(shù)據(jù)質(zhì)量評價體系為重要指標和方法支撐,以全生命周期的數(shù)據(jù)流轉為重要環(huán)節(jié),以數(shù)據(jù)質(zhì)量智能化監(jiān)控告警體系為技術建設核心。
圖1 數(shù)據(jù)質(zhì)量智能監(jiān)控模型
參考國家標準《信息技術數(shù)據(jù)質(zhì)量評價指標》[17],數(shù)據(jù)質(zhì)量評價標準主要是基于數(shù)據(jù)的完整性、準確性、一致性、及時性、規(guī)范性等多個維度。
1.1.1 完整性
完整性是指數(shù)據(jù)是否完整,是否存在缺失的情況,數(shù)據(jù)的缺失主要包括記錄的缺失和字段的缺失。完整性是數(shù)據(jù)質(zhì)量最基礎的保障,監(jiān)控時需要考慮數(shù)據(jù)條數(shù)及某些字段的取值是否缺失。
1.1.2 準確性
準確性是指在特定使用環(huán)境中,數(shù)據(jù)正確地表示一個概念或事件相關屬性真實值的程度。準確性通常包含描述準確性、形式準確性及位置準確性。描述準確性指實體準確性及分布準確性等要求,形式準確性指長度準確、精度準確、類型準確、取值范圍準確及代碼值域準確等要求,位置準確性指記錄唯一及字段唯一等要求。
1.1.3 一致性
一致性指在特定使用環(huán)境中,數(shù)據(jù)之間無不一致且連貫的屬性。數(shù)據(jù)不一致的情況,多出現(xiàn)在系統(tǒng)達到一定的復雜度后,由于計算口徑不同,同一指標多處計算。數(shù)據(jù)一致性通常包括存在一致性、等值一致性、邏輯一致性及變更一致性[18]。
1.1.4 及時性
及時性是指在特定使用環(huán)境中,數(shù)據(jù)表征其正確壽命的程度。在確保數(shù)據(jù)的完整性、準確性和一致性的基礎上,數(shù)據(jù)應當能夠及時產(chǎn)出,這樣才能體現(xiàn)數(shù)據(jù)的價值。及時性通常包括基于時間段的正確性、基于時間點的及時性及時序性。
1.1.5 規(guī)范性
數(shù)據(jù)規(guī)范性主要是指數(shù)據(jù)格式的規(guī)范性,包括數(shù)據(jù)字段的數(shù)據(jù)類型、字段長度、取值范圍、業(yè)務描述等的規(guī)范。常需要進行規(guī)范性校驗的字段包括:身份證、手機號碼、郵箱、郵政編碼、固定電話、Ipv4地址、Ipv6地址、Mac 地址、純中文、純英文、數(shù)值、日期、長度范圍等[19]。
數(shù)據(jù)質(zhì)量評價體系主要基于數(shù)據(jù)質(zhì)量評價標準形成,可對數(shù)據(jù)質(zhì)量進行全方位評估。數(shù)據(jù)質(zhì)量評價體系主要包括數(shù)據(jù)質(zhì)量規(guī)則庫和數(shù)據(jù)質(zhì)量檢查方法庫。數(shù)據(jù)質(zhì)量規(guī)則庫提出了對數(shù)據(jù)質(zhì)量和傳輸質(zhì)量的規(guī)范性要求,而數(shù)據(jù)質(zhì)量檢查方法是判斷數(shù)據(jù)是否符合數(shù)據(jù)質(zhì)量規(guī)則的重要手段。
1.2.1 數(shù)據(jù)質(zhì)量規(guī)則
數(shù)據(jù)質(zhì)量規(guī)則按照規(guī)則的適用范圍,可分為通用質(zhì)量規(guī)則和業(yè)務質(zhì)量規(guī)則。通用規(guī)則是指在任何業(yè)務場景下都適用的規(guī)則。例如,居民身份證號碼的長度為18位,從左至右依次為:數(shù)字地址碼(6 位)、數(shù)字出生日期碼(8 位)、數(shù)字順序碼(3 位)和數(shù)字校驗碼(1 位)。業(yè)務規(guī)則是指與業(yè)務緊密相關的規(guī)則,只在特定的業(yè)務條件下可以適用。例如,統(tǒng)計某應用的會員數(shù)量,應統(tǒng)計的是當前時間戳下,支付了會員開通費用,且會籍仍未到期的用戶數(shù)量。
1.2.2 數(shù)據(jù)質(zhì)量檢查方法
數(shù)據(jù)質(zhì)量檢查包括常規(guī)檢查和智能檢查。常規(guī)檢查是指根據(jù)規(guī)則庫中已有的規(guī)則,直接生成相應的檢查方法,配置好檢查數(shù)據(jù)源、檢查周期等參數(shù),應用于全生命周期的數(shù)據(jù)質(zhì)量監(jiān)控。數(shù)據(jù)智能檢查可通過長短時記憶神經(jīng)網(wǎng)絡(LSTM)[20]、門控循環(huán)單元神經(jīng)網(wǎng)絡(GRU)[21]等深度學習算法進行,主要是以歷史監(jiān)控中的傳輸記錄條數(shù)作為訓練源,對監(jiān)控任務進行深度學習訓練,形成智能告警決策算法模型。根據(jù)該模型可預測未來一段時間內(nèi)傳輸?shù)臄?shù)據(jù)量,并與實際傳輸數(shù)據(jù)量進行對比,對數(shù)據(jù)量傳輸是否異常進行決策,并對異常數(shù)據(jù)傳輸情況發(fā)出預警。
在全生命周期數(shù)據(jù)質(zhì)量監(jiān)控中,基于各數(shù)據(jù)流轉環(huán)節(jié)的特點,兼顧監(jiān)控成本與效率,應對數(shù)據(jù)生命周期中的不同環(huán)節(jié),考慮不同的質(zhì)量監(jiān)控策略,如數(shù)據(jù)歸檔環(huán)節(jié)數(shù)據(jù)使用頻率極低,做到定期檢查即可。全生命周期數(shù)據(jù)質(zhì)量監(jiān)控針對各環(huán)節(jié)側重于不同的評價維度。
1.3.1 數(shù)據(jù)采集環(huán)節(jié)
應聚焦于數(shù)據(jù)的完整性、準確性、規(guī)范性和及時性。數(shù)據(jù)采集應遵循“應采盡采”原則,采集完成后及時校核、上傳。
1.3.2 數(shù)據(jù)接入環(huán)節(jié)
應聚焦于數(shù)據(jù)的完整性與及時性。數(shù)據(jù)完整性主要包括數(shù)據(jù)量的增減及部分記錄屬性缺失。數(shù)據(jù)量的增加意味著可能會出現(xiàn)重復上報或者異常數(shù)據(jù)侵入等情況,減少則意味著可能出現(xiàn)數(shù)據(jù)丟失。采集的數(shù)據(jù)應定時接入系統(tǒng),確保數(shù)據(jù)及時更新。
1.3.3 數(shù)據(jù)集成環(huán)節(jié)
應聚焦于數(shù)據(jù)的完整性與一致性。數(shù)據(jù)集成應確保不同來源、格式、性質(zhì)的數(shù)據(jù)完全抽取,且數(shù)據(jù)存在一致、等值一致、邏輯一致、變更一致。
1.3.4 數(shù)據(jù)預處理環(huán)節(jié)
應聚焦于數(shù)據(jù)的一致性、完整性和準確性。數(shù)據(jù)預處理環(huán)節(jié)對數(shù)據(jù)進行清洗,是數(shù)據(jù)生命周期中非常重要的一環(huán),務必確保進入下一環(huán)節(jié)的數(shù)據(jù)一致、完整且準確。
1.3.5 數(shù)據(jù)使用環(huán)節(jié)
主要強調(diào)對外提供數(shù)據(jù),一般是從中間表中計算或直接取得,因此在這一環(huán)節(jié),應聚焦于數(shù)據(jù)的準確性和及時性。
1.3.6 數(shù)據(jù)歸檔環(huán)節(jié)
數(shù)據(jù)不再經(jīng)常使用,價值較低,考慮到監(jiān)控效率及成本,不需要實時監(jiān)控,只需定期檢查數(shù)據(jù)的完整性、準確性即可。
數(shù)據(jù)質(zhì)量監(jiān)控體系包括質(zhì)量監(jiān)控、質(zhì)量分析、智能告警、問題反饋四個環(huán)節(jié)。質(zhì)量監(jiān)控主要針對數(shù)據(jù)各個環(huán)節(jié)進行數(shù)據(jù)質(zhì)量監(jiān)控,并通過人工智能算法對歷史數(shù)據(jù)進行分析,預測可能存在的數(shù)據(jù)質(zhì)量問題,達到數(shù)據(jù)質(zhì)量預判的目的。質(zhì)量分析是對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行定位分析、原因分析、關聯(lián)分析、影響分析等,為數(shù)據(jù)質(zhì)量整改提供依據(jù)。智能告警主要是結合人工智能算法,對數(shù)據(jù)質(zhì)量問題進行告警等級判斷,并發(fā)出告警通知。最后通過問題反饋環(huán)節(jié)告知相關人員進行數(shù)據(jù)質(zhì)量分析和解決,從根本上解決數(shù)據(jù)質(zhì)量問題。
針對全生命周期的數(shù)據(jù)質(zhì)量監(jiān)控模型,建立規(guī)范的監(jiān)控流程,如圖2所示。按照監(jiān)控過程中的具體作用機制,可以將流程分為規(guī)則指標層、實時監(jiān)控層和數(shù)據(jù)生命周期層。
圖2 全生命周期數(shù)據(jù)質(zhì)量監(jiān)控流程
監(jiān)控流程如下:
Step1:監(jiān)控任務配置。按照數(shù)據(jù)質(zhì)量監(jiān)控的業(yè)務要求,對監(jiān)控任務進行配置。具體的配置項包括:監(jiān)控任務名稱、監(jiān)控周期、監(jiān)控數(shù)據(jù)節(jié)點、監(jiān)控規(guī)則指標、質(zhì)量告警等級以及所采用的檢查方法等。若缺少對應的監(jiān)控規(guī)則指標,則按照數(shù)據(jù)質(zhì)量的業(yè)務要求,新增相應的規(guī)則指標至規(guī)則指標庫,并對檢核方法庫、智能算法庫進行必要補充。
Step2:執(zhí)行質(zhì)量監(jiān)控任務。面向數(shù)據(jù)全生命周期對不同環(huán)節(jié)中數(shù)據(jù)質(zhì)量、數(shù)據(jù)環(huán)節(jié)間傳輸質(zhì)量啟用監(jiān)控任務。若無數(shù)據(jù)質(zhì)量問題,則本次監(jiān)控結束;否則,說明數(shù)據(jù)質(zhì)量存在問題,進入Step3。
Step3:問題告警、分析、反饋。針對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題形成告警,并對問題來源、產(chǎn)生原因、影響程度等進行分析,最后將數(shù)據(jù)質(zhì)量問題通過微信、短信、郵件等多種方式及時推送給相關人員,并進入Step4。
Step4:問題整改。相關人員在接收到告警推送后,針對發(fā)出告警的數(shù)據(jù)質(zhì)量問題,依照數(shù)據(jù)質(zhì)量規(guī)范,對問題進行整改。當數(shù)據(jù)質(zhì)量問題整改完畢,則本次監(jiān)控流程結束。
基于全生命周期數(shù)據(jù)質(zhì)量監(jiān)控模型和流程,設計數(shù)據(jù)質(zhì)量監(jiān)控分析平臺架構,如圖3所示。該平臺包含數(shù)據(jù)層、功能層與展示層。其中,數(shù)據(jù)層主要實現(xiàn)數(shù)據(jù)資源的對接,功能層主要實現(xiàn)質(zhì)量規(guī)則庫管理、知識庫管理、質(zhì)量監(jiān)控、問題告警等功能,展示層主要通過可視化方式呈現(xiàn)數(shù)據(jù)質(zhì)量分析情況、數(shù)據(jù)質(zhì)量評分、數(shù)據(jù)質(zhì)量報告、監(jiān)控分析情況等。
圖3 全生命周期數(shù)據(jù)質(zhì)量監(jiān)控流程
數(shù)據(jù)層主要包括數(shù)據(jù)采集、數(shù)據(jù)接入、數(shù)據(jù)集成、數(shù)據(jù)預處理、數(shù)據(jù)使用、數(shù)據(jù)歸檔等全生命周期各環(huán)節(jié)的數(shù)據(jù),并且支持SQL Server、MySQL、Oracle等多種數(shù)據(jù)庫類型。
功能層是數(shù)據(jù)質(zhì)量監(jiān)控分析平臺的核心部分,將數(shù)據(jù)質(zhì)量監(jiān)控的運行機理流程化和智能化,主要包括質(zhì)量監(jiān)控、問題告警、規(guī)則庫管理、知識庫管理等功能模塊。
3.2.1 質(zhì)量監(jiān)控
數(shù)據(jù)質(zhì)量監(jiān)控模塊主要包括參數(shù)配置、質(zhì)量檢查、智能預測、問題分析等功能。其中,參數(shù)配置實現(xiàn)對監(jiān)控的數(shù)據(jù)源、數(shù)據(jù)生命周期各環(huán)節(jié)、質(zhì)量規(guī)則、監(jiān)控頻率等的配置;質(zhì)量檢查則根據(jù)已配置的監(jiān)控參數(shù),調(diào)取合適的檢查方法進行數(shù)據(jù)質(zhì)量檢查;智能預測是通過長短時記憶神經(jīng)網(wǎng)絡(LSTM)和門控循環(huán)單元神經(jīng)網(wǎng)絡(GRU)算法建立智能告警決策算法模型,預測未來7天每個小時間隔內(nèi)傳輸?shù)臄?shù)據(jù)量,與實際該小時間隔內(nèi)的傳輸數(shù)據(jù)量進行對比,對數(shù)據(jù)量傳輸是否異常進行決策,并對異常數(shù)據(jù)傳輸情況發(fā)出預警,達到提前預判的目的;問題分析是對檢查發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行分析,實現(xiàn)質(zhì)量問題的歸類、分級、統(tǒng)計、溯源。
3.2.2 問題告警
當檢查發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題時,平臺必須及時進行問題告警。問題告警模塊主要包括閾值配置、告警日志、告警分析、消息推送等功能。其中,閾值配置是對數(shù)據(jù)質(zhì)量狀況的臨界值進行配置,通過閾值將數(shù)據(jù)質(zhì)量狀況劃分為多個等級,以此確定告警方式(如表1所示);告警日志是對告警歷史情況的記錄,包括告警內(nèi)容、告警類型、告警問題位置、告警時間等要素;告警分析則是根據(jù)告警日志對歷史告警情況進行分析,包括告警問題的溯源、告警情況的統(tǒng)計分析等;消息推送是根據(jù)數(shù)據(jù)質(zhì)量問題類型和告警等級,采用微信、電話、短信、郵件等多種方式將告警結果推送給相關人員。相關人員收到告警消息后,應及時采取相應的處理措施對數(shù)據(jù)質(zhì)量問題進行整改,以促進數(shù)據(jù)質(zhì)量進一步提升[22]。
表1 決策閾值與告警類型對照表
3.2.3 規(guī)則庫管理
數(shù)據(jù)質(zhì)量規(guī)則庫是數(shù)據(jù)質(zhì)量檢查的基礎,其管理包括質(zhì)量規(guī)則查詢、定義、配置以及修改和刪除等維護功能。一條完整的質(zhì)量規(guī)則描述必須包括規(guī)則名稱、規(guī)則類型、規(guī)則邏輯、創(chuàng)建時間、更新時間等要素,如圖4所示。
圖4 數(shù)據(jù)質(zhì)量規(guī)則示例
3.2.4 知識庫管理
知識庫用于存儲數(shù)據(jù)質(zhì)量問題處理的相關解決方案、結果和經(jīng)驗,當其他用戶遇到類似問題時,可通知知識庫輔助解決問題,提高解決效率。知識庫管理包括知識庫的查詢、創(chuàng)建以及更新、刪除等維護功能。
展示層主要是通過采用直觀的圖形化方式對數(shù)據(jù)質(zhì)量監(jiān)控相關的統(tǒng)計和分析結果進行可視化展示,主要包括質(zhì)量分析、質(zhì)量評分、質(zhì)量報告和監(jiān)控分析等功能展示。其中,數(shù)據(jù)質(zhì)量分析展示包括數(shù)據(jù)質(zhì)量問題詳情、數(shù)據(jù)質(zhì)量問題分布分析、數(shù)據(jù)質(zhì)量定位分析、數(shù)據(jù)質(zhì)量排名分析等內(nèi)容;數(shù)據(jù)質(zhì)量評分展示包括數(shù)據(jù)質(zhì)量綜合評分、評估星級、評估維度、評估時間等內(nèi)容;數(shù)據(jù)質(zhì)量報告展示將數(shù)據(jù)監(jiān)控的范圍、環(huán)節(jié)、維度以及各環(huán)節(jié)和維度的數(shù)據(jù)質(zhì)量情況等內(nèi)容以報告的方式呈現(xiàn)給用戶,用戶可以在線打印和下載該報告;數(shù)據(jù)質(zhì)量監(jiān)控分析展示包括數(shù)據(jù)質(zhì)量排名、告警數(shù)量統(tǒng)計、告警等級情況分布統(tǒng)計、告警情況分析等。
基于數(shù)據(jù)質(zhì)量監(jiān)控分析平臺設計架構,本文面向公共安全領域研發(fā)了數(shù)據(jù)質(zhì)量監(jiān)控分析系統(tǒng),該系統(tǒng)面向治安卡口分析和旅客入住登記兩個應用場景進行應用驗證。
通過數(shù)據(jù)質(zhì)量分析系統(tǒng),提供告警數(shù)量、近7日告警監(jiān)控情況、警告詳情等可視化展示功能,同時提供數(shù)據(jù)質(zhì)量的危險等級,警報類型以及警報方式,便于業(yè)務人員和技術人員及時發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量監(jiān)控分析系統(tǒng)主頁如圖5所示。
圖5 數(shù)據(jù)質(zhì)量監(jiān)控分析系統(tǒng)主頁
以治安卡口為例,治安卡口作為道路交通現(xiàn)場監(jiān)測系統(tǒng)的重要監(jiān)測對象,依托收費站、交通或治安檢查站等卡口點,對所有通過該卡口點的機動車輛進行拍攝、記錄與處理,其數(shù)據(jù)質(zhì)量對交通道路安全分析判斷至關重要。治安卡口數(shù)據(jù)質(zhì)量監(jiān)控分析包括對卡口設備的數(shù)據(jù)傳輸質(zhì)量監(jiān)控和對卡口拍攝內(nèi)容的實時數(shù)據(jù)質(zhì)量監(jiān)控,如卡口設備存在數(shù)據(jù)延時傳輸問題(見圖6左圖),機動車牌照與登記的不符(見圖6右圖)。
圖6 治安卡口數(shù)據(jù)質(zhì)量監(jiān)控分析結果
以旅客入住登記場景為例,旅客入住登記和注銷離店的數(shù)據(jù)質(zhì)量的好壞對維護社會治安具有重要意義。通過制定相應的數(shù)據(jù)質(zhì)量評價規(guī)則對旅館入住登記數(shù)據(jù)質(zhì)量進行實時監(jiān)控,如某房間在某一時間區(qū)間內(nèi)只有登記入住信息,而沒有注銷離店信息,且累計登記人數(shù)超過4人,則判定為入住人員數(shù)異常。旅館入住登記數(shù)據(jù)質(zhì)量監(jiān)控實現(xiàn)了入住登記數(shù)據(jù)質(zhì)量監(jiān)控、旅館質(zhì)量問題分布分析展示以及整體數(shù)據(jù)質(zhì)量評分等功能,如圖7和圖8所示。
圖7 旅館入住登記數(shù)據(jù)質(zhì)量問題分布
圖8 旅館登記數(shù)據(jù)整體質(zhì)量評估
為實現(xiàn)組織的全面數(shù)據(jù)質(zhì)量提升,規(guī)范數(shù)據(jù)質(zhì)量監(jiān)控過程,本文提出了面向全生命周期的數(shù)據(jù)質(zhì)量智能化監(jiān)控模型。模型以多維度的數(shù)據(jù)質(zhì)量評價標準為基礎,建立全面的數(shù)據(jù)質(zhì)量規(guī)則以及數(shù)據(jù)質(zhì)量檢查方法,并融入人工智能算法建立數(shù)據(jù)質(zhì)量智能檢核方法,從數(shù)據(jù)的采集、接入、集成、處理、使用、歸檔等各環(huán)節(jié),有針對性地選擇數(shù)據(jù)質(zhì)量評價維度,對數(shù)據(jù)質(zhì)量進行全生命周期的智能化、流程化監(jiān)控。最后,本文通過設計數(shù)據(jù)質(zhì)量監(jiān)控分析平臺架構,研發(fā)面向公共安全領域的數(shù)據(jù)質(zhì)量監(jiān)控分析平臺,有效驗證了該模型的可行性,有助于組織實現(xiàn)全生命周期的數(shù)據(jù)質(zhì)量監(jiān)控與提升。該模型仍存在一些難點,如數(shù)據(jù)質(zhì)量的智能預警研判的精準性,后續(xù)還有待進一步研究。