亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關聯規(guī)則的作戰(zhàn)數據質量校驗方法研究

        2022-02-17 12:11:24姚鵬飛
        電子設計工程 2022年3期
        關鍵詞:數據項項集置信度

        姚鵬飛

        (92493 部隊,遼寧 葫蘆島 125000)

        作戰(zhàn)數據是維系作戰(zhàn)指揮信息系統(tǒng)的“血液”,作戰(zhàn)數據質量的高低直接影響系統(tǒng)的發(fā)揮效率[1]。作戰(zhàn)數據根據屬性劃分,主要包括作戰(zhàn)基礎數據、動態(tài)數據和指揮決策數據,近年來,隨著作戰(zhàn)相關任務量的持續(xù)增加和信息化手段的不斷提升,基于這3種數據類型上設計的各類作戰(zhàn)數據信息系統(tǒng)也日益增多,這些數據對于首長機關指揮決策、部隊遂行各類軍事任務、信息化裝備效能發(fā)揮起著重要的支撐作用[2],數據的正確性、一致性、完整性、可靠性要求越來越高。目前,各類信息系統(tǒng)數據的數據質量檢查主要依靠人工判查和內置的數據檢驗規(guī)則來完成,能夠實現對系統(tǒng)中單個數據項完整性、正確性的約束檢查,但對于存在關聯關系的數據項之間的一致性約束檢查還不夠完善。

        針對現有作戰(zhàn)數據信息系統(tǒng)有關聯關系數據項所存在的問題特點,在梳理分析影響數據質量因素和現有方法不足的基礎上,通過引入關聯規(guī)則挖掘方法,使用FP-tree 挖掘數據庫中的2-頻繁數據項,獲取數據項之間的有效關聯關系,以此來檢測人工填報數據可能出現的錯誤。通過與信息系統(tǒng)中現有的審核規(guī)則相結合,可以彌補人工判查存在的不足,有效提高了數據質量。

        1 數據質量

        1.1 數據質量維度

        數據作為信息系統(tǒng)產生的產品,像產品一樣進行管理,需要質量保證[3]。通常,數據質量問題可分為4 類,即單數據源模式層問題、單數據源實例層問題、多數據源模式層問題以及多數據源實例層問題[4]。在基于人工錄入的信息系統(tǒng)中,數據質量的主要問題可以歸結為單數據源實例層問題,典型的表現形式是拼寫錯誤、相似重復記錄和互相矛盾的字段。數據質量維度通常采用4 個指標進行衡量,即數據一致性、數據正確性、數據完整性和數據可靠性[5-6]。

        數據一致性:主要是指數據或數據項之間的邏輯關系是否正確,是否存在前后矛盾。

        數據正確性:準確性是對數據內容正確性的測量標準,如數據的取值是否有意義,是否在合理范圍內。

        數據完整性:完整性是對數據的存在性、有效性、結構、內容和其他基本特征的測量標準,如填充率、有效性、范圍、最大值和最小值等。

        數據可靠性:數據內容是否能夠正確反映客觀事實。

        1.2 目前常用檢查方法

        在作戰(zhàn)數據信息系統(tǒng)中,目前常用的數據質量檢查主要包括人工檢查法、基于規(guī)則庫的檢查方法兩種。人工檢查方法主要是通過人工逐項分析比對數據項,或通過生成各類數據報表、數據圖展示等數據可視化方式,查找數據填報過程中存在的明顯錯誤?;谝?guī)則庫的檢查方法主要是通過基于SQL 語言,制定一系列數據校驗規(guī)則,篩選錯誤項。人工檢查方式在數據量較大時效率低下,不滿足數據實時性處理要求,基于規(guī)則庫的檢查方法可以快速完成數據質量檢查,但主要針對的是單個數據項的完整性檢查,對于數據項之間的關聯關系檢查力度不夠。

        2 關聯規(guī)則挖掘

        2.1 基本概念

        關聯規(guī)則是數據挖掘領域廣泛使用的方法之一,關聯規(guī)則挖掘通常指的是從大量的數據集中挖掘到有價值的、可描述數據項之間關聯關系的數據挖掘方法,對于存在關聯關系的兩個或多個數據項,可通過其中一項屬性的值預測另一項或多個項屬性的值[7-11]。關聯規(guī)則挖掘主要包含兩步,第一步設定最小支持度,找出關系數據庫中所有大于等于最小支持度的數據項集,第二步是設定最小置信度,利用頻繁項集生成關聯規(guī)則,根據最小置信度進行關聯規(guī)則選取,最后得到強關聯規(guī)則[12-13]。

        將數據庫中不可再分割的數據單元稱為項,用符號i表示,把i的集合記為I,稱為項集,即I={i1,i2,i3,…,in},設T為事物數據庫,T={t1,t2,t3,…,tn},每個事物ti(i=1,2,3,4,5,…,n) 包含的項集都是I的子集,記為ti?I,一個關聯規(guī)則可表示為X→Y的蘊涵式,X?I,Y?I,并且X∩Y=Φ[14]。關聯規(guī)則的支持度support和置信度confidence是度量關聯規(guī)則的兩個重要特征量。關聯規(guī)則X→Y的支持度是指事物數據庫中同時包含X和Y的交易數和所有交易數之比,記為support(X→Y)=support(X∪Y)=P(XY),置信度是指交易包含X和Y的交易數與包含X的交易數之比,記為confidence=滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則[15-16]。

        2.2 常用算法

        關聯規(guī)則挖掘主要是挖掘數據內部繁項集,獲取數據之間關聯關系,在關聯規(guī)則挖掘領域,常用的數據關聯規(guī)則算法主要包括Apriori 算法、FP-Tree 算法等。Apriori 算法為數據關聯規(guī)則挖掘經典算法,由R.Agrawal 等人在1993 年提出,其基本思想是通過對事物數據庫的多次掃描來完成數據項集支持度的計算,發(fā)現頻繁項集從而生成關聯規(guī)則,采取一個層次順序搜索的循環(huán)方法來實現頻繁項集的挖掘[17]。第一次掃描數據庫,得到頻繁1-項集的集合L1,第K(K>1)次掃描首先利用第K-1 次掃描的結果LK-1來產生候選集K-項集的集合CK,然后在掃描的過程中確定CK的支持度。最后,在每次掃描結束時計算頻繁K-項集的集合LK,算法在候選集K-項集CK為空時結束。存在的主要問題是需要多次對數據進行掃描,I/O 開銷很大,運行效率較低[18-19]。FP-Tree算法是對傳統(tǒng)Apriori 算法的改進,可以滿足不同數據量的使用需求,采取將提供頻繁項集的數據庫數據壓縮成一棵頻繁模式樹,但仍保留其中項集關聯信息的分治策略,只需要對數據庫進行兩次掃描,算法運行效率較高,是當前應用最為廣泛的關聯關系挖掘算法。

        3 基于關聯規(guī)則挖掘的錯誤數據檢測過程

        考慮到目前作戰(zhàn)數據的量級、規(guī)模以及數據處理速度的要求,文中采用FP-Tree 算法實現對作戰(zhàn)數據信息系統(tǒng)中關聯數據項的挖掘,FP-Tree 算法是通過引入數據結構來臨時存儲數據,主要包括原始數據、FP-tree和節(jié)點鏈表,以此來減少I/O 開銷,以表1 所示的關系型數據庫為例,完成FP-Tree 構建。

        表1 數據庫示例

        3.1 建立項頭表

        通過掃描數據庫建立項頭表,刪除支持度小于10%的數據,并對數據進行排序,項頭表建立過程如圖1 所示。

        3.2 建立FP-tree

        根據項頭表和排序后的數據庫數據進行FP-tree的建立。第一步是為FP-tree 建立根節(jié)點,記為null,第二步是將排序后的數據依次插入FP-tree的樹結構中。若添加的節(jié)點已經在FP-tree 中出現,則更新該節(jié)點的支持度數值,對于新節(jié)點,項頭表對應的節(jié)點會通過節(jié)點鏈表引入新節(jié)點,直至所有數據插入完成,從而完成樹的建立。樹的建立過程如圖1所示。

        圖1 項頭表建立過程

        3.3 挖掘FP-tree頻繁項集

        建立FP-tree和項頭表后,從項頭表底部依次向上挖掘,構造條件模式基,把挖掘的節(jié)點作為葉子節(jié)點所對應的FP-tree 子樹,將子樹中每個節(jié)點的的計數設置為葉子節(jié)點的計數,并刪除計數低于支持度的節(jié)點,通過遞歸算法完成挖掘過程。

        對于兩數據項之間的關聯關系,找到只包含兩數據項的集合,即2-頻繁項,對圖2 所示的FP-tree進行挖掘,以T6-f1 節(jié)點為例,挖掘到的部分2-頻繁項集為{T2-b2:1,T6-f1:1},{T4-d2:1,T6-f1:1},{T5-e1:1,T6-f1:1}。同樣以T6-f1 節(jié)點為例,挖掘到的部分關聯關系如表2 所示。

        圖2 FP-tree建立過程

        表2 挖掘到的2-頻繁項集

        3.4 數據錯誤檢測

        在作戰(zhàn)數據信息系統(tǒng)中,數據經過各單位初審以及系統(tǒng)自帶的校驗工具審核后,數據的錯誤并非是大概率發(fā)生的,且一些數據項之間存在著本質關聯。通過FP-tree 構建及關聯規(guī)則挖掘后,若存在關聯關系的數據項相應指標之間置信度低于設定閾值,可視為數據填報錯誤。

        例如關鍵崗位人員信息表中,職務級別和軍銜之間的關聯程度較高,若計算后置信度低于閾值,可視為填報錯誤。

        4 實例驗證

        4.1 數據準備

        以某單位關鍵崗位人員信息表為例,共涉及552條數據記錄,5 個數據指標,相應字段的編碼、范圍、含義如表3 所示。

        表3 關鍵崗位人員信息表各字段含義及編碼含義

        4.2 有效關聯規(guī)則挖掘

        基于關聯規(guī)則實現錯誤檢測的算法步驟:

        1)讀入數據,篩選存在一定關聯關系的數據項,并將其轉換為二維數組類型;

        2)通過FP-tree 算法,產生2-頻繁項集合;

        3)對于每一個頻繁項集,構造所有可能的關聯規(guī)則,然后計算每一個關聯規(guī)則置信度,輸出置信度小于閾值的有效關聯規(guī)則;

        4)對生成的有效關聯規(guī)則進行人工判別,剔除明顯錯誤的關聯規(guī)則;

        5)根據關聯規(guī)則,篩選出可能填報錯誤的數據項。

        4.3 實驗結果

        表4 中包含的規(guī)則如下:

        表4 有效關聯(閾值=0.07)

        規(guī)則1:存在軍銜為大校、職務級別為正團職的人員,對生成的4 條數據記錄進行檢查,得到結果:1)兩名軍銜為大校的人員,職務級別誤填為正團職,屬于填報錯誤;2)另外兩名軍銜為大校的人員,職務級別填為正團職,經過核實,這兩名人員兼有技術職務,屬于正確填報。

        規(guī)則2:存在職務為處長但軍銜為少校的人員,對生成的兩條數據記錄進行檢查,得到結果:兩名處長軍銜填報錯誤,屬錯誤填報。

        規(guī)則3:存在職務級別為副團、職務為處長的人員,對生成的一條數據記錄進行檢查,得到結果:一名職務級別為副團職人員的職務信息誤填為處長,屬錯誤填報。

        規(guī)則4:存在第一學歷為博士研究生但文化程度為碩士研究生的人員,對生成的兩條數據記錄進行檢查,得到結果:兩名第一學歷為博士研究生的人員,文化程度誤填為碩士研究生。

        5 結論

        通過選取存在關聯關系的數據項,設置置信度小于閾值的篩選條件,可生成能夠有效檢測錯誤的關聯規(guī)則,從而能夠篩選出可能出錯的數據項。但是針對生成的關聯規(guī)則,還需要結合實際情況進行篩選,而不能直接進行應用。后續(xù)的工作中還需要考慮不同閾值下的關聯規(guī)則生成情況和實驗驗證結果,使其閾值取值更為合理,從而使該方法具備更強的通用性和可操作性。綜合理論分析和實驗結果可知,該方法在設定的閾值條件下可以篩選出可能填報錯誤的數據項,一定程度上能夠提高數據審核效率,彌補現階段人工逐項核對和基于規(guī)則庫進行數據審查方法所存在的不足,可作為作戰(zhàn)數據信息系統(tǒng)質量審查的一個補充方法。

        猜你喜歡
        數據項項集置信度
        硼鋁復合材料硼含量置信度臨界安全分析研究
        一種多功能抽簽選擇器軟件系統(tǒng)設計與實現
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數據庫Skyline-join查詢*
        基于Python的Asterix Cat 021數據格式解析分析與實現
        正負關聯規(guī)則兩級置信度閾值設置方法
        計算機應用(2018年5期)2018-07-25 07:41:26
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        關聯規(guī)則中經典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        多數據項請求的多信道并行廣播調度算法
        多假設用于同一結論時綜合置信度計算的新方法?
        電訊技術(2011年11期)2011-04-02 14:00:37
        国产精品av网站在线| 国产人妻久久精品二区三区特黄| 免费a级毛片无码a| 末成年人av一区二区| 白浆国产精品一区二区| 天天躁夜夜躁狠狠躁2021| 国产成人av 综合 亚洲| 91精品国产免费久久久久久青草 | 日韩精品无码一区二区三区视频| 亚洲日韩中文字幕在线播放| 厨房玩丰满人妻hd完整版视频| 高清国产美女一级a毛片在线| 欧美综合区自拍亚洲综合| 午夜一区二区三区在线观看| 风韵丰满熟妇啪啪区99杏| 国产福利精品一区二区| 午夜AV地址发布| 在线观看极品裸体淫片av| 成人一区二区三区国产| 日韩av无码中文无码电影| 久久久久亚洲av无码专区桃色| 亚洲AV无码国产精品久久l| 亚洲免费精品一区二区| 一边摸一边抽搐一进一出口述 | 天天狠狠综合精品视频一二三区| 伊人亚洲综合网色AV另类| 日韩性感av一区二区三区| 蜜臀一区二区三区精品| 丰满人妻被黑人猛烈进入| 国产夫妻av| 国产精品亚洲在钱视频| 嗯啊好爽高潮了在线观看| 国产av人人夜夜澡人人爽麻豆| 日韩AV无码一区二区三不卡| 一本色道久久88加勒比—综合| 人妻少妇乱子伦无码视频专区| 国产精品厕所| 亚洲天堂免费成人av| 亚洲av综合色区无码另类小说| 午夜丰满少妇性开放视频| 日韩人妻无码精品系列专区无遮|