亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量評(píng)估方法①

        2017-12-12 08:59:41任洪敏周兆明
        關(guān)鍵詞:規(guī)則評(píng)價(jià)質(zhì)量

        劉 芳,李 敏,任洪敏,周兆明

        1(上海海事大學(xué) 信息工程學(xué)院,上海 201306)2(青島西海岸新區(qū)管委,青島 266555)3(上海產(chǎn)業(yè)研究院,上海 201306)

        基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量評(píng)估方法①

        劉 芳1,李 敏2,任洪敏1,周兆明3

        1(上海海事大學(xué) 信息工程學(xué)院,上海 201306)2(青島西海岸新區(qū)管委,青島 266555)3(上海產(chǎn)業(yè)研究院,上海 201306)

        在當(dāng)今大數(shù)據(jù)時(shí)代下,數(shù)據(jù)質(zhì)量的保證是大數(shù)據(jù)價(jià)值得以發(fā)揮的前提,數(shù)據(jù)質(zhì)量的評(píng)估是其中一個(gè)重要的研究課題.本文基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量評(píng)估方法,提出了數(shù)據(jù)質(zhì)量評(píng)估整體模型,包括規(guī)則、規(guī)則庫(kù)、數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)、評(píng)估模板、評(píng)估報(bào)告.設(shè)計(jì)了規(guī)則評(píng)估模板,組合規(guī)則庫(kù)中的規(guī)則,根據(jù)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)的重要性設(shè)置規(guī)則的權(quán)重,采用簡(jiǎn)單比率法和加權(quán)平均法相結(jié)合的評(píng)估方法,計(jì)算評(píng)估結(jié)果并確定數(shù)據(jù)質(zhì)量的等級(jí),利用了數(shù)據(jù)可視化技術(shù)來(lái)展現(xiàn)數(shù)據(jù)質(zhì)量的評(píng)估結(jié)果.本文既考慮了單個(gè)規(guī)則的執(zhí)行合格率,又考慮了各規(guī)則在數(shù)據(jù)質(zhì)量評(píng)估模板中的比重,公正地準(zhǔn)確地評(píng)估數(shù)據(jù)質(zhì)量,并且簡(jiǎn)潔、直觀(guān)地呈現(xiàn)評(píng)估結(jié)果.

        規(guī)則庫(kù);數(shù)據(jù)質(zhì)量;評(píng)估模板;數(shù)據(jù)可視化

        ?

        隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展,各行各業(yè)都已經(jīng)開(kāi)始使用信息化技術(shù),并且在業(yè)務(wù)處理、交流中慢慢積累了大量的業(yè)務(wù)數(shù)據(jù),并且這些數(shù)據(jù)呈指數(shù)增長(zhǎng),我們已進(jìn)入到一個(gè)大數(shù)據(jù)時(shí)代.在大數(shù)據(jù)時(shí)代下對(duì)于企業(yè)來(lái)說(shuō),抓住大數(shù)據(jù)時(shí)代帶來(lái)的機(jī)遇和優(yōu)勢(shì),是企業(yè)的核心競(jìng)爭(zhēng)力.但是保證數(shù)據(jù)的準(zhǔn)確性、有效性,即數(shù)據(jù)的質(zhì)量,是發(fā)揮大數(shù)據(jù)在商業(yè)決策中作用的前提.因此如何評(píng)價(jià)、保證數(shù)據(jù)的質(zhì)量,已成為一個(gè)至關(guān)重要的問(wèn)題.目前關(guān)于數(shù)據(jù)質(zhì)量的研究工作大致可以分為以下幾類(lèi):數(shù)據(jù)質(zhì)量評(píng)估模型[1,2]、數(shù)據(jù)質(zhì)量評(píng)價(jià)方法[3-6]、數(shù)據(jù)質(zhì)量規(guī)則庫(kù)模型[7]、數(shù)據(jù)質(zhì)量評(píng)估算法[8,9]、數(shù)據(jù)質(zhì)量評(píng)估在各個(gè)領(lǐng)域的應(yīng)用[10-12].

        文中提出了一套完整的基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量評(píng)估方法,由于規(guī)則庫(kù)是通用的,設(shè)計(jì)了數(shù)據(jù)質(zhì)量評(píng)估模板,針對(duì)具體的數(shù)據(jù)組合成不同的規(guī)則模板,設(shè)置權(quán)重,采用簡(jiǎn)單比率法和加權(quán)平均法計(jì)算評(píng)估結(jié)果,并采用數(shù)據(jù)可視化技術(shù),簡(jiǎn)潔地、直觀(guān)地呈現(xiàn)數(shù)據(jù)質(zhì)量分析報(bào)告.

        1 數(shù)據(jù)質(zhì)量評(píng)估模型

        1.1 數(shù)據(jù)質(zhì)量評(píng)估框架及流程

        設(shè)計(jì)的基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量評(píng)估方法的框架如圖1所示,其組成部分包括:規(guī)則庫(kù)、數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)、規(guī)則、評(píng)估模板、評(píng)估報(bào)告五個(gè)部分.

        圖1 數(shù)據(jù)質(zhì)量評(píng)估框架圖

        圖1的評(píng)估框架圖清楚的地展示了數(shù)據(jù)質(zhì)量的評(píng)估流程,首先設(shè)計(jì)數(shù)據(jù)質(zhì)量的規(guī)則庫(kù),定義數(shù)質(zhì)量評(píng)價(jià)指標(biāo),設(shè)計(jì)規(guī)則并賦予該規(guī)則所依據(jù)的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo),針對(duì)具體的數(shù)據(jù)和規(guī)則庫(kù)中的規(guī)則組合數(shù)據(jù)質(zhì)量評(píng)估模板,并且設(shè)置評(píng)估模板中規(guī)則的權(quán)重,最終計(jì)算評(píng)估結(jié)果,生成評(píng)估報(bào)告.

        該框架面向數(shù)據(jù)倉(cāng)庫(kù)全體數(shù)據(jù),保障數(shù)據(jù)質(zhì)量評(píng)估的準(zhǔn)確和完整,周期性的對(duì)倉(cāng)庫(kù)的增量數(shù)據(jù)實(shí)施評(píng)估.

        1.2 數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)

        數(shù)據(jù)資源不同與產(chǎn)品,具有用途個(gè)體化、多樣化、不穩(wěn)定等特點(diǎn).數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)受行業(yè)領(lǐng)域、數(shù)據(jù)類(lèi)型和應(yīng)用目的等因素的影響極大,較難制定面向所有學(xué)科領(lǐng)域的普適性數(shù)據(jù)質(zhì)量指標(biāo)體系.為了對(duì)數(shù)據(jù)質(zhì)量進(jìn)行更加深入的分析和評(píng)估,常常將數(shù)據(jù)質(zhì)量劃分為若干個(gè)更具體的數(shù)據(jù)質(zhì)量評(píng)價(jià)維度.不同的研究者有不同的劃分方法.Diane M.Strong等提出了一個(gè)目前被廣泛引用的數(shù)據(jù)質(zhì)量評(píng)估框架,這個(gè)框架將數(shù)據(jù)質(zhì)量劃分為內(nèi)在質(zhì)量、可訪(fǎng)問(wèn)性質(zhì)量、上下文質(zhì)量和表達(dá)質(zhì)量四個(gè)大的質(zhì)量類(lèi),每個(gè)質(zhì)量類(lèi)又可以再細(xì)分為若干更具體的質(zhì)量維度[13].

        因此將從準(zhǔn)確性、完整性、一致性、可信性、時(shí)效性、易訪(fǎng)問(wèn)性、依從性、保密性、效率性、精準(zhǔn)性、回溯性、易理解性、可用性、可移植性和易恢復(fù)性15個(gè)維度來(lái)評(píng)價(jià)數(shù)據(jù)質(zhì)量,如圖2所示.

        圖2 數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)圖

        (1)準(zhǔn)確性,用于描述一個(gè)值與它所描述的客觀(guān)事物的真實(shí)值之間的接近程度.

        (2)完整性,用于描述為解決問(wèn)題所獲得的數(shù)據(jù)的廣度、深度和規(guī)模足夠充分.

        (3)一致性,用于描述數(shù)據(jù)項(xiàng)遵循預(yù)定的語(yǔ)法規(guī)則的程度.主要包括:參照完整性、數(shù)據(jù)格式一致性、數(shù)據(jù)不一致的風(fēng)險(xiǎn)度、結(jié)構(gòu)的一致性、數(shù)據(jù)值一致性覆蓋程度、語(yǔ)義一致性.

        (4)可信性,是一個(gè)集合性術(shù)語(yǔ).它用來(lái)表示可用性及其影響因素:可靠性、維修性、保障性,它常用于非定量條款中的一般性描述.

        (5)時(shí)效性,是指信息僅在一定時(shí)間段內(nèi)對(duì)決策具有價(jià)值的屬性.

        (6)易訪(fǎng)問(wèn)性,主要包括:用戶(hù)易訪(fǎng)問(wèn)性、設(shè)備易訪(fǎng)問(wèn)性、數(shù)據(jù)格式易訪(fǎng)問(wèn)性.

        (7)依從性,主要包括:數(shù)據(jù)值依從性、數(shù)據(jù)格式依從性和技術(shù)依從性.

        (8)保密性,又稱(chēng)機(jī)密性,其與 Integrity(完整性)和Availability(可用性)并稱(chēng)為信息安全的CIA三要素.

        (9)效率性,是指數(shù)據(jù)處理過(guò)程中投入時(shí)間與得到成果之間的對(duì)比關(guān)系.

        (10)精準(zhǔn)性,是指數(shù)據(jù)的準(zhǔn)確性高和精度高.主要包括數(shù)據(jù)值的精確性、數(shù)據(jù)格式的精確性.

        (11)回溯性,是指數(shù)據(jù)值本身、用戶(hù)訪(fǎng)問(wèn)和系統(tǒng)依賴(lài)的數(shù)據(jù)值的可回溯性.

        (12)易理解性,主要是指符號(hào)、語(yǔ)義、主數(shù)據(jù)、數(shù)據(jù)值、數(shù)據(jù)模型、數(shù)據(jù)呈現(xiàn)、和鏈接主數(shù)據(jù)的易理解性.

        (13)可用性,是指數(shù)據(jù)對(duì)用戶(hù)來(lái)說(shuō)有效、易學(xué)、高效、好記、少錯(cuò)和令人滿(mǎn)意的程度.

        (14)可移植性,指將數(shù)據(jù)從某一種存儲(chǔ)方式轉(zhuǎn)換到另一種存儲(chǔ)方式的難易程度.

        (15)易恢復(fù)性,是指數(shù)據(jù)丟失、缺失、被改動(dòng)之后的恢復(fù)程度,即數(shù)據(jù)的備份.

        2 規(guī)則庫(kù)與規(guī)則模板

        2.1 規(guī)則及規(guī)則庫(kù)

        如何有效的評(píng)估數(shù)據(jù)質(zhì)量,關(guān)鍵在于數(shù)據(jù)質(zhì)量規(guī)則的制定.數(shù)據(jù)規(guī)則,又稱(chēng)數(shù)據(jù)約束,是客觀(guān)世界的數(shù)據(jù)所應(yīng)遵循的語(yǔ)義限制,包括領(lǐng)域知識(shí)和業(yè)務(wù)規(guī)則[14].將所有的規(guī)則組織在一起,又叫做規(guī)則庫(kù).數(shù)據(jù)質(zhì)量的分析,是基于規(guī)則的定義,對(duì)于不同的數(shù)據(jù)集,不同的業(yè)務(wù)數(shù)據(jù),規(guī)則的制定是不同的,因此本文基于“規(guī)則庫(kù)”[15]數(shù)據(jù)質(zhì)量評(píng)估方法,建立一種可適用于大多數(shù)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量評(píng)估方法,使得數(shù)據(jù)質(zhì)量評(píng)估工具有通用性.

        設(shè)計(jì)的數(shù)據(jù)質(zhì)量規(guī)則,包括序列標(biāo)識(shí)、條件類(lèi)型、源數(shù)據(jù)、操作符、參考數(shù)據(jù)類(lèi)型、參考數(shù)據(jù)、規(guī)則名稱(chēng)、評(píng)價(jià)指標(biāo)和操作九個(gè)元素.如圖3所示.

        (1)序列標(biāo)識(shí),標(biāo)識(shí)是第幾條規(guī)則,如果幾個(gè)語(yǔ)句的序列標(biāo)識(shí)相同,說(shuō)明這幾個(gè)語(yǔ)句屬于同一條規(guī)則.

        (2)條件類(lèi)型,主要定義了IF、AND、OR,用來(lái)表示同一條規(guī)則中的幾條語(yǔ)句之間的關(guān)系.

        (3)源數(shù)據(jù),指待評(píng)估的數(shù)據(jù).

        (4)運(yùn)算符,指源數(shù)據(jù)和參考數(shù)據(jù)之間的關(guān)系,主要定義了 is、is not、is within、is not within、contain、lt;、lt;=、>、>=,在將來(lái)的數(shù)據(jù)質(zhì)量評(píng)估過(guò)程中對(duì)于具體的數(shù)據(jù)評(píng)估,會(huì)增加運(yùn)算符,運(yùn)算符體系將會(huì)越來(lái)越完善.

        (5)參考數(shù)據(jù)類(lèi)型,表示參考數(shù)據(jù)的數(shù)據(jù)類(lèi)型.

        (6)參考數(shù)據(jù),指將要與源數(shù)據(jù)進(jìn)行比較的數(shù)據(jù),可以是用戶(hù)自己定義,也可以是系統(tǒng)內(nèi)定的.

        (7)規(guī)則名稱(chēng),簡(jiǎn)要說(shuō)明該規(guī)則的功能.

        (8)評(píng)價(jià)指標(biāo),指評(píng)價(jià)數(shù)據(jù)質(zhì)量的維度.

        (9)操作,指源數(shù)據(jù)符合或者不符合一條規(guī)則后根據(jù)需要進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、清洗等.

        圖3 規(guī)則管理界面圖

        規(guī)則庫(kù)的設(shè)計(jì),如圖4所示.

        圖4 規(guī)則庫(kù)設(shè)計(jì)圖

        2.2 數(shù)據(jù)質(zhì)量評(píng)估模板

        由于規(guī)則庫(kù)是為了適用于大多數(shù)的數(shù)據(jù)質(zhì)量評(píng)估,而不是具體的、特定的數(shù)據(jù),因此評(píng)估不同的數(shù)據(jù)需要不同的規(guī)則,就需要不停的刪除規(guī)則、創(chuàng)建規(guī)則.針對(duì)此問(wèn)題,本文提出了使用數(shù)據(jù)質(zhì)量評(píng)估模板,用若干規(guī)則組成一個(gè)模板,針對(duì)某具體數(shù)據(jù)進(jìn)行評(píng)估,并且生成評(píng)估報(bào)告.設(shè)計(jì)的規(guī)則模板包括:模板Id、序列標(biāo)識(shí)、規(guī)則名稱(chēng)、規(guī)則類(lèi)型、是否已經(jīng)執(zhí)行和權(quán)重六個(gè)元素,如圖5所示.

        圖5 評(píng)估模板界面圖

        (1)模板Id,用來(lái)表示那些規(guī)則屬于哪一個(gè)模板.

        (2)序列標(biāo)識(shí),同規(guī)則中的序列標(biāo)識(shí),表示一條規(guī)則.

        (3)規(guī)則名稱(chēng),同規(guī)則中的規(guī)則名稱(chēng),簡(jiǎn)要描述規(guī)則的功能.

        (4)規(guī)則類(lèi)型,同規(guī)則中的評(píng)價(jià)指標(biāo).

        (5)是否已經(jīng)執(zhí)行,指該條規(guī)則是否已經(jīng)執(zhí)行.

        (6)權(quán)重,表示該條規(guī)則在模板中的重要性,一個(gè)模板中的所有規(guī)則的權(quán)重之和為1.

        3 數(shù)據(jù)質(zhì)量評(píng)估方法

        3.1 數(shù)據(jù)質(zhì)量指標(biāo)計(jì)算方法

        文獻(xiàn)[16]中,提出了三種數(shù)據(jù)質(zhì)量評(píng)價(jià)方法:一是簡(jiǎn)單比率法,指期望的結(jié)果(E)占總值(T)的比率E/T,反映數(shù)據(jù)質(zhì)量某些方面的好壞程度;二是最小/大值法,適用于衡量數(shù)據(jù)質(zhì)量中需要對(duì)多種指標(biāo)進(jìn)行加總的維度,評(píng)價(jià)的關(guān)鍵是要找出各類(lèi)指標(biāo)中的最大值或最小值.最小值法是一種保守的評(píng)估方法,它賦給維度一個(gè)不超過(guò)它的最差數(shù)據(jù)質(zhì)量指標(biāo)的值.最大值是一種不保守的評(píng)估方法,一般適用于比較復(fù)雜的度量體系;三是加權(quán)平均法,為了確保評(píng)價(jià)值標(biāo)準(zhǔn)化,每個(gè)指標(biāo)的權(quán)重必須被限定在0和1之間,并且他們的和等于1,即?1+?2+…+?n=1,X=?1X1+?2X2+…+?nXn,其中 Xi代表數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo),?i代表評(píng)價(jià)指標(biāo)的權(quán)重,i=1,2,…,n.

        考慮到待評(píng)估的大數(shù)據(jù)量和評(píng)估性能問(wèn)題,實(shí)施簡(jiǎn)單、快速的質(zhì)量評(píng)估,采用簡(jiǎn)單比率法和加權(quán)評(píng)平均法相結(jié)合的方法,并且將文獻(xiàn)[16]中提出的加權(quán)評(píng)價(jià)法融入的數(shù)據(jù)質(zhì)量評(píng)估模板中.方法描述如下:

        Step1.執(zhí)行規(guī)則,采用簡(jiǎn)單比率法,所有符合規(guī)則的數(shù)據(jù)數(shù)(F)占所有的源數(shù)據(jù)數(shù)(S)的比率F/S,即每條規(guī)則執(zhí)行合格率R=F/S.

        Step2.應(yīng)用某一評(píng)估模板對(duì)某一特定的數(shù)據(jù)進(jìn)行評(píng)估,并在評(píng)估模板中設(shè)置規(guī)則的權(quán)重,并且一個(gè)模板中的所有規(guī)則的權(quán)重之和為1,即W1+W2+…+Wn=1,(W1,W2,…,Wn)屬于Mi,其中Mi代表某個(gè)模板.

        Step3.最后將每條規(guī)則的執(zhí)行結(jié)果和每條規(guī)則的權(quán)重?cái)?shù)之積相加,就得出某一模板的評(píng)估結(jié)果,即S=(R1W1+R2W2+…+RnWn)*100,Ri代表某條規(guī)則的執(zhí)行結(jié)果,Wi代表某條規(guī)則在同一模板中的權(quán)重?cái)?shù),S代表某一模板的評(píng)估結(jié)果.

        3.2 評(píng)估等級(jí)計(jì)算

        將每一條規(guī)則都轉(zhuǎn)化為正則表達(dá)式,匹配源數(shù)據(jù)與參考數(shù)據(jù),統(tǒng)計(jì)出合格數(shù)據(jù)所占比例,然后再結(jié)合加權(quán)平均法計(jì)算出最終的評(píng)估分?jǐn)?shù).根據(jù)分?jǐn)?shù)將數(shù)據(jù)質(zhì)量分為A、B、C、D、E五個(gè)等級(jí):A級(jí)為質(zhì)量最優(yōu)的數(shù)據(jù),分?jǐn)?shù)在90到100分之間;B級(jí)的數(shù)據(jù)質(zhì)量為良,分?jǐn)?shù)在80到89之間;C級(jí)的數(shù)據(jù)質(zhì)量為中,分?jǐn)?shù)在70到79之間;D級(jí)的數(shù)據(jù)質(zhì)量為合格,分?jǐn)?shù)在60到69之間;E即的數(shù)據(jù)質(zhì)量為差,即不能使用的數(shù)據(jù),需要進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,分?jǐn)?shù)在60以下.表1將展現(xiàn)評(píng)估模板1對(duì)數(shù)據(jù)庫(kù)用戶(hù)表的評(píng)估結(jié)果,其中該模板包含規(guī)則1、規(guī)則2、…、規(guī)則8共八條規(guī)則,且八條規(guī)則的權(quán)重已經(jīng)根據(jù)規(guī)則的評(píng)估指標(biāo)的重要性給予賦值.

        因此,由評(píng)估等級(jí)可以看出來(lái),該模板評(píng)估處理的數(shù)據(jù)質(zhì)量等級(jí)為B.本文提出的評(píng)估體系和評(píng)估方法,即考慮了模板中各個(gè)規(guī)則的重要性,又考慮了各個(gè)規(guī)則執(zhí)行后數(shù)據(jù)的合格率,精確地評(píng)估出數(shù)據(jù)的質(zhì)量.

        4 評(píng)估結(jié)果可視化

        ECharts,Enterprise Charts商業(yè)產(chǎn)品圖表庫(kù),ECharts開(kāi)源來(lái)自百度商業(yè)前端數(shù)據(jù)可視化團(tuán)隊(duì),基于html5 Canvas,是一個(gè)純Javascript圖表庫(kù),提供直觀(guān),生動(dòng),可交互,可個(gè)性化定制的數(shù)據(jù)可視化圖表.

        表1 數(shù)據(jù)質(zhì)量評(píng)估結(jié)果

        因此,本文使用此技術(shù)來(lái)實(shí)現(xiàn)評(píng)估結(jié)果的可視化,如圖6將展現(xiàn)評(píng)估模板1對(duì)數(shù)據(jù)庫(kù)用戶(hù)表的評(píng)估結(jié)果,其中該模板包含規(guī)則1、規(guī)則2、…、規(guī)則8共八條規(guī)則.

        由圖6可以看出,規(guī)則2、5、6的權(quán)重值比較高,并且該三個(gè)規(guī)則執(zhí)行時(shí)數(shù)據(jù)的合格率比較高,因此得到的規(guī)則評(píng)估分?jǐn)?shù)中,這三個(gè)規(guī)則的評(píng)估分?jǐn)?shù)所占的比率比較高,即該模板所評(píng)估的數(shù)據(jù)質(zhì)量的評(píng)估等級(jí)很大程度上取決于這三個(gè)規(guī)則.

        5 結(jié)束語(yǔ)

        隨著信息科技的蓬勃發(fā)展,數(shù)據(jù)已經(jīng)成為一種無(wú)形的、全新的資源,使人們對(duì)數(shù)據(jù)的質(zhì)量要求越來(lái)越高.然而大數(shù)據(jù)時(shí)代下,數(shù)據(jù)種類(lèi)繁多且數(shù)據(jù)量大的特征,使得數(shù)據(jù)質(zhì)量評(píng)估的難度加大.本文提出一套整體的數(shù)據(jù)質(zhì)量評(píng)估方法,其中規(guī)則庫(kù)和評(píng)估模板的應(yīng)用使得該評(píng)估方法具有通用性,針對(duì)不同的業(yè)務(wù)數(shù)據(jù)設(shè)計(jì)不同的規(guī)則存放于規(guī)則庫(kù)中,再使用規(guī)則評(píng)估模板針對(duì)某一具體的數(shù)據(jù)進(jìn)行評(píng)估,并且考慮數(shù)據(jù)質(zhì)量各個(gè)方面的評(píng)估維度.利用echarts.js實(shí)現(xiàn)評(píng)估結(jié)果的可視化,使評(píng)估結(jié)果更加清晰、明了,更有利于找出影響數(shù)據(jù)質(zhì)量的因素,對(duì)數(shù)據(jù)進(jìn)行更改、恢復(fù)、清洗.

        進(jìn)一步的研究工作包括實(shí)時(shí)數(shù)據(jù)質(zhì)量的評(píng)估、探索邏輯規(guī)則校驗(yàn)、多維評(píng)估延伸、統(tǒng)計(jì)分布驗(yàn)證等質(zhì)量評(píng)價(jià)方法.

        圖6 評(píng)估結(jié)果統(tǒng)計(jì)

        1 袁滿(mǎn),張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型.計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(3):81–84,89.

        2 劉偉.基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量控制與評(píng)估模型研究[碩士學(xué)位論文].大慶:東北石油大學(xué),2011.

        4 祝君儀.大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法及適用性分析.中國(guó)市場(chǎng),2015,(29):41–42.

        5 陳蘇,柏文陽(yáng),徐潔磐.一種新的數(shù)據(jù)質(zhì)量模型的研究.計(jì)算機(jī)應(yīng)用研究,2005,22(7):48–50.

        6 管尊友,馮建華.一個(gè)可擴(kuò)展的數(shù)據(jù)質(zhì)量元模型.計(jì)算機(jī)工程,2005,31(8):74–76,226.

        7 史峰.基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量分析.武漢職業(yè)技術(shù)學(xué)院學(xué)報(bào),2010,9(3):79–83.

        8 王慧鋒,段磊,胡斌,等.帶間隔約束的序列數(shù)據(jù)質(zhì)量評(píng)價(jià)算法設(shè)計(jì).計(jì)算機(jī)科學(xué)與探索,2015,9(10):1180–1194.

        9 周青,張樂(lè)堅(jiān),李峰,等.自動(dòng)站實(shí)時(shí)數(shù)據(jù)質(zhì)量分析及質(zhì)控算法改進(jìn).氣象科技,2015,43(5):814–822.

        10 朱巧玉.基于質(zhì)量規(guī)則礦政屬性數(shù)據(jù)評(píng)價(jià).黑龍江工程學(xué)院學(xué)報(bào),2014,28(6):13–16.

        11 宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn).西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,33(5):38–43.

        12 劉軍華.大數(shù)據(jù)視野下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量演變的信息回歸、分布與趨勢(shì).統(tǒng)計(jì)與信息論壇,2015,30(9):7–11.

        13 陳衛(wèi)東,張維明.屬性粒度數(shù)據(jù)質(zhì)量模型及其評(píng)價(jià)指標(biāo)研究.計(jì)算機(jī)科學(xué),2010,37(5):139–142.

        14 楊青云,趙培英,楊冬青,等.數(shù)據(jù)質(zhì)量評(píng)估方法研究.計(jì)算機(jī)工程與應(yīng)用,2004,40(9):3–4,15.

        15 王樹(shù)西,白碩.事實(shí)庫(kù)、規(guī)則庫(kù)的一體化全文索引算法.計(jì)算機(jī)科學(xué),2006,33(4):174–176.

        16 張勝.數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和評(píng)價(jià)方法淺析.科技信息,2014,(2):259.

        Data Quality Evaluation Method Based on Rule Base

        LIU Fang1,LI Min2,REN Hong-Min1,ZHOU Zhao-Ming31(College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China)2(Qingdao West Coast New District Administrative Committee,Qingdao 266035,China)3(Shanghai Industrial Research Institute,Shanghai 201306,China)

        In today’s era of big data,data quality is the premise of the significance of big data.The evaluation of data quality is one of the most important research topics.In this paper,the data quality assessment method based on rule base is put forward,and the overall model of data quality assessment is presented,which includes rules,rule base,data quality evaluation index,evaluation model and evaluation report.This paper designs the rule evaluation template,combines rules in the rule base,sets rule weight according to the importance of data quality evaluation index,adopts the evaluation method that combines the simple ratio method and the weighted average method,calculates the evaluation result,determines the grade of the data quality,and shows the evaluation result of data quality with the data visualization technology.In order to fairly and accurately assess the data quality,and concisely and intuitively present the evaluation results,the paper does not only consider the execution rate of a single rule,but also considers the proportion of each rule in the data quality evaluation template.

        rule base;data quality;evaluation template;data visualization

        劉芳,李敏,任洪敏,周兆明.基于規(guī)則庫(kù)的數(shù)據(jù)質(zhì)量評(píng)估方法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(11):165–169.http://www.c-s-a.org.cn/1003-3254/6046.html

        上海市科委重點(diǎn)項(xiàng)目(SKY2015004)

        2017-02-23;修改時(shí)間:2017-03-09;采用時(shí)間:2017-03-13

        10.3969/j.issn.1005-6432.2013.38.034]

        ?

        猜你喜歡
        規(guī)則評(píng)價(jià)質(zhì)量
        撐竿跳規(guī)則的制定
        “質(zhì)量”知識(shí)鞏固
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        數(shù)獨(dú)的規(guī)則和演變
        質(zhì)量守恒定律考什么
        做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        質(zhì)量投訴超六成
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        日韩精品大片在线观看| 欧美老熟妇喷水| 欧美人与动牲猛交xxxxbbbb| 在线精品无码一区二区三区| 久久精品国产亚洲av成人无人区| 日韩精品在线视频一二三| 亚洲裸男gv网站| 日韩爱爱网站| 亚洲视频精品一区二区三区| 日本高清不在线一区二区色| 久久综合加勒比东京热| 久久精品免费一区二区喷潮| 麻豆成人精品国产免费| 久久精品国产91久久性色tv| 久久亚洲精精品中文字幕早川悠里 | 91亚洲国产成人aⅴ毛片大全| 中文字幕中乱码一区无线精品| 性色视频加勒比在线观看| 国内精品人妻无码久久久影院导航| 精品久久久久久无码不卡| 天堂影院久久精品国产午夜18禁| 国产精品亚洲精品日韩已方 | 国产成人无码av在线播放dvd| 国产永久免费高清在线观看视频| 毛片在线视频成人亚洲| 精品国产三级a∨在线| 色一情一乱一伦一区二区三欧美 | 青青草最新在线视频观看| 蜜桃视频在线看一区二区三区 | 国产精品区一区第一页| 亚洲高清精品50路| 中文字幕34一区二区| 狠狠躁夜夜躁人人爽天天古典| 色欲av一区二区久久精品| 中文字幕日韩精品亚洲精品| 午夜爽爽爽男女免费观看影院| 牛鞭伸入女人下身的真视频| 国产自产拍精品视频免费看| h视频在线播放观看视频| 久久久久久国产精品无码超碰动画| 三级国产女主播在线观看|