亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于約束規(guī)則的科技基礎(chǔ)性數(shù)據(jù)質(zhì)量審查模型研究與實(shí)現(xiàn)

        2017-10-13 01:50:37張肖霞魯玉佳張金區(qū)
        中國(guó)科技資源導(dǎo)刊 2017年5期
        關(guān)鍵詞:規(guī)則科技質(zhì)量

        張肖霞 杜 平 陳 杭 魯玉佳 張金區(qū)

        (1.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州 510631;2.廣東科學(xué)技術(shù)職業(yè)學(xué)院廣州學(xué)院,廣東廣州 510653)

        基于約束規(guī)則的科技基礎(chǔ)性數(shù)據(jù)質(zhì)量審查模型研究與實(shí)現(xiàn)

        張肖霞1杜 平2陳 杭1魯玉佳1張金區(qū)1

        (1.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州 510631;2.廣東科學(xué)技術(shù)職業(yè)學(xué)院廣州學(xué)院,廣東廣州 510653)

        針對(duì)科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查人工效率低、易出錯(cuò)的現(xiàn)狀,設(shè)計(jì)了基于自定義約束規(guī)則的項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查模型。模型由構(gòu)建器、規(guī)則庫(kù)和判斷器3個(gè)部分構(gòu)成,其中構(gòu)建器主要是用于約束規(guī)則的配置;規(guī)則庫(kù)由一系列規(guī)則集構(gòu)成,每個(gè)規(guī)則集都從數(shù)據(jù)的完整性、一致性和約束性3個(gè)方面進(jìn)行約束規(guī)則的定義,完成定義的規(guī)則集構(gòu)成一個(gè)審查模板;判斷器主要是將審查模板應(yīng)用于一個(gè)數(shù)據(jù)集進(jìn)行審查并輸出審查意見(jiàn)。實(shí)踐證明,該模型能夠滿足科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查的工作要求,提高了科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查的質(zhì)量和效率,同時(shí)也為其他類似數(shù)據(jù)質(zhì)量審查工作提供了技術(shù)參考。

        科技基礎(chǔ)性工作;項(xiàng)目匯交;數(shù)據(jù)質(zhì)量審查;約束規(guī)則;質(zhì)量審查模型

        1 引言

        據(jù)不完全統(tǒng)計(jì),自1999年,我國(guó)啟動(dòng)科技基礎(chǔ)性工作專項(xiàng)到“十一五”末,已經(jīng)在氣象、地球科學(xué)、生物學(xué)、農(nóng)業(yè)、林業(yè)、醫(yī)學(xué)、環(huán)境、材料等領(lǐng)域設(shè)置了500多個(gè)項(xiàng)目,投資總經(jīng)費(fèi)達(dá)10多億元。通過(guò)這些項(xiàng)目,采集產(chǎn)生了一批重要的科學(xué)數(shù)據(jù)、文字資料、圖集典籍、科學(xué)規(guī)范、標(biāo)準(zhǔn)物質(zhì)、樣本樣品等。然而,由于缺乏國(guó)家層面的基礎(chǔ)性工作數(shù)據(jù)資料的集成整編環(huán)境,絕大部分已結(jié)題的基礎(chǔ)性工作數(shù)據(jù)資料仍然散落在各項(xiàng)目或課題承擔(dān)單位中,并沒(méi)有得到有效的集成、整編與挖掘,甚至有些數(shù)據(jù)資料瀕臨丟失,影響了基礎(chǔ)性工作本質(zhì)目標(biāo)的實(shí)現(xiàn)?!翱萍蓟A(chǔ)性工作數(shù)據(jù)資料集成與規(guī)范化整編”項(xiàng)目的目標(biāo)之一即為實(shí)現(xiàn)我國(guó)1999—2010年立項(xiàng)的基礎(chǔ)性工作項(xiàng)目數(shù)據(jù)資料的分類集成與規(guī)范化整編,構(gòu)建基礎(chǔ)性工作數(shù)據(jù)資料集成服務(wù)平臺(tái),保障長(zhǎng)期、持續(xù)地對(duì)我國(guó)基礎(chǔ)性工作數(shù)據(jù)資料提供集成與共享服務(wù)。那么,如何保障項(xiàng)目匯交數(shù)據(jù)的質(zhì)量,實(shí)現(xiàn)基礎(chǔ)性工作數(shù)據(jù)資料的完整性、規(guī)范性、正確性和一致性,切實(shí)滿足基礎(chǔ)科學(xué)研究、重大公益性研究、戰(zhàn)略高技術(shù)研究與產(chǎn)業(yè)關(guān)鍵性技術(shù)研發(fā)的基本需求,是當(dāng)前最為關(guān)鍵的工作。

        目前,對(duì)科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目數(shù)據(jù)匯交的審查工作主要采取人工逐項(xiàng)審查核對(duì)的方式。這種方法不僅費(fèi)時(shí)費(fèi)力,而且容易受到人為疏忽或經(jīng)驗(yàn)水平有限而導(dǎo)致的審查錯(cuò)誤。因此,基于科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)的構(gòu)成和特點(diǎn)分析,對(duì)不同的數(shù)據(jù)類別建立合適的審查模型,實(shí)現(xiàn)對(duì)匯交數(shù)據(jù)的計(jì)算機(jī)輔助審查,不僅提高效率,而且提高數(shù)據(jù)審查質(zhì)量。從已有的研究來(lái)看,還沒(méi)有專門針對(duì)科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查的案例。但是,對(duì)于信息系統(tǒng)中數(shù)據(jù)質(zhì)量的研究,歷來(lái)受到建設(shè)者的高度重視。數(shù)據(jù)質(zhì)量是進(jìn)行數(shù)據(jù)分析和應(yīng)用的基礎(chǔ),數(shù)據(jù)質(zhì)量已經(jīng)成為當(dāng)前進(jìn)行大數(shù)據(jù)價(jià)值挖掘的主要障礙[1]。在國(guó)內(nèi)信息系統(tǒng)的建設(shè)中,通常將數(shù)據(jù)質(zhì)量用正確性、準(zhǔn)確性、不矛盾性、一致性、完整性和集成性等6個(gè)方面進(jìn)行描述[2]。國(guó)際貨幣基金組織于2001年開(kāi)發(fā)的《數(shù)據(jù)質(zhì)量評(píng)估框架》列出了影響數(shù)據(jù)質(zhì)量的5個(gè)方面,即誠(chéng)信、方法的健全性、準(zhǔn)確性和可靠性、適用性及可獲得性,同時(shí)還定義了一套保證數(shù)據(jù)質(zhì)量的制度前提[3]。歐洲統(tǒng)計(jì)系統(tǒng)建立的數(shù)據(jù)質(zhì)量評(píng)估框架從統(tǒng)計(jì)機(jī)構(gòu)環(huán)境、統(tǒng)計(jì)程序和統(tǒng)計(jì)產(chǎn)出3個(gè)方面對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量展開(kāi)評(píng)估,開(kāi)發(fā)了數(shù)據(jù)質(zhì)量報(bào)告標(biāo)準(zhǔn)、質(zhì)量報(bào)告手冊(cè)和自我評(píng)估檢查單等系列數(shù)據(jù)質(zhì)量管理工具[4]。從上述可以看出,數(shù)據(jù)質(zhì)量問(wèn)題已經(jīng)受到國(guó)內(nèi)外的廣泛重視。針對(duì)數(shù)據(jù)質(zhì)量的不同方面,一系列數(shù)據(jù)質(zhì)量評(píng)價(jià)的方法和系統(tǒng)相繼開(kāi)發(fā)實(shí)現(xiàn),既有專門針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行質(zhì)量檢查的研究,也有專門針對(duì)空間數(shù)據(jù)進(jìn)行質(zhì)量檢查的研究,還有專門針對(duì)特定行業(yè)數(shù)據(jù)質(zhì)量檢查的研究[4-7]。其中,基于規(guī)則引擎的數(shù)據(jù)質(zhì)量檢查,是常用的方法之一。王興等[8]建立了基于規(guī)則引擎的多元大氣信息數(shù)據(jù)質(zhì)量檢查方法,楊家芳[9]建立了基于規(guī)則引擎的基本農(nóng)田劃定內(nèi)業(yè)數(shù)據(jù)質(zhì)量檢查方法,都取得了良好的效果。面對(duì)近年來(lái)大數(shù)據(jù)的興起,研究確定了“Quality-in-Use”數(shù)據(jù)質(zhì)量評(píng)價(jià)模型。該評(píng)價(jià)模型主要用于大數(shù)據(jù)分析時(shí)對(duì)輸入數(shù)據(jù)的質(zhì)量評(píng)價(jià)[10]。這些數(shù)據(jù)檢查和分析評(píng)價(jià)的方法,大都是面向數(shù)據(jù)生產(chǎn)者服務(wù)。對(duì)于一些數(shù)據(jù)共享組織管理機(jī)構(gòu),通常是通過(guò)制定規(guī)范進(jìn)行約束的。

        科技基礎(chǔ)性數(shù)據(jù)涉及學(xué)科廣,類型復(fù)雜,從目前項(xiàng)目單位匯交數(shù)據(jù)看,普遍存在一些文檔組織不規(guī)范、數(shù)據(jù)缺失、數(shù)據(jù)內(nèi)容項(xiàng)不完整、文件打不開(kāi)以及一些數(shù)值超限等問(wèn)題。這些問(wèn)題不僅增加了人工審核的難度,而且對(duì)科技基礎(chǔ)性數(shù)據(jù)深層次的應(yīng)用挖掘帶來(lái)障礙。所以,建立面向科技基礎(chǔ)性項(xiàng)目匯交數(shù)據(jù)的質(zhì)量審查模型,開(kāi)發(fā)相應(yīng)的軟件系統(tǒng),對(duì)提高數(shù)據(jù)管理者的工作效率和促進(jìn)科技基礎(chǔ)性數(shù)據(jù)的應(yīng)用挖掘具有重要意義。

        2 科技基礎(chǔ)性工作項(xiàng)目匯交流程分析

        2.1 匯交數(shù)據(jù)構(gòu)成及特點(diǎn)分析

        科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)主要來(lái)源于我國(guó)啟動(dòng)科技基礎(chǔ)性工作專項(xiàng)以來(lái)立項(xiàng)的各類項(xiàng)目所產(chǎn)生的數(shù)據(jù)。從學(xué)科來(lái)講,包含氣象、地球科學(xué)、生物、農(nóng)業(yè)、林業(yè)、醫(yī)學(xué)、環(huán)境、材料等多個(gè)領(lǐng)域;從數(shù)據(jù)存儲(chǔ)格式上,有矢量數(shù)據(jù)、柵格數(shù)據(jù)、表格數(shù)據(jù)、文本數(shù)據(jù)、文檔數(shù)據(jù)等;從表現(xiàn)形式上,有數(shù)據(jù)、圖集、志書、典籍、標(biāo)本資源、標(biāo)準(zhǔn)規(guī)范、論文專著或研究報(bào)告等。從對(duì)科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)的構(gòu)成分析可以得出項(xiàng)目匯交數(shù)據(jù)具有以下特點(diǎn)。

        (1)多樣性:主要指科技報(bào)告類型多樣、數(shù)據(jù)類型多樣、學(xué)科領(lǐng)域眾多、科技數(shù)據(jù)提交加工環(huán)節(jié)多樣等特點(diǎn),使得提交上來(lái)的科技數(shù)據(jù)資源呈現(xiàn)多樣化。

        (2)異構(gòu)性:科技基礎(chǔ)性數(shù)據(jù)涉及專業(yè)廣泛,領(lǐng)域眾多,不同的專業(yè)領(lǐng)域?qū)τ诳萍蓟A(chǔ)性數(shù)據(jù)的記錄形式各不相同。

        (3)復(fù)雜性:不同專業(yè)領(lǐng)域的科技基礎(chǔ)性數(shù)據(jù)形式不同,科學(xué)考察項(xiàng)目需要記錄的數(shù)據(jù)有項(xiàng)目觀測(cè)、監(jiān)測(cè)、實(shí)驗(yàn)、調(diào)查和考察數(shù)據(jù)及相關(guān)的圖件、報(bào)告等。圖集、志書、典籍項(xiàng)目需要記錄的數(shù)據(jù)有圖集、志書、典籍及其支撐這些資源的數(shù)據(jù)等。標(biāo)準(zhǔn)規(guī)范項(xiàng)目需要記錄的數(shù)據(jù)有標(biāo)準(zhǔn)規(guī)范文本及其支撐標(biāo)準(zhǔn)規(guī)范研制的基準(zhǔn)、支撐、測(cè)試數(shù)據(jù)等。

        (4)保密性:部分科學(xué)基礎(chǔ)性數(shù)據(jù)涉及國(guó)家機(jī)密,具有保密性特點(diǎn)。

        2.2 項(xiàng)目匯交數(shù)據(jù)審查的主要流程

        為了有效監(jiān)督和管理科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目的執(zhí)行,促進(jìn)項(xiàng)目匯交科學(xué)數(shù)據(jù)的共享與服務(wù),科技部專門出臺(tái)了《科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目科學(xué)數(shù)據(jù)匯交管理辦法》,明確規(guī)定了項(xiàng)目承擔(dān)單位負(fù)責(zé)項(xiàng)目科學(xué)數(shù)據(jù)的整理和匯交,包括:(1)組織編制項(xiàng)目數(shù)據(jù)匯交方案;(2)按照匯交方案組織整理項(xiàng)目數(shù)據(jù),并按時(shí)完成匯交;(3)確保項(xiàng)目數(shù)據(jù)的完整性和質(zhì)量??茖W(xué)數(shù)據(jù)管理機(jī)構(gòu)負(fù)責(zé)項(xiàng)目科學(xué)數(shù)據(jù)的接收、保存、管理、共享與服務(wù)。其對(duì)項(xiàng)目數(shù)據(jù)匯交數(shù)據(jù)審查的主要流程如圖1所示。

        數(shù)據(jù)匯交管理機(jī)構(gòu)主要基于項(xiàng)目承擔(dān)單位編制的數(shù)據(jù)匯交方案,對(duì)項(xiàng)目基本信息與元數(shù)據(jù)、數(shù)據(jù)實(shí)體、數(shù)據(jù)文檔、論文專著及輔助軟件等進(jìn)行規(guī)范性、完整性和一致性的審查。

        圖1 項(xiàng)目匯交數(shù)據(jù)審查的主要流程

        項(xiàng)目數(shù)據(jù)匯交方案:包含項(xiàng)目編號(hào)、項(xiàng)目名稱、項(xiàng)目負(fù)責(zé)人、項(xiàng)目承擔(dān)單位等基本信息,還包括項(xiàng)目計(jì)劃任務(wù)書規(guī)定的任務(wù)和考核指標(biāo)及調(diào)整情況、匯交的資源內(nèi)容、資源質(zhì)量控制等相關(guān)說(shuō)明。匯交方案是進(jìn)行匯交數(shù)據(jù)審查的基礎(chǔ)和依據(jù),如果匯交的文檔中沒(méi)有匯交方案文件,則直接反饋錯(cuò)誤信息。

        項(xiàng)目基本信息與元數(shù)據(jù):項(xiàng)目基本信息和元數(shù)據(jù)中主要包含項(xiàng)目編號(hào)、項(xiàng)目名稱、所屬類型、第一承擔(dān)單位、項(xiàng)目依托部門、成果類型、項(xiàng)目起止時(shí)間、項(xiàng)目負(fù)責(zé)人和數(shù)據(jù)匯交聯(lián)絡(luò)人基本信息、成果介紹、資源描述摘要、關(guān)鍵詞、資源質(zhì)量描述等。主要審查這些描述項(xiàng)是否有漏填及不一致現(xiàn)象。

        數(shù)據(jù)實(shí)體:匯交的數(shù)據(jù)實(shí)體有4種格式類型,分別是矢量數(shù)據(jù)、柵格數(shù)據(jù)、表格數(shù)據(jù)、文本及其他類型數(shù)據(jù),每種數(shù)據(jù)描述表的字段不同,針對(duì)不同的字段進(jìn)行自定義約束審查。依據(jù)《自然科技資源共性描述規(guī)范》[11],結(jié)合科技基礎(chǔ)性工作專項(xiàng)項(xiàng)目的特點(diǎn),形成對(duì)植物種質(zhì)資源、動(dòng)物種質(zhì)資源、微生物菌種資源、人類遺傳資源、生物標(biāo)本資源、巖礦化石資源、實(shí)驗(yàn)材料資源、標(biāo)準(zhǔn)物質(zhì)八大類標(biāo)本資源描述信息的規(guī)定。每種資源的描述規(guī)范表中含有5個(gè)字段,分別是序號(hào)、描述符、數(shù)據(jù)類型、數(shù)據(jù)限制、備注說(shuō)明。

        數(shù)據(jù)文檔:主要包含數(shù)據(jù)集/圖集內(nèi)容特征、學(xué)科及行業(yè)范圍、精度、存儲(chǔ)管理、質(zhì)量控制、共享及使用方法、知識(shí)產(chǎn)權(quán)等說(shuō)明信息。標(biāo)準(zhǔn)規(guī)范編制說(shuō)明主要有工作簡(jiǎn)況、主要起草過(guò)程、重大意見(jiàn)分歧的處理依據(jù)及結(jié)果等。這部分主要是進(jìn)行內(nèi)容的描述,主要依靠人工進(jìn)行審查。

        論文專著及輔助軟件工具:論文專著主要指與項(xiàng)目數(shù)據(jù)直接相關(guān)、在數(shù)據(jù)引用時(shí)需要使用的專著或論文。輔助軟件工具則是對(duì)匯交的數(shù)據(jù)進(jìn)行查看和處理的專用工具。此部分主要從文件是否存在、是否有關(guān)聯(lián)性、是否能正確打開(kāi)等方面進(jìn)行審查。

        3 基于約束規(guī)則的數(shù)據(jù)審查模型設(shè)計(jì)

        由于科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)包含氣象、地球科學(xué)、生物學(xué)、農(nóng)業(yè)、林業(yè)、醫(yī)學(xué)、環(huán)境、材料等學(xué)科領(lǐng)域,計(jì)算機(jī)輔助審查只能從數(shù)據(jù)的共性層面建立規(guī)則來(lái)構(gòu)建審查模型,對(duì)于具體數(shù)據(jù)內(nèi)容的真實(shí)性、可靠性還必須依靠人工進(jìn)行判斷。

        3.1 科技基礎(chǔ)性工作項(xiàng)目數(shù)據(jù)匯交審查內(nèi)容

        審查的方式有系統(tǒng)自動(dòng)審查和人工審查兩種形式。主要包括以下幾個(gè)方面的審查內(nèi)容。

        (1)完整性審查。匯交數(shù)據(jù)的完整性審查主要從3個(gè)方面進(jìn)行審查:一是從文件組織上看匯交的數(shù)據(jù)文件是否遵循項(xiàng)目科學(xué)數(shù)據(jù)匯交的統(tǒng)一規(guī)范,“匯交規(guī)范”規(guī)定了每個(gè)專項(xiàng)項(xiàng)目匯交數(shù)據(jù)時(shí)的文件構(gòu)成和組織方法,如有遺漏,則完整性審查不通過(guò)。二是基于各專項(xiàng)項(xiàng)目提交的數(shù)據(jù)匯交方案來(lái)審查,在匯交方案中列明本項(xiàng)目的數(shù)據(jù)組成情況。模型將通過(guò)對(duì)匯交方案的解析實(shí)現(xiàn)對(duì)數(shù)據(jù)完整性的審查。三是從數(shù)據(jù)文件構(gòu)成的完整性上進(jìn)行審查,例如一個(gè)矢量數(shù)據(jù)的shape文件,至少由.shp、.dbf、.shx 3個(gè)文件組成,如果缺少一個(gè)那么完整性審查將不能通過(guò)。

        (2)一致性審查。主要指對(duì)匯交數(shù)據(jù)中文檔的一致性、內(nèi)容的一致性等內(nèi)容審查。

        (3)約束性審查。主要是對(duì)數(shù)據(jù)內(nèi)容的約束性審查,約束性審查主要是對(duì)二維表格數(shù)據(jù)、二維表中每一列屬性進(jìn)行判斷,審查每一行的值是否在約束范圍內(nèi)。

        3.2 數(shù)據(jù)審查模型框架

        為了靈活實(shí)現(xiàn)對(duì)不同學(xué)科領(lǐng)域的數(shù)據(jù)審查,本文探討基于自定義約束規(guī)則的數(shù)據(jù)審查模型,模型框架如圖2所示

        數(shù)據(jù)審查模型主要由構(gòu)建器、規(guī)則庫(kù)和判斷器構(gòu)成。構(gòu)建器主要是用于創(chuàng)建約束規(guī)則的工具,約束規(guī)則由判斷條件和值域構(gòu)成。規(guī)則庫(kù)存儲(chǔ)了用戶進(jìn)行數(shù)據(jù)審查時(shí)創(chuàng)建的各類規(guī)則集。判斷器則將這些規(guī)則集應(yīng)用于一個(gè)待審查的項(xiàng)目匯交數(shù)據(jù)集,并對(duì)是否滿足規(guī)則的情況進(jìn)行輸出。

        3.3 自定義審查規(guī)則集的構(gòu)成

        根據(jù)科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)的內(nèi)容和特點(diǎn),從完整性、一致性和約束性3個(gè)方面進(jìn)行約束規(guī)則的定義,審查規(guī)則包括數(shù)據(jù)文檔存在性審查、文件組織和命名規(guī)范審查、數(shù)據(jù)質(zhì)量審查、數(shù)據(jù)文檔審查、論文和輔助軟件審查。其中,數(shù)據(jù)文檔存在性審查是指文檔是否存放在指定的路徑位置上。文件組織審查指文件的存放路徑是否符合規(guī)范的統(tǒng)一約定,命名規(guī)范審查指文件的命名是否符合要求。數(shù)據(jù)質(zhì)量審查和數(shù)據(jù)文檔審查模塊包括數(shù)據(jù)項(xiàng)內(nèi)容審查、行數(shù)據(jù)審查、列數(shù)據(jù)審查、多表審查等。一個(gè)數(shù)據(jù)審查規(guī)則集的構(gòu)成如圖3所示。

        數(shù)據(jù)項(xiàng)審查是指對(duì)某一數(shù)據(jù)表中的某一個(gè)數(shù)據(jù)項(xiàng)進(jìn)行審查,包括非空審查、數(shù)據(jù)類型審查、正則表達(dá)式審查、數(shù)據(jù)范圍審查等。在數(shù)據(jù)項(xiàng)審查中,非空審查通過(guò)設(shè)置數(shù)據(jù)項(xiàng)能否為空的約束條件來(lái)審查數(shù)據(jù)項(xiàng)內(nèi)容是否滿足約束規(guī)則。數(shù)據(jù)類型審查主要審查所采用的數(shù)據(jù)類型必須是指定的某一數(shù)據(jù)類型或滿足預(yù)先設(shè)定的幾種類型中的某一類型。正則表達(dá)式審查是由于采用單個(gè)字符串描述或者匹配一系列某個(gè)句法規(guī)則的字符串,也就是用一個(gè)“字符串”來(lái)描述一個(gè)特征,因此主要審查某一個(gè)“字符串”是否符合這個(gè)特征。如審查電話號(hào)碼、郵箱、日期是否滿足規(guī)格。數(shù)據(jù)范圍審查包括常規(guī)的數(shù)值范圍審查和數(shù)據(jù)項(xiàng)內(nèi)容是否在自定義的范圍之內(nèi),是一種約束性的審查,如審查某一物質(zhì)的PH值必須在3~7,審查植物種植的氣候帶必須為熱帶、亞熱帶、溫帶、寒溫帶、寒帶、其他這6項(xiàng)中的一項(xiàng)等。

        行數(shù)據(jù)審查是對(duì)數(shù)據(jù)表中行與行數(shù)據(jù)項(xiàng)之間關(guān)系的審查,包括行數(shù)據(jù)項(xiàng)之間的對(duì)應(yīng)關(guān)系、限制約束關(guān)系。如項(xiàng)目編號(hào)字段與項(xiàng)目名稱字段是一一對(duì)應(yīng)關(guān)系,一個(gè)項(xiàng)目編號(hào)有且僅有一個(gè)項(xiàng)目名稱。

        列數(shù)據(jù)審查指的是對(duì)同一字段的數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)之間關(guān)系的審查,包括對(duì)比審查、累計(jì)值審查、四則運(yùn)算審查等。如表格數(shù)據(jù)詳細(xì)描述表中“數(shù)據(jù)記錄數(shù)”字段需要運(yùn)用四則運(yùn)算統(tǒng)計(jì)表格記錄的整列數(shù)據(jù)總量。

        多表審查是對(duì)兩個(gè)及其以上數(shù)據(jù)表中數(shù)據(jù)項(xiàng)關(guān)系的審查,也叫數(shù)據(jù)項(xiàng)動(dòng)態(tài)聯(lián)合審查。如表格數(shù)據(jù)詳細(xì)描述表中描述字段必須包含被描述數(shù)據(jù)表的所有字段。

        圖2 數(shù)據(jù)審查模型的框架構(gòu)成

        4 數(shù)據(jù)質(zhì)量審查系統(tǒng)開(kāi)發(fā)與實(shí)現(xiàn)

        4.1 系統(tǒng)工作流程

        依據(jù)上述數(shù)據(jù)質(zhì)量審查模型的設(shè)計(jì)方案,梳理數(shù)據(jù)質(zhì)量審查系統(tǒng)的工作流程,如圖4所示。

        系統(tǒng)在應(yīng)用上,首先讀取項(xiàng)目數(shù)據(jù)包,然后從規(guī)則庫(kù)中選擇審查模板,依據(jù)審查模板定義的規(guī)則進(jìn)行逐項(xiàng)檢查。在檢查過(guò)程中,首先檢查是否存在PDF格式的數(shù)據(jù)匯交方案。其次審查Dataset的內(nèi)容,檢查Dataset文件夾存放的數(shù)據(jù)實(shí)體和數(shù)據(jù)說(shuō)明文檔,以數(shù)據(jù)資源唯一的標(biāo)識(shí)號(hào)作為下一級(jí)文件夾的名稱,每個(gè)文件夾中又存放著Data、Document、Thumbnail 3個(gè)文件夾,它們分別用來(lái)存放數(shù)據(jù)實(shí)體、數(shù)據(jù)說(shuō)明文檔和數(shù)據(jù)縮略圖。此部分審查主要是針對(duì)文件的組織和命名是否符合規(guī)范。接著用自定義約束規(guī)則審查模型對(duì)數(shù)據(jù)質(zhì)量進(jìn)行審查,檢查數(shù)據(jù)的完整性、一致性等。再次對(duì)數(shù)據(jù)說(shuō)明文檔進(jìn)行審查,重點(diǎn)對(duì)科學(xué)數(shù)據(jù)/圖集說(shuō)明文檔、標(biāo)準(zhǔn)規(guī)范編制說(shuō)明、八大類標(biāo)本資源規(guī)范描述表進(jìn)行審查。最后對(duì)Paper部分和Software部分進(jìn)行審查。

        圖3 數(shù)據(jù)審查規(guī)則集構(gòu)成

        4.2 審查模板與自定義規(guī)則配置

        規(guī)則集通過(guò)采用基于XML的模板文件進(jìn)行存儲(chǔ),一個(gè)規(guī)則集就是一個(gè)審查模板。XML文件是一種可擴(kuò)展標(biāo)記語(yǔ)言,其具有可擴(kuò)展性、交互性好、跨平臺(tái)的特點(diǎn),還具有結(jié)構(gòu)性強(qiáng)、易于處理、靈活性好等優(yōu)點(diǎn),易于進(jìn)行自定義審查規(guī)則的存儲(chǔ)[12]。用戶可以對(duì)不同的數(shù)據(jù)集創(chuàng)建不同的審查模板。當(dāng)審查要求有變動(dòng)時(shí),只需添加或修改審查規(guī)則文件,在審查時(shí)進(jìn)行相應(yīng)的配置即可,便于靈活的數(shù)據(jù)審核。

        自定義數(shù)據(jù)審查規(guī)則的配置方法是根據(jù)待審查數(shù)據(jù)集的不同而進(jìn)行設(shè)計(jì)的,需要分別對(duì)項(xiàng)目數(shù)據(jù)匯交方案、項(xiàng)目基本信息與元數(shù)據(jù)、數(shù)據(jù)資源實(shí)體、數(shù)據(jù)說(shuō)明文檔、輔助軟件工具、專著論文等數(shù)據(jù)進(jìn)行創(chuàng)建。為了便于用戶操作,系統(tǒng)開(kāi)發(fā)了自定義審查規(guī)則的配置界面(圖5)供用戶使用。

        4.3 審查日志與審查結(jié)果反饋

        為了方便管理和記錄每一個(gè)項(xiàng)目匯交數(shù)據(jù)的質(zhì)量審查情況,該系統(tǒng)還增加了用戶管理和審查日志的功能,每次審查數(shù)據(jù)的結(jié)果都會(huì)被記錄在審查日志中。而對(duì)同一數(shù)據(jù)集的審查則根據(jù)時(shí)間軸來(lái)記錄每次的審查情況,方便用戶追溯數(shù)據(jù)資源的審查和修改記錄情況。

        每一次的審查結(jié)果都記錄著對(duì)匯交數(shù)據(jù)資源審查評(píng)價(jià)的信息,包括審查的數(shù)據(jù)是否正確,數(shù)據(jù)錯(cuò)誤的原因等。數(shù)據(jù)審查結(jié)束后,系統(tǒng)會(huì)自動(dòng)生成一個(gè)審查結(jié)果的報(bào)告文檔。審查人員可以在此文檔的基礎(chǔ)上,繼續(xù)添加人工審核的意見(jiàn)。最后,將審查結(jié)果文檔反饋給匯交單位,供匯交單位進(jìn)行數(shù)據(jù)集修改完善。

        5 結(jié)論

        圖4 數(shù)據(jù)質(zhì)量審查系統(tǒng)應(yīng)用流程

        圖5 自定義審查規(guī)則的配置界面

        本文首先分析了科技基礎(chǔ)性項(xiàng)目匯交數(shù)據(jù)的構(gòu)成及特點(diǎn),進(jìn)而梳理了項(xiàng)目匯交數(shù)據(jù)審查的主要流程。按照科技基礎(chǔ)性項(xiàng)目匯交規(guī)范,設(shè)計(jì)了基于自定義約束規(guī)則的數(shù)據(jù)質(zhì)量審查模型,模型從數(shù)據(jù)的完整性、一致性和約束性3個(gè)方面進(jìn)行約束規(guī)則的定義,能夠?qū)?xiàng)目數(shù)據(jù)匯交方案、項(xiàng)目基本信息、數(shù)據(jù)實(shí)體、數(shù)據(jù)文檔、論文專著和輔助軟件工具等進(jìn)行全面的審查。最后,基于本模型開(kāi)發(fā)了科技基礎(chǔ)性項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查系統(tǒng)。除了數(shù)據(jù)審查功能之外,還開(kāi)發(fā)了用于約束規(guī)則配置的工具界面,添加了審查日志和審核意見(jiàn)導(dǎo)出等功能,方便對(duì)同一數(shù)據(jù)集的持續(xù)跟蹤審查。

        通過(guò)基于約束規(guī)則的科技基礎(chǔ)性數(shù)據(jù)質(zhì)量審查模型的研究與實(shí)現(xiàn),能夠提高科技基礎(chǔ)性工作項(xiàng)目匯交數(shù)據(jù)質(zhì)量審查的質(zhì)量和效率,節(jié)約數(shù)據(jù)審核人員的時(shí)間,使數(shù)據(jù)審核人更集中精力去審核一些更深層次的數(shù)據(jù)質(zhì)量問(wèn)題??萍蓟A(chǔ)性項(xiàng)目數(shù)據(jù)匯交是一項(xiàng)長(zhǎng)期持續(xù)性的工作。目前,數(shù)據(jù)質(zhì)量審查模型還更多地側(cè)重于形式方面的審查,隨著數(shù)據(jù)匯交工作的開(kāi)展而不斷深入,數(shù)據(jù)質(zhì)量審查模型將深入數(shù)據(jù)內(nèi)容,建立經(jīng)驗(yàn)?zāi)P?,逐步?shí)現(xiàn)數(shù)據(jù)質(zhì)量的自動(dòng)審查和意見(jiàn)反饋。

        [1]SADIQ Shazia, INDULSKA Marta. Open data: quality over quantity[J]. International Journal of Information Management, 2017, 37(3): 150-154.

        [2]陳遠(yuǎn), 羅琳, 沈祥興. 信息系挽中的么據(jù)質(zhì)童問(wèn)題研究[J]. 中國(guó)圖書館學(xué)報(bào), 2004(1): 48-50.

        [3]蔣萍, 田成詩(shī). 全方位、立體性數(shù)據(jù)質(zhì)量概念的建立與實(shí)施[J]. 統(tǒng)計(jì)研究, 2010, 27(12): 8-15.

        [4]許滌龍, 龍海躍. 歐盟數(shù)據(jù)質(zhì)量評(píng)估框架及其對(duì)我國(guó)的啟示[J]. 統(tǒng)計(jì)與決策, 2013(8): 4-7.

        [5]TAGGARTA Jane, LIAWA Siaw-Teng, YU Hairong.Structured data quality reports to improve EHR data quality[J]. International Journal of Medical Informatics,2015, 84(12): 1094-1098.

        [6]PRESSER Karl, HINTERBERGER Hans, WEBER David, et al. A scope classi fi cation of data quality requirements for food composition data[J]. Food Chemistry, 2016, 193: 166-172.

        [7]徐啟恒, 張新長(zhǎng), 張興飛. GIS數(shù)據(jù)檢查與質(zhì)量控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].測(cè)繪通報(bào), 2012(5): 38-40.

        [8]王興, 朱定真, 苗春生. 基于規(guī)則引擎的多元大氣信息數(shù)據(jù)質(zhì)量檢查方法[J]. 南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011, 3(3): 238-243.

        [9]楊家芳. 基于規(guī)則引擎的基本農(nóng)田劃定內(nèi)業(yè)數(shù)據(jù)質(zhì)量檢查方法研究[D], 杭州: 浙江大學(xué), 2014.

        [10]MERINO Jorge, CABALLERO Ismael, RIVAS Bibiano,et al. A data quality in use model for big data[J]. Future Generation Computer Systems, 2016, 63: 123-130.

        [11]曹一化, 劉旭, 許增泰, 等. 自然科技資源共性描述規(guī)范[M].北京: 中國(guó)科學(xué)技術(shù)出版社, 2006: 1-86

        [12]HELLMANN D. The python standard library by example[M]. Indianapolis, Indiana: Addison Wesley,2011: 1-10.

        Research and Implementation of Quality Inspection Model for Basic Data of Science and Technology Based on Custom Constraint Rules

        ZHANG Xiaoxia1, DU Ping2, CHEN Hang1, LU Yujia1, ZHANG Jinqu1
        (1. School of Computer Science, North China Normal University, Guangzhou 510631; 2. Guangzhou School,Guangdong Polytechnic of Science and Technology, Guangzhou 510551)

        Considering the situations of the low e ffi ciency and fallibility in manually data quality inspection for the data from basic work of science and technology, a data quality inspection model on basic work of science and technology was designed based on custom constraint rules. The model consists of constructor, rule database and a judge determiner. The constructor is mainly used for the building of custom constraint rules. The rule database is composed of a series of rule collections. Each rule collection, namely as an inspection template, can be de fi ned from integrality, consistency and restriction. The data will be checked based on an inspection template selected by the judge determiner with results exported. Study showed that the data quality review model can meet the work requirements in data review of basic work of science and technology. It improves the quality and e ffi ciency of data quality review, and provides a technical reference for other similar data quality audits.

        basic work of science and technology, project remit, data quality review, constraint rule, quality audits model.

        TP306

        A

        10.3772/j.issn.1674-1544.2017.05.008

        張肖霞(1993—),女,華南師范大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向:空間信息處理;杜平(1982—),女,廣東科學(xué)技術(shù)職業(yè)學(xué)院廣州學(xué)院教師、工程師,研究方向:嵌入式系統(tǒng)及軟件工程;陳杭(1991—),男,華南師范大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向:深度學(xué)習(xí);魯玉佳(1994—),女,華南師范大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向:深度學(xué)習(xí);張金區(qū)(1980—):男,華南師范大學(xué)計(jì)算機(jī)學(xué)院副教授,研究方向:空間信息技術(shù)應(yīng)用(通訊作者)。

        科技基礎(chǔ)性工作專項(xiàng)重點(diǎn)項(xiàng)目“科技基礎(chǔ)性工作數(shù)據(jù)資料集成與規(guī)范化整編”(2013FY110900);廣東省科技計(jì)劃項(xiàng)目“基于O2O模式的新一代科普作品研發(fā)”(2014A070711020)。

        2017年7月14日。

        猜你喜歡
        規(guī)則科技質(zhì)量
        撐竿跳規(guī)則的制定
        “質(zhì)量”知識(shí)鞏固
        數(shù)獨(dú)的規(guī)則和演變
        質(zhì)量守恒定律考什么
        做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
        科技助我來(lái)看云
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        科技在線
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        科技在線
        不卡av一区二区在线| 国产性生交xxxxx免费| 日韩精品一区二区三区在线观看| 国产欧美曰韩一区二区三区| 丰满人妻无套内射视频| 风韵丰满熟妇啪啪区99杏| 亚洲精品久久一区二区三区777 | 国产av无码专区亚洲av男同| 久久中文精品无码中文字幕下载| 欧美精品中文字幕亚洲专区| 日本一区二区三区的免费视频观看 | sm免费人成虐漫画网站| 在线观看特色大片免费视频| 摸进她的内裤里疯狂揉她动视频| 99久久国内精品成人免费| 青青草久久久亚洲一区| 亚洲精品乱码久久久久蜜桃| 国产专区国产av| 日韩av中出在线免费播放网站| 精品婷婷国产综合久久| 人妻在卧室被老板疯狂进入| 国产露脸精品产三级国产av| 久久久国产精品ⅤA麻豆百度 | 色婷婷七月| 国产av乳头久久一区| 中文字幕一区二区精品视频| 欧美性猛交xxxx富婆| 免费毛片性天堂| av一区二区三区有码| 4hu四虎永久免费地址ww416| 久久日本三级韩国三级| 永久免费的拍拍拍网站| 中文字幕av人妻少妇一区二区| 两个人看的www免费视频中文| 日本久久久| 国产午夜在线观看视频| 国产精品无码一区二区三级| 亚洲国产成人va在线观看天堂 | 亚洲av手机在线播放| 中文字幕乱码熟妇五十中出| 啪啪免费网站|