宋立榮(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
基層科技報(bào)告資源建設(shè)中元數(shù)據(jù)質(zhì)量評(píng)估研究
——以中國(guó)科學(xué)技術(shù)信息研究所為例
宋立榮
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
我國(guó)各級(jí)科技管理部門(mén)正積極推進(jìn)國(guó)家科技報(bào)告資源建設(shè)工作。在這過(guò)程中,基層科研單位作為科技報(bào)告資源建設(shè)的生產(chǎn)源頭,是保證科技報(bào)告質(zhì)量的關(guān)鍵環(huán)節(jié),尤其是元數(shù)據(jù)質(zhì)量建設(shè)起到十分重要的作用。為此,文章就科技報(bào)告元數(shù)據(jù)項(xiàng)要素進(jìn)行分析,對(duì)其元數(shù)據(jù)質(zhì)量評(píng)估確定基本內(nèi)容,提出從完整性、準(zhǔn)確性和一致性等維度進(jìn)行質(zhì)量評(píng)估。最后,以中國(guó)科學(xué)技術(shù)信息研究所內(nèi)部約410份科技報(bào)告資源為例,通過(guò)調(diào)查統(tǒng)計(jì)、評(píng)估分析其元數(shù)據(jù)質(zhì)量情況。
基層科研單位;科技報(bào)告資源;元數(shù)據(jù);元數(shù)據(jù)質(zhì)量;質(zhì)量評(píng)估
科技報(bào)告作為國(guó)家重要的戰(zhàn)略信息資源,其制度體系的建設(shè)和推進(jìn)可以為科研人員提供科研基礎(chǔ)信息,為社會(huì)公眾了解和利用國(guó)家科研成果提供服務(wù)平臺(tái),對(duì)于提成國(guó)家科技實(shí)力和創(chuàng)新能力具有重要的意義[1]。我國(guó)正在加快建立統(tǒng)一的國(guó)家科技報(bào)告制度[2],構(gòu)建完善的國(guó)家科技報(bào)告制度體系,各級(jí)科研管理部門(mén)積極開(kāi)展科技報(bào)告資源建設(shè)工作[3]。作為科技報(bào)告資源的生產(chǎn)源頭,基層科研單位在科技報(bào)告資源積累、科技報(bào)告質(zhì)量控制以及科技報(bào)告開(kāi)放共享服務(wù)等知識(shí)資產(chǎn)積累和傳承方面將承擔(dān)關(guān)鍵作用[4]。從目前的情況來(lái)看,由于科技報(bào)告類型眾多,來(lái)源廣泛,提交加工環(huán)節(jié)多樣等特點(diǎn),使得提交上來(lái)的科技報(bào)告不規(guī)范、資源質(zhì)量良莠不齊,大大地降低了科技報(bào)告的科技含量和應(yīng)用價(jià)值。因此,提高國(guó)家科技報(bào)告資源建設(shè)質(zhì)量,研究探討科技報(bào)告資源建設(shè)中的質(zhì)量問(wèn)題顯得十分重要,也是十分必要的。但是,如果僅僅從科技報(bào)告產(chǎn)生過(guò)程進(jìn)行質(zhì)量控制、監(jiān)督管理,則難以起到有效的質(zhì)量控制作用,加上科技報(bào)告自身還存在保密性、專業(yè)性等特點(diǎn),外部用戶并不能直接看到科技報(bào)告全文,更多地是通過(guò)元數(shù)據(jù)來(lái)間接獲取科技報(bào)告相關(guān)信息。由此可見(jiàn),元數(shù)據(jù)描述信息資源的外部和內(nèi)容特征,能夠幫助用戶發(fā)現(xiàn)、定位、獲取資源的關(guān)鍵內(nèi)容,在科技報(bào)告資源建設(shè)中發(fā)揮著重要作用。科技報(bào)告元數(shù)據(jù)質(zhì)量成為科技報(bào)告資源建設(shè)工作的關(guān)鍵問(wèn)題之一。通過(guò)元數(shù)據(jù)質(zhì)量評(píng)估是其中較為重要的、具有可操作性的有效方法。通過(guò)元數(shù)據(jù)質(zhì)量的評(píng)估、審核和改善將有效促進(jìn)科技報(bào)告元數(shù)據(jù)結(jié)構(gòu)的補(bǔ)充與完善、元數(shù)據(jù)內(nèi)容填寫(xiě)的規(guī)范。同時(shí),研究元數(shù)據(jù)質(zhì)量評(píng)估的方法對(duì)于元數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)的制定具有非常重要的意義。
目前,對(duì)于科技報(bào)告體系研究主要集中于政策法規(guī)、制度框架、管理模式、運(yùn)行機(jī)制、標(biāo)準(zhǔn)規(guī)范等宏觀層面[5-7]。而在不多的涉及部分科技報(bào)告元數(shù)據(jù)內(nèi)容的文獻(xiàn)中,大多文獻(xiàn)主要是針對(duì)科研機(jī)構(gòu)如何撰寫(xiě)、保存科技報(bào)告等方面的研究[4]。在實(shí)踐方面,盡管我國(guó)已頒布了《中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn):科技報(bào)告元數(shù)據(jù)規(guī)范》(GB/T 30535-2014),但也僅僅針對(duì)科技報(bào)告資源描述元數(shù)據(jù)制定的,尚缺乏基于科技報(bào)告生產(chǎn)全生命周期的元數(shù)據(jù)建設(shè)規(guī)范。總體來(lái)看,目前理論研究尚缺乏對(duì)科技報(bào)告資源元數(shù)據(jù)框架體系的完整的、系統(tǒng)的研究。為此,本文將以中國(guó)科學(xué)技術(shù)信息研究所(以下簡(jiǎn)稱“中信所”)內(nèi)部約410份科技報(bào)告資源為例,通過(guò)調(diào)查統(tǒng)計(jì)、評(píng)估分析其元數(shù)據(jù)質(zhì)量情況,有效改進(jìn)元數(shù)據(jù)填報(bào)質(zhì)量,提升科技報(bào)告建設(shè)管理水平,促進(jìn)科技報(bào)告資源質(zhì)量改善。
元數(shù)據(jù)是信息資源建設(shè)的基礎(chǔ)和關(guān)鍵,而元數(shù)據(jù)能否發(fā)揮重要作用取決于元數(shù)據(jù)質(zhì)量的好壞。國(guó)內(nèi)外對(duì)“元數(shù)據(jù)質(zhì)量”概念目前還沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義。美國(guó)學(xué)者Bruce和Hillman將“元數(shù)據(jù)質(zhì)量”定義為“元數(shù)據(jù)滿足某個(gè)特定需求和目標(biāo)的程度”。換言之,元數(shù)據(jù)的質(zhì)量與它能在多少程度上方便用戶發(fā)現(xiàn)、確認(rèn)、選擇和使用信息資源的功能密切相關(guān)[8]。
就元數(shù)據(jù)質(zhì)量評(píng)估而言,目前學(xué)術(shù)界的研究主要集中在以下幾個(gè)方面。
(1)元數(shù)據(jù)質(zhì)量評(píng)估方法:隨著開(kāi)放環(huán)境中數(shù)字資源的高速增長(zhǎng),過(guò)去那種由專家、編目專業(yè)人員等組成的團(tuán)隊(duì)對(duì)抽樣元數(shù)據(jù)質(zhì)量進(jìn)行手工評(píng)估方法[9]因其評(píng)估成本高、效率低、準(zhǔn)確性低而逐漸不被普遍使用。目前,多采用人工和自動(dòng)相結(jié)合的綜合方法來(lái)提高評(píng)估的可操作性和有效性,并積極探索使用一些軟件工具和方法對(duì)元數(shù)據(jù)的語(yǔ)法和結(jié)構(gòu)質(zhì)量進(jìn)行簡(jiǎn)單統(tǒng)計(jì)的自動(dòng)評(píng)估(如相關(guān)字段的必備性、語(yǔ)法錯(cuò)誤、鏈接是否可用等),如:國(guó)內(nèi)CALLS針對(duì)特色數(shù)據(jù)庫(kù)導(dǎo)入元數(shù)據(jù)的規(guī)范性和必備性設(shè)計(jì)的數(shù)據(jù)質(zhì)量檢查工具;檢查DC元數(shù)據(jù)記錄、協(xié)議、規(guī)則正確性的DC checker;地理空間數(shù)據(jù)庫(kù)元數(shù)據(jù)標(biāo)準(zhǔn)FGDC的質(zhì)量檢查工具CNS與MP等[10]。但自動(dòng)化評(píng)估目前主要是對(duì)諸如“完整性”這樣基本的、易于實(shí)現(xiàn)計(jì)量統(tǒng)計(jì)的維度進(jìn)行評(píng)估,評(píng)估實(shí)踐并沒(méi)有包含到元數(shù)據(jù)內(nèi)容質(zhì)量的主要影響因素,而往往只評(píng)估了影響元數(shù)據(jù)質(zhì)量的某些方面,尚無(wú)法實(shí)現(xiàn)全面評(píng)估[9]。
(2)元數(shù)據(jù)質(zhì)量評(píng)估維度的確定:元數(shù)據(jù)質(zhì)量是一個(gè)多維的問(wèn)題,不同評(píng)估人員、不同評(píng)估對(duì)象以及不同的評(píng)估、方法對(duì)元數(shù)據(jù)質(zhì)量維度的選擇都不一樣。需要根據(jù)評(píng)估目的、內(nèi)容、元數(shù)據(jù)資源情況、元數(shù)據(jù)獲取方式等進(jìn)行綜合考慮。比如:有的學(xué)者認(rèn)為[11]元數(shù)據(jù)質(zhì)量可以從資源集合、記錄與元素3個(gè)不同層次的正確性、完整性、重復(fù)性及一致性等指標(biāo)進(jìn)行考察。Bruce和Hillmann提出了7個(gè)元數(shù)據(jù)質(zhì)量特征:完整性、準(zhǔn)確性、來(lái)源、與預(yù)期的符合程度、一致性和連貫性、時(shí)效性和可獲得性[8]。
(3)元數(shù)據(jù)質(zhì)量評(píng)估模型:Moen等基于對(duì)GILS元數(shù)據(jù)的評(píng)估結(jié)果提出一個(gè)21個(gè)指標(biāo)的評(píng)估模型[12]。該模型評(píng)估從用戶、政策、技術(shù)、內(nèi)容和標(biāo)準(zhǔn)等5方面展開(kāi),多是評(píng)估元數(shù)據(jù)的完整性、外觀、準(zhǔn)確性和可服務(wù)性方面; Stvilia等借鑒信息質(zhì)量評(píng)估模型評(píng)估元數(shù)據(jù)質(zhì)量[12],指標(biāo)分別是內(nèi)在指標(biāo)(9個(gè))、相關(guān)指標(biāo)(12個(gè))和信譽(yù)指標(biāo)(1個(gè));黃鶯等提出一個(gè)以完整性、準(zhǔn)確性、一致性和期望滿足度等4個(gè)維度為核心的兩層結(jié)構(gòu)模型[9],核心層的維度是對(duì)元數(shù)據(jù)自身質(zhì)量的評(píng)估,其涵義不受元數(shù)據(jù)外部環(huán)境的影響,而外層維度為評(píng)估的可選維度,包括但不限于可獲取性、易用性、來(lái)源、安全性等評(píng)估維度,這些維度與元數(shù)據(jù)的外部屬性密切聯(lián)系。
由此可見(jiàn),國(guó)內(nèi)外對(duì)元數(shù)據(jù)質(zhì)量評(píng)估的關(guān)注尚處于探索階段,從不同角度出發(fā)提出的一些元數(shù)據(jù)質(zhì)量評(píng)估方法、體系難以在科技報(bào)告資源建設(shè)領(lǐng)域得到直接推廣應(yīng)用,尤其是對(duì)評(píng)估體系中各維度的具體量化操作、評(píng)估方法的應(yīng)用更是亟待深入研究和實(shí)驗(yàn)論證。
3.1科技報(bào)告元數(shù)據(jù)項(xiàng)基本構(gòu)成
元數(shù)據(jù)是對(duì)科技報(bào)告的外表特征和關(guān)鍵內(nèi)容的描述,是科技報(bào)告資源開(kāi)發(fā)、組織、利用和管理的基礎(chǔ)。
科技報(bào)告元數(shù)據(jù)主要用于對(duì)科技報(bào)告的文獻(xiàn)特征信息和項(xiàng)目來(lái)源基本信息進(jìn)行描述、組織和管理,包括提供科技報(bào)告的內(nèi)容、載體、位置與獲取方式、制作與利用方法以及項(xiàng)目等方面的信息,它支持科技報(bào)告基本信息在計(jì)算機(jī)信息系統(tǒng)中的存儲(chǔ)、管理、定位、調(diào)用等功能,幫助用戶檢索、識(shí)別和確認(rèn)所需要的科技報(bào)告。因此,元數(shù)據(jù)質(zhì)量直接影響到科技報(bào)告資源的共享和利用效率。
科技報(bào)告元數(shù)據(jù)大部分來(lái)自基層科研單位撰寫(xiě)的科技報(bào)告?;鶎涌蒲袉挝皇强萍紙?bào)告生成、提交、審查和管理的基礎(chǔ)單位,處于科技報(bào)告產(chǎn)生的前端。因此,在科技報(bào)告建設(shè)中不僅要求基層科研單位必須按照國(guó)家制定的統(tǒng)一模式撰寫(xiě)、編號(hào)和劃分密級(jí),以及按照國(guó)家標(biāo)準(zhǔn)管理和元數(shù)據(jù)集等標(biāo)準(zhǔn)規(guī)范為基礎(chǔ)進(jìn)行管理[3],確??萍紙?bào)告有規(guī)范、統(tǒng)一的元數(shù)據(jù)集,而且要求科技報(bào)告建設(shè)的過(guò)程質(zhì)量控制達(dá)到后端用戶服務(wù)的質(zhì)量要求。這需要在科技報(bào)告資源建設(shè)中抽取相應(yīng)的元數(shù)據(jù)項(xiàng)來(lái)反映上述質(zhì)量規(guī)范要求,顯示過(guò)程質(zhì)量在受控狀態(tài)。同時(shí),還要擴(kuò)展元數(shù)據(jù)項(xiàng)以滿足后期必要的信息檢索、數(shù)據(jù)挖掘、知識(shí)關(guān)聯(lián)等服務(wù)功能的需要。
上述這些工作的前提就是要保證所填寫(xiě)的元數(shù)據(jù)質(zhì)量是真實(shí)、準(zhǔn)確的。因此,除了要確定必要的元數(shù)據(jù)質(zhì)量?jī)?yōu)劣的判斷標(biāo)準(zhǔn)外,還需要有一套切實(shí)可行的質(zhì)量審核規(guī)范流程進(jìn)行元數(shù)據(jù)質(zhì)量評(píng)估。有專家建議充公利用管理系統(tǒng)的自動(dòng)化流程,比如:在科技報(bào)告工作系統(tǒng)添加相應(yīng)的自動(dòng)審核模塊,設(shè)置字段和屬性,根據(jù)《科技報(bào)告元數(shù)據(jù)規(guī)范》國(guó)家標(biāo)準(zhǔn)及相關(guān)科技報(bào)告質(zhì)量審核指標(biāo)對(duì)科技報(bào)告全文、元數(shù)據(jù)項(xiàng)進(jìn)行審核[3]。
在實(shí)際工作中,我國(guó)已制定了國(guó)家標(biāo)準(zhǔn)《中國(guó)科技報(bào)告元數(shù)據(jù)規(guī)范》,以及通用的《電子文件的管理元數(shù)據(jù)規(guī)范》,其中部分內(nèi)容涉及一些描述元數(shù)據(jù)的制定規(guī)范問(wèn)題,比如:在國(guó)家標(biāo)準(zhǔn)“中國(guó)科技報(bào)告元數(shù)據(jù)規(guī)范”中科技報(bào)告元數(shù)據(jù)集由13個(gè)元素、27個(gè)元素修飾詞、8個(gè)編碼體系修飾詞構(gòu)成,元數(shù)據(jù)集的元素按功能分類,一般可分為描述科技報(bào)告文獻(xiàn)特征的元數(shù)據(jù)、描述科技報(bào)告來(lái)源項(xiàng)目的元數(shù)據(jù)和用于科技報(bào)告管理保存的元數(shù)據(jù)。描述文獻(xiàn)特征的元數(shù)據(jù)包括題名、作者、報(bào)告類型、日期、摘要、分類號(hào)、關(guān)鍵詞等;描述項(xiàng)目信息的元數(shù)據(jù)包括計(jì)劃名稱、項(xiàng)目/課題名稱及編號(hào)、承擔(dān)單位等;管理元數(shù)據(jù)包括科技報(bào)告編號(hào)、密級(jí)、特別聲明、館藏號(hào)、收藏日期等[13],見(jiàn)表1所示。但這些元數(shù)據(jù)規(guī)范尚未細(xì)化到具體各個(gè)環(huán)節(jié)的元數(shù)據(jù)項(xiàng)要求。加上科技報(bào)告資源信息元數(shù)據(jù)的加工單位、保藏單位和應(yīng)用單位眾多,采用的元數(shù)據(jù)規(guī)范、資源分類、資源標(biāo)識(shí)等標(biāo)準(zhǔn)規(guī)范的不統(tǒng)一,且科技報(bào)告本身具有多樣性、異構(gòu)性和復(fù)雜性的特點(diǎn),使得元數(shù)據(jù)在質(zhì)量方面存在參差不齊的現(xiàn)象,從而加大了實(shí)現(xiàn)入庫(kù)的科技報(bào)告資源共享的難度,給科技報(bào)告資源整合、共享和服務(wù)帶來(lái)了一定困難。
目前,尚未有針對(duì)科技報(bào)告資源建立較系統(tǒng)、全面的元數(shù)據(jù)質(zhì)量評(píng)估體系,有些單位內(nèi)部建立的科技報(bào)告質(zhì)量評(píng)估體系多是基于本系統(tǒng)內(nèi)部管理考核用途,在核心元數(shù)據(jù)遴選、指標(biāo)設(shè)置、權(quán)重分配、考核方式等方面尚缺少有力的理論支持,有些僅僅通過(guò)專家打分進(jìn)行評(píng)估,缺少可量化的指標(biāo)體系。
總的來(lái)看,在科技報(bào)告資源建設(shè)過(guò)程中,元數(shù)據(jù)質(zhì)量除滿足一般元數(shù)據(jù)的質(zhì)量共性要求(如真實(shí)性、完整性、可靠性與可用性),至少滿足以下幾點(diǎn)質(zhì)量要求:一是元數(shù)據(jù)對(duì)數(shù)據(jù)對(duì)象描述的準(zhǔn)確性與完整性。要求元數(shù)據(jù)能夠?qū)萍紙?bào)告的來(lái)源、數(shù)據(jù)內(nèi)容、數(shù)據(jù)結(jié)構(gòu)、利用、管理及其處理過(guò)程等做出準(zhǔn)確、全面和詳盡的說(shuō)明。它關(guān)系到科技報(bào)告是否可以被準(zhǔn)確確定的程度。二是元數(shù)據(jù)對(duì)數(shù)字對(duì)象描述的準(zhǔn)確度,其描述的行為與真實(shí)值之間的差異。三是元數(shù)據(jù)描述數(shù)據(jù)對(duì)象的時(shí)間精度,可以通過(guò)元數(shù)據(jù)更新的時(shí)間和頻度來(lái)體現(xiàn)科技報(bào)告的時(shí)效性。
3.2科技報(bào)告資源建設(shè)中元數(shù)據(jù)質(zhì)量評(píng)估的基本內(nèi)容
作為一種特殊的灰色文獻(xiàn),科技報(bào)告要求能夠如實(shí)、完整、及時(shí)地描述科研的基本原理、方法、技術(shù)、工藝和過(guò)程等,以便科技工程人員之間、政府部門(mén)之間快速交流和共享最新的前沿技術(shù)和核心研究結(jié)果[5, 7]。
一般情況下,由于呈交科技報(bào)告的基層單位的規(guī)模、行業(yè)、領(lǐng)域不同,數(shù)據(jù)類型也較繁雜,因此,評(píng)估其科技報(bào)告的評(píng)估體系不盡相同。這需要每個(gè)基層科研單位結(jié)合自身情況建立適宜的元數(shù)據(jù)質(zhì)量評(píng)估體系和評(píng)估內(nèi)容。本文主要是評(píng)估體系基于科技報(bào)告資源建設(shè)中的幾個(gè)主要環(huán)節(jié)提出幾個(gè)評(píng)估要點(diǎn)。在實(shí)際應(yīng)用中,考慮到某些基層單位的具體情況,有必要在評(píng)估流程上進(jìn)一步增減一些環(huán)節(jié)或步驟,以使評(píng)估更有效率。但一些具有共性的基本評(píng)估內(nèi)容必不可少,包括以下幾個(gè)方面。
(1)評(píng)估對(duì)象及范圍。根據(jù)評(píng)估需求及評(píng)估目的,確定評(píng)估對(duì)象及其范圍,評(píng)估對(duì)象既可以是某一份科技報(bào)告也可以是基層單位整體科技報(bào)告資源。
(2)關(guān)鍵元數(shù)據(jù)項(xiàng)的遴選??蓮哪繕?biāo)科技報(bào)告資源數(shù)據(jù)庫(kù)的主要質(zhì)量特征進(jìn)行分析。目前,一般是通過(guò)科技報(bào)告元數(shù)據(jù)規(guī)范和標(biāo)準(zhǔn)來(lái)初步確認(rèn)一些關(guān)鍵元數(shù)據(jù)項(xiàng),也可以根據(jù)該科技報(bào)告資源數(shù)據(jù)庫(kù)常出現(xiàn)的質(zhì)量問(wèn)題建立相應(yīng)的元數(shù)據(jù)項(xiàng)作為質(zhì)量控制的關(guān)鍵要素。本文確定的幾個(gè)關(guān)鍵元數(shù)據(jù)項(xiàng)見(jiàn)表1所示。
(3)評(píng)估對(duì)象的關(guān)鍵質(zhì)量維度的確定。首先依據(jù)相關(guān)國(guó)家或國(guó)際標(biāo)準(zhǔn)來(lái)確定質(zhì)量維度。對(duì)無(wú)標(biāo)準(zhǔn)參考的數(shù)據(jù)資源的質(zhì)量維度的把握通??蓮馁|(zhì)量維度來(lái)統(tǒng)一定義、分類(包括形式、內(nèi)容、關(guān)聯(lián)環(huán)境)、從屬性(指標(biāo)沖突或上下關(guān)系等)和篩選(包括實(shí)際感知程度和理論重要程度兩方面)等方面進(jìn)行確定。
針對(duì)元數(shù)據(jù)質(zhì)量評(píng)估有很多質(zhì)量維度,基于各自的視角和方法不同所選取的質(zhì)量維度也不一樣。而且也注意到,過(guò)多的質(zhì)量維度的評(píng)價(jià)設(shè)置常常會(huì)因?yàn)橹笜?biāo)間存在相互沖突、評(píng)價(jià)成本等因素而使得評(píng)價(jià)結(jié)果差強(qiáng)人意。本文基于一些文獻(xiàn)內(nèi)容的梳理,多數(shù)研究集中在“準(zhǔn)確性”、“一致性”和 “完整性”等幾個(gè)最基本維度。J.R.Park等人分析了各種元數(shù)據(jù)質(zhì)量評(píng)估中經(jīng)常重合的一些標(biāo)準(zhǔn)和指標(biāo),發(fā)現(xiàn)準(zhǔn)確性、一致性和完整性是衡量元數(shù)據(jù)質(zhì)量時(shí)最常用的標(biāo)準(zhǔn)[14]。也是影響元數(shù)據(jù)質(zhì)量最重要的3個(gè)因素。為此,本文擬從完整性、準(zhǔn)確性、一致性等幾個(gè)質(zhì)量維度入手對(duì)目標(biāo)科技報(bào)告資源的元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估。
①完整性:它是衡量元數(shù)據(jù)全面、詳盡地描述其目標(biāo)資源的程度。它包括元數(shù)據(jù)項(xiàng)數(shù)目的完整性和填寫(xiě)內(nèi)容的完整性兩個(gè)方面。元數(shù)據(jù)項(xiàng)的完整性要求科技報(bào)告元數(shù)據(jù)項(xiàng)中必選、可選以及條件選擇等必須完整,并且符合相應(yīng)標(biāo)準(zhǔn)的要求,從而保證全面地描述整個(gè)科技報(bào)告。元數(shù)據(jù)項(xiàng)的完整性可以用元數(shù)據(jù)項(xiàng)中非空字段的多少來(lái)衡量。
②準(zhǔn)確性:準(zhǔn)確性衡量的是元數(shù)據(jù)提供的內(nèi)容正確、客觀地反映目標(biāo)資源的程度。準(zhǔn)確性衡量多采用定性方法,通過(guò)專業(yè)人員和專家審核判斷。內(nèi)容的準(zhǔn)確性要求元數(shù)據(jù)項(xiàng)內(nèi)容(如摘要、關(guān)鍵詞等說(shuō)明)必須準(zhǔn)確表達(dá)資源本身內(nèi)容,確保記錄真實(shí)可靠或者內(nèi)容有無(wú)實(shí)質(zhì)意義,必須完整記錄科技報(bào)告資源相關(guān)方面的信息。內(nèi)容的完整性多采用定性方法,通過(guò)負(fù)責(zé)科技報(bào)告質(zhì)量審核的專業(yè)人員和專家審核判斷。
③一致性:一致性主要考察的是元數(shù)據(jù)遵循元數(shù)據(jù)規(guī)范、應(yīng)用指南以及按照規(guī)范、應(yīng)用指南從受控詞表取值的情況。對(duì)一致性的量化是統(tǒng)計(jì)元數(shù)據(jù)記錄違背元數(shù)據(jù)規(guī)范和應(yīng)用指南的頻率。
(4)元數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)函數(shù)的確定。元數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)計(jì)算方法通常有加權(quán)平均法、最大最小運(yùn)算法、簡(jiǎn)單比率法等評(píng)估函數(shù)。由于本文評(píng)估指標(biāo)涉及定量和定性元素,故本次調(diào)查對(duì)每一評(píng)估指標(biāo)項(xiàng)統(tǒng)計(jì)采用的是百分制加分評(píng)估標(biāo)準(zhǔn)方法,對(duì)每一項(xiàng)指標(biāo)根據(jù)其內(nèi)容完善程度進(jìn)行加分評(píng)估。主要采用分項(xiàng)檢查指標(biāo)內(nèi)容有(或無(wú))情況以及元數(shù)據(jù)內(nèi)容與科技報(bào)告資源匹配度進(jìn)行數(shù)據(jù)調(diào)查收集。權(quán)重采用直接賦權(quán)法。
項(xiàng)目總分值采用加權(quán)平均計(jì)算得出,即:對(duì)各個(gè)指標(biāo)評(píng)分結(jié)果×權(quán)重的加總計(jì)算。
W=A1×λ1+A2×λ2+…+Aj×λj+…+An×λn,其中,Aj為各個(gè)評(píng)估指標(biāo)分值,λj為對(duì)應(yīng)的指標(biāo)權(quán)重。
各個(gè)評(píng)估指標(biāo)值的計(jì)算公式為:
即:(符合標(biāo)準(zhǔn)數(shù)量/調(diào)查總數(shù))×100,結(jié)果越大表明該指標(biāo)的質(zhì)量越好。其中,j為評(píng)估維度指標(biāo),如完整性、準(zhǔn)確性和一致性。i為元數(shù)據(jù)項(xiàng)
比如:在“完整性”公式計(jì)算中,若第i個(gè)字段為空,則P(i)為0,非空則為1。N為元數(shù)據(jù)大綱規(guī)定的字段項(xiàng)個(gè)數(shù)。
對(duì)“準(zhǔn)確性”進(jìn)行量化的最直接方法就是逐一對(duì)比判斷關(guān)鍵元數(shù)據(jù)項(xiàng)記錄內(nèi)容與科技報(bào)告資源本身內(nèi)容的準(zhǔn)確度,主要采取人工判斷方法,打分采取分級(jí)標(biāo)度法,可以是三級(jí)、五級(jí)或更細(xì)化內(nèi)容。本文主要采取“1—(1/2)—0”三級(jí)標(biāo)度法。其中:“1”表示兩者完全匹配;“1/2”表示二者基本匹配;“0”表示二者沒(méi)關(guān)聯(lián)性”。公式中若第i個(gè)字段描述錯(cuò)誤,則P(i)為0;若第i個(gè)字段描述不完全正確,則P(i)為1/2; 若第i個(gè)字段描述正確,則P(i)為1。
“一致性”進(jìn)行量化計(jì)算的方法主要是判斷各個(gè)元數(shù)據(jù)項(xiàng)是否遵循各項(xiàng)元數(shù)據(jù)質(zhì)量約束規(guī)范。公式中若第i個(gè)字段遵循第i條規(guī)則的N種情況,取值為1,則P(i)為1,否則為0。N為元數(shù)據(jù)大綱規(guī)定的字段規(guī)則數(shù)量。其中對(duì)第i個(gè)字段如果出現(xiàn)以下4種情況之一,則可判斷沒(méi)有遵循第i條規(guī)則:一是元數(shù)據(jù)中包含了指定元數(shù)據(jù)規(guī)范并沒(méi)有定義的字段;二是記錄里沒(méi)有元數(shù)據(jù)規(guī)范規(guī)定的必備字段;三是某些字段沒(méi)有從元數(shù)據(jù)規(guī)范規(guī)定的受控詞表中取值;四是不遵循元數(shù)據(jù)規(guī)范的應(yīng)用指南,將受控詞表中的多個(gè)值整合賦給某個(gè)或某些字段。分項(xiàng)檢查四類指標(biāo)有(或無(wú))情況進(jìn)行統(tǒng)計(jì)。
(5) 進(jìn)行評(píng)估分析,根據(jù)前面5步確定的質(zhì)量對(duì)象、質(zhì)量范圍、測(cè)度指標(biāo)及其評(píng)估方法進(jìn)行評(píng)估分析。
(6) 評(píng)估結(jié)果分析及報(bào)告,基于評(píng)估結(jié)果對(duì)目標(biāo)數(shù)據(jù)資源進(jìn)行評(píng)估、分級(jí)、質(zhì)量標(biāo)示,并將評(píng)估結(jié)果進(jìn)行分析,找出差距,進(jìn)行故障分析,并分析質(zhì)量較低的元數(shù)據(jù)項(xiàng)或關(guān)鍵環(huán)節(jié)、過(guò)程,進(jìn)行針對(duì)性的質(zhì)量改進(jìn)。
為了更清晰說(shuō)明科技報(bào)告資源元數(shù)據(jù)質(zhì)量評(píng)估的過(guò)程和結(jié)果,本文以中信所內(nèi)部約410份科技報(bào)告資源進(jìn)行調(diào)查評(píng)估,調(diào)查工作主要有兩個(gè)部分:一是對(duì)中信所內(nèi)部科技報(bào)告資源的元數(shù)據(jù)進(jìn)行歸類整理,確定關(guān)鍵元數(shù)據(jù)信息,其中,因每一份科技報(bào)告名稱、作者、作者單位都是每份必填,基本都能夠比較完整準(zhǔn)確,故本文次選擇了“關(guān)鍵詞”等19個(gè)元數(shù)據(jù)項(xiàng)進(jìn)行調(diào)查統(tǒng)計(jì)分析,見(jiàn)圖1所示;二是對(duì)關(guān)鍵元數(shù)據(jù)項(xiàng)的字段信息進(jìn)行調(diào)查、對(duì)410份中信所科技報(bào)告元數(shù)據(jù)按統(tǒng)計(jì)打分和測(cè)試打分,采用EXCEL、ACCESS和SPSS軟件進(jìn)行處理以及按均分法確定各個(gè)元數(shù)據(jù)項(xiàng)的權(quán)重,進(jìn)行總體質(zhì)量評(píng)估。
4.1綜合評(píng)估結(jié)果分析
從統(tǒng)計(jì)分析結(jié)果(圖1)總體看,410份中信所科技報(bào)告在元數(shù)據(jù)規(guī)范方面做得較好,在一些必填字段項(xiàng)填寫(xiě)中都能很好完整填寫(xiě)內(nèi)容。存在的主要問(wèn)題是:首先對(duì)一些可選項(xiàng)(如“備注”“合作單位”等)沒(méi)有填寫(xiě)內(nèi)容的沒(méi)有添加“無(wú)”,出現(xiàn)字段項(xiàng)空值情況。其次對(duì)一些元數(shù)據(jù)項(xiàng)的填寫(xiě)格式規(guī)范不熟悉,出現(xiàn)不規(guī)范填寫(xiě)情況,造成準(zhǔn)確性、一致性較差。如“起止時(shí)間”要求填寫(xiě)“年-月-日”,而很多報(bào)告中只是出現(xiàn)“年-月”,缺少具體日期;再次對(duì)一些元數(shù)據(jù)項(xiàng)出現(xiàn)缺失情況,如有些科技報(bào)告類型正文中缺少“目錄”“參考文獻(xiàn)”內(nèi)容,或沒(méi)有標(biāo)注“無(wú)”。
從“完整性”來(lái)看,大部分科技報(bào)告都完成對(duì)必選元素的填寫(xiě),只是對(duì)一些可選元素的填寫(xiě)因沒(méi)有注明“無(wú)”而造成該字段項(xiàng)為空值顯示。
從“準(zhǔn)確性”來(lái)看,多數(shù)字段項(xiàng)基本做到了對(duì)目標(biāo)資源本身內(nèi)容的正確描述。僅有個(gè)別項(xiàng)(如“主管部門(mén)”“起止時(shí)間”“支持渠道”等)因填寫(xiě)者對(duì)該字段項(xiàng)的理解不同,出現(xiàn)填寫(xiě)內(nèi)容不準(zhǔn)確或錯(cuò)誤描述的情況。
從“一致性”來(lái)看,主要是個(gè)別項(xiàng)(如“主管部門(mén)”“起止時(shí)間”“支持渠道”等)出現(xiàn)和規(guī)范填寫(xiě)不一致的情況。
圖1 410份科技報(bào)告元數(shù)據(jù)質(zhì)量總體評(píng)估
圖2 中信所科技報(bào)告類型統(tǒng)計(jì)的“完整性”評(píng)估
4.2按科技報(bào)告類型統(tǒng)計(jì)的評(píng)估結(jié)果
科技報(bào)告類型主要有立項(xiàng)摘要報(bào)告、技術(shù)進(jìn)展報(bào)告、專題技術(shù)報(bào)告、最終技術(shù)報(bào)告和驗(yàn)收摘要報(bào)告等。按科技報(bào)告類型對(duì)完整性、準(zhǔn)確性、一致性的評(píng)估,結(jié)果分別如圖2、圖3、圖4所示。
(1)“完整性”
不同類型科技報(bào)告?zhèn)戎卦诓煌獢?shù)據(jù)項(xiàng),例如:“立項(xiàng)摘要報(bào)告”“驗(yàn)收摘要報(bào)告”普遍在正文中缺少“目錄”“參考文獻(xiàn)”項(xiàng)內(nèi)容,多只是文字說(shuō)明;又如在“技術(shù)進(jìn)展報(bào)告”和“最終技術(shù)報(bào)告”對(duì)參與者貢獻(xiàn)(“責(zé)任者順序”)表述也不一致。因此,從完整性來(lái)看,主要在“目錄”、“參考文獻(xiàn)”和“責(zé)任者順序”等方面差別較大。這和報(bào)告類型的要求要素不同有關(guān)。
(2) “準(zhǔn)確性”
從“準(zhǔn)確性”來(lái)看,差別主要是在“目錄”“參考文獻(xiàn)”和“責(zé)任者順序”這3項(xiàng)。一般,“最終技術(shù)報(bào)告”“專題技術(shù)報(bào)告”在這方面的得分較高,也是最全面、最規(guī)范的。而“技術(shù)進(jìn)展報(bào)告”則相對(duì)簡(jiǎn)化,多是對(duì)項(xiàng)目工作進(jìn)展的匯報(bào)說(shuō)明。
圖3 中信所科技報(bào)告類型統(tǒng)計(jì)的“準(zhǔn)確性”評(píng)估
圖4 中信所科技報(bào)告類型統(tǒng)計(jì)的“一致性”評(píng)估
(3)“一致性”
從“一致性”來(lái)看,除了以上3項(xiàng)差別大外,在“起止時(shí)間”的表述規(guī)范性不夠。一般,在“立項(xiàng)摘要報(bào)告”中只是大概說(shuō)明了“年-月”時(shí)間段,而在“最終技術(shù)報(bào)告”“驗(yàn)收摘要報(bào)告”中則能填寫(xiě)較全的“年-月-日”。
(4)按科技報(bào)告類型統(tǒng)計(jì)的評(píng)估結(jié)果
從評(píng)估統(tǒng)計(jì)結(jié)果來(lái)看,“最終技術(shù)報(bào)告”的科技報(bào)告資源元數(shù)據(jù)質(zhì)量總體較高。大部分字段項(xiàng)指標(biāo)得分較高,在3個(gè)質(zhì)量維度的得分較均衡。出現(xiàn)的一些低分值多一是因?yàn)槲刺睢盁o(wú)”造成評(píng)估值按照零分統(tǒng)計(jì);二是因?yàn)樵凇傲㈨?xiàng)摘要報(bào)告”正文中缺少“目錄”“參考文獻(xiàn)”項(xiàng)內(nèi)容,致使這兩項(xiàng)為空值。由于“立項(xiàng)摘要報(bào)告”是在項(xiàng)目剛開(kāi)始時(shí)提交的科技報(bào)告,很多研究項(xiàng)目的具體研究?jī)?nèi)容尚未展開(kāi),故在一些元數(shù)據(jù)項(xiàng)填寫(xiě)內(nèi)容描述的準(zhǔn)確性較低,比如在“摘要”內(nèi)容表述和正文研究上有一定的差別;“技術(shù)進(jìn)展報(bào)告”正文內(nèi)容在很大程度上僅是研究工作進(jìn)展匯報(bào),因此,在“目錄”“參考文獻(xiàn)”項(xiàng)內(nèi)容較簡(jiǎn)單,使得這兩項(xiàng)的“準(zhǔn)確性”“一致性”得分較低。另外,大部分“專題技術(shù)報(bào)告”普遍在正文內(nèi)容上較完整、齊全,在表述正文內(nèi)容的字段項(xiàng)(如“關(guān)鍵詞”“摘要”“目錄”“參考文獻(xiàn)”等)得分較高;大部分“驗(yàn)收摘要報(bào)告”的正文內(nèi)容較簡(jiǎn)單,沒(méi)有“目錄”“參考文獻(xiàn)”內(nèi)容。另外,在“主管部門(mén)”“支持渠道”等項(xiàng)填寫(xiě)不規(guī)范,“一致性”得分較低。
4.3案例評(píng)估結(jié)論分析
經(jīng)過(guò)對(duì)410份中信所科技報(bào)告的統(tǒng)計(jì)評(píng)估分析,可以看到,這些科技報(bào)告的質(zhì)量總體較高。究其原因主要是嚴(yán)格執(zhí)行了中信所內(nèi)部制定的科技報(bào)告管理流程和規(guī)范,從而保證了資源質(zhì)量。從結(jié)果分析來(lái)看,元數(shù)據(jù)質(zhì)量評(píng)估方法具有一定的可操作性,在一定程度上可以幫助發(fā)現(xiàn)在科技報(bào)告資源建設(shè)中存在的一些規(guī)范性、專業(yè)性的質(zhì)量問(wèn)題。通過(guò)各項(xiàng)統(tǒng)計(jì)分析,可以看到尚有以下幾點(diǎn)質(zhì)量問(wèn)題。
一是對(duì)一些非填寫(xiě)內(nèi)容要求的元數(shù)據(jù)項(xiàng)不重視,沒(méi)填入“無(wú)”等,而造成字段項(xiàng)內(nèi)容空項(xiàng),得分為零,從而影響整體評(píng)估結(jié)果。
二是對(duì)一些諸如“支持渠道”“主管部門(mén)”等項(xiàng)填寫(xiě)缺乏統(tǒng)一、規(guī)范的約束規(guī)則,造成對(duì)這些字段項(xiàng)的認(rèn)識(shí)、填寫(xiě)不一致,出現(xiàn)用各種簡(jiǎn)稱代替填寫(xiě)等情況。
三是對(duì)一些報(bào)告類型的正文內(nèi)容缺少具體、明確的格式要求,使得一些報(bào)告的內(nèi)容過(guò)于簡(jiǎn)單,缺乏必要的字段項(xiàng)內(nèi)容,達(dá)不到必要的技術(shù)內(nèi)容質(zhì)量要求。
基于以上分析,提出如下建議。
(1)進(jìn)一步完善和改進(jìn)中信所的科技報(bào)告管理平臺(tái)系統(tǒng)的各類功能,避免一些資源質(zhì)量形式上的錯(cuò)誤發(fā)生。比如:對(duì)一些可選項(xiàng)的要素(如“備注”“報(bào)告密級(jí)”“合作單位”等)可添加“有/無(wú)”選項(xiàng)。沒(méi)內(nèi)容時(shí)選“無(wú)”,避免出現(xiàn)字段項(xiàng)空值而造成統(tǒng)計(jì)偏差。
(2)加強(qiáng)對(duì)科技報(bào)告撰寫(xiě)人、報(bào)告提交人(如學(xué)術(shù)秘書(shū)等)、部門(mén)審核者等關(guān)鍵管理崗位人員相關(guān)質(zhì)量規(guī)范的培訓(xùn),以便統(tǒng)一和規(guī)范科技報(bào)告元數(shù)據(jù)項(xiàng)的填寫(xiě)內(nèi)容。
(3)改進(jìn)科技報(bào)告資源管理流程,細(xì)化各種質(zhì)量規(guī)范和約束規(guī)則,既要從軟件檢驗(yàn)工具入手加強(qiáng)科技報(bào)告資源的形式質(zhì)量,還要指派專人從內(nèi)容審核入手加強(qiáng)對(duì)內(nèi)容的質(zhì)量控制,提高科技報(bào)告的“含金量”。
(4)制定和細(xì)化科技報(bào)告資源的質(zhì)量評(píng)估細(xì)則,可通過(guò)科技報(bào)告分類來(lái)建立不同權(quán)重的評(píng)估指標(biāo)體系,細(xì)化評(píng)分標(biāo)準(zhǔn),使評(píng)估具有可量化、可操作性。
本文以中信所內(nèi)部科技報(bào)告資源的元數(shù)據(jù)項(xiàng)進(jìn)行案例分析,嘗試探索元數(shù)據(jù)質(zhì)量評(píng)估方法在科技報(bào)告資源建設(shè)過(guò)程中可行性。從結(jié)果分析來(lái)看,這一方法在一定程度上可以幫助發(fā)現(xiàn)在科技報(bào)告資源建設(shè)中存在的一些規(guī)范性、專業(yè)性的質(zhì)量問(wèn)題,以便改正,從而提高科技報(bào)告資源質(zhì)量。
但是,由于缺乏明確的元數(shù)據(jù)質(zhì)量規(guī)范標(biāo)準(zhǔn),本次研究尚有一些不足。本文只是就現(xiàn)有科技報(bào)告資源中的描述性元數(shù)據(jù)項(xiàng)進(jìn)行統(tǒng)計(jì)分析,尚沒(méi)有收集、整理科技報(bào)告產(chǎn)生過(guò)程的各個(gè)環(huán)節(jié)的管理元數(shù)據(jù)項(xiàng)內(nèi)容數(shù)據(jù),故無(wú)法就過(guò)程環(huán)節(jié)中質(zhì)量問(wèn)題進(jìn)行統(tǒng)計(jì)分析。另外,關(guān)鍵元數(shù)據(jù)項(xiàng)在評(píng)估質(zhì)量維度中的權(quán)重分配,應(yīng)首先通過(guò)用戶和專家調(diào)查法來(lái)調(diào)查分析確定,但由于眾多用戶和專家對(duì)科技報(bào)告資源關(guān)鍵元數(shù)據(jù)項(xiàng)的認(rèn)識(shí)不一致,也缺乏相關(guān)國(guó)家標(biāo)準(zhǔn)參考,故本次調(diào)查數(shù)據(jù)處理暫對(duì)各個(gè)元數(shù)據(jù)項(xiàng)權(quán)重采取均分做法,這需要在后續(xù)研究中結(jié)合科技報(bào)告產(chǎn)生全過(guò)程確定科技報(bào)告項(xiàng)目中關(guān)鍵元數(shù)據(jù)項(xiàng),以確定不同元數(shù)據(jù)項(xiàng)對(duì)不同質(zhì)量維度的質(zhì)量影響程度不同。
[1] 張新民.國(guó)家科技報(bào)告服務(wù)系統(tǒng)構(gòu)建中相關(guān)問(wèn)題的探討[J].中國(guó)科技資源導(dǎo)刊,2014,46(1):9-13,27.
[2] 中央政府門(mén)戶網(wǎng)站.關(guān)于深化科技體制改革加快國(guó)家創(chuàng)新體系建設(shè)的意見(jiàn) [EB/OL].(2012-09-23)[2015-3-15]. http://www.gov.cn/jrzg/2012-09/23/ content_2231494.htm.
[3] 中國(guó)政府網(wǎng).關(guān)于加快建立國(guó)家科技報(bào)告制度指導(dǎo)意見(jiàn)的通知[EB/OL]. (2014-08-31)[2015-3-15].http:// www.gov.cn/zhengce/content/2014-09/10/content_9071. htm.
[4] 曾建勛. 基層科技報(bào)告體系建設(shè)研究[J].情報(bào)學(xué)報(bào),2014(8):800-806.
[5] 曾建勛.科技報(bào)告技術(shù)標(biāo)準(zhǔn)體系研究[J].情報(bào)學(xué)報(bào),2013,32(5):459-465.
[6] 賀德方,胡紅亮,周杰,等.中國(guó)科技報(bào)告體系的建設(shè)模式研究[J].情報(bào)學(xué)報(bào),2009,28(6):803-808.
[7] THOMAS R BRUCE, DIANE I Hillman. The continuum of metadata quality: Defining, expressing,exploiting[M]//Diane I Hi1lmann. Elaine L Weatbrooks. Metadata in Practice. Chicago:American Library As SOCiation, 2004:238-256.
[8] 黃鶯,李建陽(yáng).元數(shù)據(jù)質(zhì)量評(píng)估方法及模型研究[J].圖書(shū)館學(xué)研究,2013(12):52-56.
[9] 曹月珍,馬建玲.國(guó)內(nèi)外元數(shù)據(jù)質(zhì)量控制的研究進(jìn)展與發(fā)展趨勢(shì)[J].圖書(shū)與情報(bào),2013(6):101-103.
[10] QIN Jian, MARCIA Lei Zeng. Metadata[M]. New York:NealSehuman Publisher,Inc,2004:247-249.
[11] 黃鶯,李建陽(yáng),元數(shù)據(jù)質(zhì)量評(píng)估研究現(xiàn)狀剖析[J].中國(guó)電子商務(wù), 2013(4):164-165.
[12] GB/T 30535-2014科技報(bào)告元數(shù)據(jù)規(guī)范[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2014.
[13] TOSAKA Yuji, PARK Jungran. Metadata quality control in digital repositories and collections: Criteria,semantics, and mechanisms[J]. Cataloging & Classification Quarterly,2010(48):696-715.
Metadata Quality Assessment of the Scientific and Technical Report Resource in Basic Research Units: Taking ISTIC as an Example
SONG Lirong
(Institute of Scientific and Technical Information of China, Beijing 100038)
At present, China is working to promote the construction of national scientific and technical reports. In this process, the basic research units, as the source of scientific and technological report resources, play a very important role to ensure the quality of scientific and technical reports. This paper, analyzes the metadata elements of scientific and technological reports, and the basic content of metadata quality assessment from the aspects of completeness, accuracy and consistency. At last, the paper takes about 410 internal scientific and technical report resources of ISTIC as an example, surveys, statistics and evaluation of the metadata quality of these information resources, and hope that this method can facilitate the quality control of scientific and technical reports, evaluate and improve the quality management of basic research units.
basic research units, scientific and technical report resource, metadata, metadata quality, quality assessment
G203
A
10.3772/j.issn.1674-1544.2016.01.011
宋立榮(1971—),男,中國(guó)科學(xué)技術(shù)信息研究所研究員,博士,研究方向:科技信息共享、信息質(zhì)量。
國(guó)家軟科學(xué)項(xiàng)目“國(guó)家科技報(bào)告資源建設(shè)中關(guān)鍵質(zhì)量影響因素及其測(cè)評(píng)體系研究”(2014GXS4K052);國(guó)家社科基金“網(wǎng)絡(luò)環(huán)境下科技信息資源建設(shè)中的質(zhì)量元數(shù)據(jù)及評(píng)估應(yīng)用研究”(12BTQ016)。
2015年12月22日。