亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        NSTL聯(lián)合目錄書(shū)目數(shù)據(jù)質(zhì)量控制體系建設(shè)*

        2021-11-03 07:45:14徐晶晶葛紅梅
        數(shù)字圖書(shū)館論壇 2021年9期
        關(guān)鍵詞:規(guī)則資源系統(tǒng)

        徐晶晶 葛紅梅

        (中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100005)

        聯(lián)合目錄能夠一站式揭示、報(bào)道多個(gè)文獻(xiàn)收藏機(jī)構(gòu)所藏文獻(xiàn)情況,通常由若干文獻(xiàn)收藏機(jī)構(gòu)共同遵循統(tǒng)一著錄原則和標(biāo)準(zhǔn)合作編制而成[1]。目前國(guó)內(nèi)具有代表性的聯(lián)合目錄有全國(guó)圖書(shū)館聯(lián)合編目中心(Online Library Cataloging Center,OLCC)的全國(guó)圖書(shū)館聯(lián)合館藏目錄和中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(China Academic Library & Information System,CALIS)的CALIS聯(lián)合目錄公共檢索系統(tǒng),其合作模式為聯(lián)機(jī)編目,使用標(biāo)準(zhǔn)機(jī)讀目錄格式,按照相關(guān)文獻(xiàn)著錄標(biāo)準(zhǔn)和標(biāo)引詞表進(jìn)行,但是由于參與單位眾多,參與人員水平參差不齊,使用標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)監(jiān)控管理措施不夠嚴(yán)格等原因,導(dǎo)致存在重復(fù)數(shù)據(jù)、簡(jiǎn)單記錄數(shù)據(jù)多、著錄格式不統(tǒng)一、缺少必備字段等問(wèn)題[2-3]。

        NSTL聯(lián)合目錄是在計(jì)算機(jī)和網(wǎng)絡(luò)環(huán)境下,國(guó)家科技圖書(shū)文獻(xiàn)中心(National Science and Technology Library,NSTL)9家成員館遵循一套資源描述規(guī)則、書(shū)目交互協(xié)議,按學(xué)科分工合作,建立的具有統(tǒng)一標(biāo)準(zhǔn)的科技文獻(xiàn)資源聯(lián)合目錄數(shù)據(jù)庫(kù)[4]。NSTL聯(lián)合目錄收錄各成員館訂購(gòu)或采集的各類科技文獻(xiàn)資源。具體而言,文獻(xiàn)類型包括期刊、會(huì)議錄、科技叢書(shū)、文集匯編、科技報(bào)告、工具書(shū)、科技專著7種類型;載體類型分為印刷版、電子版;媒介類型包括光盤(pán)、網(wǎng)絡(luò)及其他如Email、USB等形式;采集類型有NSTL經(jīng)費(fèi)支持的印本資源、以印本方式訂購(gòu)的單品種電子資源、開(kāi)放獲取資源、全國(guó)開(kāi)通回溯數(shù)據(jù)庫(kù)資源、全國(guó)開(kāi)通現(xiàn)刊數(shù)據(jù)庫(kù)資源、成員館捆綁訂購(gòu)的數(shù)據(jù)庫(kù)資源、以書(shū)評(píng)方式贈(zèng)閱的文獻(xiàn)資源、本地自有經(jīng)費(fèi)采集的資源。截至2021年6月30日,已累積392 123條書(shū)目數(shù)據(jù)及2 523 722條期刊單冊(cè)數(shù)據(jù)(簽到數(shù)據(jù))。

        NSTL聯(lián)合目錄系統(tǒng)是NSTL多個(gè)數(shù)字業(yè)務(wù)系統(tǒng)的集成連接樞紐和唯一輸出源頭;NSTL聯(lián)合目錄建設(shè)是NSTL文獻(xiàn)信息資源揭示服務(wù)的重要基礎(chǔ)性工作;NSTL聯(lián)合目錄是NSTL經(jīng)費(fèi)支持的訂購(gòu)和采集資源的實(shí)際清單,發(fā)揮著至關(guān)重要的作用,下游各種文獻(xiàn)信息服務(wù)和更細(xì)顆粒的加工揭示工作都以此為依據(jù)。因此,NSTL聯(lián)合目錄數(shù)據(jù)質(zhì)量控制尤為重要,有著牽一發(fā)而動(dòng)全身的影響。

        1 NSTL聯(lián)合目錄書(shū)目數(shù)據(jù)質(zhì)量控制體系

        NSTL聯(lián)合目錄采用自主研發(fā)的系統(tǒng),根據(jù)NSTL圖書(shū)文獻(xiàn)資源管理的需求,進(jìn)行定制開(kāi)發(fā),自2012年上線以來(lái)在實(shí)際應(yīng)用中不斷升級(jí)改進(jìn),完善系統(tǒng)功能,經(jīng)過(guò)多年探索和實(shí)踐,逐漸形成一套利用規(guī)則、系統(tǒng)和人員相互作用、互相制約的相對(duì)完善可靠具有可行性的書(shū)目數(shù)據(jù)質(zhì)量控制方案。

        書(shū)目質(zhì)量控制是“建立、組織、管理和維護(hù)特定書(shū)目記錄文檔的所有活動(dòng)”[5]。具體到NSTL聯(lián)合目錄,書(shū)目數(shù)據(jù)質(zhì)量控制的重點(diǎn)主要有兩個(gè)層面。

        一是單條書(shū)目數(shù)據(jù)的質(zhì)量,包括字段的豐富和完備性以及著錄內(nèi)容的準(zhǔn)確性,錯(cuò)誤的(特別是題名、標(biāo)準(zhǔn)號(hào)和責(zé)任者著錄錯(cuò)誤的)、不規(guī)范的書(shū)目數(shù)據(jù)會(huì)影響讀者查找文獻(xiàn)的查全率和查準(zhǔn)率,從而降低該資源的利用率,同時(shí)錯(cuò)誤或不完善數(shù)據(jù)的修改維護(hù)會(huì)牽涉到下游多個(gè)系統(tǒng)的數(shù)據(jù)同步更新。

        二是整個(gè)書(shū)目數(shù)據(jù)庫(kù)的質(zhì)量,主要指數(shù)據(jù)是否重復(fù),重復(fù)數(shù)據(jù)除了在服務(wù)上給讀者甄別、選擇帶來(lái)困惑和不便外,同時(shí)也會(huì)給下游以篇為單位的文摘引文加工系統(tǒng)、全文存儲(chǔ)系統(tǒng)和開(kāi)放資源采集系統(tǒng)帶來(lái)大量重復(fù)勞動(dòng)。

        為了提升數(shù)據(jù)質(zhì)量,NSTL聯(lián)合目錄運(yùn)行維護(hù)項(xiàng)目組反復(fù)審視書(shū)目數(shù)據(jù)的生命周期,提取各流程環(huán)節(jié)涉及的關(guān)鍵因素,形成規(guī)則、系統(tǒng)、人員“三位一體”的質(zhì)量控制體系(見(jiàn)圖1)。通過(guò)嚴(yán)格周密的規(guī)則制定,明確需要的數(shù)據(jù);通過(guò)系統(tǒng)對(duì)明顯不符合規(guī)則的數(shù)據(jù)進(jìn)行攔截;通過(guò)人員對(duì)規(guī)則體系、系統(tǒng)功能進(jìn)行維護(hù),盡可能利用系統(tǒng)和規(guī)則控制數(shù)據(jù)質(zhì)量。具體而言,通過(guò)制定和選用相關(guān)編目規(guī)則、元數(shù)據(jù)規(guī)范、控制詞表、校驗(yàn)規(guī)則、查重規(guī)則及其他補(bǔ)充規(guī)則,在成員館本地自動(dòng)化系統(tǒng)、NSTL聯(lián)合目錄預(yù)處理工具和NSTL聯(lián)合目錄中心書(shū)目數(shù)據(jù)庫(kù)(下文簡(jiǎn)稱“聯(lián)目中心庫(kù)”)三級(jí)系統(tǒng)的輔助下,本地編目員、中心質(zhì)檢員和系統(tǒng)管理員三級(jí)人員對(duì)數(shù)據(jù)從編目源頭到入庫(kù)后的各環(huán)節(jié)進(jìn)行監(jiān)控,最終通過(guò)“規(guī)則制定→編目人員培訓(xùn)&實(shí)踐→系統(tǒng)自動(dòng)校驗(yàn)→系統(tǒng)自動(dòng)查重→人工質(zhì)檢→數(shù)據(jù)定期清洗”6個(gè)關(guān)鍵環(huán)節(jié),對(duì)書(shū)目數(shù)據(jù)質(zhì)量進(jìn)行有效控制。

        圖1 NSTL聯(lián)合目錄書(shū)目數(shù)據(jù)控制體系

        2 書(shū)目數(shù)據(jù)質(zhì)量控制規(guī)則

        NSTL聯(lián)合目錄書(shū)目數(shù)據(jù)質(zhì)量控制規(guī)則體系包括管理政策和操作手冊(cè)、編目元數(shù)據(jù)標(biāo)準(zhǔn)以及機(jī)器處理規(guī)則三部分(見(jiàn)表1)。管理政策和操作手冊(cè)包括對(duì)中心編目工作的規(guī)范要求如《國(guó)家科技圖書(shū)文獻(xiàn)中心聯(lián)合目錄系統(tǒng)管理實(shí)施辦法》《NSTL文獻(xiàn)資源界定和分類劃定規(guī)則》,相關(guān)系統(tǒng)的操作手冊(cè)如《國(guó)家科技圖書(shū)文獻(xiàn)中心聯(lián)合目錄系統(tǒng)使用手冊(cè)》《國(guó)家科技圖書(shū)文獻(xiàn)中心預(yù)處理工具用戶使用手冊(cè)》等,保證NSTL編目工作操作規(guī)范性和對(duì)相關(guān)概念理解的一致性。

        表1 NSTL聯(lián)合目錄書(shū)目數(shù)據(jù)質(zhì)量控制規(guī)則體系

        編目元數(shù)據(jù)標(biāo)準(zhǔn)是書(shū)目數(shù)據(jù)質(zhì)量控制規(guī)則體系的核心,可分為4類,即數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)、數(shù)據(jù)取值標(biāo)準(zhǔn)和數(shù)據(jù)交換標(biāo)準(zhǔn)。MARC屬于結(jié)構(gòu)標(biāo)準(zhǔn),編目規(guī)則屬于內(nèi)容標(biāo)準(zhǔn),分類法、主題詞表、名稱規(guī)范檔等屬于取值標(biāo)準(zhǔn),2709格式或XML等屬于交互標(biāo)準(zhǔn)[6]。NSTL聯(lián)合目錄的9家成員單位在本地著錄時(shí)使用CNMARC或MARC21格式,按照相關(guān)編目規(guī)則、取值標(biāo)準(zhǔn)(控制詞表)建立本地書(shū)目數(shù)據(jù),然后上傳、轉(zhuǎn)換和審核后,生成XML格式的NSTL聯(lián)合目錄元數(shù)據(jù)。

        從本地MARC數(shù)據(jù)到NSTL聯(lián)合目錄元數(shù)據(jù)的過(guò)程中,需要利用機(jī)器處理規(guī)則包括轉(zhuǎn)換規(guī)則、校驗(yàn)規(guī)則和查重規(guī)則,對(duì)書(shū)目質(zhì)量進(jìn)行控制。轉(zhuǎn)換規(guī)則即MARC數(shù)據(jù)與NSTL聯(lián)合目錄元數(shù)據(jù)的映射關(guān)系,本地書(shū)目通過(guò)預(yù)處理工具上傳到NSTL聯(lián)合目錄主系統(tǒng),在上傳過(guò)程中,根據(jù)轉(zhuǎn)換規(guī)則將本地MARC數(shù)據(jù)轉(zhuǎn)換為NSTL聯(lián)合目錄元數(shù)據(jù),并利用校驗(yàn)規(guī)則對(duì)轉(zhuǎn)換后的聯(lián)目元數(shù)據(jù)進(jìn)行校驗(yàn),對(duì)不符合校驗(yàn)規(guī)則的數(shù)據(jù)進(jìn)行回退并返回意見(jiàn)。校驗(yàn)規(guī)則對(duì)元素的格式、取值范圍、必備性和可重復(fù)性等進(jìn)行約束。查重規(guī)則是數(shù)據(jù)進(jìn)入聯(lián)合目錄主程序后,與聯(lián)合目錄已有書(shū)目數(shù)據(jù)進(jìn)行查重時(shí)遵循的規(guī)則,將在下文系統(tǒng)控制部分詳細(xì)闡述查重邏輯。

        2.1 NSTL編目手冊(cè)

        2004年NSTL聯(lián)機(jī)聯(lián)合編目指導(dǎo)委員會(huì)成立了標(biāo)準(zhǔn)規(guī)范研制課題組,對(duì)國(guó)際國(guó)內(nèi)各類文獻(xiàn)描述規(guī)則進(jìn)行研究、分析并結(jié)合國(guó)內(nèi)實(shí)際情況進(jìn)行本地化改造,在參考《西文文獻(xiàn)著錄條例(修訂擴(kuò)大版)》[7]、《新版中國(guó)機(jī)讀目錄格式使用手冊(cè)》[8]的基礎(chǔ)上,制定NSTL聯(lián)機(jī)聯(lián)合編目系統(tǒng)數(shù)據(jù)制作的標(biāo)準(zhǔn)編目手冊(cè)。該編目手冊(cè)自2004年發(fā)布實(shí)施以來(lái),根據(jù)NSTL文獻(xiàn)采集政策和精細(xì)化管理的要求,歷經(jīng)2007年、2013年、2016年、2020年4次主要修訂,目前為2020年發(fā)布的第五版。2020年版編目手冊(cè)分為《NSTL連續(xù)出版物編目手冊(cè)》和《NSTL圖書(shū)文獻(xiàn)編目手冊(cè)》兩個(gè)分冊(cè),在充分揭示各類資源在文獻(xiàn)類型、媒介類型、獲取方式、權(quán)益等特征的基礎(chǔ)上,按照統(tǒng)一體例說(shuō)明各類型期刊和圖書(shū)文獻(xiàn)的編目規(guī)則,包括著錄用語(yǔ)言和文字,著錄信息源、字段和子字段的必備性和可重復(fù)性(利用字段簡(jiǎn)表對(duì)不同類型資源的著錄項(xiàng)目的必備性和可重復(fù)性分別規(guī)定)、著錄內(nèi)容、著錄格式等規(guī)則,并輔以實(shí)例說(shuō)明,可以用以描述NSTL收錄的各類型中西文資源。目前各成員單位根據(jù)2020年版NSTL編目手冊(cè),使用MARC格式和圖書(shū)館自動(dòng)化系統(tǒng)進(jìn)行本地資源編目,并且通過(guò)定期培訓(xùn)、線上指導(dǎo)等方式加強(qiáng)編目員對(duì)編目規(guī)則的理解的一致性。

        除了基本的編目手冊(cè)之外,輔以《NSTL期刊編目和簽到工作規(guī)則》對(duì)簽到數(shù)據(jù)的規(guī)范性進(jìn)行控制,《NSTL西文會(huì)議文獻(xiàn)編目工作規(guī)則》對(duì)期刊中的會(huì)議文獻(xiàn)進(jìn)行分析描述。

        2.2 控制詞表

        除了利用編目規(guī)則對(duì)編目工作進(jìn)行規(guī)范外,采用多個(gè)控制詞表對(duì)數(shù)據(jù)質(zhì)量進(jìn)行控制。成員館在著錄部分關(guān)鍵字段時(shí),根據(jù)編目規(guī)則指導(dǎo),利用控制詞表限定范圍內(nèi)的術(shù)語(yǔ)進(jìn)行描述,系統(tǒng)根據(jù)控制詞表對(duì)著錄的結(jié)果進(jìn)行檢查??刂圃~表有兩類,一類為強(qiáng)制詞表,包括:《世界各國(guó)和地區(qū)名稱代碼》(GB/T 2659—2000)、《語(yǔ)種名稱代碼 第2部分:3字母代碼》(GB/T 4880.2—2000)、文獻(xiàn)類型代碼表、媒介類型代碼表、采集類型代碼表、成員館代碼表等,對(duì)系統(tǒng)校驗(yàn)和數(shù)據(jù)交互具有重大意義的字段使用強(qiáng)制詞表進(jìn)行著錄并對(duì)著錄結(jié)果進(jìn)行檢驗(yàn);另一類為推薦詞表,包括OA權(quán)益相關(guān)描述詞表、出版頻率詞表、責(zé)任方式詞表等,推薦詞表可以更好地保障不同編目人員著錄結(jié)果的一致性。在資源分類方面,除了統(tǒng)一使用《中國(guó)圖書(shū)館分類法》(第五版)[9]之外,根據(jù)NSTL資源的學(xué)科特點(diǎn),制定了《NSTL統(tǒng)一資源分類表》[10],該分類法能與中圖法進(jìn)行自動(dòng)映射,并且著重調(diào)整NSTL重點(diǎn)領(lǐng)域的類目層級(jí)并補(bǔ)充部分新興和交叉領(lǐng)域類目,更適應(yīng)科技文獻(xiàn)分類標(biāo)引和檢索的需要。

        2.3 NSTL聯(lián)合目錄元數(shù)據(jù)規(guī)范

        2010年起,NSTL聯(lián)合目錄系統(tǒng)為適應(yīng)多業(yè)務(wù)系統(tǒng)的協(xié)同運(yùn)行和交互需求,摒棄了傳統(tǒng)MARC描述書(shū)目數(shù)據(jù)格式,根據(jù)NSTL資源與服務(wù)特點(diǎn),制定了基于DC的《NSTL聯(lián)合目錄系統(tǒng)基本元數(shù)據(jù)規(guī)范》,用以描述NSTL聯(lián)合目錄系統(tǒng)中的科技資源。2016年7月11日,《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》[11]發(fā)布實(shí)施,NSTL聯(lián)合目錄系統(tǒng)作為NSTL主要業(yè)務(wù)系統(tǒng)之一,對(duì)原有NSTL聯(lián)合目錄元數(shù)據(jù)進(jìn)行轉(zhuǎn)換升級(jí),形成新版《NSTL聯(lián)合目錄元數(shù)據(jù)規(guī)范》作為NSTL聯(lián)合目錄系統(tǒng)使用的數(shù)據(jù)格式與上下游系統(tǒng)進(jìn)行數(shù)據(jù)交互。這套元數(shù)據(jù)方案刪繁就簡(jiǎn),摒棄MARC格式中復(fù)雜的字段間呼應(yīng)關(guān)系和標(biāo)點(diǎn)符號(hào),僅保留對(duì)于資源描述和識(shí)別具有重要意義的描述字段,減輕數(shù)據(jù)轉(zhuǎn)換和校驗(yàn)壓力。

        3 書(shū)目數(shù)據(jù)質(zhì)量控制系統(tǒng)

        NSTL聯(lián)合目錄系統(tǒng)分為“成員館本地自動(dòng)化系統(tǒng)→預(yù)處理工具→NSTL聯(lián)合目錄中心書(shū)目數(shù)據(jù)庫(kù)”三級(jí)結(jié)構(gòu),成員館通過(guò)本地自動(dòng)化系統(tǒng)進(jìn)行本地資源的描述,然后通過(guò)預(yù)處理工具轉(zhuǎn)換上傳到聯(lián)目中心庫(kù)。聯(lián)目中心庫(kù)對(duì)上傳的數(shù)據(jù)進(jìn)行查重處理并將處理結(jié)果通過(guò)預(yù)處理工具反饋給本地。書(shū)目數(shù)據(jù)質(zhì)量的系統(tǒng)自動(dòng)控制通過(guò)本地自動(dòng)化系統(tǒng)字段設(shè)置、預(yù)處理工具校驗(yàn)和聯(lián)目中心庫(kù)查重三個(gè)環(huán)節(jié)實(shí)現(xiàn)(見(jiàn)圖2)。

        圖2 NSTL聯(lián)合目錄書(shū)目質(zhì)量系統(tǒng)控制機(jī)制

        3.1 本地自動(dòng)化系統(tǒng)

        成員館編目員根據(jù)編目規(guī)則在本地自動(dòng)化系統(tǒng)進(jìn)行編目,將NSTL編目規(guī)則涉及的字段和子字段添加到自動(dòng)化系統(tǒng)的MARC字段規(guī)則設(shè)置模塊中,并設(shè)置相應(yīng)的必備性和可重復(fù)性,在編目完成審校保存時(shí),本地自動(dòng)化系統(tǒng)根據(jù)設(shè)置完成相應(yīng)校驗(yàn)。由于不同文獻(xiàn)類型、載體類型、采集方式的資源對(duì)字段的必備性、可重復(fù)性要求并不完全一致,編目員可以根據(jù)自己負(fù)責(zé)的資源類型對(duì)字段進(jìn)行個(gè)性化設(shè)置,往往一位編目員需要同時(shí)處理多種類型的資源,那么在成員館自動(dòng)化系統(tǒng)中的字段約束則是較為粗略的。

        3.2 預(yù)處理工具

        預(yù)處理工具作為本地自動(dòng)化系統(tǒng)和聯(lián)目中心庫(kù)之間的橋梁,主要功能有兩個(gè):①利用轉(zhuǎn)換規(guī)則將本地MARC數(shù)據(jù)轉(zhuǎn)換成NSTL聯(lián)合目錄元數(shù)據(jù);②利用校驗(yàn)規(guī)則對(duì)轉(zhuǎn)換后的元數(shù)據(jù)進(jìn)行校驗(yàn),并攔截不符合要求的數(shù)據(jù),攔截?cái)?shù)據(jù)主要有兩類。

        (1)不符合字段必備性和可重復(fù)性要求的數(shù)據(jù)。為了保證數(shù)據(jù)字段著錄的完備性,NSTL聯(lián)合目錄對(duì)著錄信息的詳細(xì)級(jí)別要求比較高。除了規(guī)定所有資源必須具備題名、出版年、語(yǔ)種、出版國(guó)、分類號(hào)等基本信息外,對(duì)于不同文獻(xiàn)類型的資源分別規(guī)定字段的必備性和可重復(fù)性,如期刊的出版頻率、出版卷期范圍,會(huì)議的名稱、時(shí)間、地點(diǎn)、舉辦機(jī)構(gòu),叢書(shū)的叢書(shū)信息等都要求必備。尤其OA資源,NSTL聯(lián)合目錄要求OA資源必須具有OA標(biāo)志、OA系統(tǒng)號(hào)并提供資源的平臺(tái)信息、權(quán)益信息和獲取鏈接等,涉及多個(gè)字段和子字段,且各字段間有關(guān)聯(lián)關(guān)系,則預(yù)處理工具處理數(shù)據(jù)時(shí)會(huì)對(duì)具有OA標(biāo)志的資源去查找各子字段和字段著錄是否符合要求,這類判斷比較復(fù)雜,但是對(duì)于提高數(shù)據(jù)質(zhì)量意義重大。OA資源特征字段描述見(jiàn)圖3:310字段著錄資源的權(quán)益信息;317字段著錄資源來(lái)源平臺(tái)信息;856字段著錄資源的獲取鏈接、該鏈接所屬平臺(tái)、該鏈接提供的卷期范圍;905字段著錄本館館藏信息,$v子字段著錄實(shí)際采集的館藏范圍,$z子字段標(biāo)識(shí)該資源為OA資源;930$b子字段著錄OA系統(tǒng)的ID。

        圖3 OA資源特征字段著錄示例

        在校驗(yàn)過(guò)程中,通過(guò)905$z的OA標(biāo)志,判斷該數(shù)據(jù)應(yīng)該必備“310”“317”“856”“930”及相關(guān)子字段,且310$y、317$a、856$y的內(nèi)容應(yīng)該一致。

        (2)不符合取值格式要求的數(shù)據(jù)。取值格式的要求包括數(shù)值類型、數(shù)值長(zhǎng)度、取值范圍等不同類型。如對(duì)ISSN進(jìn)行格式的規(guī)定,必須為XXXX-XXXX,ISBN的長(zhǎng)度僅能為10位或13位;對(duì)語(yǔ)種、國(guó)家通過(guò)語(yǔ)種代碼表、國(guó)家代碼表等控制詞表進(jìn)行控制,僅能使用詞表中的詞匯進(jìn)行描述;對(duì)資源的出版年、書(shū)目記錄的創(chuàng)建時(shí)間和修改時(shí)間等進(jìn)行取值類型和長(zhǎng)度的限制等。

        3.3 聯(lián)目中心庫(kù)

        前述提到NSTL聯(lián)合目錄收錄多種類型、來(lái)源的資源,同一種資源可能通過(guò)不同的途徑編目后進(jìn)入NSTL聯(lián)合目錄系統(tǒng),如一種期刊,可能會(huì)有2家以上的成員館訂購(gòu),由于訂購(gòu)的資源載體類型不同,可能對(duì)應(yīng)不同的ISSN;同時(shí),此刊可能是混合OA期刊,根據(jù)NSTL資源采集政策,可以增加OA采集,并且可能被收錄在成員館訂購(gòu)的捆綁數(shù)據(jù)庫(kù)中,則該刊可能從多個(gè)途徑進(jìn)行編目后進(jìn)入NSTL聯(lián)合目錄系統(tǒng)。NSTL聯(lián)合目錄系統(tǒng)需要對(duì)這些書(shū)目進(jìn)行歸并處理,否則將會(huì)造成大量的冗余和錯(cuò)亂。具體書(shū)目界定邏輯可以利用RDA的實(shí)體-關(guān)系模型來(lái)厘清。從RDA的核心元素定義[12]來(lái)看,作品是指獨(dú)特的知識(shí)或藝術(shù)形式,內(nèi)容表達(dá)是指作品的知識(shí)或藝術(shù)創(chuàng)作得以實(shí)現(xiàn)的方式,作品和內(nèi)容表達(dá)決定了資源本身在內(nèi)容上的獨(dú)特性。載體表現(xiàn)指作品的一個(gè)內(nèi)容表達(dá)的物理體現(xiàn),不同載體表達(dá)在內(nèi)容上高度雷同。根據(jù)NSTL資源政策,不同文獻(xiàn)類型、載體類型、采集類型的資源對(duì)應(yīng)不同的采集、加工、服務(wù)政策,需要區(qū)別對(duì)待,但是又需要揭示同一種資源的不同形式之間的關(guān)系。NSTL聯(lián)合目錄建立新書(shū)目的標(biāo)準(zhǔn)基于載體表現(xiàn),印本、CD、Online的資源在內(nèi)容上具有較高的相似性,但是在物理體現(xiàn)上截然不同,在使用和服務(wù)中具有可替代性,因此為不同的載體表現(xiàn)分別建立分散書(shū)目,并且將具有不同載體表現(xiàn)的資源作為同一作品進(jìn)行關(guān)聯(lián)聚合,生成融合書(shū)目。單件指載體表現(xiàn)的一個(gè)樣例或?qū)嵗?,?nèi)容和形式上完全相同,在聯(lián)合目錄中對(duì)應(yīng)不同的館藏。

        根據(jù)上述書(shū)目界定標(biāo)準(zhǔn)設(shè)計(jì)NSTL聯(lián)合目錄的查重策略,從作品級(jí)、載體表現(xiàn)級(jí)、單件級(jí)逐級(jí)檢查,并且結(jié)合系統(tǒng)管理的需求配置相應(yīng)查重和處理操作,著重對(duì)區(qū)分資源品種的關(guān)鍵字段進(jìn)行查重,關(guān)鍵字段包括題名、ISSN/ISBN、載體類型、媒介類型、采集類型、本地書(shū)目ID;此外,對(duì)于多卷書(shū)增加分輯號(hào)/分輯名查重;對(duì)于會(huì)議錄,增加會(huì)議名稱和會(huì)議時(shí)間作為查重字段,具體查重邏輯見(jiàn)圖4。

        圖4 查重邏輯圖

        查重步驟為:首先對(duì)每日入庫(kù)數(shù)據(jù)的自查重,通過(guò)本地書(shū)目ID、題名、ISSN對(duì)數(shù)據(jù)進(jìn)行查重,對(duì)于重復(fù)數(shù)據(jù)保留最后一次修改的記錄,減輕重復(fù)入庫(kù)給聯(lián)目中心庫(kù)查重的壓力;所有當(dāng)日上傳的有效數(shù)據(jù)進(jìn)入臨時(shí)庫(kù)根據(jù)對(duì)應(yīng)的文獻(xiàn)類型查重規(guī)則與聯(lián)目中心庫(kù)進(jìn)行查重,可以系統(tǒng)自動(dòng)判斷處理的機(jī)器根據(jù)預(yù)先設(shè)置的入庫(kù)規(guī)則進(jìn)行自動(dòng)處理操作,包括生成新書(shū)目、更新書(shū)目、添加館藏等,如查重后對(duì)載體類型、媒介類型、采集類型完全一致的同種資源進(jìn)行館藏合并,不完全一致的同種資源則生成新記錄同時(shí)生成融合記錄,融合記錄下掛接同一種資源的不同形態(tài)的書(shū)目記錄。其他疑似重復(fù),系統(tǒng)無(wú)法自動(dòng)判斷的數(shù)據(jù),留待人工質(zhì)檢。

        由于上下游系統(tǒng)對(duì)于NSTL聯(lián)合目錄數(shù)據(jù)的依賴程度較高,系統(tǒng)自動(dòng)查重采取比較嚴(yán)格的策略,對(duì)所有疑似重復(fù)的數(shù)據(jù)進(jìn)行攔截。如NSTL聯(lián)合目錄查重的一個(gè)重點(diǎn)是ISSN與EISSN的交叉匹配,NSTL編目規(guī)則對(duì)于ISSN和EISSN的著錄要求是有則必備,要求著錄所有能夠獲取到的ISSN,以便提供更多的查重匹配信息,在具體查重過(guò)程中會(huì)對(duì)所有ISSN和EISSN進(jìn)行跨字段匹配(包括廢止或注銷的ISSN),這樣任何疑似重復(fù)的ISSN和EISSN在聯(lián)目中心庫(kù)中被檢索到,待審記錄都會(huì)被判疑似重復(fù),等待人工審核。

        4 書(shū)目數(shù)據(jù)質(zhì)量控制人員

        4.1 本地書(shū)目編目員

        NSTL成員館包括理、工、農(nóng)、醫(yī)、冶金、計(jì)量、機(jī)械、化工、標(biāo)準(zhǔn)等各個(gè)科技領(lǐng)域,要求成員館編目員除了具備圖書(shū)館專業(yè)知識(shí)還需要相關(guān)領(lǐng)域?qū)W科背景,一般編目員可能只側(cè)重其中一項(xiàng)技能。目前NSTL聯(lián)合目錄項(xiàng)目組通過(guò)定期培訓(xùn)、線上指導(dǎo)、線下走訪等培養(yǎng)了一批熟悉NSTL聯(lián)合目錄編目規(guī)則的編目員,數(shù)據(jù)質(zhì)量穩(wěn)步提升,數(shù)據(jù)回退率明顯下降。具體人員培養(yǎng)方案包括:保證編目隊(duì)伍的可持續(xù)發(fā)展,通過(guò)成員館老帶新保持各成員館編目隊(duì)伍的穩(wěn)定性,通過(guò)定期培訓(xùn)保證不同成員館之間對(duì)于編目規(guī)則理解的一致性,對(duì)于新到館的圖情背景工作人員著重培養(yǎng)傳統(tǒng)圖書(shū)館技能到NSTL特定編目規(guī)則的轉(zhuǎn)換遷移,有學(xué)科背景的館員加強(qiáng)圖書(shū)館員相關(guān)資源描述和標(biāo)引技能培訓(xùn)。

        4.2 中心書(shū)目質(zhì)檢員

        從各成員單位選用科班出身、編目經(jīng)驗(yàn)豐富、對(duì)NSTL資源政策了解的資深編目員組建合格的質(zhì)檢員隊(duì)伍。質(zhì)檢組負(fù)責(zé)的工作包括4個(gè)方面。①數(shù)據(jù)質(zhì)檢。對(duì)每天新上傳的通過(guò)系統(tǒng)自動(dòng)查重過(guò)濾后有疑似的數(shù)據(jù)進(jìn)行人工甄別檢查。②NSTL聯(lián)合目錄編目規(guī)范指導(dǎo)與答疑。通過(guò)在線工作群對(duì)成員館編目員遇到的各種編目中的問(wèn)題進(jìn)行解答。③規(guī)則制定。追蹤國(guó)內(nèi)外資源描述進(jìn)展,分析NSTL聯(lián)合目錄資源描述需求變化,定期更新維護(hù)編目規(guī)則。④組織培訓(xùn)。每年兩次固定培訓(xùn),一次為編目規(guī)則系統(tǒng)培訓(xùn),尤其針對(duì)新修訂的規(guī)則進(jìn)行培訓(xùn);一次年底總結(jié),對(duì)各成員館上傳的書(shū)目質(zhì)量進(jìn)行總結(jié)評(píng)估,針對(duì)易錯(cuò)案例重點(diǎn)培訓(xùn)。

        4.3 系統(tǒng)管理員

        在對(duì)新入庫(kù)資源進(jìn)行日常系統(tǒng)查重和人工質(zhì)檢外,系統(tǒng)管理員需要定期對(duì)歷史數(shù)據(jù)進(jìn)行清洗。一是隨著對(duì)資源理解的不斷加深,查重策略不斷優(yōu)化,校驗(yàn)規(guī)則不斷細(xì)化,需要對(duì)歷史數(shù)據(jù)進(jìn)行一致性處理;二是對(duì)人工質(zhì)檢結(jié)果進(jìn)行復(fù)核,進(jìn)一步減少人工失誤導(dǎo)致的錯(cuò)誤。除此之外,系統(tǒng)管理員要及時(shí)糾正中心質(zhì)檢員、上下游系統(tǒng)反饋的問(wèn)題數(shù)據(jù)。

        5 結(jié)語(yǔ)

        就體量而言,NSTL作為全國(guó)科技圖書(shū)文獻(xiàn)保障機(jī)構(gòu),NSTL聯(lián)合目錄相對(duì)于高校圖書(shū)館和公共圖書(shū)館系統(tǒng)聯(lián)盟目錄,參與單位和人員相對(duì)較少,收錄文獻(xiàn)類型相對(duì)集中,中心與成員館聯(lián)系緊密,有條件進(jìn)行精細(xì)化管理,對(duì)數(shù)據(jù)質(zhì)量提出更高的要求。目前利用這套質(zhì)量控制體系,經(jīng)過(guò)日常維護(hù)和2015年、2020年兩次大規(guī)模數(shù)據(jù)清洗,NSTL聯(lián)合目錄的書(shū)目數(shù)據(jù)質(zhì)量得到有效控制,重復(fù)數(shù)據(jù)基本全部清除,新增數(shù)據(jù)錯(cuò)誤率控制在0.2%以內(nèi),早期信息不完善數(shù)據(jù)應(yīng)補(bǔ)盡補(bǔ),下游反饋問(wèn)題數(shù)據(jù)量顯著減少。準(zhǔn)確完善的書(shū)目數(shù)據(jù)能夠?yàn)槎鄦挝粎f(xié)調(diào)采集和訂購(gòu)資源提供有效參考,為資源統(tǒng)一發(fā)布和服務(wù)提供數(shù)據(jù)支撐,為篇級(jí)文獻(xiàn)加工和全文采集任務(wù)管理提供有力協(xié)助,有效減少了NSTL資源重復(fù)建設(shè)問(wèn)題,提高了資源利用率。

        目前NSTL聯(lián)合目錄系統(tǒng)質(zhì)量控制主要集中在字段完備性和數(shù)據(jù)重復(fù)性檢查方面,未來(lái)希望通過(guò)進(jìn)一步優(yōu)化校驗(yàn)規(guī)則、查重策略數(shù)據(jù)處理邏輯,減輕人工質(zhì)檢的工作量,質(zhì)檢人員的工作更多地集中在主動(dòng)發(fā)現(xiàn)問(wèn)題、提前預(yù)測(cè)問(wèn)題而非事后補(bǔ)救和數(shù)據(jù)清洗?;蚩蓢L試?yán)谜Z(yǔ)義分析和機(jī)器學(xué)習(xí),對(duì)字段內(nèi)容進(jìn)行進(jìn)一步的控制,進(jìn)一步提高書(shū)目數(shù)據(jù)的準(zhǔn)確性,如對(duì)出版地和出版國(guó)的對(duì)應(yīng)關(guān)系、對(duì)題名語(yǔ)種和作品語(yǔ)種著錄的對(duì)應(yīng)關(guān)系、對(duì)分類號(hào)和主題詞的對(duì)應(yīng)關(guān)系、對(duì)作者名稱的著錄格式等進(jìn)行自動(dòng)審核和規(guī)范[13]。

        猜你喜歡
        規(guī)則資源系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        撐竿跳規(guī)則的制定
        基礎(chǔ)教育資源展示
        數(shù)獨(dú)的規(guī)則和演變
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        一樣的資源,不一樣的收獲
        資源回收
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        成人国产精品三上悠亚久久| 日韩欧美第一区二区三区| 亚洲自偷自拍熟女另类| 色婷婷日日躁夜夜躁| 久久av高潮av喷水av无码 | 国产三级精品三级国产| 国产欧美久久久精品影院| 亚洲精品国产一区av| 少妇人妻精品久久888| 无套无码孕妇啪啪| 97久久人人超碰超碰窝窝| 亚洲毛片αv无线播放一区| 色窝窝手在线视频| 国产盗摄一区二区三区av| 风韵人妻丰满熟妇老熟女视频| 成人精品视频一区二区| 囯产精品一品二区三区| 国产成人一区二区三中文| 精品999无码在线观看| 丰满人妻被公侵犯的视频| 手机看片自拍偷拍福利| 国产熟女内射oooo| 亚洲国产成人va在线观看天堂| 午夜国产精品久久久久| 日本在线一区二区在线| 先锋影音人妻啪啪va资源网站| 国产精品美女久久久久| 无码人妻视频一区二区三区99久久| 久久久成人av毛片免费观看| 日本一二三四区在线观看| 一色桃子中文字幕人妻熟女作品 | 久久综合噜噜激激的五月天| 日韩放荡少妇无码视频| 国产色噜噜| 国内自拍第一区二区三区 | 欧美一区二区三区激情| 国产va精品免费观看| 日本大片一区二区三区| 成人欧美一区二区三区黑人| 伊在人天堂亚洲香蕉精品区| 乱码一二区在线亚洲|