常志軍,許麗媛,于倩倩,張建勇,王永吉
(1.中國科學(xué)院文獻(xiàn)情報中心數(shù)據(jù)資源部,北京 100190;2.中國科學(xué)院大學(xué)圖書情報與檔案管理系,北京 100049;3.中國科學(xué)院軟件研究所計算機(jī)科學(xué)國家重點實驗室,北京 100190)
數(shù)據(jù)是一種重要的資產(chǎn)[1],與事物資產(chǎn)的可見可動,財務(wù)資產(chǎn)的可計可量不同,數(shù)據(jù)資產(chǎn)有其獨特的特性和價值:持久保存性、損壞不再生、使用無消耗、動態(tài)應(yīng)用性、多狀態(tài)應(yīng)用、數(shù)據(jù)自生產(chǎn)等。數(shù)據(jù)管理的核心是確保數(shù)據(jù)的質(zhì)量,如果數(shù)據(jù)未能滿足使用者的需求,那么所有收集、存儲、安全加固、使用數(shù)據(jù)的努力都是無用的。據(jù)IBM 估算,2016 年,美國由于數(shù)據(jù)質(zhì)量問題而導(dǎo)致的損失達(dá)到3.1 萬億美元[2]。因此,數(shù)據(jù)使用者必須與具備專業(yè)知識領(lǐng)域和技能的數(shù)據(jù)管理團(tuán)隊共同參與定義數(shù)據(jù)的特征,使之成為高質(zhì)量的數(shù)據(jù)。
中國科學(xué)院文獻(xiàn)情報中心 (以下簡稱文獻(xiàn)中心)通過集團(tuán)采購、資源置換、自主建設(shè)等渠道收集了大量的科技文獻(xiàn),包括科技圖書、科技期刊、科技報告、專利文獻(xiàn)、會議文獻(xiàn)、學(xué)位論文、標(biāo)準(zhǔn)文獻(xiàn)等。這些科技文獻(xiàn)類型眾多,來源廣泛,凝聚著人類在科技探索過程中的經(jīng)驗和智慧[3]。在信息化迅速發(fā)展的當(dāng)下,如何對這些科技文獻(xiàn)進(jìn)行有效、高效的管理是亟需面對和解決的問題,也是文獻(xiàn)中心科技文獻(xiàn)管理工作發(fā)展的重要方向。
國內(nèi)外很多研究團(tuán)隊開展了科技文獻(xiàn)管理方法的研究和科技文獻(xiàn)管理體系的建設(shè),如云安全聯(lián)盟組織為云環(huán)境數(shù)據(jù)提出CSA 模型[4],包括創(chuàng)建、存儲、使用、共享、存檔和銷毀,他是為云環(huán)境設(shè)計的,重點解決了數(shù)據(jù)安全,未考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)處理和數(shù)據(jù)分析等內(nèi)容。美國地質(zhì)調(diào)查局?jǐn)?shù)據(jù)集成社區(qū)提出采用USGS 模型管理數(shù)據(jù),包括計劃、獲取、處理、分析、保存和發(fā)布/共享,用于評估和改進(jìn)管理科學(xué)數(shù)據(jù)的政策和實踐,是一個綜合的模型[5,6]。大學(xué)間政治和社會研究聯(lián)合會提出采用DDI 模型[7]管理數(shù)據(jù),包括研究概念、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存檔、數(shù)據(jù)分發(fā)、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析和重新調(diào)整用途等,是一個全面的模型,但是沒有對數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全的關(guān)注。張迎等[8]提出了科學(xué)數(shù)據(jù)管理生命周期,并從獲取、描述、存儲、發(fā)布、重用等5 個階段對科學(xué)數(shù)據(jù)進(jìn)行管理。
但當(dāng)前就如何利用生命周期理論對科技文獻(xiàn)進(jìn)行綜合管理和有效利用,以及采用專業(yè)的衡量標(biāo)準(zhǔn)進(jìn)行質(zhì)量評估等研究還處在初級階段。圍繞基于生命周期理論對科技文獻(xiàn)進(jìn)行綜合管理等需求,本文第二部分論述了數(shù)據(jù)生命周期管理模型,總結(jié)歸納符合科技文獻(xiàn)生命周期發(fā)展的階段和模型,本文第三部分重點介紹了數(shù)據(jù)管理體系研究的7 個流程,并詳細(xì)說明了每個階段的管理體系建設(shè)內(nèi)容,本文第四部分創(chuàng)新性的以WOS BP 數(shù)據(jù)為基礎(chǔ)開展基于生命周期的數(shù)據(jù)管理實踐,并依照數(shù)據(jù)管理目標(biāo)從6 個維度進(jìn)行管理實踐與綜合評價,本文第五部分對工作進(jìn)行簡要總結(jié),并對未來工作進(jìn)行展望。
數(shù)據(jù)不是靜止的,在整個生命周期中,數(shù)據(jù)需要被清洗、轉(zhuǎn)換、合并、增強(qiáng)等。不同類型的數(shù)據(jù)具有不同的生命周期,這加大了數(shù)據(jù)生命周期中相關(guān)概念的復(fù)雜性。如事務(wù)型數(shù)據(jù)可以通過基本業(yè)務(wù)規(guī)則得到管理,而主數(shù)據(jù)需要通過數(shù)據(jù)綜合處理得到管理。盡管如此,仍然存在一些生命周期通用規(guī)則,適用于任何數(shù)據(jù)。2018 年國務(wù)院辦公廳在印發(fā) 《科學(xué)數(shù)據(jù)管理辦法》[9,10]時指出要加強(qiáng)科學(xué)數(shù)據(jù)全生命周期管理[11],規(guī)范科學(xué)數(shù)據(jù)的采集生產(chǎn)、加工整理、開放共享等各個環(huán)節(jié)的工作。同時也將科學(xué)數(shù)據(jù)管理生命周期分為數(shù)據(jù)采集和交匯、數(shù)據(jù)保存、數(shù)據(jù)共享利用、數(shù)據(jù)保密安全等方面。
數(shù)據(jù)生命周期管理 (Data Life Cycle Management,DLM) 是一種基于策略的方法[12],著重于數(shù)據(jù)的規(guī)劃和設(shè)計、使數(shù)據(jù)可用、可維護(hù),以及通過應(yīng)用數(shù)據(jù)實現(xiàn)組織的目標(biāo),最終達(dá)到可被需要的人或流程所使用的目的。通常用于管理數(shù)據(jù)在整個生命周期內(nèi)的流動:從數(shù)據(jù)的創(chuàng)建和初始存儲、變化、遷移和維護(hù)到它過時被刪除的全過程[13]。盡管數(shù)據(jù)和技術(shù)是交織在一起的,但是不能把數(shù)據(jù)的生命周期混淆為系統(tǒng)開發(fā)生命周期 (Systems Development Life Cycle,SDLC),因為系統(tǒng)開發(fā)生命周期專注于在預(yù)算范圍內(nèi)按時完成項目研發(fā)任務(wù)[14]。
數(shù)據(jù)生命周期管理模型定義從生產(chǎn)階段到服務(wù)階段的數(shù)據(jù)全景視圖,目標(biāo)是優(yōu)化數(shù)據(jù)管理、提高效率、降低成本。DAMA 數(shù)據(jù)資產(chǎn)管理協(xié)會作為一個全球性的數(shù)據(jù)管理協(xié)會,致力于數(shù)據(jù)管理的研究和實踐原則。DAMA 模型包括創(chuàng)建或獲取數(shù)據(jù)、移動、轉(zhuǎn)換和存儲數(shù)據(jù)并使其得以維護(hù)和共享的過程、使用數(shù)據(jù)的過程以及處理數(shù)據(jù)的過程[15]。在數(shù)據(jù)的整個生命周期中,可以清理、轉(zhuǎn)換、合并、增強(qiáng)或聚合數(shù)據(jù),同時隨著數(shù)據(jù)的使用或增強(qiáng),通常會生成新的數(shù)據(jù),因此生命周期具有內(nèi)部迭代。
基于生命周期管理的數(shù)據(jù)可以在一定程度上提升數(shù)據(jù)質(zhì)量,最終達(dá)到數(shù)據(jù)使用者的期望并滿足數(shù)據(jù)需求。判斷數(shù)據(jù)質(zhì)量優(yōu)劣的標(biāo)準(zhǔn)是與能否滿足數(shù)據(jù)消費者的需求一致為基準(zhǔn),一致則屬于高質(zhì)量數(shù)據(jù),反之,不適用于數(shù)據(jù)使用者的數(shù)據(jù)則是低質(zhì)量數(shù)據(jù)。數(shù)據(jù)質(zhì)量維度是數(shù)據(jù)的可測量特性或?qū)傩?,為了評估數(shù)據(jù)的質(zhì)量,需要建立具體可行的衡量維度,這些維度不但對業(yè)務(wù)流程很重要,而且具備可測量、可操作的特性。2013 年,DAMA 英國分會編寫的數(shù)據(jù)管理白皮書提出了6 個核心的數(shù)據(jù)質(zhì)量評估維度[16],分別是:完整性(Completeness),是評估已存儲數(shù)據(jù)占應(yīng)存儲數(shù)據(jù)的百分比。唯一性 (Uniqueness),是評估任何實體的記錄會不會出現(xiàn)多次。實時性 (Timeliness),是評估數(shù)據(jù)體現(xiàn)特定時間點的真實程度。有效性(Validity),是評估數(shù)據(jù)是否符合相關(guān)定義 (格式、種類、范圍)。準(zhǔn)確性 (Accuracy),是評估數(shù)據(jù)描述真實世界對象或事件的精確度。一致性 (Consistency),是評估多處對同一個事物的描述不存在差異。
DAMA 表示數(shù)據(jù)管理是基于數(shù)據(jù)生命周期的管理,不同類型的數(shù)據(jù)有不同的生命周期特征??萍嘉墨I(xiàn)數(shù)據(jù)[17]具備數(shù)據(jù)量大、文件類型多、獲取方式和格式多樣、更新頻率快、時效性強(qiáng)等特點,以文件類型多為例:科技文獻(xiàn)通常覆蓋期刊、會議錄、專著、叢書、文集匯編、工具書、課程、研究論文、專著章節(jié)、科技報告、學(xué)位論文、課件等多個類型。此外,科技文獻(xiàn)數(shù)據(jù)可描述內(nèi)容的顆粒度更細(xì)化,如JATS 數(shù)據(jù)標(biāo)準(zhǔn)包含了250 余個元素和130 余個元素屬性,NSTL 統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)包含97 個描述性元素、53 個輔助性元素和49 個屬性[18]。同時,科技文獻(xiàn)數(shù)據(jù)組織模塊化加強(qiáng),通過對細(xì)粒度元素的組合形成相對獨立又相互關(guān)聯(lián)的實體模塊,如期刊、論文、會議、基金、貢獻(xiàn)者、機(jī)構(gòu)等多個實體模塊。
本文將科技文獻(xiàn)數(shù)據(jù)的全生命周期階段主要歸納為創(chuàng)建、存儲、預(yù)處理、計算、服務(wù)、歸檔、銷毀等7 個階段,可以在科技文獻(xiàn)中進(jìn)行普適性應(yīng)用。如圖1 所示,數(shù)據(jù)在每個階段呈現(xiàn)不同的活躍度,在數(shù)據(jù)計算階段和數(shù)據(jù)服務(wù)階段達(dá)到峰值,在數(shù)據(jù)銷毀階段達(dá)到谷值。
數(shù)據(jù)創(chuàng)建階段收集從多個來源獲取的商業(yè)采購數(shù)據(jù)、開放獲取數(shù)據(jù)、中心自建數(shù)據(jù)和交換獲取數(shù)據(jù)等,通過網(wǎng)絡(luò)接口獲取、公開網(wǎng)頁采集、數(shù)據(jù)庫直接導(dǎo)入、硬件批量拷貝、網(wǎng)絡(luò)集中下載等多種接入形式,獲取期刊論文、會議論文、科技報告、科技專利、基金項目、科技資訊、圖書專著、科技政策等各個類型數(shù)據(jù)。
數(shù)據(jù)存儲階段針對不同體量、結(jié)構(gòu)的數(shù)據(jù)進(jìn)行個性化存儲設(shè)計。對無需復(fù)雜操作的小體量數(shù)據(jù)采用本地文件系統(tǒng)存儲形式,利用單臺服務(wù)器滿足對文件數(shù)據(jù)、源數(shù)據(jù)、中間數(shù)據(jù)的存儲需求。對無需復(fù)雜操作的大體量數(shù)據(jù)采用分布式存儲形式,利用多臺服務(wù)器滿足對大文件數(shù)據(jù)的存儲需求。對需要復(fù)雜操作的結(jié)構(gòu)化數(shù)據(jù)采用數(shù)據(jù)庫存儲形式,對常規(guī)業(yè)務(wù)數(shù)據(jù)、監(jiān)測日志數(shù)據(jù)等進(jìn)行存儲。
數(shù)據(jù)預(yù)處理階段可以從字段抽取、信息轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)校驗、數(shù)據(jù)索引等5 個方面進(jìn)行。將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為符合統(tǒng)一標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),或者將一種形式的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為另一種形式的結(jié)構(gòu)化數(shù)據(jù),對相關(guān)字段進(jìn)行抽取、清洗、加工,以獲取更豐富更標(biāo)準(zhǔn)的數(shù)據(jù),基于服務(wù)需求設(shè)定索引數(shù)據(jù),為了后續(xù)計算、服務(wù)更方便、靈活。
數(shù)據(jù)計算階段是科技文獻(xiàn)在整個生命周期中最活躍的階段,也是數(shù)據(jù)最具操作性、最豐富的階段,主要是從數(shù)據(jù)加工、數(shù)據(jù)豐富化、數(shù)據(jù)融合、實體和關(guān)系抽取等4 個方面展開,對數(shù)據(jù)進(jìn)行集中的治理和計算,以產(chǎn)生更具使用價值的科研數(shù)據(jù)。
數(shù)據(jù)服務(wù)階段是將前期已經(jīng)處理和計算生成的數(shù)據(jù)通過各類服務(wù)形式穩(wěn)定、高效地進(jìn)行數(shù)據(jù)交互并輸出數(shù)據(jù),提供基礎(chǔ)數(shù)據(jù)服務(wù)和增值數(shù)據(jù)服務(wù),同時支持面向用戶需求定制開發(fā)優(yōu)質(zhì)的、高效的數(shù)據(jù)服務(wù),基于權(quán)限控制和訪問監(jiān)控保障數(shù)據(jù)服務(wù)安全。
數(shù)據(jù)歸檔階段是將不再經(jīng)常使用的數(shù)據(jù)遷移到一個單獨的存儲設(shè)備來進(jìn)行長期、有效保存的過程,這類數(shù)據(jù)通常是由舊的數(shù)據(jù)組成,但又是以后必須參考且很重要的數(shù)據(jù),需要長期存儲和長期可獲取,因此在歸檔時必須遵從相應(yīng)的規(guī)則進(jìn)行。
數(shù)據(jù)銷毀階段是指數(shù)據(jù)服務(wù)到期后進(jìn)行銷毀的過程,通常采用對數(shù)據(jù)及數(shù)據(jù)的存儲介質(zhì)物理刪除的操作手段,使數(shù)據(jù)徹底丟失且無法恢復(fù)。為保證后續(xù)審計需要,在銷毀時需要對銷毀內(nèi)容、時間、方式、核準(zhǔn)部門及人員等信息進(jìn)行登記審核。
基于生命周期進(jìn)行數(shù)據(jù)管理的流程主要分為:數(shù)據(jù)創(chuàng)建登記、數(shù)據(jù)解析存儲、數(shù)據(jù)加工處理、數(shù)據(jù)集成計算、數(shù)據(jù)服務(wù)應(yīng)用、數(shù)據(jù)歸檔保存、數(shù)據(jù)銷毀記錄等,如圖2 所示。
圖2 數(shù)據(jù)管理流程Fig.2 Data management processes
3.2.1 數(shù)據(jù)創(chuàng)建階段
在數(shù)據(jù)創(chuàng)建階段主要進(jìn)行數(shù)據(jù)創(chuàng)建和登記,科技文獻(xiàn)數(shù)據(jù)來源主要分為3 種類型:商業(yè)采購數(shù)據(jù)、開放獲取數(shù)據(jù)、內(nèi)部自建數(shù)據(jù)。各數(shù)據(jù)來源提供不同的數(shù)據(jù)獲取方式,有些方式利于形成機(jī)器自動化例行服務(wù),有些方式需要人工操作獲取數(shù)據(jù),有些方式利于頻繁地、輕量化的獲取數(shù)據(jù),有些方式則適用于大量數(shù)據(jù)的快速傳遞。每一種來源都有其獨特的數(shù)據(jù)接入形式,如表1 所示。
表1 科技文獻(xiàn)數(shù)據(jù)來源和接入形式Table 1 Sources and access forms of scientific and technical literature data
不同來源的數(shù)據(jù),接入形式各異,因此需要個性化定制多種工具,以滿足在數(shù)據(jù)創(chuàng)建階段對數(shù)據(jù)資產(chǎn)的完整接入,如表2 所示,從接口獲取、數(shù)據(jù)庫導(dǎo)入、存儲介質(zhì)拷貝、網(wǎng)絡(luò)下載、網(wǎng)絡(luò)采集等方面對數(shù)據(jù)創(chuàng)建工具進(jìn)行設(shè)計。
表2 數(shù)據(jù)創(chuàng)建工具Table 2 Data creation tools
3.2.2 數(shù)據(jù)存儲階段
在數(shù)據(jù)存儲階段主要進(jìn)行數(shù)據(jù)解析和存儲,通過各類接入形式獲取的科技文獻(xiàn)數(shù)據(jù)主要是XML、數(shù)據(jù)表、JSON、文本文件等4 種類型,對比這幾種類型數(shù)據(jù)主要有以下特點,如表3 所示。
表3 數(shù)據(jù)格式和特點Table 3 Data formats and features
綜合分析科技文獻(xiàn)數(shù)據(jù)的各種數(shù)據(jù)格式特點,設(shè)計統(tǒng)一的文獻(xiàn)元數(shù)據(jù)存儲體系,對各類型數(shù)據(jù)進(jìn)行統(tǒng)一存儲,有助于處理、維護(hù)、集成、包含、審計和管理科技文獻(xiàn)數(shù)據(jù)。文獻(xiàn)元數(shù)據(jù)存儲體系重點描述了數(shù)據(jù)本身,如數(shù)據(jù)庫、數(shù)據(jù)元素、數(shù)據(jù)模型;數(shù)據(jù)所代表的概念,如業(yè)務(wù)流程、應(yīng)用系統(tǒng)、軟件代碼、技術(shù)基礎(chǔ)設(shè)施;數(shù)據(jù)和概念之間的連接和關(guān)系等,主要包含了業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)3 類,如表4 所示。
表4 科技文獻(xiàn)元數(shù)據(jù)存儲體系Table 4 Metadata storage system for scientific and technical literature
經(jīng)過統(tǒng)一文獻(xiàn)元數(shù)據(jù)存儲體系描述的科技文獻(xiàn)數(shù)據(jù)資源可以更好的解釋、組織、理解各類型數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)內(nèi)容、系統(tǒng)業(yè)務(wù)流程等。以業(yè)務(wù)元數(shù)據(jù)為例,根據(jù)各來源數(shù)據(jù)組織結(jié)構(gòu)的特點,為每類實體設(shè)計獨立存儲結(jié)構(gòu),數(shù)據(jù)組織、字段命名符合JATS 數(shù)據(jù)標(biāo)準(zhǔn)、NSTL 統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)等相關(guān)規(guī)范,如圖3 所示為科技論文元數(shù)據(jù)結(jié)構(gòu)。
圖3 科技論文元數(shù)據(jù)結(jié)構(gòu)樣例Fig.3 Example of a technical paper metadata structure
3.2.3 數(shù)據(jù)預(yù)處理階段在數(shù)據(jù)預(yù)處理階段主要進(jìn)行數(shù)據(jù)加工和處理,建設(shè)數(shù)據(jù)預(yù)處理工具,實現(xiàn)對各類型數(shù)據(jù)的格式預(yù)處理、解析、轉(zhuǎn)換、結(jié)構(gòu)化,并存儲到目標(biāo)存儲系統(tǒng),如圖4所示。
圖4 數(shù)據(jù)預(yù)處理流程Fig.4 Process of data pre-processing
首先,根據(jù)數(shù)據(jù)來源、數(shù)據(jù)量、接收方式、接收頻率的不同,通過簡單配置數(shù)據(jù)解析規(guī)則,歸納高復(fù)用的數(shù)據(jù)解析模塊,設(shè)計基于HTML、CSV、XML 和JOSN 等4 套主要格式的數(shù)據(jù)解析引擎,形成一套半自動的數(shù)據(jù)結(jié)構(gòu)化解析處理機(jī)制,實現(xiàn)對數(shù)據(jù)資源的自助收割兼具批量運行的數(shù)據(jù)組件,為數(shù)據(jù)深加工做好支撐工作。
然后,對多來源數(shù)據(jù)進(jìn)行解析、規(guī)范化,生成符合元數(shù)據(jù)標(biāo)準(zhǔn)格式的數(shù)據(jù)倉庫,同時構(gòu)建鏡像索引,為數(shù)據(jù)計算提供離線、在線的讀取基礎(chǔ)。同時完成定時功能實現(xiàn)部分?jǐn)?shù)據(jù)源的自動更新。
最后,對匯集的具體字段如學(xué)者、機(jī)構(gòu)、關(guān)鍵詞、來源等內(nèi)容進(jìn)行規(guī)范化處理,保證從各數(shù)據(jù)源采集來的數(shù)據(jù)可以進(jìn)行統(tǒng)一的清洗、規(guī)范、管理和使用。同時不斷完善清洗規(guī)則、清洗庫,清理冗余字段,提升數(shù)據(jù)質(zhì)量,為應(yīng)用服務(wù)提供有效的數(shù)據(jù)支撐。
3.2.4 數(shù)據(jù)計算階段
在數(shù)據(jù)計算階段主要進(jìn)行數(shù)據(jù)集成和計算,主要涉及的關(guān)鍵步驟包括數(shù)據(jù)豐富化加工、實體關(guān)系抽取和知識圖譜構(gòu)建等。
數(shù)據(jù)豐富化是基于數(shù)據(jù)已有特征進(jìn)行信息擴(kuò)展,提升數(shù)據(jù)信息量。例如基于文獻(xiàn)元數(shù)據(jù)進(jìn)行增強(qiáng)關(guān)鍵詞擴(kuò)展,基于摘要進(jìn)行知識元擴(kuò)展,基于內(nèi)容進(jìn)行中圖分類法擴(kuò)展等。數(shù)據(jù)加工通常是人工參與的數(shù)據(jù)加工工作,是最常見的數(shù)據(jù)質(zhì)量提升途徑。加工過程一般分為加工編輯和審核兩個階段,具有較高的數(shù)據(jù)質(zhì)量保障。數(shù)據(jù)融合是對同一數(shù)據(jù)的多源處理策略,通常采用優(yōu)先級篩選和優(yōu)先占位策略,對不同來源不同類型的數(shù)據(jù)確定優(yōu)先等級,質(zhì)量越高的數(shù)據(jù)優(yōu)先級越高,融合時使用來源等級更高的數(shù)據(jù)字段覆蓋來源等級低的字段。當(dāng)數(shù)據(jù)字段不能獨立支撐數(shù)據(jù)融合時,可以采取信息塊的模式進(jìn)行綜合融合,如圖5 為數(shù)據(jù)融合流程設(shè)計。
圖5 數(shù)據(jù)融合流程設(shè)計Fig.5 Design of data fusion process
數(shù)據(jù)中往往記錄了多個維度或?qū)嶓w的信息,實體抽取是基于預(yù)處理和豐富化加工后的數(shù)據(jù),根據(jù)應(yīng)用需求或知識圖譜的設(shè)計,定義科研實體和實體間的多維關(guān)系模型,從科技文獻(xiàn)元數(shù)據(jù)中提取結(jié)構(gòu)化知識、顯化數(shù)據(jù)間的關(guān)聯(lián)關(guān)系、挖掘更深層次的數(shù)據(jù)內(nèi)涵、構(gòu)建學(xué)術(shù)知識網(wǎng)絡(luò)關(guān)系,形成數(shù)據(jù)知識圖譜,支撐科技文獻(xiàn)數(shù)據(jù)間的關(guān)聯(lián)信息揭示,支持智能知識服務(wù)能力。比如從一篇文獻(xiàn)中抽取的多個作者實體,隱含著合作作者的關(guān)系。
3.2.5 數(shù)據(jù)服務(wù)階段
在數(shù)據(jù)服務(wù)階段主要進(jìn)行數(shù)據(jù)服務(wù)和應(yīng)用,數(shù)據(jù)檢索是數(shù)據(jù)服務(wù)的主要形式之一,是將數(shù)據(jù)價值顯化的重要手段。采用SpringCloud 分布式技術(shù)體系,設(shè)計基于Eureka、Ribbon、Security、Springboot 等組件的微服務(wù)架構(gòu),通過Restful API 接口實現(xiàn)對應(yīng)用的支撐。微服務(wù)技術(shù)具有擴(kuò)展靈活、部署方便、自動負(fù)載均衡等特點,以集群模式為多業(yè)務(wù)提供強(qiáng)穩(wěn)定、高性能、低延遲的數(shù)據(jù)服務(wù)。如圖6 是數(shù)據(jù)服務(wù)架構(gòu)。
圖6 數(shù)據(jù)服務(wù)架構(gòu)設(shè)計Fig.6 Design of data service architecture
首先,構(gòu)建多節(jié)點數(shù)據(jù)注冊總線,實現(xiàn)動態(tài)服務(wù)代理,提供總線基礎(chǔ)管理:查看總線使用狀態(tài)接口,配置安全、注冊、監(jiān)控等功能,通過發(fā)布訂閱通信應(yīng)用程序共享信息,通過核心的消息系統(tǒng)負(fù)責(zé)連接端點和他們之間路由器,以實現(xiàn)數(shù)據(jù)總線的合理配置。
其次,構(gòu)建基礎(chǔ)設(shè)施管理群和服務(wù)提供群,部署登錄服務(wù)、配置服務(wù)、查詢服務(wù)等多個應(yīng)用服務(wù),可共享數(shù)據(jù)通路,也可獨立部署使用。
最后,構(gòu)建業(yè)務(wù)服務(wù)消費群,部署數(shù)據(jù)監(jiān)控服務(wù),數(shù)據(jù)分析服務(wù)、用戶畫像服務(wù)、檢索系統(tǒng)服務(wù)等,同時支持各類業(yè)務(wù)服務(wù)的靈活擴(kuò)展,只需要遵循協(xié)議對接到數(shù)據(jù)總線即可。用戶根據(jù)需求和應(yīng)用類型選擇適當(dāng)?shù)慕涌?,通過簡單配置IP、數(shù)據(jù)通路、offset 等信息,即可通過總線輕松獲取數(shù)據(jù)。
3.2.6 數(shù)據(jù)歸檔階段
在數(shù)據(jù)歸檔階段主要進(jìn)行數(shù)據(jù)的歸檔和保存,在大數(shù)據(jù)成為了關(guān)鍵資源的今天,歸檔各種類型的數(shù)據(jù)是非常重要的,是數(shù)據(jù)量和數(shù)據(jù)體量積累的重要階段。在數(shù)據(jù)歸檔時既要考慮存儲海量數(shù)據(jù)的設(shè)備成本,也要考慮存儲海量數(shù)據(jù)的時間成本。
基于整個數(shù)據(jù)生命周期,制定符合業(yè)務(wù)需求的數(shù)據(jù)歸檔策略。首先是識別哪些數(shù)據(jù)應(yīng)該被歸檔,以及需要被歸檔多長時間。其次,根據(jù)數(shù)據(jù)特性將數(shù)據(jù)存儲在相應(yīng)的存儲設(shè)備上,始終將歸檔數(shù)據(jù)保留在高性能存儲平臺上,會導(dǎo)致不必要的成本和人力資源的消耗。對經(jīng)常使用的數(shù)據(jù)且重要級別較高的數(shù)據(jù),歸檔在高成本、高容量的存儲系統(tǒng)上,比如固態(tài)硬盤;對經(jīng)常使用的數(shù)據(jù)且重要級別一般的數(shù)據(jù),歸檔在低成本、高容量的存儲系統(tǒng)上,比如磁盤陣列;對不經(jīng)常使用但重要級別較高的數(shù)據(jù),歸檔在低成本、高容量的存儲系統(tǒng)上,比如磁帶設(shè)備;對不再使用的數(shù)據(jù)直接物理刪除。最后,制定數(shù)據(jù)訪問策略和安全機(jī)制,對具備訪問歸檔數(shù)據(jù)的用戶賦予相關(guān)權(quán)限。
3.2.7 數(shù)據(jù)銷毀階段
在數(shù)據(jù)銷毀階段主要進(jìn)行數(shù)據(jù)的銷毀和記錄,數(shù)據(jù)銷毀階段是指數(shù)據(jù)到期后進(jìn)行銷毀的過程,數(shù)據(jù)生命周期的最后階段需要安全銷毀,需要制定銷毀計劃,來定義進(jìn)行數(shù)據(jù)銷毀的時間和方式。通??梢酝ㄟ^機(jī)器方式或人工方式進(jìn)行在線數(shù)據(jù)銷毀和歸檔數(shù)據(jù)銷毀。同時,為保障后續(xù)業(yè)務(wù)需要,應(yīng)對銷毀的數(shù)據(jù)內(nèi)容、銷毀時間、銷毀方式、銷毀人員等信息進(jìn)行登記,以確保數(shù)據(jù)銷毀的安全性和全面性。
基于科睿唯安核心數(shù)據(jù)集,從數(shù)據(jù)接收、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)計算、數(shù)據(jù)服務(wù)、數(shù)據(jù)歸檔、數(shù)據(jù)銷毀7 個階段嚴(yán)格按照本文設(shè)計的數(shù)據(jù)管理體系開展基于生命周期的WOS BP 數(shù)據(jù)管理實踐。然后依照數(shù)據(jù)管理目標(biāo)從完整性、唯一性、實時性、有效性、準(zhǔn)確性、一致性等6 個維度進(jìn)行管理實踐與綜合評價。最后,依據(jù)評價結(jié)果得出結(jié)論:本文提出的基于生命周期理論的科技文獻(xiàn)管理體系適用性良好。下面就具體的評價指標(biāo)進(jìn)行說明。
完整性是評價數(shù)據(jù)缺失的情況,包括記錄數(shù)缺失、字段缺失,屬性缺失等,可以在數(shù)據(jù)接入前或接入后進(jìn)行監(jiān)控。以數(shù)據(jù)字段完整性監(jiān)測為例,在數(shù)據(jù)接入后,對147 個數(shù)據(jù)項進(jìn)行監(jiān)測 (圖7),實時評估有值數(shù)據(jù)字段和空值數(shù)據(jù)字段,對比有值/空值占比,得出數(shù)據(jù)完整性評價。據(jù)統(tǒng)計,截止到2021 年12 月,147個數(shù)據(jù)項有值占比為59.75%,必備字段 (WOS 入藏號、出版年份、文獻(xiàn)標(biāo)題、作者名稱、WOS 分類、發(fā)表期刊標(biāo)題等) 有值占比為99.22%。
圖7 數(shù)據(jù)完整性評價Fig.7 Evaluation of data integrity
唯一性是評價數(shù)據(jù)重復(fù)的情況,包括數(shù)據(jù)實體是否重復(fù)、屬性是否重復(fù)等,可以在數(shù)據(jù)接入前或接入后進(jìn)行監(jiān)控。針對WOS BP 數(shù)據(jù)設(shè)計專業(yè)數(shù)據(jù)字典(圖8),定義12 類數(shù)據(jù)模塊,覆蓋文獻(xiàn)、作者、圖書、分類、會議、通訊作者、基金項目、作者機(jī)構(gòu)、出版信息、參考文獻(xiàn)、作者信息、發(fā)表期刊等內(nèi)容,通過對數(shù)據(jù)內(nèi)容進(jìn)行監(jiān)控約束,避免出現(xiàn)數(shù)據(jù)重復(fù)的情況。以數(shù)據(jù)入藏號為例,數(shù)據(jù)唯一性達(dá)到99.23%。
圖8 數(shù)據(jù)唯一性評價Fig.8 Evaluation of data uniqueness
實時性是評價數(shù)據(jù)及時的情況,是評估數(shù)據(jù)體現(xiàn)特定時間點的真實程度,包括數(shù)據(jù)從發(fā)表到接收的實時性、數(shù)據(jù)從接入到服務(wù)的實時性,可以在數(shù)據(jù)接入后進(jìn)行監(jiān)控。以數(shù)據(jù)從接入到服務(wù)的實時性為例,以接收第23 周數(shù)據(jù)后和WOS 官方6.4 日數(shù)據(jù)量對比:1980—2019 年歷史數(shù)據(jù)相差很小,個位數(shù)到十位數(shù)之間;2020 年數(shù)據(jù)相差百位數(shù);2021 年數(shù)據(jù)相差千位數(shù),是數(shù)據(jù)處理的正常范圍,如圖9 所示。
圖9 數(shù)據(jù)實時性評價Fig.9 Evaluation of data real-time
有效性是評價數(shù)據(jù)項符合規(guī)則和定義的情況,包括數(shù)據(jù)項是否符合類型、格式、種類、范圍等約束,是否符合業(yè)務(wù)邏輯,是否符合值域約束等,可以在數(shù)據(jù)接入后進(jìn)行監(jiān)控。以數(shù)據(jù)項是否符合類型約束為例,為147 個數(shù)據(jù)項分別定義數(shù)據(jù)屬性區(qū)間和類型備選,嚴(yán)格控制每個數(shù)據(jù)項符合應(yīng)有的類型約束。
準(zhǔn)確性是評價數(shù)據(jù)錯誤情況,包括數(shù)據(jù)集合、數(shù)據(jù)條數(shù)、數(shù)據(jù)項等內(nèi)容是否與真實數(shù)據(jù)保持一致,可以在數(shù)據(jù)接入后進(jìn)行監(jiān)控。以數(shù)據(jù)項準(zhǔn)確性評價為例,隨機(jī)抽取一條數(shù)據(jù)記錄,對比WOS 官網(wǎng)數(shù)據(jù)內(nèi)容,包括文獻(xiàn)信息、發(fā)表信息、分類信息、作者信息、基金項目信息等(圖10),數(shù)據(jù)準(zhǔn)確性為100%。
圖10 數(shù)據(jù)準(zhǔn)確性評價Fig.10 Evaluation of data accuracy
一致性是評價數(shù)據(jù)符合標(biāo)準(zhǔn)的情況,也是多次對同一數(shù)據(jù)進(jìn)行描述而不存在差異的評價,包括數(shù)據(jù)包是否符合約定形式,數(shù)據(jù)是否符合數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)項是否有漏掉或增加等,可以在數(shù)據(jù)接入前或接入后進(jìn)行監(jiān)控。以數(shù)據(jù)符合標(biāo)準(zhǔn)一致性為例,對接收的WOS BP 數(shù)據(jù)進(jìn)行專項核查,一致性達(dá)90%。
本文以數(shù)據(jù)生命周期為出發(fā)點,探究科技文獻(xiàn)生命周期管理的關(guān)鍵核心,立足數(shù)據(jù)管理全流程應(yīng)用,以科技文獻(xiàn)數(shù)據(jù)為基礎(chǔ),從創(chuàng)建、存儲、預(yù)處理、計算、服務(wù)、歸檔、銷毀7 個階段為重點實施步驟進(jìn)行實踐探索,基于WOS BP 核心數(shù)據(jù)集實施了上文提出的數(shù)據(jù)生命周期管理模型,然后從數(shù)據(jù)質(zhì)量評估維度進(jìn)行了完整性、唯一性、實時性、有效性、準(zhǔn)確性、一致性等6 個維度的評價核驗,基本解決了科技文獻(xiàn)數(shù)據(jù)在每個生命周期階段都可以進(jìn)行有效的管理和應(yīng)用問題。最終管理模型初具成效,并達(dá)到良好的服務(wù)效果。
但仍存在很多問題和挑戰(zhàn),在接下來的工作中將進(jìn)一步完善和改進(jìn)。首先,在科技文獻(xiàn)生命周期管理中集成人工智能技術(shù)引擎,緊隨國家 “新基建” 戰(zhàn)略部署,讓數(shù)據(jù)管理更智能更全面。其次,在數(shù)據(jù)生命周期管理中擴(kuò)展更多種類型和來源的科技文獻(xiàn)資源,打通多模態(tài)數(shù)據(jù)智能管理渠道。最后,進(jìn)一步提升數(shù)據(jù)生命周期管理的實際應(yīng)用效果,打造精細(xì)化、細(xì)粒度的數(shù)據(jù)形態(tài),提升數(shù)據(jù)服務(wù)水平。