亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        北京大學(xué)圖書館長期保存系統(tǒng)建設(shè)與探索

        2019-04-25 01:47:36張乃帥
        關(guān)鍵詞:數(shù)據(jù)庫資源系統(tǒng)

        摘要數(shù)字資源作為圖書館館藏資源的重要組成部分,其采購經(jīng)費(fèi)在圖書館資源建設(shè)經(jīng)費(fèi)中所占的比重越來越大。與紙質(zhì)資源相比,數(shù)字資源對存儲(chǔ)介質(zhì)及網(wǎng)絡(luò)的依賴性非常強(qiáng)。一旦存儲(chǔ)介質(zhì)損壞或者因各種原因?qū)е戮W(wǎng)絡(luò)中斷,數(shù)字資源將無法獲取和使用。文章以北京大學(xué)圖書館長期保存系統(tǒng)建設(shè)實(shí)踐出發(fā),從系統(tǒng)建設(shè)概況、長期保存的技術(shù)保障、長期保存的實(shí)踐探索、長期保存實(shí)踐中的問題與未來展望等方面全面介紹了長期保存系統(tǒng)建設(shè)情況,并對數(shù)字人文資源的長期保存難點(diǎn)進(jìn)行了探索。

        關(guān)鍵詞數(shù)字資源保存長期保存數(shù)字人文

        分類號G250.74

        數(shù)字資源作為館藏資源中的重要部分,其采購經(jīng)費(fèi)在圖書館資源建設(shè)經(jīng)費(fèi)中所占比重越來越大。以北京大學(xué)圖書館(以下簡稱北大圖書館)為例,2014年購買數(shù)字資源的經(jīng)費(fèi)占資源建設(shè)經(jīng)費(fèi)的38%,2016年已上升至65%,比重大幅上升。澳大利亞的維多利亞大學(xué)圖書館在其2016-2020年的戰(zhàn)略規(guī)劃中提到,到2020年該館新購的信息資源將是100%電子化的。作為館藏資源中的重要組成部分,各圖書館越來越重視數(shù)字資源的揭示,越來越多的圖書館建設(shè)了資源發(fā)現(xiàn)系統(tǒng),以期能夠最大限度地揭示館藏?cái)?shù)字資源,提高數(shù)字資源的使用率,更好地服務(wù)讀者。然而,與紙質(zhì)資源相比,數(shù)字資源對存儲(chǔ)介質(zhì)的依賴性非常強(qiáng),存儲(chǔ)介質(zhì)非常脆弱,一旦受到破壞或者損傷,所承載的內(nèi)容就無法獲取和利用,這使得數(shù)字資源面臨著非常大的消失和不可獲得的風(fēng)險(xiǎn)[1]。

        2000年12月,美國國會(huì)為國家數(shù)字信息基礎(chǔ)設(shè)施和保護(hù)計(jì)劃(National Digital Information Infrastructure and Preservation Program,以下簡稱NDIIPP)撥款1億美元,用于收集、保存重要的數(shù)字內(nèi)容并確保其長期可用,建立和加強(qiáng)合作伙伴網(wǎng)絡(luò),并協(xié)同開發(fā)一系列的工具和服務(wù)技術(shù)框架,用于支撐長期保存。該計(jì)劃由美國國會(huì)圖書館領(lǐng)導(dǎo),通過與美國國家科學(xué)基金會(huì)、斯坦福大學(xué)、州政府等眾多機(jī)構(gòu)建立合作伙伴關(guān)系,對WEB信息、音頻、視頻、數(shù)字期刊、電子書、數(shù)字電視、州政府?dāng)?shù)字信息等多種類型的數(shù)字資源開展長期保存研究和實(shí)踐。該計(jì)劃還建立了完善的資助制度,鼓勵(lì)對新型數(shù)字資源開展保存研究和實(shí)踐[2][3]。作為一個(gè)國家級的項(xiàng)目,該計(jì)劃建立起了成熟的合作保存機(jī)制,形成了廣泛的社會(huì)參與,并不斷把新型數(shù)字內(nèi)容納入保存體系當(dāng)中,具有很好的借鑒意義。

        “大量拷貝確保數(shù)據(jù)安全”(Lots Of Copies Keep Stuff Safe,以下簡稱LOCKSS)項(xiàng)目是由斯坦福大學(xué)圖書館發(fā)起的開源的、由圖書館主導(dǎo)的長期保存系統(tǒng),其系統(tǒng)設(shè)計(jì)原則是大量拷貝確保數(shù)據(jù)安全。LOCKSS系統(tǒng)的參與者包括出版商、圖書館和用戶。出版商通過發(fā)布LOCKSS權(quán)限聲明和資源清單對允許保存的內(nèi)容進(jìn)行限定;圖書館在本地部署LOCKSS BOX,根據(jù)出版商的權(quán)限聲明和資源清單獲取和存儲(chǔ)出版商的內(nèi)容,并將本地LOCKSS BOX注冊加入到LOCKSS分布式保存網(wǎng)絡(luò);用戶在出版商內(nèi)容因故(網(wǎng)絡(luò)擁塞、退訂、自然災(zāi)害、戰(zhàn)爭等)不能訪問時(shí)通過本地LOCKSS BOX獲取內(nèi)容。一旦數(shù)據(jù)攝入完成,LOCKSS BOX中的內(nèi)容將不再依賴數(shù)據(jù)庫商,通過不斷與分布式保存網(wǎng)絡(luò)中其他LOCKSS BOX節(jié)點(diǎn)中的相同內(nèi)容進(jìn)行對比及同步,LOCKSS BOX確保本地保存的內(nèi)容始終是正確的。目前,已經(jīng)有超過530家出版商加入了LOCKSS全球保存網(wǎng)絡(luò),另有大量機(jī)構(gòu)創(chuàng)建了LOCKSS私有網(wǎng)絡(luò)保存機(jī)構(gòu)的特殊數(shù)字內(nèi)容[4]。LOCKSS保存系統(tǒng)有眾多的出版社及圖書館參與,在長期保存領(lǐng)域具有很大的影響力,值得國內(nèi)保存系統(tǒng)學(xué)習(xí)和借鑒。

        “柱廊”(Portico)項(xiàng)目不同于前述長期保存系統(tǒng),是由獨(dú)立于出版商和圖書館的第三方提供的保存服務(wù)。Portico保存服務(wù)是非營利機(jī)構(gòu)ITHAKA的一部分,截至2018年8月25日,Portico已與554家出版社和1013家圖書館開展合作,獲取授權(quán)保存期刊31379種、電子書1246248種,已保存期刊26808種、電子書918893種[5]。

        北京大學(xué)圖書館長期保存系統(tǒng)建設(shè)與探索/張乃帥,孫超Construction and Exploration of

        Longterm Preservation System of Peking University Library

        /Zhang Naishuai,Sun Chao

        北京大學(xué)圖書館長期保存系統(tǒng)建設(shè)與探索/張乃帥,孫超Construction and Exploration of

        Longterm Preservation System of Peking University Library/Zhang Naishuai,Sun Chao

        與國外長期保存現(xiàn)狀不同的是,目前國內(nèi)各圖書館在數(shù)字資源的長期保存方面投入的經(jīng)費(fèi)及關(guān)注度遠(yuǎn)遠(yuǎn)不夠,并未引起足夠重視。

        北大圖書館于2016年承建國家數(shù)字科技文獻(xiàn)資源長期保存體系(National Digital Preservation Program,以下簡稱NDPP)北京大學(xué)節(jié)點(diǎn)建設(shè)項(xiàng)目,并以項(xiàng)目為依托,組建了由館長牽頭、兩位副館長分頭負(fù)責(zé)的長期保存項(xiàng)目團(tuán)隊(duì)。項(xiàng)目團(tuán)隊(duì)成員來自信息化與數(shù)據(jù)中心及中國高校人文社會(huì)科學(xué)文獻(xiàn)中心(China Academic Social Sciences and Humanities Library,以下簡稱CASHL)管理中心,在資源談判、軟件開發(fā)及運(yùn)行維護(hù)領(lǐng)域積累了豐富經(jīng)驗(yàn)。同時(shí),以項(xiàng)目為依托,除了完成項(xiàng)目約定的國外重要數(shù)據(jù)庫的國內(nèi)保存以外,逐漸向館藏資源輻射,與資源建設(shè)中心合作探討?zhàn)^藏?cái)?shù)字資源的長期保存事宜。

        本文將以北大圖書館在長期保存方面的工作實(shí)踐為基礎(chǔ),闡述長期保存體系的建設(shè)經(jīng)驗(yàn),從系統(tǒng)建設(shè)概況、長期保存的技術(shù)保障、長期保存的實(shí)踐探索、長期保存實(shí)踐中的問題與未來展望等方面進(jìn)行介紹,以期能為更多圖書館的長期保存系統(tǒng)建設(shè)提供經(jīng)驗(yàn)和借鑒。

        1長期保存系統(tǒng)建設(shè)概況

        眾所周知,大部分外文數(shù)據(jù)庫的服務(wù)器都位于境外,且在境內(nèi)沒有鏡像服務(wù)器。一旦因網(wǎng)絡(luò)擁塞、自然災(zāi)害、戰(zhàn)爭、政治因素等原因?qū)е鲁鼍尘W(wǎng)絡(luò)中斷,外文數(shù)據(jù)庫將無法訪問。這將使大量經(jīng)費(fèi)購買的國外數(shù)據(jù)庫無法產(chǎn)生科研和社會(huì)效益,直接影響我國的科研、教育和創(chuàng)新環(huán)境,對國家科技自主創(chuàng)新能力和國家科技安全造成影響。為此,科技部于2013年批準(zhǔn)由國家科技圖書文獻(xiàn)中心(National Science and Technology Library,以下簡稱NSTL)牽頭組織實(shí)施,以NSTL主要成員單位和少數(shù)重要高校為核心,進(jìn)行國家保存體系的建設(shè)工作,NDPP應(yīng)運(yùn)而生。NDPP由管理機(jī)構(gòu)和保存節(jié)點(diǎn)構(gòu)成,管理機(jī)構(gòu)為NSTL,保存節(jié)點(diǎn)包括中國科學(xué)院文獻(xiàn)情報(bào)中心、中國科學(xué)技術(shù)信息研究所和北大圖書館。

        保存節(jié)點(diǎn)每季度召開例會(huì),匯報(bào)各節(jié)點(diǎn)在資源談判、資源保存方面的工作進(jìn)展及存在的問題,并就已發(fā)現(xiàn)問題的解決進(jìn)展進(jìn)行說明。NDPP還建立了完整性檢查制度和審計(jì)制度,確保各節(jié)點(diǎn)對簽署保存協(xié)議的數(shù)字資源進(jìn)行了準(zhǔn)確、完整、有效的保存。保存節(jié)點(diǎn)還形成了聯(lián)合談判機(jī)制,對部分配合度低、談判進(jìn)展緩慢的數(shù)據(jù)庫商開展聯(lián)合談判。

        作為NDPP的參建節(jié)點(diǎn)和唯一的高校保存節(jié)點(diǎn),北大圖書館重點(diǎn)保存基礎(chǔ)科學(xué)、跨學(xué)科領(lǐng)域和高科技領(lǐng)域的數(shù)字資源,也涉及社會(huì)科學(xué)相關(guān)資源的長期保存,同時(shí)承擔(dān)探索新型數(shù)字資源如數(shù)字人文資源長期保存方案的任務(wù)。根據(jù)項(xiàng)目組成員所承擔(dān)的任務(wù)不同,北大圖書館組建了權(quán)益談判團(tuán)隊(duì)、系統(tǒng)運(yùn)行團(tuán)隊(duì)和軟件開發(fā)團(tuán)隊(duì),分別承擔(dān)數(shù)字資源的保存權(quán)益談判、保存系統(tǒng)的穩(wěn)定運(yùn)行及新增數(shù)字資源的攝入插件開發(fā)等任務(wù)。

        北大圖書館長期保存系統(tǒng)采用了由保存體系承建單位中國科學(xué)院文獻(xiàn)情報(bào)中心研發(fā)的基于Fedora倉儲(chǔ)的數(shù)字資源長期保存系統(tǒng)(Digital Preservation System,以下簡稱DPS)。有關(guān)DPS的系統(tǒng)架構(gòu),付鴻鵠等在《分布式數(shù)字資源保存系統(tǒng)與技術(shù)架構(gòu)研究》一文中已經(jīng)詳細(xì)論述,在此不再贅述。

        經(jīng)過兩年多的實(shí)踐和探索,北大圖書館在資源權(quán)益談判、插件開發(fā)和資源保存方面均取得了較大進(jìn)展, 與Emerald期刊數(shù)據(jù)庫、ProQuest碩博士論文數(shù)據(jù)庫簽署了長期保存協(xié)議,開發(fā)Emerald數(shù)據(jù)攝入插件一個(gè),保存Emerald期刊305種、258506篇,獲取Proquest碩博士論文71.6萬篇。并根據(jù)工作需要,開始在館藏?cái)?shù)據(jù)資源和新型數(shù)字資源長期保存方面開展研究和探索。

        2長期保存的技術(shù)保障

        長期保存作為一個(gè)復(fù)雜的系統(tǒng)工程,需要來自技術(shù)、政策、組織等多個(gè)層面的保障。其中技術(shù)層面包括系統(tǒng)部署、網(wǎng)絡(luò)安全、系統(tǒng)備份、插件開發(fā)和數(shù)據(jù)更新等,用于確保數(shù)據(jù)真正做到“長期”保存,可謂長期保存系統(tǒng)的基礎(chǔ)。

        2.1系統(tǒng)部署

        長期保存系統(tǒng)建設(shè)的第一步是系統(tǒng)部署。系統(tǒng)部署需要根據(jù)DPS系統(tǒng)要求,結(jié)合館內(nèi)的網(wǎng)絡(luò)、存儲(chǔ)、服務(wù)器環(huán)境,制定部署架構(gòu)及方案,確保長期保存系統(tǒng)在系統(tǒng)性能、網(wǎng)絡(luò)安全等方面滿足設(shè)計(jì)需求。最終,北大圖書館將DPS系統(tǒng)部署在兩臺(tái)物理服務(wù)器上,一臺(tái)服務(wù)器部署web服務(wù)器、數(shù)據(jù)庫及索引服務(wù),另一臺(tái)服務(wù)器直連存儲(chǔ)服務(wù)器,用于數(shù)據(jù)存儲(chǔ)。長期保存系統(tǒng)的首要任務(wù)是對資源進(jìn)行可靠保存,平時(shí)不對外提供服務(wù),為確保服務(wù)器的可靠穩(wěn)定,在長期保存系統(tǒng)前端與校園網(wǎng)之間架設(shè)了防火墻,對服務(wù)器進(jìn)行嚴(yán)格的訪問控制。

        2.2系統(tǒng)安全

        DPS系統(tǒng)采用了大量的開源組件進(jìn)行建設(shè),而開源組件面臨的一項(xiàng)重大挑戰(zhàn)是源代碼對所有人開放,一旦開源組件出現(xiàn)安全漏洞,漏洞即對所有人可見且漏洞特征將會(huì)非常明顯。開源組件的漏洞如果被別有用心的攻擊者利用,造成的損失不可估量。雖然DPS系統(tǒng)位于防火墻后,不會(huì)受到直接攻擊,但是目前仍與其他服務(wù)器處于同一個(gè)網(wǎng)絡(luò)環(huán)境,一旦其他服務(wù)器存在安全漏洞被攻擊者利用,DPS系統(tǒng)仍將受到威脅。為了盡早發(fā)現(xiàn)DPS系統(tǒng)存在的漏洞,降低受到網(wǎng)絡(luò)安全威脅的概率,確保長期保存系統(tǒng)的數(shù)據(jù)安全,系統(tǒng)運(yùn)行團(tuán)隊(duì)定期對DPS系統(tǒng)進(jìn)行網(wǎng)絡(luò)安全掃描和滲透測試,如果發(fā)現(xiàn)新的漏洞,第一時(shí)間與開發(fā)團(tuán)隊(duì)溝通,獲取漏洞解決方案并進(jìn)行相應(yīng)的網(wǎng)絡(luò)安全升級。通過網(wǎng)絡(luò)安全掃描和滲透測試,北大圖書館共發(fā)現(xiàn)命令執(zhí)行、注入、WebShell等類型高危漏洞6個(gè),通過與開發(fā)團(tuán)隊(duì)合作,及時(shí)封堵了漏洞,清除了潛在威脅。

        2.3數(shù)據(jù)備份

        除了網(wǎng)絡(luò)安全掃描以外,數(shù)據(jù)備份是另一項(xiàng)對長期保存系統(tǒng)數(shù)據(jù)安全至關(guān)重要的維護(hù)任務(wù),主要應(yīng)對硬件故障及網(wǎng)絡(luò)攻擊等帶來的數(shù)據(jù)損壞和丟失。目前,系統(tǒng)運(yùn)行團(tuán)隊(duì)根據(jù)長期保存系統(tǒng)的特點(diǎn)及備份系統(tǒng)架構(gòu),制定了在線磁盤備份和離線磁帶庫備份兩種備份策略,在線磁盤備份可進(jìn)行快速恢復(fù),保留的備份周期較短;離線磁帶庫備份恢復(fù)周期比磁盤備份恢復(fù)周期長,但是能保存較長的備份周期。

        目前,北大圖書館僅有一個(gè)數(shù)據(jù)中心,距離金融系統(tǒng)的“兩地三中心”運(yùn)營安全體系尚有較大差距,無法應(yīng)對災(zāi)難級故障。為了提高安全系數(shù),北大圖書館正在規(guī)劃建設(shè)“同城異地?cái)?shù)據(jù)中心”,將備份數(shù)據(jù)放置于同城其他校區(qū)的數(shù)據(jù)中心內(nèi),避免因一個(gè)數(shù)據(jù)中心遇到災(zāi)難級故障導(dǎo)致數(shù)據(jù)丟失的極端情況發(fā)生。

        2.4插件開發(fā)

        由于不同電子資源的數(shù)據(jù)類型不同、數(shù)據(jù)格式不同,這些數(shù)據(jù)要存入長期保存系統(tǒng),需要不同的數(shù)據(jù)攝入插件做支撐。對于DPS系統(tǒng)已經(jīng)支持的電子資源類型如期刊、電子書等,通過分析數(shù)據(jù)庫商提供的樣例數(shù)據(jù)形成新增資源格式分析報(bào)告,以格式分析報(bào)告為基礎(chǔ),調(diào)用DPS系統(tǒng)提供的接口開發(fā)數(shù)據(jù)攝入插件。開發(fā)完成并測試通過以后,部署到DPS服務(wù)器,用于新增資源的數(shù)據(jù)攝入。

        對于首次保存的資源類型如ProQuest碩博士論文,目前的底層數(shù)據(jù)模型并不能滿足保存需求。通過調(diào)研學(xué)位論文相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),北大圖書館提出學(xué)位論文類型電子資源的保存規(guī)范,并與中國科學(xué)院文獻(xiàn)情報(bào)中心開發(fā)團(tuán)隊(duì)進(jìn)行了深入溝通。后續(xù)將在中國科學(xué)院文獻(xiàn)情報(bào)中心開發(fā)團(tuán)隊(duì)對底層數(shù)據(jù)模型進(jìn)行調(diào)整后及時(shí)開發(fā)ProQuest碩博士論文攝入插件。

        2.5數(shù)據(jù)更新

        長期保存系統(tǒng)最核心的常規(guī)工作是根據(jù)保存協(xié)議的約定周期定期獲取電子資源的更新數(shù)據(jù)并上載至DPS系統(tǒng)。為規(guī)范數(shù)據(jù)來源,北大圖書館統(tǒng)一通過FTP服務(wù)器向DPS系統(tǒng)提供保存資源的數(shù)據(jù)更新。FTP服務(wù)器上的數(shù)據(jù)來源,根據(jù)數(shù)據(jù)量大小、數(shù)據(jù)庫商的數(shù)據(jù)傳遞策略等多種因素的不同,有多種更新途徑,包括硬盤更新、FTP更新等。如通過硬盤更新數(shù)據(jù),在獲取硬盤并校驗(yàn)硬盤數(shù)據(jù)后由項(xiàng)目組成員上傳至FTP服務(wù)器;如通過FTP更新數(shù)據(jù),則在FTP服務(wù)器上向數(shù)據(jù)庫商服務(wù)器發(fā)起FTP下載請求獲取更新數(shù)據(jù)。為確保更新數(shù)據(jù)的安全可靠,通過配置防火墻策略,僅允許FTP服務(wù)器對外發(fā)起請求,不允許外部服務(wù)器向FTP服務(wù)器發(fā)起請求,盡量降低FTP服務(wù)器被攻擊的可能性。

        3長期保存的實(shí)踐探索

        經(jīng)過兩年的建設(shè)和努力,北大圖書館長期保存系統(tǒng)在權(quán)益談判、數(shù)據(jù)建設(shè)等方面均取得豐碩成果,并著手探索數(shù)字人文資源及館藏?cái)?shù)字資源的長期保存。

        3.1權(quán)益談判

        北大圖書館組建了由主管副館長及CASHL管理中心成員構(gòu)成的權(quán)益談判團(tuán)隊(duì),負(fù)責(zé)重要數(shù)字資源的保存權(quán)益談判。團(tuán)隊(duì)成員均主持及參與高校圖書館數(shù)字資源采購聯(lián)盟(Digital Resource Acquisition Alliance of Chinese Academic Libraries,以下簡稱DRAA)的日常工作,對數(shù)據(jù)庫資源非常了解,在資源采購談判方面具有豐富經(jīng)驗(yàn)。同時(shí)借助DRAA理事會(huì)等渠道,能夠獲得DRAA各牽頭館的廣泛支持,而且能夠擴(kuò)大保存體系的宣傳途徑和影響力。

        權(quán)益談判團(tuán)隊(duì)經(jīng)過漫長談判和不懈努力,成功簽署Emerald期刊數(shù)據(jù)庫保存協(xié)議、ProQuest碩博士論文數(shù)據(jù)庫保存協(xié)議。其中,ProQuest碩博士論文數(shù)據(jù)庫保存協(xié)議是NDPP中首次簽署學(xué)位論文類型的保存協(xié)議,在保存資源類型和保存數(shù)據(jù)量上均取得突破性進(jìn)展。權(quán)益談判團(tuán)隊(duì)積極推動(dòng)與Elsevier公司的談判進(jìn)程,目前雙方已基本達(dá)成一致,即將進(jìn)入實(shí)質(zhì)性操作階段。與Taylor & Francis公司的談判也在持續(xù)進(jìn)行,公司董事會(huì)支持NDPP項(xiàng)目,雙方正就協(xié)議內(nèi)容展開討論。在牽頭開展電子資源采購過程中,北大圖書館積極推動(dòng)長期保存談判,已與“一帶一路專題數(shù)據(jù)庫”“南亞研究回溯數(shù)據(jù)庫”“美洲回溯文獻(xiàn)典藏?cái)?shù)據(jù)庫”三個(gè)數(shù)據(jù)庫提供商達(dá)成向北大圖書館提供長期保存數(shù)據(jù)的意向。此外,權(quán)益談判團(tuán)隊(duì)還向Brill發(fā)出了保存要約。

        3.2長期保存數(shù)據(jù)建設(shè)

        截至2018年8月25日,北大圖書館長期保存系統(tǒng)已完成Emerald 2017年前回溯數(shù)據(jù)的保存工作,共保存期刊305種、全文258506篇;已獲得ProQuest碩博士論文全文71.6萬篇,由于底層數(shù)據(jù)模型及數(shù)據(jù)攝入插件尚未調(diào)整及開發(fā)完成,ProQuest碩博士論文還未進(jìn)行保存。

        3.3數(shù)字人文資源及館藏資源的長期保存實(shí)踐

        數(shù)字人文是計(jì)算機(jī)學(xué)科和人文學(xué)科交叉研究的一個(gè)新領(lǐng)域,由計(jì)算人文和人文計(jì)算領(lǐng)域發(fā)展而來。對數(shù)字人文學(xué)科本質(zhì)的認(rèn)識(shí)一直存在不同觀點(diǎn),其中一個(gè)被廣泛引用的典型解釋是:數(shù)字人文是針對計(jì)算工具與所有文化產(chǎn)品交叉領(lǐng)域的研究[6]。中國歷代人物傳記資料庫(China Biographical Database,以下簡稱CBDB)是由哈佛大學(xué)費(fèi)正清中國研究中心、北京大學(xué)中國古代史研究中心、臺(tái)灣“中央”研究院歷史語言研究所共同主持的學(xué)術(shù)數(shù)據(jù)庫。截至2018年8月,CBDB共收錄41.7萬人的傳記資料,是數(shù)字人文領(lǐng)域具有深遠(yuǎn)影響力和極具代表性的學(xué)術(shù)項(xiàng)目。經(jīng)過溝通,CBDB項(xiàng)目組已同意在北大圖書館設(shè)立CBDB鏡像站點(diǎn),將CBDB數(shù)據(jù)在本地保存。項(xiàng)目組也已原則上同意北大圖書館將CBDB數(shù)據(jù)長期保存,詳細(xì)條款正在進(jìn)行溝通探討。

        Gale數(shù)據(jù)庫整合了多種來源的信息,收錄了跨越全球500年歷史的大量原始檔案一次文獻(xiàn),涉及包括經(jīng)濟(jì)、歷史、社會(huì)、國際關(guān)系、文學(xué)、地理、政治、法律等在內(nèi)的豐富的學(xué)科主題。北大圖書館于2017年訂購了Gale數(shù)據(jù)庫,在訂購時(shí)即注重?cái)?shù)據(jù)的本地存儲(chǔ),在簽訂合同時(shí)明確約定全部數(shù)據(jù)在本地進(jìn)行備份存儲(chǔ)。長期保存系統(tǒng)運(yùn)行團(tuán)隊(duì)已于2018年6月完成Gale數(shù)據(jù)庫平臺(tái)全部數(shù)據(jù)的獲取和本地存儲(chǔ)工作,共存儲(chǔ)文件1.82億個(gè),數(shù)據(jù)量103T。目前,北大圖書館項(xiàng)目團(tuán)隊(duì)正在與資源建設(shè)中心、Gale集團(tuán)探討將Gale數(shù)據(jù)長期保存的可行性。

        4長期保存實(shí)踐中的問題與未來展望

        經(jīng)過兩年的探索和實(shí)踐,北大圖書館在長期保存系統(tǒng)建設(shè)方面取得了一定成果,同時(shí)也發(fā)現(xiàn)了一些問題,制約著長期保存系統(tǒng)的建設(shè)和發(fā)展。

        4.1數(shù)據(jù)庫商提供的回溯數(shù)據(jù)和更新數(shù)據(jù)格式不一致

        數(shù)據(jù)庫商提供的回溯數(shù)據(jù)和后續(xù)提供的更新數(shù)據(jù),在數(shù)據(jù)格式方面有時(shí)候會(huì)存在差異,為此,需要開發(fā)兩個(gè)版本的數(shù)據(jù)攝入插件,一個(gè)版本用于攝入回溯數(shù)據(jù),另一個(gè)版本用于后續(xù)的常規(guī)數(shù)據(jù)更新。這種狀況除帶來額外的開發(fā)工作量,也可能造成同一數(shù)據(jù)庫保存的數(shù)據(jù)項(xiàng)前后不一致。造成這種狀況的原因,一部分跟數(shù)據(jù)庫商原始數(shù)據(jù)本身存在差異有關(guān),另一部分也跟圖書館和數(shù)據(jù)庫商之間的數(shù)據(jù)格式約定不嚴(yán)格有關(guān)。后續(xù)建設(shè)過程中,應(yīng)從權(quán)益談判階段開始關(guān)注電子資源的數(shù)據(jù)格式,必要時(shí)將插件開發(fā)人員引入權(quán)益談判團(tuán)隊(duì),盡量從源頭避免回溯數(shù)據(jù)與更新數(shù)據(jù)不一致的問題。

        4.2部分功能需手動(dòng)啟用

        由于系統(tǒng)本身的架構(gòu)設(shè)計(jì)原因,北大圖書館長期保存系統(tǒng)的部分功能需要在服務(wù)器后臺(tái)通過執(zhí)行特定命令開啟,無法通過管理界面直接使用。這導(dǎo)致長期保存系統(tǒng)在使用及運(yùn)行過程中需要進(jìn)行人工干預(yù),自動(dòng)化程度有待提高。

        4.3底層數(shù)據(jù)模型兼容性較差

        由于DPS系統(tǒng)最初設(shè)計(jì)面向的保存類型主要是電子書和電子期刊,底層數(shù)據(jù)模型對其他類型的數(shù)字資源比如學(xué)位論文兼容性較差。對學(xué)位論文類型的數(shù)字資源進(jìn)行保存,首先要調(diào)整底層數(shù)據(jù)模型,然后才可以進(jìn)行數(shù)據(jù)攝入插件開發(fā)及保存,耗時(shí)周期長,時(shí)效性較差。

        4.4數(shù)字人文資源保存難度大

        數(shù)字人文研究的基本方法為社會(huì)網(wǎng)絡(luò)分析、文本分析、空間分析和時(shí)序分析。社會(huì)網(wǎng)絡(luò)分析是一門對社會(huì)關(guān)系進(jìn)行量化分析的藝術(shù)和技術(shù),它要求有較高的統(tǒng)計(jì)學(xué)、數(shù)學(xué)功底, 以及計(jì)算機(jī)編程技術(shù)和能力等[7]。文本分析是指利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語言處理、可視化技術(shù)等多學(xué)科領(lǐng)域的技術(shù)和方法,對文本數(shù)據(jù)進(jìn)行抽取進(jìn)而發(fā)現(xiàn)新穎、有趣的知識(shí)[8]??臻g分析和時(shí)序分析經(jīng)常被結(jié)合使用,以地理信息系統(tǒng)(GIS)為依托,利用GIS技術(shù)的空間數(shù)據(jù)采集、時(shí)空數(shù)據(jù)建模、多層地圖疊加功能,分析不同時(shí)間切面中的地理、社會(huì)、自然之間的關(guān)系,探索發(fā)展演變規(guī)律[9]。

        通過數(shù)字人文研究的基本方法可以看出,數(shù)字人文資源除了包括文本、圖像、音頻、視頻等傳統(tǒng)數(shù)字對象外,還包括圖論語言和技術(shù)、數(shù)學(xué)模型、計(jì)算機(jī)模擬軟件、數(shù)據(jù)挖掘算法、自然語言處理技術(shù)及軟件、地理信息系統(tǒng)等大量技術(shù)工具。這一點(diǎn)與傳統(tǒng)數(shù)字資源有很大不同。傳統(tǒng)數(shù)字資源如期刊、電子書等,一般具有規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)和全文,長期保存系統(tǒng)只需設(shè)計(jì)出相對固定的底層數(shù)據(jù)模型,配合不同的數(shù)據(jù)庫攝入插件,即可完成大部分期刊、電子書數(shù)據(jù)的保存,而且新增數(shù)據(jù)相對獨(dú)立,可以認(rèn)為與已保存數(shù)據(jù)沒有直接關(guān)系。而數(shù)字人文資源與人文研究過程緊密相連,是動(dòng)態(tài)變化的、帶有時(shí)間序列的,變化本身是連續(xù)的、不可分割的,甚至這種變化本身也是數(shù)字人文所關(guān)注的,且每種不同的數(shù)字人文資源,其基礎(chǔ)數(shù)據(jù)和所采用的技術(shù)工具都存在很大不同。如何設(shè)計(jì)一種靈活的數(shù)據(jù)模型,能夠在保存數(shù)字人文資源時(shí)體現(xiàn)其動(dòng)態(tài)變化過程,并能將其依賴的技術(shù)工具加以保存或說明,且能滿足大部分?jǐn)?shù)字人文資源的保存需求,是數(shù)字人文資源長期保存面臨的極大挑戰(zhàn),需要經(jīng)歷長時(shí)間的探索。

        如前文所述,數(shù)字資源已成為教育科研的主要資源,世界各國已開始對數(shù)字資源的長期保存進(jìn)行戰(zhàn)略部署。但由于數(shù)字資源內(nèi)容增速快、規(guī)模大、結(jié)構(gòu)復(fù)雜、格式多變,給長期保存和永久利用帶來了極大挑戰(zhàn)。北大圖書館在參與國家科技部“國家數(shù)字科技文獻(xiàn)資源長期保存體系”項(xiàng)目的過程中,積累了一定經(jīng)驗(yàn),更體會(huì)到這是一項(xiàng)復(fù)雜的長期的任務(wù),目前尚有許多技術(shù)、政策、組織等方面的問題需要解決,需要更多的機(jī)構(gòu)參與進(jìn)來,共同推動(dòng)此項(xiàng)工作。

        參考文獻(xiàn)

        1陸泉,韓雪,韓陽,陳靜. 我國數(shù)字信息資源長期保存研究綜述[J]. 圖書館學(xué)研究,2015(4): 2-8.

        2DigitalPreservation[EB/OL].[2018-8-25]. http://www.digitalpreservation.gov.

        3LoC[EB/OL].[2018-8-25].https://www.loc.gov.

        4LOCKSS[EB/OL].[2018-8-25].https://www.lockss.org.

        5Portico[EB/OL].[2018-8-25].https://www.portico.org.

        6柯平,宮平. 數(shù)字人文研究演化路徑與熱點(diǎn)領(lǐng)域分析[J]. 中國圖書館學(xué)報(bào),2016(6): 13-30.

        7湯匯道. 社會(huì)網(wǎng)絡(luò)分析法評述[J]. 學(xué)術(shù)界.2009(3): 205-208.

        8郭金龍,許鑫. 數(shù)字人文中的文本挖掘研究[J]. 大學(xué)圖書館學(xué)報(bào).2012(3): 11-18.

        9夏翠娟. 中國歷史地理數(shù)據(jù)在圖書館數(shù)字人文項(xiàng)目中的開放應(yīng)用研究[J]. 中國圖書館學(xué)報(bào).2017(2): 40-53.

        作者單位:北京大學(xué)圖書館,北京,100871

        收稿日期:2018年9月5日

        猜你喜歡
        數(shù)據(jù)庫資源系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        基礎(chǔ)教育資源展示
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        一樣的資源,不一樣的收獲
        資源回收
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        在线视频观看一区二区| 久久婷婷国产综合精品| 亚洲国产精品美女久久| 国产亚洲无码1024| 中文字幕日韩三级片| 亚洲avav天堂av在线网爱情| 国产成人精品av| 精品国产黑色丝袜高跟鞋| 99福利在线| 伊人不卡中文字幕在线一区二区| 美腿丝袜日韩在线观看| 亚洲av无一区二区三区久久| 999久久久免费精品国产| 色婷婷精品综合久久狠狠| 国内自拍视频在线观看h| 亚洲精品中文字幕视频色| 久久天天躁狠狠躁夜夜av| 99这里只有精品| 在线观看极品裸体淫片av| 在线播放草猛免费视频| 男人进去女人爽免费视频| 欧美激情二区| 国产亚洲精品高清视频| 亚洲一区二区三区,日本| 亚洲av无码一区二区三区观看| 综合色久七七综合尤物| 精品人妻av一区二区三区不卡| 国产一区二区视频在线看| 久久亚洲av无码精品色午夜| 久久久久久人妻一区二区三区| 欧美日韩亚洲综合久久久| 亚洲中文中文字幕乱码| 亚洲精品美女久久777777| 国产丰满老熟女重口对白| 国产精品丝袜美女在线观看| 亚洲熟妇av一区二区三区hd| 97精品国产一区二区三区| 永久免费av无码网站yy| 久久露脸国产精品WWW| 自拍偷区亚洲综合激情| 日产乱码一二三区别免费l|