,,
傳統(tǒng)學(xué)術(shù)出版作為學(xué)術(shù)交流和傳播的途徑,在數(shù)字時(shí)代日益呈現(xiàn)出與其初衷相悖的態(tài)勢(shì)。各數(shù)據(jù)庫(kù)廠商日趨壟斷并不斷商業(yè)化的趨勢(shì)形成了高昂的價(jià)格壁壘,成為學(xué)術(shù)成果生產(chǎn)者和使用者獲取與使用學(xué)術(shù)資源的阻礙。高校的教學(xué)和科研成果是彰顯高校辦學(xué)質(zhì)量和核心競(jìng)爭(zhēng)力的重要指標(biāo)之一,是圖書館館藏建設(shè)的重要內(nèi)容,但是在傳統(tǒng)學(xué)術(shù)交流體系中,這些資源卻分散于各種期刊、數(shù)據(jù)庫(kù)和網(wǎng)站中,限制了圖書館和教研人員對(duì)本校研究成果的存取,不利于本校原生資源的共享和長(zhǎng)期保存。因此,高校迫切需要一種自由開放、便捷可靠的學(xué)術(shù)資源交流共享方式。很多高校圖書館已經(jīng)意識(shí)到這個(gè)問題并開始著手構(gòu)建本校原生資源庫(kù),旨在將本校的教學(xué)科研成果集中保存、有效管理,以便于檢索和傳播使用[1-3]。
第二軍醫(yī)大學(xué)自建校以來已產(chǎn)生了海量的學(xué)術(shù)信息資源,包括已發(fā)表或未發(fā)表的期刊論文、會(huì)議論文、學(xué)術(shù)論文、科技報(bào)告、圖書、教學(xué)課件、成果專利、圖片等。第二軍醫(yī)大學(xué)圖書館(以下簡(jiǎn)稱“我館”)通過自建原生資源數(shù)據(jù)庫(kù)平臺(tái)實(shí)現(xiàn)了對(duì)本校產(chǎn)生的學(xué)術(shù)資源的有效獲取、存檔、管理和利用,從而進(jìn)一步促進(jìn)了學(xué)術(shù)傳播和學(xué)術(shù)繁榮。
與傳統(tǒng)的紙質(zhì)文獻(xiàn)和電子期刊數(shù)據(jù)庫(kù)相比,原生資源數(shù)據(jù)庫(kù)所涵蓋的數(shù)字資源在載體形式和文檔格式上更豐富,在時(shí)效性上也更具優(yōu)勢(shì),能夠很好地促進(jìn)圖書館的館藏資源建設(shè)和館藏結(jié)構(gòu)優(yōu)化。為了完成第二軍醫(yī)大學(xué)自建校以來產(chǎn)生的全部原生文獻(xiàn)資源建設(shè)數(shù)字化任務(wù),我館根據(jù)學(xué)校實(shí)際需求,構(gòu)建原生文獻(xiàn)資源數(shù)字化加工、存儲(chǔ)、管理、服務(wù)于一體的集成環(huán)境,制定配套的建設(shè)管理使用規(guī)范,建設(shè)特色鮮明、種類齊全、內(nèi)容完整、布局合理的原生文獻(xiàn)信息資源庫(kù),并搭建一個(gè)可以實(shí)現(xiàn)長(zhǎng)期保存和動(dòng)態(tài)更新的數(shù)字原生資源庫(kù)平臺(tái)。
該原生資源庫(kù)平臺(tái)需達(dá)到以下要求:一是數(shù)字文獻(xiàn)資源的集中存儲(chǔ)、集中管理、統(tǒng)一發(fā)布,數(shù)據(jù)制作與發(fā)布簡(jiǎn)便、高效,審核發(fā)布后的數(shù)據(jù)前臺(tái)實(shí)時(shí)響應(yīng);二是方便高效地建立各種類型專題文獻(xiàn)庫(kù),適應(yīng)圖書、期刊論文、會(huì)議論文、學(xué)位論文以及教案、課件、報(bào)告、手稿等資料的管理和發(fā)布,并能適應(yīng)百萬級(jí)以上規(guī)模資源文獻(xiàn)的管理和發(fā)布;三是支持單字段檢索,多字段聯(lián)合高級(jí)檢索,支持單庫(kù)瀏覽檢索以及跨庫(kù)聯(lián)合檢索,支持在線閱讀全文和全文下載功能,支持外部著錄數(shù)據(jù)(如Marc等)的批量導(dǎo)入和自動(dòng)關(guān)聯(lián)標(biāo)引,減少人工標(biāo)引工作量。
原生資源庫(kù)平臺(tái)系統(tǒng)架構(gòu)如圖1所示。
圖1 原生資源庫(kù)平臺(tái)設(shè)計(jì)架構(gòu)
原生資源庫(kù)平臺(tái)共有存儲(chǔ)層、業(yè)務(wù)層、應(yīng)用層3層邏輯結(jié)構(gòu)。存儲(chǔ)層的主要功能是對(duì)數(shù)字資源內(nèi)容及相關(guān)的元數(shù)據(jù)進(jìn)行儲(chǔ)存和修改等操作,其操作對(duì)象包括數(shù)據(jù)流(即數(shù)字資源本身和數(shù)據(jù)條目)和元數(shù)據(jù)(對(duì)數(shù)字資源屬性和相關(guān)關(guān)系進(jìn)行描述與揭示的數(shù)據(jù));業(yè)務(wù)層負(fù)責(zé)對(duì)整個(gè)系統(tǒng)的業(yè)務(wù)邏輯進(jìn)行操作,具體包括內(nèi)容管理(數(shù)字對(duì)象管理和唯一標(biāo)識(shí)符生成)、存取管理(數(shù)字對(duì)象映射和數(shù)字對(duì)象分發(fā))和系統(tǒng)管理(用戶安全、權(quán)限、歷史日志和工作流等);應(yīng)用層主要負(fù)責(zé)向用戶提供基于 Web 的操作界面,包括數(shù)字資源提交,對(duì)整個(gè)原生資源庫(kù)的瀏覽、檢索,數(shù)字資源獲取及其他一些信息服務(wù)[4-5]。
原生資源庫(kù)平臺(tái)的運(yùn)行主要包括存儲(chǔ)和獲取兩個(gè)環(huán)節(jié)。存儲(chǔ)環(huán)節(jié)先由用戶通過應(yīng)用層進(jìn)行數(shù)字資源提交,然后由業(yè)務(wù)層進(jìn)行內(nèi)容審核與管理,最后由存儲(chǔ)層進(jìn)行數(shù)據(jù)流和元數(shù)據(jù)包的存儲(chǔ);獲取環(huán)節(jié)由用戶通過應(yīng)用層進(jìn)行瀏覽與檢索,提交獲取申請(qǐng),業(yè)務(wù)層根據(jù)檢索詞進(jìn)行數(shù)字對(duì)象映射與分發(fā),從存儲(chǔ)層中抽取相關(guān)內(nèi)容,最后通過應(yīng)用層將數(shù)字資源提供給用戶。
原生資源庫(kù)平臺(tái)主要包含文獻(xiàn)資源管理和數(shù)據(jù)發(fā)布兩大子系統(tǒng),分別實(shí)現(xiàn)文獻(xiàn)入庫(kù)、標(biāo)引、發(fā)布和瀏覽的功能。系統(tǒng)采用B/S(Browser/Server)結(jié)構(gòu)方式,客戶端可通過瀏覽器在任何時(shí)間和地點(diǎn)對(duì)服務(wù)器各種數(shù)據(jù)資源進(jìn)行管理和檢索、瀏覽、下載[6]。
2.2.1 文獻(xiàn)資源管理子系統(tǒng)
該子系統(tǒng)主要實(shí)現(xiàn)對(duì)數(shù)字文獻(xiàn)資源的管理,包含各專題數(shù)據(jù)庫(kù)結(jié)構(gòu)定義、全文入庫(kù)、標(biāo)引、發(fā)布等功能[7-8]。
2.2.1.1 資源分類
原生資源類型包括科研資源和數(shù)學(xué)資源(表1)。正式出版物包括期刊論文、會(huì)議論文、圖書專著等,非正式出版物包括本校學(xué)位論文、工作報(bào)告、科研數(shù)據(jù)、講座報(bào)告、教案、課件、軟件和程序等各種形式的學(xué)術(shù)成果。
表1 原生資源庫(kù)管理的主要資源類型
系統(tǒng)還可針對(duì)用戶的需求,提供新建資源分類的功能,方便用戶根據(jù)本校特色資源庫(kù)的性質(zhì)和讀者的需求實(shí)現(xiàn)資源的自定義分類管理。在分類時(shí),交叉學(xué)科的資源除了嚴(yán)格按分類法進(jìn)行分類外,還提供復(fù)選選項(xiàng),解決學(xué)科、類型、主題交叉等帶來的多個(gè)分類的問題。
2.2.1.2 資源錄入
支持聯(lián)機(jī)采集數(shù)據(jù),支持doc(x)、xls(x)、caj、pdf、pdg等各種主流數(shù)字出版格式文件的批量導(dǎo)入;允許管理員逐條將所需發(fā)布的文獻(xiàn)添加到數(shù)據(jù)庫(kù)中,添加的基本信息包含操作用戶、文獻(xiàn)標(biāo)題、全文文獻(xiàn)路徑、文獻(xiàn)來源、加工日期等,其他信息可以在標(biāo)引環(huán)節(jié)處理;支持對(duì)新添加數(shù)據(jù)詳細(xì)信息的自動(dòng)補(bǔ)全功能。在添加數(shù)據(jù)入庫(kù)時(shí),可對(duì)用戶提供的基本信息與已存在數(shù)據(jù)進(jìn)行對(duì)比,選擇出相似度最高的數(shù)據(jù)供管理員一鍵同步[9]。
支持線下采集數(shù)據(jù),如紙質(zhì)圖書經(jīng)掃描儀導(dǎo)入等。經(jīng)掃描完成的圖像可按整本圖書的形式封裝成一本電子書,以PDF的格式進(jìn)行保存。系統(tǒng)能夠提取書名、作者信息,將生成的電子書分門別類歸屬到相應(yīng)專題數(shù)據(jù)庫(kù);還可對(duì)每本圖書制作目錄導(dǎo)航,以PDF書簽形式在PDF文件內(nèi)生成目錄導(dǎo)航文件。有目錄頁(yè)的圖書,目錄導(dǎo)航遵照?qǐng)D書目錄頁(yè)著錄,目錄編輯采用簡(jiǎn)體字著錄;沒有目錄頁(yè)的圖書,則對(duì)照書本內(nèi)容編制目錄導(dǎo)航,一般編輯二級(jí)目錄。
2.2.1.3 自動(dòng)標(biāo)引著錄
原生資源進(jìn)入數(shù)據(jù)庫(kù)之前要先經(jīng)過預(yù)處理,文獻(xiàn)的預(yù)處理包括轉(zhuǎn)碼、整理和標(biāo)引等。可以通過標(biāo)題、文摘作為標(biāo)引源,經(jīng)OCR后,系統(tǒng)采用自動(dòng)詞語抽取功能,對(duì)所識(shí)別出的主題詞進(jìn)行優(yōu)選,或以其他算法得到的關(guān)鍵詞作為標(biāo)引詞,最終產(chǎn)生表達(dá)所掃描文獻(xiàn)內(nèi)容的標(biāo)引詞。還可采用標(biāo)準(zhǔn)的Marc格式對(duì)各類型文獻(xiàn)進(jìn)行元數(shù)據(jù)著錄,并支持外部Marc文件的導(dǎo)入和交換。系統(tǒng)預(yù)先設(shè)置期刊(連續(xù)出版物)、圖書、報(bào)告、音視頻等常用文獻(xiàn)類型的Marc著錄字段,并允許用戶自由定義需要增加的字段[10]。
2.2.1.4 資源編輯加工
具有新建信息文檔的功能,可以將Word或互聯(lián)網(wǎng)頁(yè)的正文內(nèi)容直接復(fù)制粘貼到文檔內(nèi)容之中,可以在文檔正文中插入圖片和表格,可對(duì)文檔內(nèi)容進(jìn)行可視化排版。信息錄入采用所見即所得的方式,文檔發(fā)布形式與文檔編輯版式相同。 文本編輯:支持像Word一樣的可視化在線編輯功能,支持Word內(nèi)容智能排版、Word圖片一鍵上傳,正文圖片在線裁剪功能,在線截屏功能;圖片編輯:支持圖片批量上傳并自動(dòng)生成縮略圖,前臺(tái)幻燈片顯示圖片集;視頻編輯:支持?jǐn)帱c(diǎn)續(xù)傳,在線avi轉(zhuǎn)flv。
2.2.2 數(shù)據(jù)發(fā)布子系統(tǒng)
數(shù)據(jù)發(fā)布子系統(tǒng)主要完成自建原生資源庫(kù)的Web發(fā)布功能,界面友好,功能強(qiáng)大,以統(tǒng)一高效、快速方便檢索為目的,實(shí)現(xiàn)原生資源高效、準(zhǔn)確、即時(shí)的發(fā)布。支持doc(x)、ppt(x)、pdf等格式文件的在線瀏覽功能。管理員可以指定需要發(fā)布的數(shù)據(jù)庫(kù)和文獻(xiàn)列表,一經(jīng)審核和發(fā)布后,前臺(tái)立即可以進(jìn)行檢索和全文下載。主要功能包括:數(shù)據(jù)審核,完成數(shù)據(jù)發(fā)布前的審核,具有審核權(quán)限的用戶登陸到發(fā)布系統(tǒng),進(jìn)行發(fā)布前審核,文獻(xiàn)審核通過(允許發(fā)表)后可以進(jìn)行發(fā)布操作,允許用戶單篇或者批量選擇文獻(xiàn)進(jìn)行審核操作;數(shù)據(jù)發(fā)布,完成信息的前臺(tái)發(fā)布,發(fā)布后可以立即進(jìn)行前臺(tái)檢索和文獻(xiàn)下載,允許用戶選擇特定范圍的文章進(jìn)行發(fā)布;訪問控制,所有用戶可以通過網(wǎng)絡(luò)地址訪問已發(fā)布的數(shù)據(jù),在線瀏覽和檢索、下載需要的資源;用戶管理,文獻(xiàn)加工、標(biāo)引、審核發(fā)布人員管理功能,可以預(yù)先定義文獻(xiàn)導(dǎo)入權(quán)限、文獻(xiàn)標(biāo)引權(quán)限、文獻(xiàn)審核權(quán)限、數(shù)據(jù)發(fā)布權(quán)限等5個(gè)管理權(quán)限。
為了節(jié)約建設(shè)和維護(hù)成本,現(xiàn)有的原生資源庫(kù)開發(fā)大多采用的是開放源碼軟件,如DSpace,EPrints,F(xiàn)edo等。但是,這些來源于國(guó)外的資源庫(kù)建設(shè)軟件,在頁(yè)面呈現(xiàn)、功能拓展以及長(zhǎng)期維護(hù)方面都不太符合中國(guó)國(guó)情。我館原生資源庫(kù)平臺(tái)采用ASP.NET技術(shù)進(jìn)行開發(fā),支持多種開發(fā)語言,如ADO.NET、AJAX無刷新技術(shù)、LINQ數(shù)據(jù)庫(kù)訪問技術(shù)、母版頁(yè)、Web Service、主題等。整個(gè)系統(tǒng)具有方便、靈活、性能優(yōu)、生產(chǎn)效率高、安全性強(qiáng)、完整性強(qiáng)等特點(diǎn)。
原生資源庫(kù)建設(shè)與維護(hù)的主要技術(shù)包括數(shù)字對(duì)象管理技術(shù)和開放存取技術(shù)。數(shù)字對(duì)象管理技術(shù)是原生資源庫(kù)實(shí)現(xiàn)內(nèi)容組織和長(zhǎng)期保存的關(guān)鍵技術(shù),其核心內(nèi)容是數(shù)字對(duì)象框架;開放存取技術(shù)是原生資源庫(kù)實(shí)現(xiàn)互操作和開放存取的關(guān)鍵技術(shù),主要包括基于OAI-PMH的開放元數(shù)據(jù)互操作技術(shù)、基于DOI的永久性保存與利用技術(shù)、基于搜索引擎的開放存取技術(shù)和基于Web Service的開放存取技術(shù)等。
第二軍醫(yī)大學(xué)圖書館通過構(gòu)建原生資源庫(kù)平臺(tái),可將校內(nèi)學(xué)者、專家和學(xué)生所著的論文、書籍及教案、教學(xué)課件等有價(jià)值的資料用數(shù)字化的形式保存下來,也可以實(shí)現(xiàn)校內(nèi)資源共享。它將極大地推動(dòng)高校信息資源開放共享,滿足用戶信息需求,促進(jìn)科研成果快速轉(zhuǎn)化,提升高校和學(xué)者的學(xué)術(shù)影響力。
中華醫(yī)學(xué)圖書情報(bào)雜志2015年8期