李 敏,劉應(yīng)平
南海是我國南部海疆,南海諸島是南海上東沙群島、西沙群島、中沙群島和南沙群島等珊瑚島的統(tǒng)稱[1]。大量文物和史料證明南海諸島由中國人發(fā)現(xiàn)、命名、開發(fā)和實(shí)施行政管理[2]。由于南海及南海諸島存在巨大的資源價值和戰(zhàn)略意義,周邊國家頻頻滋擾,對我國海洋權(quán)益造成極大損害。隨著周邊國際局勢的復(fù)雜化和南海爭端的尖銳化,南海問題成為社會關(guān)注的熱點(diǎn),對南海及南海諸島經(jīng)濟(jì)價值、戰(zhàn)略價值、軍事價值和文化價值的認(rèn)識和關(guān)注不斷加深,對該地區(qū)信息資源的需求逐漸被激發(fā)出來。
一般而言,關(guān)注南海問題的社會群體包括政府機(jī)構(gòu)、科研人員、新聞媒體以及社會公眾四個部分。從信息需求的特征而言,他們存在著差異:政府機(jī)構(gòu)偏重法律需求,即希望通過外交談判和國際訴訟等方式為南海主權(quán)歸屬尋找理據(jù);科研人員偏重研究需求,即希望通過科學(xué)的方法,找到新突破,形成新觀點(diǎn);新聞媒體偏重于宣傳需求,即希望通過對南海問題的宣傳報道,向社會公眾縱深展現(xiàn)南海問題的歷史背景,增加新聞報道的立體性;社會公眾偏重于知識和文化需求,即客觀認(rèn)識南海問題。法律需求和研究需求更注重信息資源的真實(shí)性,宣傳需求和知識文化需求更注重信息資源的豐富性,這要求“南海及南海諸島”材料的搜集整理要兼顧原始真實(shí)和兼容并蓄兩個原則,同時符合易查易用、對社會開放的要求。從這個角度看,建設(shè)“南海及南海諸島”專題數(shù)據(jù)庫不僅必要,而且需要圖書館這樣的專業(yè)機(jī)構(gòu)來組織實(shí)施。
我國圖書館界歷來重視南海資料的搜集工作。20 世紀(jì)40 年代,杜定友等搜集南海資料,編輯《東西南沙群島資料目錄》,其中的500 多份資料來自廣東省圖書館[3]。海南是我國最南端的省級行政區(qū),由海南的圖書館建設(shè)“南海及南海諸島”數(shù)據(jù)庫更有優(yōu)勢。在該數(shù)據(jù)庫中,古籍資源是非常重要的組成部分。海南現(xiàn)存1,700 余種古籍,其中海南師范大學(xué)圖書館(以下簡稱“海南師大館”)藏量約760 余種,位居海南8家重點(diǎn)古籍藏書單位之首。該館在特色館藏方面具有較為豐富的建設(shè)經(jīng)驗(yàn),已建成“渡海解放海南島戰(zhàn)役”數(shù)據(jù)庫、“海南歷史文獻(xiàn)”數(shù)據(jù)庫等8個特色資源庫,擁有較成熟的數(shù)據(jù)資源平臺。因此,由海南師大館牽頭建設(shè)“南海及南海諸島”數(shù)據(jù)庫具有地緣優(yōu)勢、資源優(yōu)勢和經(jīng)驗(yàn)優(yōu)勢。
政府機(jī)構(gòu)、科研人員、新聞媒體和社會公眾等四類對“南海及南海諸島”較關(guān)注的群體對信息的偏好和應(yīng)用方式不相同,這決定了數(shù)據(jù)庫資源建設(shè)要保證數(shù)字資源真實(shí)準(zhǔn)確、易于檢索、標(biāo)引清晰、可讀性高、內(nèi)容豐富,需求分析如前所述。
基于這樣的文獻(xiàn)特征要求,海南師大館聯(lián)合???、文昌、瓊海、三亞的圖書館、檔案館、博物館、史志辦、新聞媒體、南海研究機(jī)構(gòu)等單位,對“南海及南海諸島”特色資源進(jìn)行調(diào)研。從搜集到的數(shù)據(jù)資源看,資源類型覆蓋古籍、圖片、視頻、地圖、檔案、年鑒、調(diào)查報告、統(tǒng)計(jì)、圖書、論文等十類,其中古籍600 余種、地圖600 余幅、論文17,000 余篇、年鑒600 余篇、圖書1,000 余冊,檔案等類型數(shù)據(jù)資源也較豐富;學(xué)科內(nèi)容涵蓋政治、法律、軍事、歷史、地理、經(jīng)濟(jì)、文化、生物、環(huán)境、安全;時間跨度為歷朝歷代;語種包括漢語、英語、日語。海南師大館有關(guān)南海及南海諸島歷史風(fēng)貌文獻(xiàn)信息的數(shù)據(jù)類型多樣,文獻(xiàn)內(nèi)容豐富,源流清晰,獨(dú)特性較強(qiáng),具備滿足目標(biāo)用戶文獻(xiàn)信息需求的基礎(chǔ)資源;從文獻(xiàn)資源特征看,兼具真實(shí)性和豐富性,尤其是古籍資源和口述歷史資料的獨(dú)特性鮮見,具備建設(shè)專題特色數(shù)據(jù)庫的條件。
圖1 基于用戶需求對數(shù)據(jù)庫資源整合方式的設(shè)計(jì)
特色數(shù)據(jù)庫的資源類型分為古籍、圖片、視頻、地圖、檔案、年鑒、調(diào)查報告、統(tǒng)計(jì)、圖書、論文。圖書、論文、年鑒等類型較為常見,在數(shù)據(jù)庫中按照通行的著錄和整合方式處理,只對年鑒、地圖冊等在著錄中標(biāo)引相關(guān)內(nèi)容的頁數(shù)。古籍、地圖、視頻和檔案由于要兼顧用戶易查可考和真實(shí)準(zhǔn)確兩類需求,須將其建設(shè)成為圖像化(視頻化)和全文化兼具的數(shù)據(jù)庫。因此,“南海及南海諸島”數(shù)據(jù)庫采用數(shù)據(jù)對象和元數(shù)據(jù)結(jié)合的方式來進(jìn)行資源整合,其中,數(shù)據(jù)對象是指通過光學(xué)掃描技術(shù)(OCR)以圖片格式存儲的古籍等圖像信息或視頻、音頻文件;元數(shù)據(jù)是指對數(shù)據(jù)對象進(jìn)行著錄標(biāo)引所形成的數(shù)據(jù),這些數(shù)據(jù)能夠通過建立索引和個性化功能模塊的方式,以幫助用戶實(shí)現(xiàn)主題檢索和個性化定制服務(wù)的功能,見圖1。
海南師大館擁有較豐富的特色數(shù)據(jù)庫建設(shè)經(jīng)驗(yàn),建有海南歷史文獻(xiàn)多媒體庫、海南現(xiàn)代文學(xué)館、海南方志數(shù)據(jù)庫、海南歷史文獻(xiàn)論文庫、海南抗癌藥用植物數(shù)據(jù)庫、海南歷史文獻(xiàn)圖片庫、渡海解放海南島戰(zhàn)役史、黎族研究著作論文索引等。這些特色數(shù)據(jù)庫都是在圖書館已建成的Apabi 數(shù)據(jù)庫資源平臺上進(jìn)行功能和模塊設(shè)計(jì),該平臺能夠提供中圖法導(dǎo)航和全文檢索,應(yīng)用OAI- PMI 元數(shù)據(jù)收割協(xié)議,通過XML 編碼的字節(jié)流應(yīng)答收割請求,提供結(jié)構(gòu)化的信息[4],從而實(shí)現(xiàn)CALIS 數(shù)據(jù)倉儲格式,支持跨庫檢索。海南歷史文獻(xiàn)多媒體元數(shù)據(jù)封裝采用METS 協(xié)議,將“描述元數(shù)據(jù)塊”和“管理元數(shù)據(jù)塊”中的元數(shù)據(jù)鏈接到“文件列表塊”和“結(jié)構(gòu)圖塊”中對應(yīng)文件、文檔或是編碼上[5]。METS 協(xié)議支持CALIS元數(shù)據(jù)收割協(xié)議2.0 版本,實(shí)現(xiàn)數(shù)據(jù)庫多種格式電子資源的存儲與管理,同時支持標(biāo)引模版實(shí)時調(diào)整,支持對已發(fā)布的數(shù)據(jù)標(biāo)引字段進(jìn)行新增或刪除,為建立更為豐富的元數(shù)據(jù)語義提供了可能,也是目前自建特色數(shù)據(jù)庫較常用的技術(shù)標(biāo)準(zhǔn)。
“南海與南海諸島”數(shù)據(jù)資源由四部分組成,一是古籍和民國時期文獻(xiàn)數(shù)據(jù),二是地圖等圖片數(shù)據(jù),三是視頻數(shù)據(jù),四是建國后文獻(xiàn)資料。其中古籍文獻(xiàn)數(shù)據(jù)和民國時期文獻(xiàn)數(shù)據(jù)由于內(nèi)容均采用繁體字,易出現(xiàn)異體字、通假字等,因此采用數(shù)據(jù)對象和元數(shù)據(jù)對應(yīng)的存儲方式;地圖等圖片數(shù)據(jù)以及視頻等數(shù)據(jù)由于數(shù)據(jù)對象格式的問題,也需要采取類似的存儲方式,三者都可以通過元數(shù)據(jù)實(shí)現(xiàn)文獻(xiàn)的全文檢索功能,同時能夠展示文本、圖片及視頻的原貌。建國后文獻(xiàn)資料采用OCR 技術(shù)直接實(shí)現(xiàn)全文檢索。
所謂古籍的數(shù)據(jù)對象是指將紙質(zhì)版掃描存儲的圖片格式的紙質(zhì)文獻(xiàn),每頁紙質(zhì)文獻(xiàn)都會有對應(yīng)的元數(shù)據(jù)對其進(jìn)行標(biāo)引,內(nèi)容包括“題名”“主要責(zé)任者”“主要責(zé)任者責(zé)任方式”“次要責(zé)任者”“次要責(zé)任者責(zé)任方式”“摘要”“主題詞”“學(xué)科”“中圖法分類號”“所屬地域”“版本信息”“成書時代”“頁碼”“原文”“譯文”“資源類型”“標(biāo)示符”“語種”“館藏信息”“權(quán)限管理”“目錄”等。建國后的文獻(xiàn)資料可采用一般文獻(xiàn)的標(biāo)引方式,通過索引支持主題、分類等族檢索。
地圖等圖片數(shù)據(jù)以及視頻數(shù)據(jù)可參考古籍?dāng)?shù)據(jù)對象的存儲方式,標(biāo)引內(nèi)容大致相同,但考慮圖片、視頻信息的特性,增加“文字說明”標(biāo)引項(xiàng),針對其中重大研究意義或佐證價值的內(nèi)容進(jìn)行標(biāo)注,如對《袖珍地圖集》中增加“頁36,有標(biāo)明西沙群島歸屬中國的注記”的著錄內(nèi)容,使有需要的用戶能夠快速準(zhǔn)確地定位所需文件。索引則可通過題名、責(zé)任者、主題詞、學(xué)科、中圖法分類號、所屬地域、版本信息、成書時代、文字說明等分別進(jìn)行建設(shè),為用戶的多層次需求的族檢索提供技術(shù)支撐。同時該數(shù)據(jù)庫還可以通過用戶定制實(shí)現(xiàn)自定義的索引設(shè)計(jì),滿足用戶的不同需求。
基于“南海與南海諸島”特色數(shù)據(jù)庫的數(shù)據(jù)類型,可以將數(shù)據(jù)庫的表單分為三類,即數(shù)據(jù)表單,包括元數(shù)據(jù)表單和數(shù)據(jù)對象表單;用戶表單,包括用戶名、用戶密碼、作用域等信息;操作表單,包括數(shù)據(jù)庫中的各項(xiàng)功能模塊,并通過作用域與用戶表單相連,如圖2 所示。由于數(shù)據(jù)類型不同,著錄內(nèi)容存在差異,因此,圖示僅為示意內(nèi)容,具體表單內(nèi)容根據(jù)具體情況會有少許差異。其中管理員的作用域可以覆蓋操作表單中的所有功能模塊,而普通用戶的作用域只能作用于索引和個性化功能模塊,以確保數(shù)據(jù)庫資源的準(zhǔn)確性。同時要重視數(shù)據(jù)庫反饋信息渠道的建設(shè),使用戶的意見能夠及時反饋給管理員,及時對數(shù)據(jù)庫中的內(nèi)容進(jìn)行更新調(diào)整。
圖2 “南海及南海諸島”特色數(shù)據(jù)庫數(shù)據(jù)關(guān)系結(jié)構(gòu)
考慮數(shù)據(jù)庫功能模塊中,以古籍、圖片和視頻為代表的數(shù)據(jù)整合較為復(fù)雜,需要設(shè)計(jì)元數(shù)據(jù)表和數(shù)據(jù)對象兩部分內(nèi)容,三者功能模塊設(shè)計(jì)的內(nèi)容相類似,因此只列舉古籍?dāng)?shù)據(jù)的設(shè)計(jì)編碼方案,其他不贅述。
該功能模塊包括創(chuàng)建元數(shù)據(jù)和數(shù)據(jù)對象,用于新建數(shù)據(jù),其數(shù)據(jù)庫編碼設(shè)計(jì)如下:
3.1.1 創(chuàng)建元數(shù)據(jù)表
3.1.2 創(chuàng)建數(shù)據(jù)對象表
插入功能模塊包括插入元數(shù)據(jù)和數(shù)據(jù)對象兩部分,用于在已建成的數(shù)據(jù)中插入新的數(shù)據(jù)信息,其數(shù)據(jù)庫編碼設(shè)計(jì)如下:
3.2.1 插入元數(shù)據(jù)
Insert into baseData values(“題名”“主要責(zé)任者”“主要責(zé)任者責(zé)任方式”“次要責(zé)任者”“次要責(zé)任者責(zé)任方式”“摘要”“主題詞”“學(xué)科”“中圖法分類號”“所屬地域”“版本信息”“成書時代”“頁碼”“原文”“譯文”“資源類型”“標(biāo)示符”“語種”“館藏信息”“權(quán)限管理”“目錄”)
3.2.2 插入數(shù)據(jù)對象
Insert into dataObject values(“標(biāo)示符”“元數(shù)據(jù)ID”“索引ID”)
修改功能模塊包括修改元數(shù)據(jù)和數(shù)據(jù)對象兩部分,用于在已建成的數(shù)據(jù)中修改數(shù)據(jù)信息,其數(shù)據(jù)庫編碼設(shè)計(jì)如下(以修改《酉陽雜俎》為例):
3.3.1 修改元數(shù)據(jù)
UPDATE baseData SET title= '酉陽雜俎1',author=‘段成式’,publishYear= 1633,Identification= 00000000……
3.3.2 修改數(shù)據(jù)對象
UPDATE dataObject SET title= ‘酉陽雜俎1’where Identification= 00000000……
刪除功能模塊包括刪除元數(shù)據(jù)和數(shù)據(jù)對象,用于已建成的數(shù)據(jù)中刪除數(shù)據(jù)信息。由于數(shù)據(jù)庫通過元數(shù)據(jù)實(shí)現(xiàn)對數(shù)據(jù)對象的檢索,因此如果刪除元數(shù)據(jù),數(shù)據(jù)庫中可保存數(shù)據(jù)對象,但是無法實(shí)現(xiàn)檢索功能。這也是數(shù)據(jù)庫需要對不同用戶的作用域進(jìn)行限定的原因,避免普通用戶因?yàn)檎`刪,造成數(shù)據(jù)對象無法被檢索。數(shù)據(jù)庫編碼設(shè)計(jì)如下:
3.4.1 刪除元數(shù)據(jù)
Delete from baseData where Identification=‘1198000288’
3.4.2 刪除數(shù)據(jù)對象
Deletefrom dataObject wheretitle=‘題名’
索引功能模塊只包括元數(shù)據(jù)索引,用于對元數(shù)據(jù)的快捷檢索,并通過元數(shù)據(jù)關(guān)聯(lián)到對應(yīng)的數(shù)據(jù)對象,用戶可在資源庫屬性對話框的資源庫頁中,查看資源庫中資源的情況。并可在此頁面中用戶可進(jìn)行新建索引、更新索引的操作。其數(shù)據(jù)庫編碼設(shè)計(jì)如下:Create Coustered baseDataI ndex On baseData
個性化模塊通過模板編輯方式來實(shí)現(xiàn),如圖3 所示。在對話框中,用戶可對資源庫模板添加字段、修改字段、刪除字段、引用模板、導(dǎo)入模板、導(dǎo)出模板、調(diào)節(jié)字段順序。
圖3 個性化功能模塊高保真示意圖
“南海及南海諸島”數(shù)據(jù)庫是高校館結(jié)合社會需求和自身資源特點(diǎn)建設(shè)的特色數(shù)據(jù)庫,整體功能和結(jié)構(gòu)設(shè)計(jì)全部從用戶需求出發(fā)建構(gòu),能契合政府機(jī)構(gòu)、科研人員、新聞媒體和普通公眾四類用戶的不同需要,不僅可提供全文檢索,還可全面展現(xiàn)文獻(xiàn)原貌。由于該數(shù)據(jù)庫是依托海南師大館特色數(shù)據(jù)庫平臺建設(shè)的子數(shù)據(jù)庫,因此采用C/S 模式,而客戶- 服務(wù)器模式的數(shù)據(jù)庫更適合用戶較為集中、應(yīng)用模式較固定的數(shù)據(jù)庫建設(shè)。未來隨著“南海及南海諸島”特色數(shù)據(jù)庫的推廣,公眾應(yīng)用越來越廣,由于用戶相對分散,C/S模式的缺陷可能會逐步顯現(xiàn),使用數(shù)據(jù)庫須先安裝客戶端的做法會給用戶操作帶來麻煩,也不利于豐富數(shù)據(jù)庫的應(yīng)用模式,阻礙二次開發(fā)。隨著數(shù)據(jù)庫安全技術(shù)的發(fā)展,未來“南海與南海諸島”數(shù)據(jù)庫不僅要不斷豐富資源,而且可以嘗試B/S 模式的數(shù)據(jù)庫技術(shù),支持WEB 開發(fā),避免繁瑣的數(shù)據(jù)庫端口下載步驟,更為靈活便捷,適合數(shù)據(jù)庫在社會群體中的推廣。
[1] 流沙.我國的南海諸島[J].廣東師院學(xué)報(自然科學(xué)版),1975(1):118- 136.
[2] 鞠繼武.南海諸島地名的初步研究—南海諸島自古以來是我國領(lǐng)土的古地名證據(jù)[J].南京師院學(xué)報(自然科學(xué)版),1981(2):72- 82.
[3] 劉應(yīng)芳.論杜定友對南海諸島資料的整理及研究[J].圖書館,2013(2):87- 89.
[4] 王宇芳,黃鏑,李曉玲,等.OAI_PMI 協(xié)議及應(yīng)用新趨勢[J].現(xiàn)代情報,2006(5):82- 83.
[5] 程妍妍.國際電子文件元數(shù)據(jù)封裝方法VEO 和METS的比較研究[J].現(xiàn)代圖書情報技術(shù),2011(10):7- 11.