繆 綸,張偉兵,葉 茂,王冠華
(中國水利水電科學(xué)研究院,北京 100038)
隨著信息技術(shù)的飛速發(fā)展和文獻資源數(shù)字化技術(shù)的日趨成熟,實現(xiàn)文獻資源的數(shù)字化檢索與共享成為必然趨勢。水利行業(yè)擁有豐富的信息資源,并且每年都在源源不斷地新增大量科技文獻,絕大部分是非書刊文獻。相對專著和論文而言,這些科技文獻不僅具有較強的時效性,而且在內(nèi)容上具有前沿性和實用性,對于科研、設(shè)計和管理以及決策人員具有很高的研究參考價值,一直以來備受重視和青睞。但是這些海量信息資源有些仍長期沉睡在紙堆中,有些即使制作成電子數(shù)據(jù)文件,但也并未對其進行統(tǒng)一的分類化管理。因此,這些科技文獻資源并沒有得到充分開發(fā)和利用,以文獻信息數(shù)字化和數(shù)據(jù)倉庫為中心的資源建設(shè)也嚴重滯后,很多資源無法進行信息共享。水利系統(tǒng)科技文獻資源的開發(fā)利用、總體管理狀況遠遠不能滿足水利信息化發(fā)展和新時期水利工作的需要。因此,構(gòu)建水利水電科技文獻資料數(shù)據(jù)的數(shù)字化存儲管理,是當(dāng)前水利行業(yè)信息化發(fā)展的緊迫任務(wù)之一。
中國水利水電科學(xué)研究院(以下簡稱“中國水科院”)資料室收藏的科技文獻資源,不僅數(shù)量多,而且涉及水利學(xué)科范圍廣、層次高、內(nèi)容新,在同行業(yè)中,其完整性和權(quán)威性也是最高的。本文以中國水科院資料室收藏的科技文獻資源為研究對象,闡述了水利水電科技文獻數(shù)字化查詢體系構(gòu)建過程中學(xué)科分類和元數(shù)據(jù)結(jié)構(gòu)的解決方案,并在此基礎(chǔ)上介紹了水利水電科技文獻數(shù)字化查詢平臺的整體架構(gòu)。
水利水電科技文獻從技術(shù)角度分為技術(shù)報告、技術(shù)論文、技術(shù)譯文等;從內(nèi)容上分為成果報告、生產(chǎn)報告、評估報告等??萍嘉墨I數(shù)字化建設(shè)的一個重要任務(wù),就是找到適合系統(tǒng)應(yīng)用和用戶檢索的文獻資源分類方法。
學(xué)科分類一般遵循以下基本原則[1-2]:①科學(xué)性:分類必須以科學(xué)的知識分類為基礎(chǔ),選擇事物或概念(即分類對象)的最穩(wěn)定的本質(zhì)屬性或特征作為分類的基礎(chǔ)和依據(jù)。②系統(tǒng)性:將選定的事物、概念的屬性或特征按一定排列順序加以系統(tǒng)化,從而形成一個合理的科學(xué)分類體系。③可擴延性:分類的編碼結(jié)構(gòu)必須能適應(yīng)同類編碼對象不斷擴充的需要,以便保證增加新的事物或概念時,不至于打亂已建立的分類體系。④兼容性:與有關(guān)標準(包括國際標準、國家標準、行業(yè)標準等)協(xié)調(diào)一致。⑤唯一性:指任何專業(yè)名詞、術(shù)語的定義必須嚴格保持概念的一致,對同一專業(yè)名稱、術(shù)語必須是唯一的,且不能重復(fù)。⑥合理性:分類編碼體系結(jié)構(gòu)與數(shù)據(jù)分類體系相適應(yīng),能反映分類體系的層級、機理及相關(guān)聯(lián)系的特性。⑦規(guī)范性:編碼的結(jié)構(gòu)、類型及編寫的格式統(tǒng)一,以便于數(shù)據(jù)的檢索和共享。
我國現(xiàn)有與水利信息相關(guān)的分類編碼標準有:《水利工程基礎(chǔ)信息代碼編制規(guī)則》(SL213-1998)、《水利系統(tǒng)政務(wù)信息編碼規(guī)則與代碼》(SL/T200-97)、《中國河流名稱代碼》(SL249-99)、《中國湖泊名稱代碼》(SL261-98)、《中國水庫名稱代碼》(SL259-2000)、《中國水閘名稱代碼》(SL262-2000)、《中國蓄滯洪區(qū)代碼》(SL263-2000)、《土壤侵蝕分類分級標準》(SL190-96)、《水情信息編碼標準》(SL330-2005)、《水文數(shù)據(jù)GIS分類編碼標準》(SL385-2007)等,這些標準的制定解決了許多基礎(chǔ)信息重復(fù)整編、互不統(tǒng)一的局面。但是,由于這些標準大多僅僅針對的是某一項專題或調(diào)查制定的,并沒有進行全局性考慮。因此,水利部為建立一個完善的水利信息分類體系,組織專家編制了《水利信息分類》標準,該標準對水利水電科技文獻分類研究也具有一定的借鑒作用。
2001年,水利部頒布了《水利技術(shù)標準體系表》,2008年進行了修訂,其中將水利信息按專業(yè)劃分為綜合、水資源、水文水環(huán)境、大中型水利水電工程、防洪抗旱、農(nóng)村水利、水土保持、農(nóng)村水電、移民、水利信息化等,該分類方便了水利行業(yè)技術(shù)標準的管理和使用,具有非常高的理論性和非常強的實踐價值。然而,該分類僅是針對我國水利技術(shù)標準成果的管理這一特殊用途的一種分類體系,隨著水利信息化發(fā)展,其分類層次和內(nèi)容體系還有待進一步完善。
在國家層面上,我國于2008年頒布的國家標準《學(xué)科分類與代碼》(GB/T 13745-2008),其中設(shè)有“水利工程”分類與代碼[3],并把水利工程分為水利工程基礎(chǔ)學(xué)科、水利工程測量、水工材料、水工結(jié)構(gòu)、水力機械、水利工程施工、水處理、河流泥沙工程學(xué)、海洋工程、環(huán)境水利、水利管理、防洪工程、水利經(jīng)濟學(xué)等。但是,該分類方法過粗,未能充分體現(xiàn)水利行業(yè)有關(guān)的學(xué)科,因此也無法完全滿足水利行業(yè)的數(shù)據(jù)管理的需要。
關(guān)于水利水電科技文獻的分類,原水利部信息研究所(現(xiàn)水利部發(fā)展研究中心)編制有《水利水電科技文獻分類》,該分類包括四級:基本類目24個,二級類目301個,三級類目1 514個,四級類目1 079個,長期以來為水利系統(tǒng)各級科技文獻收藏個管理部門沿用。但由于該分類編制年代較早,隨著水利形勢的發(fā)展以及水利科技的進步,越來越難以適應(yīng)水利科技文獻的分類需要。較為突出的如該分類法中一級類目中,缺少防洪抗旱、環(huán)境水利、城鄉(xiāng)水利、水利信息化等內(nèi)容,而近年來相關(guān)方面取得了相當(dāng)多的科研成果。
本文在調(diào)研以上分類標準的基礎(chǔ)上,并在參考了《中國圖書館分類法》(第四版)(簡稱《中圖法》)、《中國科學(xué)院圖書分類法》(第三版)(簡稱《科圖法》)、《中國水利百科全書》(第二版)(簡稱《水百》)基礎(chǔ)上,經(jīng)過綜合對比分析認為,《水百》編纂過程中,集中了包括中國科學(xué)院和中國工程院院士在內(nèi)的眾多水利系統(tǒng)的專家學(xué)者,是水利學(xué)科現(xiàn)狀的權(quán)威體現(xiàn)。相對其他的分類體系,《水百》可以說基本做到了取長補短,既包括有水利水電建設(shè)所涉及的基礎(chǔ)領(lǐng)域,如力學(xué)、化學(xué)、地質(zhì)學(xué)等一般自然科學(xué),涉及面較廣,而且基本上較為全面反映了水利水電建設(shè)的最新形勢和進展,如水利管理、水利經(jīng)濟、環(huán)境水利等均有單獨的類項。本項目學(xué)科分類以《水百》為基礎(chǔ)進行,將基本類目縮減為21類,二級類目211類,三級類目1 508類[4],基本涵蓋了水利水電學(xué)科的所有領(lǐng)域,見表1。
因此,在目前水利信息資源管理領(lǐng)域尚無現(xiàn)成可參考的學(xué)科門類條件下,以《水百》的條目分類為基礎(chǔ),適當(dāng)進行調(diào)整,不失為一種實用的方法。
元數(shù)據(jù)是定義和描述數(shù)據(jù)的數(shù)據(jù),是一種用來描述數(shù)字化信息資源,確保數(shù)字化信息資源能夠被計算機及網(wǎng)絡(luò)系統(tǒng)自動識別、分析、提取和分析歸納的一整套編碼體系[5]。水利水電科技文獻元數(shù)據(jù),用來描述水利水電科技文獻信息資源,其目的在于方便用戶發(fā)現(xiàn)資源、識別資源、評價資源,而且對相關(guān)的信息資源進行選擇和定位,并追蹤資源在使用過程中的變化,實現(xiàn)文獻資源的有效整合、管理使用和長期保存。
表1 《水百》學(xué)科分類
水利水電科技文獻元數(shù)據(jù)建立在傳統(tǒng)技術(shù)和現(xiàn)代技術(shù)兩個基礎(chǔ)之上,不僅用來描述數(shù)字化信息的內(nèi)容特征,而且更要描述數(shù)字化信息的基本屬性,使得數(shù)字化信息得以被有效傳播、交流和利用。同時水利水電科技文獻元數(shù)據(jù)為文獻數(shù)字化信息資源建立一種機器可理解的框架,幫助計算機系統(tǒng)以及其它網(wǎng)絡(luò)通信設(shè)備獲得并理解文獻數(shù)字資源的基本特征,包括系統(tǒng)特征、內(nèi)容特征、權(quán)利特征等方面。
迄今為止,世界上已開發(fā)并付諸使用的元數(shù)據(jù)主要有以下幾種:一是最早普遍使用的元數(shù)據(jù)MARC機讀目錄;二是描述博物館藏品與檔案特藏的元數(shù)據(jù)EAD編碼文檔;三是描述和管理大量網(wǎng)絡(luò)信息資源的元數(shù)據(jù)(包括都柏林考DC、因特網(wǎng)內(nèi)容挑選平臺PICS、因特網(wǎng)館藏WC等元數(shù)據(jù));四是其他形式的元數(shù)據(jù)(包括頻道定義格式CDF、教育管理系統(tǒng)IMS、全球信息定位服務(wù)GILS等元數(shù)據(jù))。
水利水電科技文獻信息與其他類信息相比,在其載體和類型上沒有太大差別,只在具體內(nèi)容上差別較大。因此,水利水電科技文獻元數(shù)據(jù)體系的建立應(yīng)遵循通用、易兼容、可擴展的原則。在對國內(nèi)外數(shù)字圖書館元數(shù)據(jù)標準進行調(diào)研和分析的基礎(chǔ)上,筆者認為:DC元數(shù)據(jù)標準簡單易懂,既便于專業(yè)用戶的擴展,又適合普通用戶使用,它是由世界各國專家共同參與制定的,并經(jīng)過圖書館界、檔案界、計算機界的專家以及Z39.50和通用標記語言標準(SGM)等方面的專家學(xué)者不斷地修正。我國和其他許多國家的數(shù)字圖書館工程都是以DC元數(shù)據(jù)為基礎(chǔ)進行信息化建設(shè)。因此,水利水電科技文獻選用DC標準作為基本元數(shù)據(jù)標準,并根據(jù)實際需要進行必要的擴展和裁剪,確定了每一個元素的描述方式、基本定義和填充規(guī)范,對每個元素都給予了相應(yīng)的解釋。水利水電科技文獻元數(shù)據(jù)體系包括20個類別,60多個元素,主要元素如表2所示。
通過表2描述的元數(shù)據(jù),管理人員和用戶可以有效地管理、鑒別、了解和使用其中的信息資源。這些元數(shù)據(jù)可以實現(xiàn)以下功能:一是描述水利水電科技文獻資源對象的內(nèi)容;二是識別資源日期、類型、格式等數(shù)據(jù)元素;三是定位資源的位置,以利于網(wǎng)絡(luò)環(huán)境中水利信息對象的發(fā)現(xiàn)和檢索;四是檢索,成為用戶查找電子資源的重要依據(jù)。
表2 主要元數(shù)據(jù)元素
為方便水利水電科技文獻元數(shù)據(jù)的共享,參考當(dāng)前異構(gòu)系統(tǒng)數(shù)據(jù)交換技術(shù),我們采用可擴展標記語言XML[6-8](Extensible Markup Language)來對元數(shù)據(jù)進行描述。XML是繼HTML之后的又一種Web標記語言,專用于基于Internet的數(shù)據(jù)共享和交換設(shè)計,它已成為互聯(lián)網(wǎng)上數(shù)據(jù)共享和數(shù)據(jù)交換的關(guān)鍵技術(shù)和標準[9]。用XML來描述元數(shù)據(jù),具有清晰的結(jié)構(gòu)、語法和內(nèi)容,并能被計算機更高效地處理。XML還具有易于編輯、便于管理、適于存檔、容易查詢等諸多優(yōu)點[10],這些特點,使得它成為了描述元數(shù)據(jù)的最佳選擇。
水利水電科技文獻數(shù)字化技術(shù)研究的一個重要任務(wù),就是在完成分類體系的基礎(chǔ)上,以元數(shù)據(jù)為數(shù)據(jù)資源的描述方式,構(gòu)建水利水電科技文獻數(shù)字化查詢平臺。
水利水電科技文獻數(shù)字化查詢平臺具有以下功能:①科技文獻的數(shù)字化保存、分類管理;②科技文獻資料的查詢、瀏覽;③科技文獻的匯交、查重;④科技文獻的統(tǒng)計結(jié)果輸出功能;⑤用戶和系統(tǒng)管理人員相關(guān)的權(quán)限管理、使用管理、統(tǒng)計管理和故障處理等。
圖1 水利水電科技文獻數(shù)字化平臺架構(gòu)
水利水電科技文獻數(shù)字化查詢平臺根據(jù)水利水電科技文獻數(shù)據(jù)的特點,數(shù)據(jù)進行加工保存入數(shù)據(jù)庫中后,系統(tǒng)對數(shù)據(jù)進行分級分類存儲,并定義數(shù)據(jù)的詞匯表,方便用戶查詢檢索。最終,系統(tǒng)通過web的方式,將文獻數(shù)據(jù)資源發(fā)布在Internet上,并提供數(shù)據(jù)檢索、文獻下載以及數(shù)據(jù)統(tǒng)計等功能,其整體架構(gòu)如圖1所示。
本文以水利水電科技文獻資源為基礎(chǔ),選擇中國水科院資料室收藏的科技文獻資料,開展水利水電科技文獻數(shù)字化技術(shù)研究,初步制定了適合于水利水電科技文獻的學(xué)科分類方法和元數(shù)據(jù)結(jié)構(gòu),搭建了水利水電科技文獻數(shù)字化查詢平臺,為水利水電科技文獻資料的管理提供了網(wǎng)絡(luò)化管理平臺。該研究充分利用行業(yè)文獻資源,更好地為水利水電科研生產(chǎn)提供服務(wù),為廣大水利水電科研人員提供了快速、便捷的科技文獻查詢途徑,促進了水利水電文獻信息化建設(shè)步伐,豐富了水利水電信息化的建設(shè)內(nèi)容。
[1]馬建華,孫九林.WDC-D地球化學(xué)數(shù)據(jù)分類與編碼的初步研究[J].河海大學(xué)學(xué)報(自然科學(xué)版),2006,36(1):50-54.
[2]趙艷華.我國信息分類編碼標準化的實踐[J].中國標準化,2001(10):7-8.
[3]GB/T 13745-2008,學(xué)科分類與代碼[S].
[4]崔宗培.中國水利百科全書(第二版)[M].北京:中國水利水電出版社,2006.
[5]李晶,姜斌,劉倩,等.水利數(shù)字圖書館[M].北京:知識產(chǎn)權(quán)出版社,2006.
[6]Steven Holzner.XML Complete[M].The McGraw-Hill Companies,Inc,1998.
[7]張哲.基于XML的元數(shù)據(jù)體系的數(shù)據(jù)交換[J].計算機工程與應(yīng)用,2003(10):180-184.
[8]Steven Holzner.XML black book 2nd[M].Publishing House of Mechanics Industry,2002.
[9]李寧.XML與信息共享[J].計算機應(yīng)用與軟件,2004,21(10):20-21,55.
[10]王津濤,白乃俠.基于XML元數(shù)據(jù)的研究與開發(fā)[J].計算機工程與設(shè)計,2004,25(7):1086-1088,1103.