●趙培云(遼寧工程技術(shù)大學 圖書館,遼寧 阜新 123000)
圖書館第一代數(shù)字化建設(shè)是基于MARC的書目管理系統(tǒng)為核心特征的自動化建設(shè)。它通過對圖書描述信息進行數(shù)字化并加以運用,滿足了圖書館對于業(yè)務管理自動化機制的需求。其主要不足在于只能針對紙本圖書提供指引性信息,而不能提供電子化一、二次文獻。圖書館第二代數(shù)字化建設(shè)是以對大量通過互聯(lián)網(wǎng)提供的分布式電子文獻信息資源的應用為主要特征的。這一代數(shù)字化以電子化和網(wǎng)絡(luò)化的一、二次文獻為基礎(chǔ),提供包括全文檢索在內(nèi)的各種信息利用技術(shù),在一定程度上,還實現(xiàn)了不同類型信息的統(tǒng)一利用和基于內(nèi)容的信息鏈接功能,并且針對特殊的信息資源需求,實現(xiàn)了多種模式的信息數(shù)字化機制。其主要不足在于:(1)缺乏管理。由于互聯(lián)網(wǎng)實行的是所謂域管理及分散管理機制,缺乏統(tǒng)一的網(wǎng)絡(luò)管理神經(jīng)中樞,在網(wǎng)上發(fā)布信息幾乎沒有任何限制,所以導致基于網(wǎng)絡(luò)的整個數(shù)字圖書館處于無序狀態(tài)。(2)信息資源分散。不同的圖書館由于擁有的信息資源側(cè)重面不同,所以只能提供一部分信息,這就導致了讀者要想查看所關(guān)心的信息,需要奔忙在不同的圖書館網(wǎng)站之間,造成大量時間浪費。(3)缺乏統(tǒng)一標準。一是庫結(jié)構(gòu)內(nèi)容不規(guī)范。如大多數(shù)單位所建設(shè)的資源庫,缺少使用其資源的幫助信息,書目數(shù)據(jù)著錄根本不考慮主題標引,不考慮建立規(guī)范檔,甚至不遵循MARC格式。二是沒有統(tǒng)一的檢索端口和閱讀平臺,導致遍地都是信息“孤島”,難以實現(xiàn)互操作。(4) 網(wǎng)絡(luò)帶寬不足。由于帶寬限制,任何一個圖書館都由于規(guī)模、資金等方面的原因,無法及時響應大量并發(fā)讀者的請求,使得讀者不能享受到好的服務。(5)服務器處理能力有限。像全文檢索這種需要很高計算能力的服務就往往由于讀者人數(shù)多,導致響應速度很慢;而絕大多數(shù)時間,訪問讀者很少,所有資源則又處于閑置狀態(tài),僅有5%—10%被真正利用。(6) 體系結(jié)構(gòu)多數(shù)都是一個整合的中央控制系統(tǒng),即當一個用戶應用圖書館時,只能由這個圖書館提供服務。不能動態(tài)地聯(lián)合其他圖書館為用戶提供服務,同時,用戶也不能動態(tài)提供自己的圖書資源。[1](7) 讀者查詢到的是信息而非知識。在現(xiàn)有數(shù)字化圖書館建設(shè)目標下開發(fā)的信息資源,本質(zhì)上還只是一本本“堆積”起來的數(shù)字化書刊。讀者從中獲取的還僅僅是一篇篇文獻,而不是一個個針對特定問題的解決方案,即知識。
網(wǎng)格是構(gòu)筑在互聯(lián)網(wǎng)上的一組新興技術(shù),它將高速互聯(lián)網(wǎng)、高性能計算機、大型數(shù)據(jù)庫等融為一體,使人們能夠按需獲取所有信息。它把分散在不同地理位置的資源虛擬成為一個空前強大的信息系統(tǒng),實現(xiàn)計算資源、存儲資源、信息資源、軟件資源、知識資源和專家資源等的全面共享。
網(wǎng)格能很好地解決海量數(shù)據(jù)的計算處理和分析問題。網(wǎng)格計算可以智能地分配計算資源,能夠優(yōu)化現(xiàn)有的計算資源,更快地解決數(shù)字圖書館設(shè)計和利用問題;能夠?qū)贸绦虻拿總€部分調(diào)整到最適合它的系統(tǒng)中去,從而以更短時間、更低的成本解決有關(guān)應用問題,滿足用戶對高效互聯(lián)網(wǎng)信息服務的要求。
存儲網(wǎng)格將存儲的可擴展性和效率提升到了一個全新水平,它由一種協(xié)作式的標準基礎(chǔ)設(shè)施、模塊化的構(gòu)件塊組成,并通過集中平臺進行管理,來實時供應、部署現(xiàn)有的和重新部署新的信息存取服務。它可以實現(xiàn)大容量信息存儲,而沒有信息冗余。一是具有很強的可升級性,這有助于采用低廉的成本來增加圖書館存儲容量;二是可以實現(xiàn)單一地址訪問、不間斷數(shù)據(jù)轉(zhuǎn)移等功能,簡化了管理,提高了效率;三是面對發(fā)展和變化均非常迅速的用戶需求,它能快速應變,以滿足用戶不斷變化的存儲需求。
由于信息網(wǎng)格能夠讓用戶通過一個單一的入口訪問所有的信息,因而可以有效地解決網(wǎng)絡(luò)信息資源分散性與網(wǎng)絡(luò)環(huán)境下信息需求集成性的矛盾,從而實現(xiàn)了網(wǎng)格環(huán)境下信息服務的集成。網(wǎng)格已經(jīng)發(fā)展成為連接和統(tǒng)一各類遠程異構(gòu)資源的重要途徑。
網(wǎng)格把分散在不同地理位置的資源虛擬成為一個空前強大的信息系統(tǒng),這些資源形成一個整體后,用戶可以從中享受一體化的、動態(tài)變化的、可靈活控制的、智能的、協(xié)作式的信息服務,獲得前所未有的方便性和超強能力。其中,第一層次是實現(xiàn)資源共享,第二是實現(xiàn)協(xié)作協(xié)同。
一是由于網(wǎng)格中采用的是單一信息源,也即任何信息在信息空間中只占據(jù)一點,信息空間是非冗余的,這樣就有效地減少了信息資源的冗余度,提高了網(wǎng)絡(luò)信息資源開發(fā)與組織的效率。二是負載平衡。三是共享政策豐富。
信息網(wǎng)格具有互操作性是指信息網(wǎng)格的多個結(jié)點上信息的存儲和表示可以多種多樣,但從用戶行為角度看都可以互操作。在信息網(wǎng)格的內(nèi)核之上,用戶看不到本地結(jié)點和網(wǎng)格結(jié)點的區(qū)別,也看不到異構(gòu)的系統(tǒng)和數(shù)據(jù)。這種互操作性,可允許我們在組織與開發(fā)網(wǎng)絡(luò)信息資源時,將各種信息源無差別地組織在一起,充分滿足用戶對不同類型網(wǎng)絡(luò)信息資源的需求。
網(wǎng)格能根據(jù)用戶的要求自動地生產(chǎn)知識,在知識生產(chǎn)過程中,高性能計算機能將數(shù)據(jù)源中得到的原始數(shù)據(jù),通過特定網(wǎng)格程序軟件加工成信息知識。[2]當用戶提出請求或查詢時,網(wǎng)格將會自動處理分析,并把有關(guān)結(jié)果傳送到用戶登錄的節(jié)點上,而且這一功能是完全由網(wǎng)格本身完成而不需要人為干預。另一方面,網(wǎng)格可以將整個科學分類體系立體分布在網(wǎng)格結(jié)點上,通過不同的結(jié)構(gòu)鏈接方法使諸多交叉學科體系由隱性知識轉(zhuǎn)化為顯性知識或創(chuàng)造出新的學科研究領(lǐng)域,達到知識創(chuàng)新的目的,從而使得網(wǎng)格數(shù)字圖書館服務更加完善。
這方面國際上還很少有成果發(fā)表。究其原因:一是在今天的計算機體系結(jié)構(gòu)下發(fā)展起來的計算模型能不能適應明天的網(wǎng)格,如何映射到動態(tài)生長的網(wǎng)格環(huán)境中;二是計算數(shù)據(jù)在網(wǎng)格中如何分布組織,如何在網(wǎng)格中高效地尋址和訪問數(shù)據(jù),如何對網(wǎng)格存儲空間實施有效管理;三是在高度異構(gòu)的環(huán)境下的信息如何表示及編碼,在大地域分布的異構(gòu)環(huán)境中如何無阻礙地交換信息,如何有效地標示信息的位置,從而實現(xiàn)信息的高效獲取,這些問題都有待探討。
目前國外的研究集中在計算網(wǎng)格、數(shù)據(jù)網(wǎng)格、商業(yè)網(wǎng)格三個方面,在P2P(對等網(wǎng)絡(luò)) 和Access Grid方面也有很多工作,但在信息網(wǎng)格、知識網(wǎng)格方面工作很少。盡管GGF(全球網(wǎng)格論壇)已有了Semantic Grid的一些工作,但還缺乏內(nèi)容。中國科學院計算機所在織女星知識網(wǎng)格方面的研究工作在國際同行中處于領(lǐng)先位置,但要產(chǎn)生關(guān)系數(shù)據(jù)庫這樣的有影響的成果還需要做大量工作。
網(wǎng)格系統(tǒng)軟件是網(wǎng)格研究界投入最多的領(lǐng)域,但目前它仍有很多不完善的地方。比如:網(wǎng)格文件系統(tǒng)還幾乎是空白,網(wǎng)格資源定位還是個難題,網(wǎng)格用戶身份還沒有定論,網(wǎng)格授權(quán)與訪問控制的工作還處于初級階段等。
高性能計算機如何支持網(wǎng)格?它的體系結(jié)構(gòu)和操作系統(tǒng)該如何改變?這些問題目前還沒有答案。
既然網(wǎng)格數(shù)字圖書館的各種資源可被大量的共享應用,那么如何使得這些應用獲得最大效能,就是調(diào)度所要解決的問題。網(wǎng)格具有如網(wǎng)格資源的動態(tài)變化性、資源的類型異構(gòu)性和多樣性、調(diào)度器的局部管理性等一些獨有的特征,因此網(wǎng)格調(diào)度技術(shù)要比傳統(tǒng)高性能計算中的調(diào)度技術(shù)更為復雜。[2]網(wǎng)格的調(diào)度需要建立隨時間變化的性能預測模型,充分利用網(wǎng)格的動態(tài)信息來表示網(wǎng)格性能的波動。在網(wǎng)格調(diào)度中,還需要考慮移植性、擴展性、效率、可重復性以及網(wǎng)格調(diào)度和本地調(diào)度的結(jié)合等一系列問題。
標準是網(wǎng)格應用成功與否的關(guān)鍵,構(gòu)建網(wǎng)格需要對標準協(xié)議和服務進行定義。目前GGF、W3C及Globus等標準化團體都開始了籌劃工作,加快了全球大網(wǎng)格(GGG)標準的制定。開放源代碼網(wǎng)格標準組織——Globus正致力于開發(fā)標準的網(wǎng)格架構(gòu)。在核心技術(shù)上,相關(guān)機構(gòu)已達成共識。由美國有關(guān)機構(gòu)開發(fā)的Globus Toolkit已成為網(wǎng)格計算事實上的標準。因此,如何把數(shù)字圖書館標準和網(wǎng)格標準更好地結(jié)合起來,使網(wǎng)格數(shù)字圖書館發(fā)揮更好的作用是值得研究的問題。
由于在網(wǎng)格環(huán)境下信息資源共享程度極大提高,知識產(chǎn)權(quán)問題更加突出。只有解決數(shù)字版權(quán)管理才能為網(wǎng)格環(huán)境下數(shù)字圖書館資源共享打下基礎(chǔ),而這在圖書館第二代數(shù)字化建設(shè)中就沒解決好。網(wǎng)格將彼此毫不相關(guān)的資源提供者和使用者聯(lián)系起來,既要確保他們之間的依賴關(guān)系,保證關(guān)鍵性應用在網(wǎng)格環(huán)境中的安全,又要在促進共享的同時保護用戶的機密和商業(yè)利益,這需要一種成熟的網(wǎng)格計算安全模型和體系結(jié)構(gòu),而現(xiàn)在還沒有。與此同時,由于網(wǎng)格的節(jié)點位于不同地域,節(jié)點數(shù)字圖書館間如何安全地共享數(shù)據(jù)資源,如何保證共享數(shù)據(jù)的完整性,在構(gòu)建完善的安全機制的同時,如何避免安全驗證耗資過多的系統(tǒng)資源,也是要著重解決的問題。
網(wǎng)格系統(tǒng)平臺建好后的應用移植是網(wǎng)格技術(shù)走向應用的最大障礙。網(wǎng)格技術(shù)要求用戶將原有的系統(tǒng)應用標準化,并平移到新的系統(tǒng)之中,而實際上很多現(xiàn)有數(shù)字圖書館應用系統(tǒng)如果將其推向網(wǎng)格環(huán)境,將面臨重新編寫應用代碼的問題。雖然目前有一些相關(guān)的工具已經(jīng)開發(fā)出來,但仍有許多技術(shù)問題需解決。
據(jù)Oracle最近發(fā)布的第四次網(wǎng)格指數(shù)調(diào)查結(jié)果顯示:中國的總體網(wǎng)格指數(shù)在15個被調(diào)查國家中排名第九位,處于中下游,應用指數(shù)偏低(1.7)。[3]這表明中國用戶對網(wǎng)格還沒有真正接受,從認知到接受再到購買可能還需要一個過程。
由于資源的分散性和部門所屬性,網(wǎng)格數(shù)字圖書館是由一家還是幾家數(shù)字圖書館公司運營,它的經(jīng)濟模型和盈利機制是什么,如何通過引入投資機制建立網(wǎng)格數(shù)字圖書館的運營服務業(yè)并完善計費、管理、調(diào)控的一系列策略和機制,如何用有效的利益機制來促進其共享,仍有待進一步探討。
據(jù)調(diào)查,我國圖書館IT應用現(xiàn)狀分為3個層次:(1)初級層次,圖書館已配置了計算機等相關(guān)設(shè)備,但只是應用于部分業(yè)務(如編目),占76%;(2) 中級層次,圖書館已實施了網(wǎng)絡(luò)集成系統(tǒng),全部業(yè)務能實現(xiàn)計算機化、網(wǎng)絡(luò)化處理,占18%;(3) 高級層次,圖書館已進入數(shù)字化階段,可以向讀者提供數(shù)字信息資源的加工、檢索服務,占6%。[4]很顯然,有3/4的圖書館有可能被網(wǎng)格大潮拋棄。為此,絕大多數(shù)圖書館應加大投入進行網(wǎng)格技術(shù)改造。
數(shù)字資源的存儲結(jié)構(gòu)在網(wǎng)格結(jié)構(gòu)與P2P結(jié)構(gòu)的基礎(chǔ)上進行整合,目的在于數(shù)字圖書館管理系統(tǒng)能夠訪問存儲在具有不同操作系統(tǒng)的結(jié)點的數(shù)字資源;能夠提供對內(nèi)容存儲結(jié)點和外部內(nèi)容提供者的透明訪問,并管理更新、生成、復制、分離新對象等;能夠管理元數(shù)據(jù)的描述并豐富由內(nèi)容管理服務提供的新的數(shù)字對象;能夠為獲取的元數(shù)據(jù)的互操作性提供代理,注重內(nèi)容存儲和分發(fā)的安全,并對數(shù)字對象進行注視管理(主要是多媒體對象)。
基于現(xiàn)有網(wǎng)絡(luò)狀況及數(shù)字圖書館資源和信息的分布,需要解決數(shù)字圖書信息的可靠存儲與高速傳輸,保證不同區(qū)域用戶的響應均衡。針對數(shù)字圖書館服務機構(gòu)中數(shù)據(jù)源異構(gòu)、自治、廣域分布的特點,需要研究數(shù)據(jù)庫聯(lián)合技術(shù),為不同類型數(shù)據(jù)庫系統(tǒng)提供統(tǒng)一的訪問接口,提供針對各種異構(gòu)數(shù)據(jù)庫的聯(lián)合查詢處理功能,并提供數(shù)據(jù)庫聯(lián)合查詢的性能優(yōu)化技術(shù)以及一系列的良好聯(lián)合數(shù)據(jù)庫配置、調(diào)優(yōu)和管理工具。
基于國內(nèi)數(shù)字圖書館領(lǐng)域中的資源信息標準化、規(guī)范化技術(shù),需要解決基于網(wǎng)格技術(shù)的文獻信息表示標準和文獻信息交換標準,以及科技文獻信息組織、信息整合、信息關(guān)聯(lián)及信息存儲的規(guī)范技術(shù),通過提供科技文獻信息檢索和注冊的規(guī)范化技術(shù),為科技文獻資源的共享、集成和內(nèi)容揭示等提供標準化基礎(chǔ)。
網(wǎng)格數(shù)字圖書館是開放式的存取環(huán)境,網(wǎng)格中信息的復制性、全球的傳播性和變幻莫測的交互性給著作權(quán)保護帶來了空前的震撼和挑戰(zhàn)。因此,做好整個網(wǎng)格范圍的資源利用的管理和控制,掌握讀者對網(wǎng)格資源的使用情況,盡量提高網(wǎng)格資源的免費率,嚴控收費的范圍和力度,研究收費的方法,限制信息由授權(quán)使用方傳送給非授權(quán)使用方、使版權(quán)所有人能夠掌握其作品被使用情況,是普及應用網(wǎng)格數(shù)字圖書館必須解決的問題。
未來數(shù)字圖書館建設(shè)需要解決資源聯(lián)合共享的元數(shù)據(jù)檢索和注冊的標準化,同時為元數(shù)據(jù)的檢索和注冊提供規(guī)范化、靈活的手段。針對各種不同類型的元數(shù)據(jù)更新軟件,提供其數(shù)據(jù)規(guī)范輸出的接口,實現(xiàn)元數(shù)據(jù)的標準化輸出。另外,需要解決聯(lián)合共享元數(shù)據(jù)目錄的自動更新問題,保證元數(shù)據(jù)的更新一致性。
利用虛擬組織(VO)的機制,把用戶和資源在數(shù)字圖書館環(huán)境下連接在一起,使用戶、團體能夠創(chuàng)建自己的臨時數(shù)字圖書館。允許用戶指定一套所期待的數(shù)字圖書館的特征標準,根據(jù)標準確定這些特征和功能所需的服務和信息源,最終創(chuàng)建自己的數(shù)字圖書館。
針對各數(shù)字圖書館服務機構(gòu)安全管理的異構(gòu)和復雜特征,需要解決資源聯(lián)合共享的安全體系結(jié)構(gòu)、分布式信任管理、面向用戶群體的安全管理、異構(gòu)安全環(huán)境集成、安全策略的一致性、科技文獻資源的安全接入、用戶訪問的單一登錄等。[5]針對用戶對文獻資源的訪問提供靈活的授權(quán)和訪問控制機制,并滿足權(quán)限管理的可擴展性要求,減少權(quán)限管理開銷,同時提供一套合理的數(shù)字圖書館資源和信息訪問控制和計費機制。
網(wǎng)格數(shù)字圖書館能對域內(nèi)資源進行一定程度上的整合和挖掘,但這是遠遠不能滿足讀者需求的。圖書館應利用館內(nèi)的專業(yè)人才,對人類已有的知識進行有針對性的組織、深層次的挖掘和整合,大力建設(shè)自己的特色數(shù)據(jù)庫與地域特色文獻數(shù)據(jù)庫。[6]同時應將圖書館員逐漸培養(yǎng)成為網(wǎng)絡(luò)信息導航專家和信息咨詢專家。唯有如此,圖書館才能在未來的廣域網(wǎng)格中爭得一席之地。
[1]李亮先.網(wǎng)格技術(shù)在數(shù)字圖書館的應用[J].情報科學,2004(6):703-706.
[2]谷斌.網(wǎng)格技術(shù)與網(wǎng)絡(luò)信息資源的組織與開發(fā)[J].情報科學,2004 (8):979-980.
[3]董慧,等.數(shù)字圖書館網(wǎng)格應用模型研究——2005信息化與信息資源管理學術(shù)研討會論文集[C].武漢:湖北人民出版社,2005.
[4]金海.數(shù)字圖書館及其網(wǎng)格應用的發(fā)展[J].現(xiàn)代圖書情報技術(shù),2005(9):1-5,13.
[5]韓毅,等.國外基于網(wǎng)格技術(shù)的數(shù)字圖書館內(nèi)容與應用的比較研究[J].情報學報,2006(2):221-230.
[6]邱鋒祥,汪曉蘭.圖書館應用網(wǎng)格技術(shù)的幾點思考 [J].圖書情報工作,2009 (1):105-108.