鄭紅京
關(guān)鍵詞:圖書館數(shù)字文獻(xiàn)資源;采集;檢索
摘 要:隨著信息技術(shù)的發(fā)展和廣泛應(yīng)用,圖書館數(shù)字資源得到了迅猛發(fā)展。本文在系統(tǒng)介紹數(shù)字資源類型和來源的基礎(chǔ)上,重點論述了數(shù)字文獻(xiàn)資源采集中存在的問題及其檢索的模式方法。
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-1588(2009)06-0078-03
1 數(shù)字資源的類型和來源
1.1 數(shù)字資源的類型
數(shù)字資源的類型包括:由未公開出版的著作、教材、學(xué)位論文、管理文件、科技報告、學(xué)報等“灰色文獻(xiàn)”形成的原生數(shù)字資源;由圖書館外購的館藏文獻(xiàn)所形成的館藏書目數(shù)據(jù);由本地區(qū)或本院校學(xué)科專有文獻(xiàn)形成的特色數(shù)字資源;由專業(yè)特色資源加工的專題數(shù)字資源;由電子教案、網(wǎng)絡(luò)課件、電子教材、試題庫、教學(xué)參考資料等其他學(xué)科專業(yè)信息組成的數(shù)字資源;還有用通用性較強(qiáng)的圖書、報刊、圖片、聲像、縮微資料等加工后形成的數(shù)字資源。這些數(shù)字資源,按信息的表達(dá)方式分,有題錄、索引、文摘、全文以及圖畫、聲音、動畫、電影等形式,幾乎涵蓋包括馬列、哲學(xué)、社會科學(xué)、自然科學(xué)和綜合性等所有的學(xué)科;按信息使用范圍分,包括通用信息,系統(tǒng)使用信息,專業(yè)信息,專題信息等方面,其載體形態(tài)包括網(wǎng)絡(luò)數(shù)據(jù)庫,電子圖書,電子報刊,WEB資源,文本文檔,圖形圖像,聲頻、視頻等,由此構(gòu)成一個由信息內(nèi)容、表達(dá)方式和信息載體組成的三維立體結(jié)構(gòu)。數(shù)字資源是一個發(fā)展著的有機(jī)體,數(shù)字資源的類型也不是一成不變的,而應(yīng)是動態(tài)發(fā)展的。數(shù)字資源類型體系應(yīng)及時吸納、涵蓋這些新興類型。另外,隨著數(shù)字資源內(nèi)涵與外延的深化,拓展,數(shù)字資源的分類標(biāo)準(zhǔn)與分類方法也可能發(fā)生變化,數(shù)字資源類型體系亦應(yīng)及時地予以調(diào)整,以保持?jǐn)?shù)字資源類型與其定義的一致性。
1.2 數(shù)字資源的來源
(1)自建的數(shù)據(jù)庫。自建數(shù)據(jù)庫,是根據(jù)信息需求建立的具有較強(qiáng)特色和針對性的各種專題數(shù)據(jù)庫。包括中外文館藏書目數(shù)據(jù)庫,學(xué)位論文和會議論文數(shù)據(jù)庫,教學(xué)參考書數(shù)據(jù)庫以及各類全文數(shù)據(jù)庫等。(2)引進(jìn)的資源庫。根據(jù)本單位的實際需求,從國內(nèi)外數(shù)據(jù)商購買的聯(lián)機(jī)數(shù)據(jù)庫或網(wǎng)絡(luò)數(shù)據(jù)庫,光盤數(shù)據(jù)庫,聲像數(shù)字資源產(chǎn)品等。國外聯(lián)機(jī)數(shù)據(jù)庫,類型包括題錄、文摘和全文數(shù)據(jù)庫。如OCLC、First、seard、EI、scI等;國內(nèi)聯(lián)機(jī)數(shù)據(jù)庫如中國期刊網(wǎng),萬方數(shù)據(jù)資源系統(tǒng)國研報告,中經(jīng)專網(wǎng)等;光盤數(shù)據(jù)庫,包括網(wǎng)絡(luò)光盤數(shù)據(jù)庫和單機(jī)光盤數(shù)據(jù)庫。如鄧小平理論研究、江澤民論著、人民日報、解放軍報、參考消息、中國大百科全書、四部叢刊、人大報刊復(fù)印資料等光盤數(shù)據(jù)庫、超星電子圖書、方正電子圖書、書生電子圖書、清華同方光盤、CNKI系列數(shù)據(jù)庫、萬方數(shù)據(jù)庫、重慶維普期刊全文數(shù)據(jù)庫等光盤數(shù)據(jù)。(3)因特網(wǎng)上下載或虛擬連接的信息資源。對利用率高的因特網(wǎng)上的信息資源,用代理服務(wù)器方式,通過虛擬連接,所建立的學(xué)術(shù)導(dǎo)航庫,根據(jù)用戶需求,有計劃地下載、重組的信息資源庫。
2 數(shù)字資源建設(shè)中存在的問題
2.1 數(shù)字化信息存儲載體壽命有限,依賴于其物理存儲載體的壽命。機(jī)讀磁帶、唱片、硬盤驅(qū)動器的壽命為十年至幾十年,其中磁帶的壽命約為15~20年,即使是最耐用的CD-ROM,其壽命也不過30年。只有不斷重新復(fù)制,才能保持已存儲信息的穩(wěn)定性。人們最愛用的信息存儲載體的實際壽命遠(yuǎn)不及經(jīng)過特殊防腐處理的紙張和縮微膠卷。計算機(jī)專家習(xí)慣于考慮的問題是怎樣使電腦的記憶更豐富,運算更快,很少想到長期保存的問題。
2.2 版權(quán)問題。文字、圖像等作品在轉(zhuǎn)換成數(shù)字化作品后,通過計算機(jī)網(wǎng)絡(luò)進(jìn)行傳遞。因此,各類作品之間界限模糊、相互滲透,而且使得作品復(fù)制的容易程度和速度,復(fù)制品質(zhì)量、處理和修改作品的能力,復(fù)制品向公眾傳播的速度都會大為改觀,給侵權(quán)行為打開方便之門。一方面有版權(quán)的作品以數(shù)字化形式存儲后,就難以甚至不可能對侵權(quán)行為加以控制,這樣版權(quán)保護(hù)就成了一句空話。另一方面,數(shù)字化作品通過網(wǎng)絡(luò)在國際間傳遞,使版權(quán)問題更加復(fù)雜。
2.3 缺少統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范。數(shù)字圖書館從概念的提出到實際的建設(shè),時間很短,數(shù)字信息資源從技術(shù)開發(fā)、產(chǎn)品化到組織、使用和管理的一系列過程,缺乏有效的協(xié)調(diào)機(jī)制,沒有一套可供遵循的標(biāo)準(zhǔn)和規(guī)范。數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范體系包括數(shù)字資源建設(shè)標(biāo)準(zhǔn)規(guī)范、數(shù)字圖書館應(yīng)用服務(wù)標(biāo)準(zhǔn)規(guī)范、版權(quán)保護(hù)與權(quán)利描述標(biāo)準(zhǔn)規(guī)范、電子商務(wù)標(biāo)準(zhǔn)規(guī)范等。就數(shù)字資源建設(shè)和應(yīng)用服務(wù)系統(tǒng)而言,涉及的標(biāo)準(zhǔn)規(guī)范包括:一是數(shù)字的加工、描述、組織、存儲、檢索和服務(wù)的標(biāo)準(zhǔn)規(guī)范;二是元數(shù)據(jù)統(tǒng)一結(jié)構(gòu)框架和相應(yīng)的元數(shù)據(jù)描述與加工處理、轉(zhuǎn)換、檢索的標(biāo)準(zhǔn)規(guī)范;三是網(wǎng)上資源搜集、篩選、編目、加工和使用方法的標(biāo)準(zhǔn)規(guī)范;四是統(tǒng)一的描述機(jī)制、統(tǒng)一的資源命名規(guī)則和惟一標(biāo)識;五是開放的、可互操作的數(shù)字資源組織與管理標(biāo)準(zhǔn)規(guī)范;六是可互操作的數(shù)字對象調(diào)度機(jī)制等。由于沒有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,同時加上經(jīng)濟(jì)利益的競爭和沖突,不同企業(yè)在研究開發(fā)機(jī)制上缺少開放性,無形中強(qiáng)化了相互間的技術(shù)壁壘:其所形成的獨立的數(shù)據(jù)庫、檢索系統(tǒng)和發(fā)布系統(tǒng),與其他企業(yè)在平臺、協(xié)議、體系結(jié)構(gòu)上各不相同,各個數(shù)據(jù)源沒有統(tǒng)一的數(shù)據(jù)接口,無法通用共享,從而加大了數(shù)字圖書館的建設(shè)成本,降低了資源的使用效率。
2.4 存在著嚴(yán)重的異構(gòu)現(xiàn)象。圖書館從各商家引進(jìn)大量的數(shù)字資源后,就遇到大量的異構(gòu)現(xiàn)象。數(shù)字資源的異構(gòu)現(xiàn)象主要表現(xiàn)在兩個方面:(1)系統(tǒng)異構(gòu)。就是信息資源數(shù)字化的加工、發(fā)布和管理所采用的資源加工系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)乃至操作系統(tǒng)的不同,構(gòu)成了系統(tǒng)的異構(gòu)。如,操作系統(tǒng)有UNIX、DOS、WIN等。數(shù)據(jù)的存儲,可能包括關(guān)系模式、對象模式、對象關(guān)系模式和文檔嵌套模式等幾種,有時,即便是同一類存儲模式,它們的模式結(jié)構(gòu)也可能存在著差異。不同的數(shù)據(jù)庫使用不同的檢索軟件,其檢索界面的風(fēng)格也迥然不同,具有很大的差異性。(2)資源異構(gòu)。就是數(shù)字資源系統(tǒng)所采用的編碼結(jié)構(gòu)、表達(dá)方式、數(shù)據(jù)格式以及描述和組織標(biāo)準(zhǔn)不同,檢索途徑和方法不同。目前的數(shù)據(jù)類型就是多種多樣的,如MS、Notes、DB2、Server,Foxpro,還有XML,CNMARC等格式。在信息資源的數(shù)字化建設(shè)過程中,不同的數(shù)據(jù)格式,不同的數(shù)據(jù)結(jié)構(gòu),不同的存儲方式,不相同的管理系統(tǒng),構(gòu)成了數(shù)字圖書館的異構(gòu)數(shù)據(jù)源,造成了信息源數(shù)據(jù)難以融合。
2.5 讀者不能方便檢索。異構(gòu)資源雖然能夠滿足本地數(shù)據(jù)存儲和管理要求,卻無法滿足用戶的一致性訪問需求,給讀者檢索和利用資源造成了許多困難和不便。(1)讀者在查詢多個數(shù)據(jù)庫時,需要重復(fù)地登陸數(shù)據(jù)庫,重復(fù)地輸入關(guān)鍵詞。當(dāng)所要查找的信息可能包含在多種數(shù)字資源中時,只能分別檢索,同樣的查詢題目需要用相同的或不同的檢索方法,在不同的數(shù)據(jù)系統(tǒng)中重復(fù)查找。(2)讀者可以通過計算機(jī)上網(wǎng)檢索一個書目數(shù)據(jù)系統(tǒng)的數(shù)據(jù),但是不能就有關(guān)的課題同時檢索其中多個系統(tǒng)。有的圖書館購置了數(shù)十萬冊電子圖書,但許多書目系統(tǒng)不能直接檢索這些電子圖書的信息,只能先在書目系統(tǒng)中檢索到有關(guān)著作信息,然后退出該系統(tǒng)再進(jìn)入電子圖書系統(tǒng)瀏覽此書。(3)有的圖書館雖然引進(jìn)了大量的國內(nèi)外期刊全文數(shù)據(jù)庫,但大多沒有被包含在圖書館的館藏期刊檢索系統(tǒng)中。另外,一些重要的學(xué)科期刊論文,只提供索引或摘要數(shù)據(jù)庫,不提供與這些全文資源的直接鏈接。讀者在這些索引數(shù)據(jù)庫中找到所需的期刊論文的篇名信息后,還須再退出來重新進(jìn)入全文數(shù)據(jù)庫查找原文。(4)檢索一種數(shù)字資源時,由于所需資源是連續(xù)出版物,存儲在多張光盤中,讀者要在這些數(shù)據(jù)庫中就同一課題檢索時,必須重復(fù)操作幾十次。數(shù)字資源的異構(gòu)現(xiàn)象,給使用者帶來諸多不便,影響著數(shù)字資源的有效利用,也延緩了數(shù)字圖書館的發(fā)展。從某種意義上講,數(shù)字資源量越大,給用戶造成的負(fù)擔(dān)也就越重。
3 數(shù)字資源統(tǒng)一檢索的基本方法
3.1 基于本網(wǎng)站異構(gòu)資源重組性統(tǒng)一檢索。對于自建、引索和網(wǎng)上下載的各種資源,最理想的途徑是開發(fā)或引進(jìn)一個易用、高效、功能齊全的資源加工和整合系統(tǒng),對異構(gòu)資源重新進(jìn)行分解組織,封裝整合,鏈接和統(tǒng)一管理,用戶從開始檢索不同來源不同性質(zhì)的數(shù)據(jù),到最終獲得原文,都在統(tǒng)一界面中進(jìn)行,使用戶感覺如同只在一種信息資源系統(tǒng)中操作。其重組的方式是:(1)利用統(tǒng)一平臺,對館藏文獻(xiàn)資源按統(tǒng)一的格式進(jìn)行數(shù)字化加工和流程管理,對電子教案、教材、研究生論文等原出數(shù)字化文獻(xiàn),直接通過網(wǎng)絡(luò)進(jìn)行提交,檢查校驗和發(fā)布。(2)利用資源加工系統(tǒng)對各種格式電子文檔、光盤數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)產(chǎn)品、關(guān)系數(shù)據(jù)庫數(shù)據(jù)和高視頻文件等各種數(shù)據(jù),包括數(shù)據(jù)存儲格式、訪問模式進(jìn)行一致化處理。在統(tǒng)一的環(huán)境上進(jìn)行轉(zhuǎn)換、導(dǎo)入和發(fā)布。(3)利用資源整合系統(tǒng)對各種不同結(jié)構(gòu)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行遷移、轉(zhuǎn)換,通過關(guān)系數(shù)據(jù)庫網(wǎng)關(guān)數(shù)據(jù)整合,實現(xiàn)數(shù)據(jù)從關(guān)系數(shù)據(jù)庫到全文數(shù)據(jù)庫的數(shù)據(jù)遷移式構(gòu)成聯(lián)合的數(shù)據(jù)存儲機(jī)制,從而為用戶提供分類導(dǎo)航和全文檢索的統(tǒng)一入口。
3.2 基于分布式異構(gòu)資源集成性統(tǒng)一檢索。數(shù)字圖書館是分布式信息資源的組織模式,必須能夠融合大量的信息源和信息服務(wù),為讀者提供深層次的信息資源。建立一個統(tǒng)一的、互操作的、可伸縮的信息集成服務(wù)體系,將分布互連的異構(gòu)資源集成為一個整體,屏蔽各信息資源的差異,在此基礎(chǔ)上提供統(tǒng)一的服務(wù)接口,語義化檢索,智能代理等高質(zhì)量的信息服務(wù)。這是實現(xiàn)統(tǒng)一檢索的基本途徑。分布式異構(gòu)資源集成性統(tǒng)一檢索,也稱一站式檢索,其實現(xiàn)方式有:(1)采用Z39.50協(xié)議對書目信息統(tǒng)一檢索。Z39.50協(xié)議廣泛采納基于MARC標(biāo)準(zhǔn),良好的互操作性,屏蔽了不同數(shù)據(jù)庫間的異構(gòu)性,使用戶能夠以統(tǒng)一的接口查詢所有的Z39.50服務(wù)器,實現(xiàn)了聯(lián)機(jī)編目。通過Z39.50協(xié)議,用戶可以在一個OPAC系統(tǒng)界面,對相關(guān)圖書館不同平臺上的OPAC書目數(shù)據(jù)進(jìn)行分布式檢索,顯示各館符合檢索條件的命中記錄,不需要在各個圖書館不同的OPAC界面間來回切換。不過這種方式只是解決了書目信息的統(tǒng)一檢索,目前有的單位,通過SOAP協(xié)議與Z39.50協(xié)議的結(jié)合,實現(xiàn)了對全文的瀏覽。SOPA是用在分散或分布的環(huán)境中交換信息的簡單的協(xié)議,以XML格式發(fā)送消息,可以很好地與各種其他協(xié)議結(jié)合使用,在廣域網(wǎng)的包裝中,能夠確?;ビ眯缘?。將SOAP協(xié)議與Z39.50協(xié)議相結(jié)合,以增強(qiáng)互操作性的功能。有的圖書館把書目數(shù)據(jù)套錄和轉(zhuǎn)換成標(biāo)準(zhǔn)的CN-MARC數(shù)據(jù),并與各類管理系統(tǒng)的全文數(shù)字資源實現(xiàn)成功對接。用戶通過Z39.50協(xié)議,既可以完成書目數(shù)據(jù)的檢索,也可以直接鏈接數(shù)字資源,實現(xiàn)在線全文瀏覽。(2)采用OAI協(xié)議對PC元數(shù)據(jù)的統(tǒng)一采集和檢索。OAI協(xié)議是一個元數(shù)據(jù)采集標(biāo)準(zhǔn),通過OAI簡單開放機(jī)制搜尋和集成數(shù)據(jù)提供方提供的基礎(chǔ)性元數(shù)據(jù)信息和讀取功能。建立元數(shù)據(jù)庫,數(shù)據(jù)提供方不提供一次文獻(xiàn),用戶可以通過統(tǒng)一的界面用集中檢索模式查詢元數(shù)據(jù),需要讀取數(shù)字對象則通過數(shù)據(jù)提供方檢索使用各種媒體的數(shù)字資源。與此種聯(lián)合檢索方式相似的檢索,還有基于編目中心思想的檢索。這種檢索就是將分布在各個地方的數(shù)字圖書館的元數(shù)據(jù)集中到一起,用戶檢索時先對元數(shù)據(jù)中心庫進(jìn)行檢索,選中一個檢索結(jié)果后,通過數(shù)字圖書館建立的協(xié)議和組件編碼庫,到相應(yīng)的數(shù)字圖書館中打開相應(yīng)的對象數(shù)據(jù)的內(nèi)容,讀者可以通過一個檢索門戶對網(wǎng)絡(luò)上所有的數(shù)字圖書館進(jìn)行檢索。元數(shù)據(jù)中心的設(shè)立有三種方案:一種是設(shè)立全網(wǎng)性元數(shù)據(jù)中心。就是將網(wǎng)上所有數(shù)字圖書館的元數(shù)據(jù)都存在一個中心;第二種是在每一個數(shù)字圖書館都設(shè)一個全網(wǎng)性元數(shù)據(jù)庫。元數(shù)據(jù)庫通過網(wǎng)絡(luò)可以同步修改更新;第三種是按地域設(shè)立多個全網(wǎng)性元數(shù)據(jù)中心,用戶可以根據(jù)網(wǎng)絡(luò)情況就近或靈活連接最好的元數(shù)據(jù)中心,對元數(shù)據(jù)和對象數(shù)據(jù)進(jìn)行檢索和調(diào)用。(3)采用多線程搜索技術(shù)對網(wǎng)絡(luò)資源實時采集和檢索。多線程搜索系統(tǒng)是一個網(wǎng)絡(luò)資源自動采集系統(tǒng),通過這個系統(tǒng)能夠?qū)⒂脩粜枰哪繕?biāo)站點、網(wǎng)絡(luò)資源庫中的內(nèi)容實時地進(jìn)行搜索,自動過濾,去重,對內(nèi)容自動分類,標(biāo)引,并自動導(dǎo)入本地指定的數(shù)據(jù)庫中,不再受原網(wǎng)站環(huán)境和數(shù)據(jù)格式的影響。(4)采用對象請求代理(ORB)和基于成本優(yōu)化的查詢算法對多個網(wǎng)絡(luò)異構(gòu)數(shù)據(jù)庫進(jìn)行并行檢索。對象請求代理(ORB)是一種中間件,核心思想是分層,通過在操作系統(tǒng)與應(yīng)用系統(tǒng)之間增加一層獨立的系統(tǒng)軟件或軟件平臺,屏蔽應(yīng)用系統(tǒng)復(fù)雜的技術(shù)細(xì)節(jié),實現(xiàn)對應(yīng)用系統(tǒng)的透明訪問。目前,通過對象請求代理體系結(jié)構(gòu)CORBA/IIOP已成為網(wǎng)上實現(xiàn)對象互訪的技術(shù)標(biāo)準(zhǔn),IIOP已成為解決異構(gòu)平臺,集成已有系統(tǒng)的基本協(xié)議,ORB也已經(jīng)成為構(gòu)建網(wǎng)絡(luò)分布式應(yīng)用系統(tǒng)的重要支撐工具。其主要功能是能夠解決網(wǎng)絡(luò)分布計算機(jī)環(huán)境中多種異構(gòu)數(shù)據(jù)資源的互聯(lián)資源共享,協(xié)同工作和互操作問題,實現(xiàn)了各種應(yīng)用軟件的協(xié)同工作和多個目標(biāo)系統(tǒng)之間的無縫連接。中間件技術(shù)與基于成本優(yōu)化的查詢算法和多庫并行檢索技術(shù)的結(jié)合,使用戶可以通過一個統(tǒng)一用戶界面同時跨越不同的網(wǎng)絡(luò),不同的機(jī)器和不同的操作系統(tǒng),對多個分布的網(wǎng)絡(luò)數(shù)據(jù)庫進(jìn)行檢索,并根據(jù)檢索結(jié)果返回的速度分別顯示。
上述解決數(shù)字資源統(tǒng)一檢索的方式,在類似問題上已經(jīng)有成功的實例,在國內(nèi)數(shù)字圖書館的建設(shè)過程中發(fā)揮了作用。它改變了人們觀察和創(chuàng)建數(shù)字資源的方法,為用戶提供了多樣化多層次多媒體的信息檢索服務(wù)。
參考文獻(xiàn):
[1] 馬文峰.數(shù)字資源整合研究[J].中國圖書館學(xué)報,2002,(4).
[2] 張海濤等.數(shù)字圖書館的互操作研究:Z39.50和OAI協(xié)議的比較[J].現(xiàn)代圖書情報技術(shù),2003,(2).
[3] 王善平.論數(shù)字信息資源的整合與標(biāo)準(zhǔn)化[J].情報資料工作,2002,(6).
[4] 李秀.數(shù)字圖書館的互操作與分布式構(gòu)件技術(shù) [J]現(xiàn)代圖書情報技術(shù),2002,(1).
[5] 代根興,周曉燕.信息資源類型研究[J].中國圖書館學(xué)報,2000,(3).