程彥玲
(拜泉縣圖書館 黑龍江 拜泉 164700)
數(shù)字圖書館建設(shè)與發(fā)展策略研究
程彥玲
(拜泉縣圖書館 黑龍江 拜泉 164700)
怎樣進(jìn)行數(shù)字圖書館建設(shè),怎樣確定數(shù)字圖書館建設(shè)的發(fā)展戰(zhàn)略,怎樣正確實施相關(guān)戰(zhàn)略,實現(xiàn)數(shù)字圖書館建設(shè)的目標(biāo),都是我們應(yīng)該認(rèn)真研究的重大課題。
數(shù)字圖書館建設(shè);發(fā)展;研究
數(shù)字圖書館就是運(yùn)用當(dāng)代信息技術(shù),對數(shù)字信息資源進(jìn)行采集、整理和貯存,并向所有連接網(wǎng)絡(luò)的用戶提供,為一定的社會政治、經(jīng)濟(jì)服務(wù)的文化教育機(jī)構(gòu)以及這種機(jī)構(gòu)的組合。前者稱之為狹義數(shù)字圖書館,后者為廣義數(shù)字圖書館。這個定義明確了數(shù)字圖書館的社會性質(zhì)——文化教育機(jī)構(gòu);明確了數(shù)字圖書館的活動目的——為一定社會的政治、經(jīng)濟(jì)服務(wù);明確了數(shù)字圖書館的工作對象——數(shù)字信息資源;明確了數(shù)字圖書館的工作內(nèi)容——采集、整理、貯存和提供數(shù)字信息資源;區(qū)別了數(shù)字圖書館和傳統(tǒng)圖書館的不同之處——利用當(dāng)代信息技術(shù),工作對象是數(shù)字信息資源和服務(wù)的對象是所有連接網(wǎng)絡(luò)的用戶;繪出了廣義數(shù)字圖書館和狹義數(shù)字圖書館的概念。因此這種表述方法還是比較準(zhǔn)確、全面的。
數(shù)字圖書館涉及到許多高新的技術(shù),其建設(shè)面臨著諸多技術(shù)方面的挑戰(zhàn),如超大規(guī)模數(shù)據(jù)庫技術(shù)、信息壓縮與傳輸技術(shù)、分布式處理技術(shù)、安全保密技術(shù)、可靠性技術(shù)、數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理技術(shù)、信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)、基于內(nèi)容的檢索技術(shù)、自然語言理解技術(shù)等。
(一)信息資源建設(shè)
數(shù)字圖書館作為一個數(shù)字資料庫,首先涉及到眾多資料的整理入庫問題。已有圖書的數(shù)字化工作,需要有效的管理機(jī)制。我國目前有各種各樣的圖書館幾千個,信息資源建設(shè)的協(xié)調(diào)管理是一個大問題,這其中有工具問題,也有管理問題。例如,對于同一本圖書,應(yīng)該保證:如果某圖書館已經(jīng)將其錄入,其他人就不要再進(jìn)行錄入了。這項工作如果協(xié)調(diào)不好,很可能同一件事要做若干遍,重復(fù)勞動,而給社會造成極大的浪費(fèi)。
(二)數(shù)據(jù)存儲與壓縮
數(shù)字圖書館所涉及的數(shù)據(jù)類型有文本、圖像、聲音、視頻等,而且所面臨的數(shù)據(jù)是海量的。這么大的數(shù)據(jù)量是迄今為止其他任何系統(tǒng)都沒有理到過的,需要大規(guī)模數(shù)據(jù)庫來存儲和處理這些數(shù)據(jù)。因此,如何存儲和管理海量數(shù)據(jù)是系統(tǒng)設(shè)計的核心任務(wù)之一。在數(shù)字圖書館的數(shù)據(jù)中,文本數(shù)據(jù)的存儲不是很大,真正大的是多媒體數(shù)據(jù)。因此.對多媒體數(shù)據(jù)必須進(jìn)行壓縮,然后存儲在數(shù)據(jù)庫中,以降低庫的成本,使庫的規(guī)模保持在可管理的范圍內(nèi)。如對一段“新聞聯(lián)播”中主持人講話的錄像,如果將其原封不動地保存下來放到數(shù)據(jù)庫中,可能要占幾百兆字節(jié)的空間,壓縮后,就可能只占幾兆的字節(jié)空間。
(三)分類、索引和檢索
在圖書館中,分類與索引是檢索的基礎(chǔ)。分類方法也有各種學(xué)派和門類,目前在數(shù)字圖書館領(lǐng)域中,還沒有完成統(tǒng)一的分類方法,這就提出了一個如何統(tǒng)一分類標(biāo)準(zhǔn)的問題。如果沒有一個統(tǒng)一的索引方法和分類帶,將來開發(fā)計算機(jī)的搜索工具就會非常困難,需要針對不同的分類方法制作不同的搜索工具。
另外,我們所面臨的數(shù)據(jù)類型也不同,如文本、圖像、視頻、音頻等信息,列不同的內(nèi)容,需要不同的分類體系和索引機(jī)制、而能否制定一個比較好的分類方法、建立一個比較好的索引機(jī)制,將直接影響到能否開發(fā)出一個比較好的檢索工具。
對于檢索,假如在Internt檢索“數(shù)字圖書館”這個詞,目前的檢索常常是這樣實施的。把“數(shù)字圖書館”切分成“數(shù)字”和“圖書館”,凡是與“數(shù)字”、“圖書館”、“數(shù)字圖書館”打出的條目都會檢索出來,其實這些并不都是用戶所需要的,并且由于這樣檢索出的條目往往非常之多,從而使用戶無從下手,難于找到需要的信息。而目前的分類器絕大多數(shù)都是盡可能多地給你信息,而不管你有用沒用。
因此,怎樣做一個比較好的檢索工具,使得提供給用戶的信息恰恰是用戶最需要的(不需要的一條也沒有),也就是說,大量數(shù)據(jù)的搜索效率(最優(yōu)解)與速度是系統(tǒng)面臨的最大挑戰(zhàn),其中包括中文搜索、圖像搜索、語音搜索、智能搜索等。這當(dāng)中涉及大量的人工智能的支持。
(四)傳輸與保護(hù)
目前,無論是訪問國內(nèi)的站點(diǎn)還是國外的站點(diǎn),速度都比較慢。因此,怎樣從服務(wù)器端進(jìn)行調(diào)度、協(xié)調(diào),當(dāng)用戶提出—個服務(wù)請求時,用最短的時間對用戶的請求進(jìn)行回答,這是系統(tǒng)能否成功的關(guān)鍵;這其中有很多問題需要解決,如帶寬的有效使用問題?,F(xiàn)在,所有的搜索中都存在這一問題,搜索工具只管找到用戶的解,而不管使用多長時間。另外,當(dāng)用戶提出的關(guān)鍵字關(guān)聯(lián)性不很強(qiáng),其組合方式又很初級的時候,可以預(yù)見,這種檢索會花很長時間,解也會很多。在這種情況下,應(yīng)該在檢索之前提醒用戶,再增加—些約束條件,以加快搜索速度,并使檢索中的信息真正是用戶所需要的。
在對多媒體檢索時,應(yīng)該有快速圖像瀏覽機(jī)制,即多媒體解的分層傳輸;如果用戶提交了一個多媒體檢索請求,并且搜索引擎—次找到很多照片或圖像,系統(tǒng)的做法是將找到的照片分成若干層,將最粗層傳給用戶,用戶確認(rèn)選擇后,再逐漸細(xì)化,而當(dāng)用戶認(rèn)為這張照片不是所要的時,可隨時結(jié)束,再換另一張。
保護(hù)包括版權(quán)保護(hù)和系統(tǒng)安全性保護(hù)。版權(quán)保護(hù)是數(shù)字圖書館作為商業(yè)系統(tǒng)運(yùn)行的前提。沒有版權(quán)保護(hù)的手段,作者就不可能允許數(shù)字圖書館經(jīng)營者把白已的作品放到網(wǎng)上,投資者也不會把錢投入到系統(tǒng)的建設(shè)上。
(五)交互界面
交互界面(用戶接口)是數(shù)字圖書館的重要組成部分,是系統(tǒng)與用戶交流的窗口;其實,這不僅是數(shù)字圖書館所面臨的挑戰(zhàn),任何系統(tǒng)都有這個問題,即怎樣設(shè)計一個理想的用戶界面,
讓用戶使用時得心應(yīng)手,能夠友好、直觀、方便,并具有人性化、智能化的特性、利用圖形、語音,將其融為一體等。
(六)輸出與信息表現(xiàn)
在計算機(jī)上用各種可能的技水表現(xiàn)信息是非常具有挑戰(zhàn)性的工作。信息的輸出和表現(xiàn)是數(shù)字圖書館可能為未來社會帶來很大好處的一個方面,除了在經(jīng)濟(jì)、學(xué)習(xí)上有好處,通過對數(shù)字圖書館的研究,使得人類對信息的發(fā)現(xiàn)、信息的利用更上一個檔次。
(七)工具與平臺
工具包括圖書錄入工具、音像制品錄入和編輯工具、瀏覽器工具、開發(fā)工具等,平臺包括軟件平臺、數(shù)據(jù)庫平臺等。目前已經(jīng)有一些商品化的軟件平臺,但是仍然需要專門為數(shù)字圖書館設(shè)計的專門工具與軟件,這是一個最大的挑戰(zhàn)?;邪傮w結(jié)構(gòu)標(biāo)準(zhǔn)、軟件技術(shù)、信息錄入工具、搜索工具、知識挖掘工具等問題。
數(shù)字圖書館的建設(shè)是一項投入強(qiáng)度很大的工作,數(shù)字圖書館的發(fā)展在國內(nèi)雖處在起步階段,目前對于具體的數(shù)字圖書館建設(shè)中遇到的各類問題,如元數(shù)據(jù)問題,海量存儲與檢索問題,基于內(nèi)容的檢索問題,數(shù)字圖書館中的知識產(chǎn)權(quán)管理問題,安全性問題等還處在不斷研究之中。
針對實際情況,數(shù)字圖書館究竟如何建設(shè)才能真正實現(xiàn)國家文獻(xiàn)信息資源的共知、共建、共享,從而推動國家信息化建設(shè)的進(jìn)程,從戰(zhàn)略的高度推進(jìn)我國技術(shù)跳躍式的目標(biāo)的早日實現(xiàn)呢?理論界主要對數(shù)字圖書館的內(nèi)容、相關(guān)技術(shù)、人員等問題進(jìn)行了研究。
數(shù)字圖書館的內(nèi)容研究主要包括數(shù)字圖書館的基本理論、支撐技術(shù)與相關(guān)技術(shù)、資源建設(shè)和資源共享等,正如有文章所說的“當(dāng)前是數(shù)字圖書館和傳統(tǒng)形態(tài)圖書館并存的時代,對數(shù)字圖書館的研究,特有力地推動傳統(tǒng)形態(tài)圖書館的現(xiàn)代化。數(shù)字圖書館研究的側(cè)重點(diǎn)有:1、數(shù)字圖書館的概念、特征、功能等基本理論的研究;2、數(shù)字圖書館應(yīng)用技術(shù)研究:如對象數(shù)據(jù)描述格式、壓縮存儲技術(shù)、格式轉(zhuǎn)換、元數(shù)據(jù)、信息傳輸?shù)募夹g(shù)標(biāo)準(zhǔn)、信息檢索系統(tǒng)等;3、數(shù)字圖書館的機(jī)制研究,如共建共享機(jī)制、權(quán)益分配機(jī)制、知識產(chǎn)權(quán)保護(hù)等;4、數(shù)字圖書館建設(shè),如對象資源庫建設(shè)、元數(shù)據(jù)檢索系統(tǒng)和對象調(diào)度系統(tǒng)建設(shè)、保證機(jī)制建設(shè)等;5、數(shù)字圖書館信息傳播的法律控制和數(shù)字圖書館利用中存在的障礙等?!?/p>
在數(shù)字圖書館技術(shù)研究方面,人們將更多的注意力放在IT技術(shù)與相應(yīng)的支持技術(shù)上,“發(fā)展數(shù)字圖書館是21世紀(jì)初文獻(xiàn)信息服務(wù)的核心戰(zhàn)略?!瓟?shù)字圖書館的全新的信息技術(shù)的支撐作用卻是眾所認(rèn)同的。人們一般不會忽略數(shù)字圖書館的底層技術(shù),但卻應(yīng)該把更多的精力放在信息標(biāo)準(zhǔn)交換技術(shù)、信息格式轉(zhuǎn)換技術(shù)、信息集成技術(shù)以及互工作技術(shù)、互操作技術(shù)等方面,以優(yōu)先、盡快地解決數(shù)字圖書館建設(shè)中信息資源、信息加工、信息平臺和信息系統(tǒng)中普遍存在的異構(gòu)現(xiàn)象和異質(zhì)現(xiàn)象?!边@就說明信息技術(shù)在數(shù)字圖書館建設(shè)過程中是相當(dāng)重要的。而在如何引進(jìn)技術(shù)、開發(fā)技術(shù)和相關(guān)技術(shù)滲透方面還沒有能夠進(jìn)行有效的研究。
數(shù)字圖書館對人員的要求上可以說是相當(dāng)嚴(yán)格的,對傳統(tǒng)的文獻(xiàn)信息工作者來說,如何盡快進(jìn)行知識更新、有效的調(diào)整知識與技能結(jié)構(gòu),就成為我們需要考慮的問題。國內(nèi)一些學(xué)者也已經(jīng)提出了這方面的問題,諸如“21世紀(jì)前10年,數(shù)字圖書館及其相關(guān)概念,網(wǎng)絡(luò)環(huán)境下的館藏發(fā)展、采訪、分類、編目等技術(shù)服務(wù)、讀者服務(wù)以及圖書館員素質(zhì)的提高和角色的轉(zhuǎn)換等均成為主要的研究問題?!?/p>
[1]陳絳梅.我國數(shù)字圖書館建設(shè)策略研究[J].華南熱帶農(nóng)業(yè)大學(xué)學(xué)報,2004(02).
[2]李玉安.電子圖書館、數(shù)字圖書館研究與實踐述評[J].中國圖書館學(xué)報,1999(06).
[3]王世偉.論數(shù)字圖書館的特點(diǎn)及其對當(dāng)代圖書館學(xué)教育的影響[J].圖書情報工作,2001(03).