國內(nèi)數(shù)字圖書館技術(shù)研究的可視化分析
韓牧哲,李秀霞,張藝蔓
(曲阜師范大學(xué)傳媒學(xué)院,日照 276826)
摘要:數(shù)字圖書館是隨迅速發(fā)展的信息技術(shù)產(chǎn)生的圖書館新形態(tài),經(jīng)過對(duì)數(shù)字圖書館20年的研究和實(shí)踐,國內(nèi)很多數(shù)字圖書館建設(shè)和服務(wù)中應(yīng)用的技術(shù)已經(jīng)非常成熟。文章通過對(duì)21世紀(jì)以來我國關(guān)于數(shù)字圖書館應(yīng)用技術(shù)的期刊論文進(jìn)行統(tǒng)計(jì)和計(jì)量分析,在初步了解數(shù)字圖書館技術(shù)發(fā)文量趨勢之后進(jìn)行聚類分析,將數(shù)字圖書館技術(shù)分為十類,并生成了可視化圖譜,從而更深入地了解數(shù)字圖書館各種技術(shù)及其關(guān)聯(lián)結(jié)構(gòu)。
關(guān)鍵詞:數(shù)字圖書館;技術(shù)應(yīng)用;聚類分析;可視化分析
Visualization of research of digital library technologies in China
HAN Mu-zhe, LI Xiu-xia, ZHANG Yi-man
(Qufu Normal University, Rizhao 276826, China)
Abstract:Digital library is a new form of library which was spawned by the rapid developing information technology. Through the research and practice of the digital library in China with a history of more than 20 years, the authors hold that both the construction and service technologies of digital library have already become mature. This article uses statistical and quantitative analysis method to study the journal papers on the theme of “technologies of digital library” in China since the beginning of the twenty-first century. The cluster analysis was also conducted after a preliminary understanding of trends of the quantity of published technological assays on digital library, and we have divided the digital library technologies into ten categories. A diagram of the major technologies of digital library is presented in this article, which helps the fellow workers to perceive a deeper understanding of various technologies associated with the structure of digital library.
Key words:digital library; major technologies; cluster analysis; visualization
引言
數(shù)字圖書館是一個(gè)數(shù)字化系統(tǒng)。它將分散于不同載體、不同地理位置的信息資源以數(shù)字化的形式貯存,以網(wǎng)絡(luò)化的方式互相連接,提供及時(shí)利用,實(shí)現(xiàn)資源共享,其核心是數(shù)字化和網(wǎng)絡(luò)化,其實(shí)質(zhì)則是形成有序的信息空間[1]。國內(nèi)關(guān)于數(shù)字圖書館的研究始于1995年,前十年引入網(wǎng)絡(luò)信息技術(shù),豐富了圖書館的職能,并在一定程度上用網(wǎng)絡(luò)信息技術(shù)取代和發(fā)展了部分圖書館傳統(tǒng)工作。而步入“后數(shù)字圖書館”時(shí)代以來,以數(shù)字圖書館為依托的“泛在圖書館”“移動(dòng)圖書館”等數(shù)字圖書館未來形態(tài)也是以這些關(guān)鍵技術(shù)為基礎(chǔ)的。本文統(tǒng)計(jì)了數(shù)字圖書館研究和建設(shè)中所使用的各種關(guān)鍵技術(shù),理清各種技術(shù)之間的關(guān)系,并運(yùn)用趨勢分析方法和聚類分析方法得到相關(guān)的可視化結(jié)果,揭示數(shù)字圖書館研究和建設(shè)中所使用的各種具體技術(shù),旨在對(duì)數(shù)字圖書館及其未來形態(tài)的技術(shù)模式能有更深入的了解。
1研究方法和工具
本文運(yùn)用趨勢分析方法對(duì)數(shù)字圖書館技術(shù)的學(xué)術(shù)關(guān)注度進(jìn)行統(tǒng)計(jì),以便從整體上把握數(shù)字圖書館和數(shù)字圖書館技術(shù)應(yīng)用主題的發(fā)展趨勢和現(xiàn)狀。使用基于關(guān)鍵詞的聚類分析方法對(duì)數(shù)字圖書館所使用的各種關(guān)鍵技術(shù)進(jìn)行分類,生成可視化結(jié)果,用以揭示數(shù)字圖書館技術(shù)主題內(nèi)部的學(xué)科關(guān)系。使用的主要工具是書目共現(xiàn)分析軟件Bicomb,用來統(tǒng)計(jì)和提取目標(biāo)文獻(xiàn)的高頻關(guān)鍵詞并生成共詞矩陣;統(tǒng)計(jì)分析軟件包SPSS19.0,用來做聚類分析。
2文獻(xiàn)來源和數(shù)據(jù)處理
本文從CNKI全國期刊論文數(shù)據(jù)庫中,限定專業(yè)檢索,檢索數(shù)字圖書館研究主題內(nèi)相關(guān)的具體技術(shù)的應(yīng)用。使用檢索式“核心期刊=Y 或者 來源標(biāo)識(shí)碼=P0209 并且 年 between (2000,2013) 并且 主題=數(shù)字圖書館 并且 題名=技術(shù) (精確匹配)”,檢索日期為2014年7月18日。得到期刊論文671篇,排除紀(jì)要類、綜述類等無關(guān)文獻(xiàn)后,得到有效文獻(xiàn)488篇,構(gòu)成本文的數(shù)據(jù)來源。
為對(duì)整個(gè)數(shù)字圖書館的研究關(guān)注趨勢進(jìn)行更全面的把握,本文同時(shí)統(tǒng)計(jì)了2000~2013年CNKI中文核心期刊數(shù)據(jù)庫中收錄的以“數(shù)字圖書館”為主題的期刊論文的發(fā)文量,并分年展示,用以與技術(shù)應(yīng)用類發(fā)文數(shù)量和關(guān)注趨勢進(jìn)行對(duì)比,這部分?jǐn)?shù)據(jù)將不應(yīng)用于本文的聚類分析。
關(guān)鍵詞利用Bicomb書目共現(xiàn)分析系統(tǒng)提取數(shù)字圖書館技術(shù)應(yīng)用類論文488篇的字段,并進(jìn)行一定的數(shù)據(jù)清洗工作:同義詞合并,如“射頻識(shí)別”和“RFID”進(jìn)行合并;上下位詞合并,如“智能Agent”“移動(dòng)Agent”合并為“Agent”技術(shù);無關(guān)詞清理,只保留相關(guān)的具體技術(shù)詞項(xiàng)、技術(shù)分類詞項(xiàng)和應(yīng)用領(lǐng)域詞項(xiàng),剔除高頻詞中表意籠統(tǒng)或沒有分析價(jià)值的詞項(xiàng)如“趨勢”“發(fā)展”等。最終得到有效的關(guān)鍵詞1911個(gè),其中不同詞項(xiàng)694個(gè)。
關(guān)鍵詞本文采用手動(dòng)劃定閾值進(jìn)行高頻詞界分,設(shè)定出現(xiàn)頻次不低于5次的詞項(xiàng)為高頻,得到高頻詞項(xiàng)57個(gè),占累計(jì)百分比60.85%,具有較好的代表性。由于“數(shù)字圖書館”作為主題詞具有超高頻詞,無法反映該主題的內(nèi)部關(guān)系,“圖書館”“Internet”涵蓋內(nèi)容過于寬泛,沒有統(tǒng)計(jì)意義,在分析時(shí)不予采用。最終得到高頻關(guān)鍵詞54個(gè)。
3數(shù)據(jù)分析
學(xué)術(shù)關(guān)注度通過對(duì)目標(biāo)學(xué)科領(lǐng)域的發(fā)文量進(jìn)行統(tǒng)計(jì),可以從一定程度上反應(yīng)該領(lǐng)域的研究進(jìn)展和發(fā)展速度。本文通過兩個(gè)絕對(duì)指標(biāo)和一個(gè)相對(duì)指標(biāo)來研究數(shù)字圖書館技術(shù)的學(xué)術(shù)關(guān)注度:
(1)2000~2013年數(shù)字圖書館主題領(lǐng)域內(nèi)有關(guān)具體技術(shù)的開發(fā)和應(yīng)用研究的核心期刊論文數(shù)量,單位用“篇”來表示;能夠直觀展現(xiàn)數(shù)字圖書館技術(shù)類研究的學(xué)術(shù)關(guān)注度。
(2)2000~2013年數(shù)字圖書館主題的核心期刊論文數(shù)量,單位用“十篇”來表示;能夠和技術(shù)類研究趨勢進(jìn)行對(duì)比。
(3)數(shù)字圖書館主題論文中技術(shù)類文獻(xiàn)所占的比例,單位為“千分比(‰)”;能夠揭示對(duì)具體技術(shù)類研究在整個(gè)數(shù)字圖書館研究中的重要性。
為了將三個(gè)指標(biāo)更直觀地展示在一張圖上,采用不同的單位計(jì)量,主要需要分析的是整體趨勢而非絕對(duì)數(shù)量,由此生成的圖譜如圖1所示。
圖1 文獻(xiàn)量分年統(tǒng)計(jì)圖
國內(nèi)關(guān)于數(shù)字圖書館的研究自1995年發(fā)端以來,在21世紀(jì)進(jìn)入快速發(fā)展時(shí)期,其學(xué)術(shù)關(guān)注度在2004年達(dá)到頂峰,當(dāng)年核心期刊發(fā)表相關(guān)主題論文869篇,隨后其關(guān)注度逐漸被一些繼起的新興理念和后數(shù)字圖書館研究所取代而走向衰退。而數(shù)字圖書館中應(yīng)用的各種具體技術(shù)的研究趨勢和數(shù)字圖書館研究主題的發(fā)展趨勢并非完全一致,但是深受數(shù)字圖書館整體研究趨勢的影響。技術(shù)應(yīng)用類的研究自21世紀(jì)以來一直以較快的速度發(fā)展,并在2004~2006三年間達(dá)到峰值,其后開始衰弱;其在數(shù)字圖書館的總體研究中所占比例在2006年達(dá)到峰值,隨后也逐漸走向衰弱,象征著在“后數(shù)字圖書館”時(shí)代的數(shù)字圖書館具體技術(shù)的研究和開發(fā)已經(jīng)不再是主流話題,這個(gè)階段學(xué)者們對(duì)數(shù)字圖書館的研究更多集中于基于成熟技術(shù)之上的對(duì)數(shù)字圖書館服務(wù)模式的探討和在新時(shí)期對(duì)數(shù)字圖書館未來發(fā)展形態(tài)的思辨。
從整體趨勢上來看,預(yù)計(jì)未來幾年數(shù)字圖書館的研究熱度會(huì)繼續(xù)下降,很多關(guān)鍵技術(shù)已經(jīng)非常成熟并且大量投入到數(shù)字圖書館的建設(shè)實(shí)踐中,而對(duì)各種關(guān)鍵技術(shù)的研究和開發(fā)將不會(huì)局限于數(shù)字圖書館領(lǐng)域,可能在其他新興領(lǐng)域得到進(jìn)一步發(fā)展。
關(guān)鍵詞利用Bicomb軟件生成54*54的高頻共詞矩陣,導(dǎo)入SPSS19.0統(tǒng)計(jì)軟件進(jìn)行分析。選擇分析-分類-系統(tǒng)聚類,距離方法選擇離差平方和法,度量標(biāo)準(zhǔn)選用計(jì)數(shù)Phi方度量,標(biāo)準(zhǔn)化選擇Z得分,由此得到系統(tǒng)聚類分析可視化結(jié)果如圖2所示。
圖2聚類分析樹狀圖
關(guān)鍵詞通過樹狀圖分析結(jié)果,結(jié)合各間的語義關(guān)系,可以將54個(gè)目標(biāo)詞項(xiàng)劃分為十個(gè)類團(tuán),具體的類團(tuán)劃分已用輔助標(biāo)線在圖中進(jìn)行標(biāo)注。由此通過計(jì)算類團(tuán)內(nèi)部關(guān)鍵詞的粘合度,結(jié)合語義對(duì)各個(gè)類團(tuán)進(jìn)行命名。由此得到了十個(gè)涵蓋關(guān)鍵技術(shù)的類團(tuán),分別涉及數(shù)字圖書館的存儲(chǔ)、檢索、資源建設(shè)、資源描述、信息組織、信息安全、知識(shí)服務(wù)和系統(tǒng)集成等各個(gè)方面,如表2所示。
中圖分類號(hào):G252.8 文獻(xiàn)標(biāo)識(shí)碼:A
作者簡介:韓牧哲,男,碩士研究生。
收稿日期:2014-09-24
表2 各類團(tuán)命名及粘合度
其中值得注意的是,由于聚類算法本身存在排斥性缺陷[2],單純依靠聚類分析結(jié)果會(huì)有不合理的地方,如“信息采訪”詞項(xiàng)涵蓋了圖書采訪、數(shù)字資源采購等關(guān)鍵詞,應(yīng)該屬于類IX資源建設(shè)范疇,但是聚類分析卻將此詞項(xiàng)歸類于推薦技術(shù)。這里并非試圖隔斷信息采訪與各種信息推薦技術(shù)的客觀聯(lián)系,不過僅從語義上判斷聚類分析的結(jié)果有時(shí)很難做到合理精確。
4數(shù)字圖書館應(yīng)用技術(shù)分析
從上文的數(shù)據(jù)分析中能夠清楚地看到國內(nèi)對(duì)數(shù)字圖書館的應(yīng)用技術(shù)研究分為十類,下面將具體闡述每一類中的具體技術(shù)及其在數(shù)字圖書館中的應(yīng)用狀況。
數(shù)字圖書館需要對(duì)海量數(shù)字化虛擬化的信息資源進(jìn)行存儲(chǔ)。存儲(chǔ)技術(shù)類團(tuán)中涉及了四種具體技術(shù),分別是磁盤陣列(Redundant Arrays of independent Disks,RAID)、直連式存儲(chǔ)(Direct-Attached Storage,DAS)、網(wǎng)絡(luò)附屬存儲(chǔ)(Network-Attached Storage,NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN)。
RAID是當(dāng)前數(shù)字圖書館廣泛使用的存儲(chǔ)大量數(shù)字化資源的存儲(chǔ)設(shè)備,是數(shù)字存儲(chǔ)的硬件基礎(chǔ)[3]。而DAS、NAS、SAN分別是當(dāng)前最為流行的三種數(shù)據(jù)存儲(chǔ)方式。其中DAS與計(jì)算機(jī)采用直連方式,硬件要求較低,技術(shù)成熟,成本低,在數(shù)據(jù)量較小的數(shù)字圖書館應(yīng)用較為普遍,但是由于效率較低,不適合大規(guī)模數(shù)據(jù)的存儲(chǔ)。NAS和SAN都是網(wǎng)絡(luò)存儲(chǔ)技術(shù),NAS又稱“網(wǎng)絡(luò)存儲(chǔ)器”,以其開放性、共享性而被廣泛應(yīng)用,但是由于其數(shù)據(jù)傳輸需要占用帶寬而會(huì)使效率降低;SAN則因其獨(dú)立存儲(chǔ)和高效率被需要進(jìn)行大規(guī)模的數(shù)據(jù)存儲(chǔ)和傳輸?shù)臋C(jī)構(gòu)所青睞[4]。在非結(jié)構(gòu)化數(shù)據(jù)激增的大數(shù)據(jù)時(shí)代,有學(xué)者開始關(guān)注NAS和SAN技術(shù)的互補(bǔ)利用、強(qiáng)強(qiáng)聯(lián)合,從而為移動(dòng)環(huán)境下的圖書館存儲(chǔ)找到更好的解決方式。
對(duì)數(shù)字化信息資源的描述是數(shù)字圖書館開展信息組織工作的基礎(chǔ),這項(xiàng)技術(shù)其實(shí)是傳統(tǒng)圖書館編目和著錄工作的延伸,自從數(shù)字圖書館和數(shù)字化資源理念提出以來就一直廣受關(guān)注。
該類團(tuán)涵蓋五個(gè)具體詞項(xiàng)。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是數(shù)字化資源描述的基礎(chǔ),而DC則是當(dāng)前國際上最權(quán)威的元數(shù)據(jù)標(biāo)準(zhǔn);機(jī)讀目錄格式(Machine-Readable Cataloging,MARC),是進(jìn)行信息資源描述的格式標(biāo)準(zhǔn),用以讓圖書館或出版商之間作目錄信息交換用途,常用的有美國的USMARC和我國的CNMARC[5];XML和RDF是兩種用于描述信息資源的標(biāo)記語言,資源描述框架(Resource Description Framework,RDF)是可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)的子集,RDF使用XML的語法將Web資源的元數(shù)據(jù)描述成數(shù)據(jù)模型[6],對(duì)數(shù)字圖書館標(biāo)記和描述網(wǎng)絡(luò)虛擬資源有重要作用。
文獻(xiàn)信息檢索是圖書館的傳統(tǒng)工作,但是數(shù)字化信息檢索技術(shù)的應(yīng)用對(duì)傳統(tǒng)圖書館而言是革命性的。數(shù)據(jù)挖掘技術(shù)、信息抽取技術(shù)、信息過濾技術(shù)和Agent技術(shù)都為實(shí)現(xiàn)數(shù)字化、網(wǎng)絡(luò)化信息檢索提供了技術(shù)基礎(chǔ)。但是在這個(gè)類團(tuán)中,需要著重探討的是有關(guān)檢索本身的幾種技術(shù)。
基于內(nèi)容的檢索(Content-Based Retrieval,CBR),是一種區(qū)別于傳統(tǒng)基于文本的檢索理念,它對(duì)信息資源內(nèi)容本身進(jìn)行編碼,并通過對(duì)比可以識(shí)別的內(nèi)容特征實(shí)現(xiàn)檢索,而不是像傳統(tǒng)檢索一樣從標(biāo)題、標(biāo)簽、描述、格式等外部特征出發(fā)進(jìn)行檢索[7]?;趦?nèi)容的檢索是實(shí)現(xiàn)圖像檢索和多媒體檢索的基礎(chǔ),因此該類團(tuán)中另外兩種技術(shù)可以更準(zhǔn)確地稱之為基于內(nèi)容的圖片檢索和基于內(nèi)容的多媒體檢索。這種技術(shù)在當(dāng)前的IT領(lǐng)域非常熱門,有些多媒體搜索引擎已經(jīng)開始投入使用。這種檢索方式的創(chuàng)新對(duì)于數(shù)字圖書館所收藏的大量靜態(tài)動(dòng)態(tài)圖像資源和多媒體信息資源的整序與服務(wù)有重要意義。
本類團(tuán)涉及的關(guān)鍵技術(shù)有:數(shù)字版權(quán)管理(Digital Right Management,DRM),這是一種數(shù)字版權(quán)加密保護(hù)技術(shù)[8]。它不僅能夠?qū)ξ谋绢愋偷臄?shù)字資源進(jìn)行加密保護(hù),而且能夠?qū)σ纛l、視頻等多媒體資源提供版權(quán)保護(hù)。數(shù)字水印技術(shù)是將一種隱藏的標(biāo)識(shí)信息嵌入到數(shù)字化資源中或者間接表示,數(shù)字水印不會(huì)影響用戶對(duì)數(shù)字資源的正常使用,無法被更改和刪除,但是可以通過相關(guān)技術(shù)讀取和識(shí)別,從而為版權(quán)人提供版權(quán)保護(hù)。用戶識(shí)別和訪問控制技術(shù)都是對(duì)用戶權(quán)限進(jìn)行限制的必要安全技術(shù)手段,可以從源頭上杜絕一些侵權(quán)行為或者非法訪問和編輯,從而更好地為其他用戶提供權(quán)力均等的服務(wù)。
信息推薦是數(shù)字圖書館開展主動(dòng)服務(wù)和個(gè)性化服務(wù)的重要手段和形式,數(shù)字圖書館研究中涉及較多的技術(shù)有推拉技術(shù)(Push & Pull)和信息聚合技術(shù)(RSS)。這兩種技術(shù)通過分析用戶的喜好評(píng)價(jià)用戶的閱讀習(xí)慣,從而有針對(duì)性地向用戶推送其所需要的信息,提供主動(dòng)的知識(shí)信息服務(wù)。而信息聚合技術(shù)則是在數(shù)字圖書館平臺(tái)上嵌入RSS訂閱服務(wù),用戶可以自行設(shè)計(jì)和選擇感興趣的信息模塊接受信息訂閱。
該類團(tuán)中電子商務(wù)和信息采訪兩個(gè)詞項(xiàng)從語義判斷應(yīng)該歸類到資源建設(shè)類團(tuán),受制于聚類算法的局限性,在此處不做探討。
互操作是指一種能力,使得分布的控制系統(tǒng)設(shè)備通過相關(guān)信息的數(shù)字交換,能夠協(xié)調(diào)工作,從而達(dá)到一個(gè)共同的目標(biāo)。數(shù)字圖書館的互操作性主要是分布式系統(tǒng)間實(shí)現(xiàn)互操作,從而完成資源共享、館際互借等操作。解決分布式異構(gòu)系統(tǒng)的互操作性問題的關(guān)鍵技術(shù)主要有網(wǎng)格技術(shù)、OAI協(xié)議和公共對(duì)象請求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture, CORBA)。另外,在高頻詞中沒有體現(xiàn)的中間件技術(shù)(middleware)也與此類團(tuán)密切相關(guān)。
網(wǎng)格技術(shù)是一種分布式系統(tǒng),可以實(shí)現(xiàn)資源共享,消除信息孤島;具有協(xié)同工作特性;提供通用的開放標(biāo)準(zhǔn)、非集中控制;提供動(dòng)態(tài)服務(wù),能夠適應(yīng)變化并具有高度的可擴(kuò)展性[9]。OAI協(xié)議是一種能獨(dú)立應(yīng)用的、能夠提高Web上資源共享范圍和能力的互操作協(xié)議標(biāo)準(zhǔn)[10]。CORBA是OMG組織制定的一種標(biāo)準(zhǔn)的面向?qū)ο髴?yīng)用程序體系規(guī)范,是為解決分布式處理環(huán)境(DCE)中,硬件和軟件系統(tǒng)的互連而提出的一種解決方案。CORBA協(xié)議將分布式計(jì)算和面向?qū)ο蟮母拍钕嗷ソY(jié)合,它本身也是一種中間件技術(shù),可以被看作把應(yīng)用程序和通信核心的細(xì)節(jié)分離的軟件[11]。
數(shù)字圖書館建設(shè)中需要面對(duì)和處理大量異構(gòu)系統(tǒng)和非結(jié)構(gòu)化的信息資源,這些異構(gòu)和非結(jié)構(gòu)化問題會(huì)帶來集成性隔斷,人為地阻礙知識(shí)的共享和傳遞。因此,數(shù)字圖書館研究中必須要深入探討各種集成技術(shù)。
數(shù)字圖書館面臨的集成化問題至今還是重要的話題,界面集成化、信息與工作空間集成化、行政集成化、鑒權(quán)集成化、信息技術(shù)與服務(wù)集成化等問題在20年的發(fā)展中很多已經(jīng)得到了良好的改善。如針對(duì)異構(gòu)數(shù)據(jù)庫提出的集成化技術(shù),如多代理系統(tǒng)(Multi-agent)和跨庫檢索技術(shù)(CSDL)、跨語言檢索技術(shù)(CLIR)等已經(jīng)非常成熟并廣泛應(yīng)用于數(shù)字圖書館的建設(shè)中。而一些旨在支持全格式存儲(chǔ)、傳遞、閱讀數(shù)字化信息資源的資源整合技術(shù)對(duì)解決非結(jié)構(gòu)化數(shù)據(jù)的整序問題大有幫助。而被劃分在本類團(tuán)的WebService技術(shù)是一種被廣泛應(yīng)用的綜合性技術(shù)。該技術(shù)首次利用web標(biāo)準(zhǔn)將拆解后的不同軟件的組成部分集成起來,這項(xiàng)技術(shù)為當(dāng)時(shí)的web技術(shù)提供了一種全新的功能模式[12]。
數(shù)字化技術(shù)是將紙質(zhì)、磁介質(zhì)、縮微膠片等傳統(tǒng)方式存儲(chǔ)的圖文聲像資源進(jìn)行數(shù)字轉(zhuǎn)化,使之成為能夠被計(jì)算機(jī)網(wǎng)絡(luò)識(shí)別、讀取、傳輸和利用的數(shù)字化資源的技術(shù)類型[13]。早期的文本識(shí)別、OCR等文獻(xiàn)資源數(shù)字化技術(shù)近年來發(fā)展迅速,我國的書生公司當(dāng)前已經(jīng)研發(fā)出先進(jìn)的全息數(shù)字化技術(shù)[14];同時(shí)隨著新興的虛擬現(xiàn)實(shí)技術(shù)的日漸成熟,在不久的將來,數(shù)字閱讀或可無限接近紙質(zhì)文獻(xiàn)的閱讀體驗(yàn)。數(shù)字化文獻(xiàn)信息資源的長期保存問題也是圖書館學(xué)領(lǐng)域研究的熱點(diǎn),這項(xiàng)技術(shù)一方面和數(shù)字倉儲(chǔ)技術(shù)密切相關(guān),但是很大程度上受到數(shù)字化資源類型的限制。被劃分到其他類團(tuán)的信息采訪和電子商務(wù)應(yīng)與數(shù)字化資源的采訪有關(guān),也屬于資源建設(shè)范疇,但是并非具體技術(shù)的應(yīng)用,此處不再贅述。
這個(gè)類團(tuán)所涉及的技術(shù)范疇是綜合性的,都和Web2.0及Web3.0理念有關(guān)。其主要涉及的是基于本體論(Ontology)提出的語義網(wǎng)(Semantic Web)概念、流媒體形式的信息組織形式和基于P2P理念的信息共享技術(shù)。
本體論是一個(gè)哲學(xué)范疇,在信息系統(tǒng)和知識(shí)系統(tǒng)領(lǐng)域被賦予了新的含義,Studer等人認(rèn)為本體論是共享概念模型的明確的形式化規(guī)范說明,這也是目前對(duì) Ontology 概念的統(tǒng)一看法[15]。Tim Berners-Lee于1998年提出的語義網(wǎng)模型有三個(gè)關(guān)鍵要素,其以RDF和XML為技術(shù)基礎(chǔ),而本體論則是具有一個(gè)分類體系和一系列的推理原則的形式化定義語詞關(guān)系的規(guī)范化文件[16]。這個(gè)模型與Web3.0理念不謀而合,對(duì)實(shí)現(xiàn)資源描述和信息組織方式的創(chuàng)新有重要意義。流媒體技術(shù)是當(dāng)前在信息組織中應(yīng)用最廣的方法之一,它的安全性高,傳輸性好,廣為數(shù)字圖書館研究者所青睞。對(duì)等互聯(lián)網(wǎng)技術(shù)(P2P)對(duì)于有針對(duì)性的需求-服務(wù)匹配的信息資源共享有很好的作用。這些技術(shù)被綜合應(yīng)用于數(shù)字圖書館中,提供了良好的信息組織和知識(shí)服務(wù)手段。
為用戶提供個(gè)性化服務(wù)是評(píng)價(jià)和衡量數(shù)字圖書館的重要指標(biāo)。而個(gè)性化服務(wù)體現(xiàn)在數(shù)字圖書館工作的各個(gè)方面,本類團(tuán)中涉及的技術(shù)主要是指在云計(jì)算和數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的支持個(gè)性化信息檢索的Agent技術(shù);能夠提供個(gè)性化服務(wù)環(huán)境的應(yīng)用程序虛擬化技術(shù);基于信息抽取和信息過濾技術(shù)的個(gè)性化信息服務(wù)。
Agent技術(shù)是一種分布式計(jì)算技術(shù),基于它開發(fā)的異構(gòu)數(shù)據(jù)庫信息檢索系統(tǒng)在滿足用戶個(gè)性化信息需求方面有不錯(cuò)的效果[17]。虛擬化技術(shù)主要分為平臺(tái)虛擬化、資源虛擬化、應(yīng)用程序虛擬化和表示層虛擬化?;趹?yīng)用層的虛擬化技術(shù),通過保存用戶個(gè)性化計(jì)算環(huán)境的配置信息,可以實(shí)現(xiàn)在任意計(jì)算機(jī)上重現(xiàn)用戶的個(gè)性化計(jì)算環(huán)境[18]。信息抽取技術(shù)和信息檢索相輔相成,它是將文本中所包含的信息進(jìn)行結(jié)構(gòu)化處理,將各個(gè)文檔中的信息點(diǎn)抽取出來,然后用統(tǒng)一的形式集成在一起,對(duì)處理大數(shù)據(jù)時(shí)代的海量信息有重要作用。信息抽取技術(shù)與信息過濾技術(shù)和信息推送技術(shù)相結(jié)合,可以按照用戶需求屏蔽掉冗余信息并向用戶推送其感興趣的信息,從而可以很好地實(shí)現(xiàn)個(gè)性化信息服務(wù)。數(shù)字圖書館中的各項(xiàng)技術(shù)其實(shí)都有以個(gè)性化服務(wù)為指標(biāo)進(jìn)行的度量,在大數(shù)據(jù)時(shí)代,各種非結(jié)構(gòu)化信息大規(guī)模增長,需要未來數(shù)字圖書館服務(wù)更加注重個(gè)性化。個(gè)性化服務(wù)的技術(shù)遠(yuǎn)不止于此,隨著以用戶為本理念的推行,個(gè)性化服務(wù)將成為數(shù)字圖書館未來形態(tài)中最受關(guān)注的指標(biāo)。
5結(jié)語
本文對(duì)21世紀(jì)以來的我國數(shù)字圖書館應(yīng)用技術(shù)主題的期刊論文進(jìn)行了統(tǒng)計(jì)分析。由于所分析的主題已經(jīng)進(jìn)入學(xué)科發(fā)展的后期階段,再進(jìn)行發(fā)展趨勢預(yù)測沒有意義,不過對(duì)數(shù)字圖書館關(guān)鍵技術(shù)的革新以及這部分學(xué)者關(guān)注的最新熱點(diǎn)對(duì)數(shù)字圖書館未來形態(tài)的發(fā)展意義重大。同樣這些技術(shù)作為數(shù)字圖書館的基礎(chǔ)性技術(shù),其最新的發(fā)展也會(huì)是筆者今后關(guān)注的重點(diǎn)。
參考文獻(xiàn):
[1] 李培.數(shù)字圖書館原理及應(yīng)用[M].北京:高等教育出版社,2004.3-6.
[2] 李佳.共詞矩陣在聚類結(jié)果分析中的作用[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2009,(4):77-80.
[3] 金海,張江陵.磁盤陣列技術(shù)及其發(fā)展趨勢[J].微處理機(jī),1995,(2):5-11.
[4] 謝勝彬,陶洋,王國梁.DAS、NAS與SAN的研究與應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2003,(7):8-11.
[5] 胡小菁,李愷.MARC四十年的發(fā)展及其未來[J].中國圖書館學(xué)報(bào),2010,(2):83-89.
[6] 黃偉紅,張福炎.基于XML/RDF的MARC元數(shù)據(jù)描述技術(shù)[J].情報(bào)學(xué)報(bào),2000,(4):326-332.
[7] 趙一丹.論數(shù)字圖書館基于內(nèi)容的多媒體數(shù)據(jù)查詢和檢索技術(shù)[J].中國圖書館學(xué)報(bào),2001,(3):57-59.
[8] 吳慰慈,董焱.圖書館學(xué)概論[M].北京:國家圖書館出版社,2008.350-351.
[9] 史寧.網(wǎng)格技術(shù)與分布式數(shù)字圖書館[J].現(xiàn)代情報(bào),2007,(4):102-105.
[10] 鄭志蘊(yùn),徐瑋,宋瀚濤等.網(wǎng)格環(huán)境下基于OAI的數(shù)字圖書館互操作機(jī)制[J].計(jì)算機(jī)工程,2006,(10).
[11] 周善儒.基于CORBA中間構(gòu)件的數(shù)字圖書館異構(gòu)資源集成方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2003,(2):19-20.
[12] Roman D, Keller U, Lausen H, et al. Web service modeling ontology[J]. Applied ontology,2005,1(1):77-106.
[13] 林靜.圖書館館藏資源數(shù)字化建設(shè)[J].圖書館學(xué)研究,2004,(7):33-35.
[14] 劉錦山.書生全息數(shù)字化技術(shù)在數(shù)字圖書館建設(shè)中的應(yīng)用[J].圖書情報(bào)工作,2001,(9).
[15] 劉穎,詹 萌.Ontology在數(shù)字圖書館領(lǐng)域中的應(yīng)用與研究綜述[J].圖書館雜志,2005,(6):53-58.
[16] 簡玉仙,程曉穎,朱曉冰.一種基于本體語義控制的數(shù)字圖書館技術(shù)研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2009,(8):34-35.
[17] 滕勝娟.從移動(dòng)Agent技術(shù)的應(yīng)用看圖書館信息服務(wù)的個(gè)性化[J].圖書情報(bào)工作,2011,(S1):223-224.
[18] 劉榮發(fā).服務(wù)器虛擬化技術(shù)在圖書館數(shù)字化服務(wù)中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2007,(4).
(責(zé)任編輯:王靖雯)