駱 舒,鄧 麗
(1.中國(guó)傳媒大學(xué)外國(guó)語學(xué)院,北京 100024;2.《現(xiàn)代教育報(bào)》新聞部,北京 100053)
重塑圖書館生存和發(fā)展的環(huán)境、推動(dòng)圖書資料自身變革是云計(jì)算環(huán)境下圖書館未來發(fā)展的趨勢(shì)。云計(jì)算是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計(jì)算(Grid Computing)技術(shù)的發(fā)展,從本質(zhì)上講,云計(jì)算是指用戶終端通過遠(yuǎn)程連接,獲取存儲(chǔ)、計(jì)算、數(shù)據(jù)庫等資源。作為一種IT基礎(chǔ)設(shè)施與服務(wù)的交付和使用模式,將會(huì)深刻地影響未來互聯(lián)網(wǎng)的運(yùn)作和服務(wù)模式,同時(shí)為傳統(tǒng)圖書館和數(shù)字圖書館未來的發(fā)展提供全方位的指導(dǎo)和啟發(fā),也為傳統(tǒng)圖書館提供了一種新的運(yùn)營(yíng)模式,圖書館的云時(shí)代即將到來。
云計(jì)算環(huán)境下實(shí)現(xiàn)語義檢索的首要條件是有豐富的領(lǐng)域本體,且為分布式的[1]。因此,構(gòu)建本體的方法是當(dāng)前本體研究中的熱點(diǎn)問題。由于本體的構(gòu)建多是面向特定領(lǐng)域,如果沒有好的方法路線指導(dǎo),就難以在不同領(lǐng)域本體的構(gòu)建中保持一致,也不利于本體的規(guī)模化和規(guī)范建設(shè)。因此,本體構(gòu)建方法的研究對(duì)于本體的應(yīng)用起著至關(guān)重要的作用。本文提出的面向云計(jì)算圖書資料管理的本體構(gòu)建技術(shù)旨在解決上述問題。
隨著云計(jì)算技術(shù)的深入開發(fā)和實(shí)踐,其在圖書館的應(yīng)用也會(huì)逐步深入發(fā)展,并逐漸進(jìn)入實(shí)踐和理論相互促進(jìn)、共同發(fā)展的階段。
1.1.1 圖書館生存和發(fā)展環(huán)境發(fā)生變革
云計(jì)算將改變圖書館的上游產(chǎn)業(yè)——出版發(fā)行服務(wù)商對(duì)于數(shù)據(jù)信息知識(shí)的組織、整合和提供方式,使其與圖書館的界線更為模糊,職能更為復(fù)雜,知識(shí)產(chǎn)權(quán)需要進(jìn)一步明確甚至是重新確定“游戲規(guī)則”。云計(jì)算作用于文化的內(nèi)在機(jī)制,將逐步滲透到物質(zhì)文化、制度文化,最后到觀念文化,圖書館將處在一個(gè)全新的文化生態(tài)中,人們對(duì)圖書館的需求、觀念、應(yīng)用、評(píng)價(jià)方式等也將隨之改變。圖書館將要經(jīng)歷從量變到質(zhì)變的過程,通過這個(gè)嬗變過程,資源的配置將逐步實(shí)現(xiàn)優(yōu)化,圖書館的理念和政策也會(huì)相應(yīng)地進(jìn)行調(diào)整。
1.1.2 圖書資料資源實(shí)現(xiàn)更廣泛地共享
云計(jì)算簡(jiǎn)化了IT架構(gòu)的實(shí)施,給人們提供了一種理想的方式,即IT應(yīng)用可以像水電煤氣等公用設(shè)施一樣,實(shí)時(shí)定制,隨時(shí)取用,按需付費(fèi)。云計(jì)算為圖書館提供了高效率、低成本、安全高、競(jìng)爭(zhēng)力強(qiáng)的技術(shù)?!霸拼尜A”是解決龐大數(shù)字資源的存儲(chǔ)和知識(shí)信息劇增與單個(gè)圖書館館藏能力不足這一矛盾的有效途徑;云計(jì)算為圖書館用戶提供信息服務(wù)泛在平臺(tái);提高了圖書館信息資源的安全性;云計(jì)算提高圖書館信息服務(wù)資源的利用率;構(gòu)建本地化、標(biāo)準(zhǔn)化、低成本、自適應(yīng)的云解決方案,實(shí)現(xiàn)共享。
1.1.3 圖書資料管理業(yè)務(wù)流程將被再造
圖書資料管理應(yīng)用云計(jì)算是一項(xiàng)戰(zhàn)略選擇,尤其是在IT基礎(chǔ)設(shè)施領(lǐng)域,圖書館和資料室一旦選擇了云計(jì)算,就需要對(duì)原有信息系統(tǒng)的管理與服務(wù)進(jìn)行重新部署,包括整個(gè)圖書館機(jī)構(gòu)與流程、IT部門人員數(shù)量與結(jié)構(gòu)、圖書館對(duì)于云計(jì)算服務(wù)的質(zhì)量檢測(cè)與控制手段等。由于現(xiàn)代圖書館的業(yè)務(wù)流程除了實(shí)體圖書館的服務(wù)端(指借閱、流通與參考咨詢工作)外,其余幾乎完全建立在計(jì)算機(jī)和網(wǎng)絡(luò)基礎(chǔ)之上,如果整個(gè)IT架構(gòu)向“云”中遷移,傳統(tǒng)的業(yè)務(wù)流程將被逐一拆解,然后組合、外包、虛擬化。
1.1.4 圖書資料服務(wù)范圍更為寬廣
首先是軟件服務(wù),即各類軟件應(yīng)用。采用本地安裝形式的圖書館自動(dòng)化系統(tǒng)、辦公自動(dòng)化系統(tǒng)等,都以一種網(wǎng)絡(luò)服務(wù)的形式提供;其次是云存儲(chǔ)服務(wù)。大量的數(shù)字資源,不論是自建的還是購(gòu)買的,都可以存放于“云”上,而不再需要“鏡像”于本地;第三,中心圖書館作為“云”提供商,提供本地?cái)?shù)據(jù)中心或者其他業(yè)務(wù)支持;第四,平臺(tái)服務(wù)。大型圖書館引入“云”設(shè)施,利用商用的云計(jì)算解決方案,架構(gòu)滿足本地或局部應(yīng)用的“私有云”平臺(tái);第五,互聯(lián)網(wǎng)整合服務(wù)。圖書館作為一種服務(wù)中介,需要整合多家平臺(tái)和資源,利用各類公共云,實(shí)現(xiàn)不同“云”之間的互操作,拾遺補(bǔ)缺,向讀者提供更專指、貼心的服務(wù)。
云時(shí)代的數(shù)字圖書館是個(gè)分布在異構(gòu)環(huán)境中的知識(shí)體系,解決分布式網(wǎng)絡(luò)環(huán)境下系統(tǒng)或資源間的互操作問題是其核心技術(shù)?!爱悩?gòu)”是指系統(tǒng)或資源在結(jié)構(gòu)上的不同,互操作是指系統(tǒng)或資源之間的兼容性或關(guān)聯(lián)關(guān)系。萬維網(wǎng)是目前最大的開放分布式網(wǎng)絡(luò),可以看成由無數(shù)三層結(jié)構(gòu)應(yīng)用組成的大型資源庫群(repositories)。這些資源庫群是徹底異構(gòu)的,從數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)到數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng),從命名方式到數(shù)據(jù)格式、結(jié)構(gòu)模型用戶界面,都有可能完全不同。從某種意義上來講,就是將信息科學(xué)、網(wǎng)絡(luò)技術(shù)與管理思想相融合的知識(shí)管理技術(shù),其核心是基于分布式本體的知識(shí)元數(shù)據(jù)的應(yīng)用。
圖書資料管理服務(wù)在云時(shí)代面臨的一個(gè)巨大挑戰(zhàn)是如何深入到更細(xì)小的知識(shí)單元(如數(shù)據(jù)),進(jìn)行組織、整理、“策管”(Curator)和服務(wù),而不局限于電子書、期刊文章、技術(shù)報(bào)告等。這一直是高校圖書館近年來研究的熱點(diǎn)和核心內(nèi)容,被認(rèn)為是圖書館學(xué)和圖書館行業(yè)的核心競(jìng)爭(zhēng)力。新的技術(shù)架構(gòu)(包括關(guān)聯(lián)數(shù)據(jù)、知識(shí)組織、云平臺(tái)和移動(dòng)技術(shù)等)讓虛擬圖書館逐漸走向后臺(tái),隱形于各類網(wǎng)絡(luò)服務(wù)中,不一定要直接面向讀者,而是作為一種基礎(chǔ)服務(wù)(包括數(shù)據(jù)服務(wù)),成為賽百空間的基礎(chǔ)設(shè)施之一。這種新的存在形式,真正能夠體現(xiàn)數(shù)字圖書館的價(jià)值,特別是能夠?qū)蒲?、教育和醫(yī)藥衛(wèi)生等方面提供持續(xù)的支持。
元數(shù)據(jù)提供了數(shù)字圖書館的語義基礎(chǔ),使資源有了基本的微觀結(jié)構(gòu),但是元數(shù)據(jù)并不能完全解決信息系統(tǒng)的語義異構(gòu)問題,包括資源采用不同元數(shù)據(jù)方案所造成的微觀結(jié)構(gòu)的異構(gòu)問題,以及資源對(duì)象之間存在的復(fù)雜的關(guān)聯(lián)關(guān)系,本體在某種程度上可以看成是“元”元數(shù)據(jù),信息系統(tǒng)中不同實(shí)體對(duì)象可能采用不同的元數(shù)據(jù)方案,不同的實(shí)體對(duì)象之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,本體能夠?qū)@些情況進(jìn)行很好地描述,從而為信息的組織、管理、檢索以及查詢提供模型和方法。
從本體的概念來看,它的本質(zhì)要求包括概念化、形式化、明確、共享、重用等特征,可以說工程性是本體建設(shè)的天然屬性。出于對(duì)各自學(xué)科領(lǐng)域和具體工程的不同考慮,構(gòu)建本體的過程各不相同。目前還沒有一套標(biāo)準(zhǔn)的本體構(gòu)建方法。一般認(rèn)為,Gruber在1995年提出的5條規(guī)則是比較有影響的:
(1)明確性和客觀性:本體應(yīng)該用自然語言對(duì)術(shù)語給出明確客觀的語義定義。
(2)完整性:所給出的定義是完整的,能表達(dá)特定術(shù)語的含義。
(3)一致性:知識(shí)推理產(chǎn)生的結(jié)論與術(shù)語本身的含義不會(huì)產(chǎn)生矛盾。
(4)最大單向可擴(kuò)展性:向本體中添加通用或?qū)S玫男g(shù)語時(shí),通常不需要修改己有的內(nèi)容。
(5)最少約束:對(duì)待建模對(duì)象應(yīng)該盡可能少列出限定約束條件。
目前大家公認(rèn)在構(gòu)建領(lǐng)域本體的過程中,需要領(lǐng)域?qū)<业膮⑴c和協(xié)作。領(lǐng)域內(nèi)的術(shù)語解釋一般是領(lǐng)域?qū)<疫\(yùn)用自然語言給出的,不利于計(jì)算機(jī)運(yùn)算和存儲(chǔ),而明確、清晰地表示這些術(shù)語和概念是決定最終構(gòu)造出本體的基礎(chǔ)。本文以高校圖書和音像資料管理為背景,采用知識(shí)網(wǎng)絡(luò)圖來表示語義之間的聯(lián)系,利用基于知識(shí)網(wǎng)絡(luò)圖的分布式本體構(gòu)建方法,使得在語義表達(dá)上更加清楚,很好地解決了云環(huán)境下語義檢索的問題。
知識(shí)網(wǎng)絡(luò)圖是一種屬于語義網(wǎng)絡(luò)范疇的知識(shí)表示方法,它使用節(jié)點(diǎn)表示概念,使用有向弧表示概念之間的關(guān)系。這種本體構(gòu)建方法基本思想是每個(gè)詞的詞義可以由稱作“字圖”的知識(shí)圖來表示,進(jìn)而通過合并“字圖”組成“短語圖”,再通過合并“短語圖”組成“語句圖”,最后通過合并“語句圖”組成“篇章圖”。這種思路和人們理解過程相似,因而構(gòu)造出的本體也更為直觀。在自然語言處理過程中,知識(shí)表示是其中的核心問題,知識(shí)網(wǎng)絡(luò)圖作為一種語義網(wǎng)絡(luò)范疇的概念圖,是一種更為一般的知識(shí)表示方法,用這種方法作為本體構(gòu)造的知識(shí)表示方法,消除語義表示的不確定性[2]。
設(shè)C為概念的集合,T為關(guān)系類型的集合,G= <N,A,ln,la> 是知識(shí)圖,其中:N 表示節(jié)點(diǎn)的集合;A表示弧的集合;ln表示節(jié)點(diǎn)集到概念集的映射,即ln:N→C;la表示弧集到關(guān)系類型集的映射,即 la:A→T。
傳統(tǒng)的本體創(chuàng)建方法主要依靠小部分專家的力量,在適應(yīng)網(wǎng)絡(luò)信息的動(dòng)態(tài)性、復(fù)雜性上存在缺陷,云計(jì)算和Web2.0技術(shù)能夠?yàn)楸倔w建立和演化提供豐富的語料庫和概念語義信息,建立知識(shí)網(wǎng)絡(luò)圖,從而為本體的建立提供強(qiáng)大的支持[3]。系統(tǒng)允許用戶在線收藏,并與他人共享網(wǎng)絡(luò)書簽,同時(shí)也允許用戶使用任意選取的關(guān)鍵詞對(duì)書簽進(jìn)行標(biāo)注、分類,形成初步的知識(shí)網(wǎng)絡(luò)圖。與傳統(tǒng)的知識(shí)網(wǎng)絡(luò)圖本體構(gòu)建方法相比,面向云計(jì)算的分布式本體構(gòu)建具有回饋性,即具有很強(qiáng)的社群性和協(xié)作性。由于知識(shí)網(wǎng)絡(luò)圖的構(gòu)建是基于關(guān)鍵詞標(biāo)簽分類的公開共享,任何用戶都能通過觀察其他用戶如何標(biāo)注同一資源和某一個(gè)標(biāo)簽被用于哪些資源,自由修改自己所提交的標(biāo)簽,使用戶之間形成“異步反饋”,自動(dòng)形成一種半結(jié)構(gòu)化的知識(shí)網(wǎng)絡(luò)圖,如圖1所示。
圖1 基于知識(shí)網(wǎng)絡(luò)圖的分布式領(lǐng)域本體構(gòu)建
正是基于上述特點(diǎn),該方法幫助人們半自動(dòng)搭建領(lǐng)域本體,再由專家利用TOVE評(píng)價(jià)法或Meth本體方法建立完整的知識(shí)網(wǎng)絡(luò)圖,完成領(lǐng)域本體的構(gòu)建[4]。
本文以中國(guó)傳媒大學(xué)圖書、音像和檔案管理為例,建立面向高校圖書資料管理的領(lǐng)域本體框架。高校圖書資料的資源不論是虛擬的還是實(shí)在的,不論涉及單個(gè)還是多個(gè)信息系統(tǒng),其涉及的實(shí)體類型往往不可能是單一的,這些類型之間往往具有復(fù)雜的關(guān)系,因此很難運(yùn)用一套平面的元數(shù)據(jù)方案進(jìn)行數(shù)據(jù)組織。例如涉及美國(guó)總統(tǒng)奧巴馬的相關(guān)圖書、音像資料有《奧巴馬演說詞選》、《像奧巴馬一樣說英語:奧巴馬演講集》等,分別有譯林出版社2011年、人民日?qǐng)?bào)出版社2009年、世界知識(shí)出版社2009年、東方出版社2008年、社會(huì)科學(xué)文獻(xiàn)出版社2008年等數(shù)十家出版社,幾十個(gè)版本,并且還有翻譯手稿、有聲讀物、衍生電影、聲像資料、精彩畫冊(cè)等相關(guān)資料,以及奧巴馬及其相關(guān)親友、團(tuán)隊(duì)的資料等,這些信息不論是否存在于分布的信息庫中,都應(yīng)該通過一定的方法進(jìn)行有效的映射和描述,但通過現(xiàn)有的平面的元數(shù)據(jù)方法顯然是無法實(shí)現(xiàn)的,但是利用本體模型(例如ABC本體模型,見圖2所示 )能清晰、準(zhǔn)確地揭示這些資源對(duì)象的各類屬性及相互關(guān)系,這種描述方式對(duì)音像出版物等多媒體資源所涉及的復(fù)雜責(zé)任關(guān)系和版權(quán)關(guān)系特別有幫助。知識(shí)本體模型原本就是對(duì)領(lǐng)域知識(shí)的歸納和形式化,目的在于共享和重用,因此特別適合作為信息模型對(duì)知識(shí)系統(tǒng)進(jìn)行描述、表達(dá)和呈現(xiàn)。
圖2 ABC本體模型描述有關(guān)奧巴馬的圖書音像作品
如果我們把圖書分類法看成一種基本的簡(jiǎn)單的知識(shí)本體,一個(gè)書目數(shù)據(jù)庫就可以按照分類法的層次結(jié)構(gòu)組織成一棵龐大的“樹”,每一片“葉子”就是一本書。這樣可以形成一個(gè)簡(jiǎn)單的、一維的知識(shí)導(dǎo)航地圖。當(dāng)我們同時(shí)采用分類主題詞表或其它分面分類方法對(duì)資源的內(nèi)容從不同的“本體”角度進(jìn)行揭示,整個(gè)資源庫就有了多維的導(dǎo)航機(jī)制。同時(shí),通過不同知識(shí)本體的映射可以動(dòng)態(tài)建立從一個(gè)信息庫到另一個(gè)信息庫的語義連接,這種連接并非預(yù)先設(shè)立的,而是“后組”的。如果有本體注冊(cè)服務(wù)中間件或代理進(jìn)行自動(dòng)地翻譯、映射服務(wù),就能從很大程度上解決知識(shí)的跨庫提取、動(dòng)態(tài)瀏覽展示以及異構(gòu)系統(tǒng)的動(dòng)態(tài)勾連等問題,徹底解決高校圖書音像異構(gòu)信息檢索的目標(biāo)[5]。
高校數(shù)字圖書館系統(tǒng)的架構(gòu)基于云計(jì)算的圖書館公共模塊之上,由四層構(gòu)成,自下而上分別是格式適配層、業(yè)務(wù)管理層、業(yè)務(wù)應(yīng)用層和門戶展現(xiàn)層。格式適配層將圖書資源中各種格式的數(shù)字圖書轉(zhuǎn)換為終端可支持的格式,如:HTML、TXT、JPG、CAJ、PDF等,也包含 avi、mpg等多媒體格式,采用通用編解碼庫自適應(yīng)適配;業(yè)務(wù)管理層包括欄目策劃、內(nèi)容策劃、頁面定制、排行策略、熱門推薦、關(guān)聯(lián)推薦、產(chǎn)品上架、終端適配等,其中終端適配主要維護(hù)終端型號(hào)之間的對(duì)應(yīng)關(guān)系;業(yè)務(wù)應(yīng)用層是用戶登錄站點(diǎn)后可以進(jìn)行的一些操作和應(yīng)用的集合,主要包括在線閱讀、用戶下載、個(gè)人空間、流媒體播放等功能;門戶展現(xiàn)層通過各種有線/無線訪問方式提供閱讀業(yè)務(wù),針對(duì)不同用戶群為用戶提供不同的訪問方式。
該系統(tǒng)采用規(guī)范的接口和協(xié)議,保證系統(tǒng)各組成部分的協(xié)同一致,具備可兼容、易移植的系統(tǒng)平臺(tái)。對(duì)外接口具有很強(qiáng)的開放性,支持與運(yùn)營(yíng)商之間的連接。數(shù)字圖書館的云計(jì)算服務(wù)提供商目前主要有IBM、思科和OCLC,其中OCLC已經(jīng)試水華盛頓大學(xué)、加州大學(xué)等校園圖書資料管理。本系統(tǒng)采用兼容IBM和OCLC云計(jì)算資源接口模式,并支持與運(yùn)營(yíng)商之間的連接,以實(shí)現(xiàn)鑒權(quán)或計(jì)費(fèi)功能。
上述系統(tǒng)中的查詢請(qǐng)求是基于知識(shí)本體的應(yīng)用實(shí)現(xiàn)的,并基于查詢處理中介或代理的幫助,查詢提問式可以智能地處理成復(fù)合不同資源集合的規(guī)范詞或者表達(dá)式形式,自動(dòng)分發(fā)到不同的資源站點(diǎn)進(jìn)行查詢,同時(shí)還可以對(duì)返回結(jié)果進(jìn)行基于本體的排序處理,將最終結(jié)果返回給用戶。
本文在校園網(wǎng)建立的上述試驗(yàn)系統(tǒng)中測(cè)試了KACTUS法、TOVE法和分布式知識(shí)網(wǎng)絡(luò)圖法,對(duì)準(zhǔn)確率和搜索效率進(jìn)行了比較,結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
此處采用的方法經(jīng)過370位讀者對(duì)關(guān)鍵詞“奧巴馬”進(jìn)行標(biāo)注,并由3名專家使用TOVE法建立知識(shí)本體,搜索時(shí)使用了云計(jì)算數(shù)字圖書管理實(shí)驗(yàn)系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,本方法準(zhǔn)確率較傳統(tǒng)方法有所提升,在云計(jì)算服務(wù)環(huán)境下搜索效率也較高。
本文在探索云時(shí)代高校圖書資料管理新模式的基礎(chǔ)上,提出一種面向云計(jì)算圖書資料管理的本體構(gòu)建方法,并以高校圖書、音像和檔案管理為例,建立了面向高校圖書資料管理的領(lǐng)域本體框架。實(shí)驗(yàn)結(jié)果表明,該方法在云計(jì)算服務(wù)條件下具有良好的準(zhǔn)確率和搜索效率。隨著云計(jì)算、移動(dòng)通信、知識(shí)組織等技術(shù)在圖書管理中應(yīng)用的不斷深入,知識(shí)本體的創(chuàng)建、使用、互操作和評(píng)價(jià)越來越受到重視,也必將在圖書館建設(shè)中發(fā)揮更重要的作用。
[1]陳 琨,張 蕾.基于知識(shí)圖的領(lǐng)域本體構(gòu)建方法[J].計(jì)算機(jī)應(yīng)用,2011,(6):1164 -1170.
[2]Sean Bechhofer,Ian Horrocks,Carole Goble,Robert Stevens.OILEd:a Reason-able Ontology Editor for the Semantic Web[C]. Proceedings of KI2001, Joint German/Austrian conference on Artificial Intelligence,September 19 -21,Vienna.Springer- Verlag LNAI Vol.2174,pp 396 -408.2001.
[3]房 巍,李萬龍.基于本體的圖書智能檢索系統(tǒng)的建模與應(yīng)用研究[J].長(zhǎng)春理工大學(xué)學(xué)報(bào),2006,(2):72-75.
[4]樊小輝,石晨光.本體構(gòu)建研究綜述[J].艦船電子工程,2011,(6):15 -18.
[5]劉 楠,王俊彪,蔣建軍.基于總線式集成框架的本體構(gòu)建及映射研究[J].航空計(jì)算技術(shù),2011,(2):87-92.
大學(xué)圖書情報(bào)學(xué)刊2012年4期