●孫凌云(廣東工業(yè)大學 圖書館, 廣州 510090)
知識組織系統(tǒng),如分類法、詞表、詞匯數(shù)據(jù)庫、本體、敘詞表都旨在揭示某一領(lǐng)域的潛在語義結(jié)構(gòu)?,F(xiàn)代的數(shù)字化信息系統(tǒng)提供了比傳統(tǒng)的物理圖書館更多的映射方法和信息選擇次序。數(shù)字化環(huán)境使得從復雜情景中揭示信息的可能性更大。因此,我們在復雜的、跨學科的知識領(lǐng)域開發(fā)對于終端用戶操作有用且有意義的知識組織系統(tǒng)所面對的技術(shù)和智力上的挑戰(zhàn)同樣巨大。使用相應的工具來輔助利用信息資源,進行信息資源的組織和檢索,正是網(wǎng)絡環(huán)境下知識組織系統(tǒng)的主要應用方向。一方面網(wǎng)絡知識組織系統(tǒng)是傳統(tǒng)知識組織系統(tǒng)的重要組成部分與分支;另一方面網(wǎng)絡知識組織系統(tǒng)超越了傳統(tǒng)的知識組織系統(tǒng),是其未來發(fā)展方向。
知識組織系統(tǒng) (knowledge organization systems,簡稱KOS)是我們用來定義并組織表述真實世界物體的術(shù)語和符號的系統(tǒng),在具體應用中我們往往將它們泛指為語義工具。不論KOS是以什么形式出現(xiàn),其基本方法都是相同的,不同的是采用這些方法的程度和范圍。KOS的應用經(jīng)歷了四個階段:查尋、查尋加瀏覽、分面加多維、檢索中加入屬性特征。
隨著現(xiàn)代信息技術(shù)和數(shù)字化資源的迅猛發(fā)展,網(wǎng)絡環(huán)境下KOS(netwo rkedkn owl edgeor gan izat ions ystems,簡稱NKOS)呈現(xiàn)出新的特點:① 吸取不同知識組織系統(tǒng)的特長,集中起來優(yōu)化使用;② 等級結(jié)構(gòu)與元數(shù)據(jù)式的“特征”結(jié)合;③ KOS、元數(shù)據(jù)與專用置標語言的結(jié)合使用;④ 多個知識組織系統(tǒng)結(jié)構(gòu)在學習科學概念中的結(jié)合使用;⑤ 對計算機可理解性的強調(diào);⑥ 可視化與傳統(tǒng)形式的結(jié)合使用。網(wǎng)絡環(huán)境下的KOS(NKOS)正在從機器可讀走向機器可理解。
Gail.Hdege將NKOS分為術(shù)語列表、分類法和關(guān)系列表。術(shù)語列表,包含一系列有完整定義的術(shù)語,通常不包括術(shù)語之間的關(guān)系,如規(guī)范檔、術(shù)語表、字典、地名詞表等;分類法,強調(diào)關(guān)于主題的集合的創(chuàng)建,對術(shù)語之間的關(guān)系揭示著重于屬分關(guān)系,一般是樹形結(jié)構(gòu)的,如標題詞表、分類法、專類分類法、類目結(jié)構(gòu)等;關(guān)系列表,強調(diào)術(shù)語及其之間的多方面描述,術(shù)語之間關(guān)系的揭示不僅僅局限于用、代、屬、分參等關(guān)系,還可以包括整體部分關(guān)系、蘊涵關(guān)系等多種復雜的關(guān)系,一般是網(wǎng)狀結(jié)構(gòu)的,如敘詞表、語義網(wǎng)絡和本體等。[1]下圖所示為目前較為認同的NKOS分類體系。
圖 知識組織系統(tǒng)結(jié)構(gòu)
NKOS的表示是NKOS體現(xiàn)其價值與作用的基礎(chǔ),如果無法以恰當?shù)姆绞奖磉_NKOS,就無法對其進行有效利用。因此將NKOS所描述的概念、概念間的關(guān)系和知識結(jié)構(gòu)以機器可理解的形式表示出來是NKOS要解決的首要問題。NKOS發(fā)展前期是KOS的電子化,包括KOS的MARC描述和數(shù)據(jù)庫化,用數(shù)據(jù)庫存儲和表示便利了對KOS的管理和訪問。隨著web網(wǎng)的普及,實現(xiàn)了用HTML網(wǎng)頁提供基本的瀏覽和查詢功能。KOS用HTML表示,不同KOS在體例上、結(jié)構(gòu)上、內(nèi)容上的異構(gòu)性依然存在,不便于計算機的自動處理和利用。由于NKOS是基于網(wǎng)絡的,而語義web的基礎(chǔ)語言是XML,為了保障兼容性,合適的NKOS表示語言應當是基于XML的。
在基于XML的語言體系中,SKOS是一種新興的NKOS表示語言。SKOS是W3C于2004年發(fā)布的作為受控詞表乃至概念框架表示的語言標準,目前尚處于發(fā)展階段,但它的簡潔、通用、易擴展、與語義web和傳統(tǒng)圖書館學情報學聯(lián)系緊密等特點,已逐漸引起人們的重視。目前國內(nèi)詳細介紹SKOS的文章很少。SKOS包括三個主要部分:核心集(SKOS Core),用于表示除Ontology外的幾乎所有其他NKOS;映射(SKOS Mapping),用于概念框架之間的映射;擴展(SKOS Extensions),用于輔助SKOS的特定應用。其中SKOS Core比較成熟,已經(jīng)形成了相應的語法標準和應用標準,而后兩者還處于發(fā)展階段。[2]
從JCDL、ECDL、DCMA歷次會議NKOS研究主題可以看出,2002年之前敘詞表、分類和元數(shù)據(jù)是討論的重點,2002年之后,本體、語義網(wǎng)、互操作、標準/協(xié)議、主題地圖、系統(tǒng)管理和服務成為NKOS研究的熱點。[3]目前NKOS研究熱衷于技術(shù),其技術(shù)研究與實踐聯(lián)系非常緊密,幾乎每次的NKOS分會討論中都有相關(guān)技術(shù)的應用實例報告,并且均是當前項目的最新進展。目前,世界范圍內(nèi)有很多已建成或在建的NKOS項目。
互操作主要是為解決多語言映射和異構(gòu)系統(tǒng)的問題。語言障礙和異構(gòu)系統(tǒng)是用戶利用知識信息的最大障礙。因此,互操作成為NKOS重點研究的一項技術(shù)。
Marcia Lei Zeng和Lois Mai Chan兩位學者總結(jié)了KOS互操作的8種實現(xiàn)方式:繼承/仿建,以現(xiàn)有的復雜的詞表為原型,創(chuàng)建專業(yè)的或簡單的詞表;翻譯/改編,從其他語言的詞表翻譯、改編形成自己的詞表;衛(wèi)星子表,對現(xiàn)有詞表的某個主題進行擴展,形成新的子表,稱為原表的衛(wèi)星;直接映射,直接在不同KOS的詞語之間或者詞語與分類號之間建立等價關(guān)系;共現(xiàn)映射,通過KOS詞語在元數(shù)據(jù)記錄中的共現(xiàn)關(guān)系建立術(shù)語間的映射;中心轉(zhuǎn)換,將參與互操作的多個KOS映射到一個共同選定的中心KOS上,兩個KOS之間的互操作可以通過中心KOS的轉(zhuǎn)換實現(xiàn);臨時列表,根據(jù)查詢詞臨時從不同的KOS提取相匹配的對象,組建臨時對應列表;協(xié)議連接,通過建立KOS服務協(xié)議供其他應用程序訪問,創(chuàng)建連接環(huán)境,實現(xiàn)KOS 的互操作。[4]
對于獨立創(chuàng)建的KOS,映射和協(xié)議是實現(xiàn)KOS互操作的主要方式。在參與互操作的KOS比較明確時,映射方式比較適用。而在參與互操作的KOS并不明確時,協(xié)議方式較為合適。臨時列表是基于對查詢提問的字面匹配的,互操作的效率和準確性不是很高,但實現(xiàn)起來比較簡單??梢?,各種互操作方式有其各自的特點和適用范圍,在具體的信息資源共享活動中需要從實際出發(fā)選擇合適的方式。
Z39.19是關(guān)于詞匯控制工具最主要的標準。它提供了單語種詞匯控制工具(包括同義詞環(huán)、專類類表和詞表等)的內(nèi)容、顯示、構(gòu)建、維護和管理等方面的原則和規(guī)范,充分考慮了標引非傳統(tǒng)紙質(zhì)文獻的要求,也提出了在網(wǎng)絡環(huán)境下的顯示要求。BS5723是英國制定的關(guān)于單語言詞表的標準,頒布于1987年。2005年發(fā)布的《BS8723:用于信息檢索的結(jié)構(gòu)化詞匯》全面取代了BS5723。BS8723共有5個部分,其中第1、2部分已于2005年出版,第3、4部分于2007年出版,第5部分尚在擬定中。越來越受到關(guān)注的ISO NP 25964(全稱是Structured vocabularies for information retrieval),即用于信息檢索的結(jié)構(gòu)化詞匯,其主要內(nèi)容就是源于BS8723協(xié)議。
W3C在參考了多種現(xiàn)存的KOS標準后于2004年發(fā)布SKOS推薦標準,它是一個基于語義網(wǎng)技術(shù)表示受控詞表及其它知識工具的概念框架。SKOS是歐洲學者提出的,他們大力研究并積極推廣,但是北美學者對此似乎反應冷淡,這不知是由于學術(shù)背景的差異還是歐美的學術(shù)對峙。鑒于W3C在網(wǎng)絡語言標準化方面的權(quán)威地位,SKOS盡管還是一個推薦標準,但已經(jīng)被用于若干大型詞表的表示,包括歐洲的多語言環(huán)境詞表GEMET、英國的檔案詞表UKAT、澳大利亞公共事務信息服務詞表APAIS等。北京大學信息管理系KVision研究小組采用SKOS描述了中國分類主題詞表的一個片斷,并基于此實現(xiàn)了一個語義檢索系統(tǒng)。
3.3.1 信息檢索
多年以來,只有接受過訓練的編目及標引人員會使用KOS進行標引,生產(chǎn)相應的服務產(chǎn)品。KOS的用戶大多是圖書館員及其他專業(yè)檢索者,但是近年來,由于電子數(shù)據(jù)和電子出版物的激增,以及對信息檢索困難的關(guān)注,人們對專業(yè)人員和最終用戶都能使用的KOS 重新產(chǎn)生了興趣。[5]
EdwardT.O’Neill博士和麥麟屏教授提出對《美國國會圖書館主題詞表(LCSH)》的應用改造,在網(wǎng)絡環(huán)境下要求KOS具有簡單易用性。Edward T.O’Neill博士和麥麟屏教授的文章介紹了由他們主要負責、OCLC牽頭、有美國國會圖書館(LC)和美國圖書館學會(ALA)圖書館館藏與技術(shù)服務協(xié)會/主題分析委員會ALCTS/SAC參與的《FAST(主題詞匯的分面式應用)》項目的工作成果是一個建立在LCSH的術(shù)語和關(guān)系上、在結(jié)構(gòu)上趨向于后組配、句法簡單的、用于處理數(shù)字化資源的詞匯表。隨著FAST在2003年年底的正式推廣,處理網(wǎng)絡資源的工作從此有了可靠的、規(guī)模龐大的、綜合的主題詞匯表,而對這個詞匯表的管理工作量又是微乎其微的,基本上是全自動化的,這種簡單易用的工具將被大批從未受過圖書館學專業(yè)技能訓練的人所使用。FAST的意義在于它對傳統(tǒng)知識組織系統(tǒng)工具的開發(fā)、改造、利用,并投身于對新的網(wǎng)絡環(huán)境的服務義務之中,其影響將是巨大的。
3.3.2 術(shù)語服務和詞匯注冊
術(shù)語服務。通過Web服務技術(shù)在網(wǎng)絡上提供分布式的詞匯服務是目前NKOS服務的一種主要形式。已提供這類服務的詞表有:AGROVOC、AAT、CSA/NBII生物復雜性詞表(Biocom plexity Thesaurus)、美國國家農(nóng)業(yè)詞表(NAL)、亞歷山大數(shù)字圖書館項目(ADL)中的地名表協(xié)議等。
詞匯注冊服務?!胺诸惙▊}庫”(Taxonomy Warehouse) 站點提供KOS的注冊服務,任何機構(gòu)都可以將自己創(chuàng)建的KOS提交到該站點注冊。目前在該站點登記在冊的KOS多達660個。類似的項目還有:Becta Terminology Studio,HILT Terminoloyg Service,XMDR Extended Metadata Registry,NSDL Metadata Registry等。詞匯注冊服務可以作為數(shù)字圖書館體系結(jié)構(gòu)中的一個關(guān)鍵組件來實現(xiàn),它的主要功能有:登記和管理創(chuàng)建者提交的各類NKOS;發(fā)布和發(fā)現(xiàn)關(guān)于術(shù)語的信息;證實術(shù)語的真實性和狀態(tài);發(fā)現(xiàn)術(shù)語間的關(guān)系;支持推理、映射等功能;提供對相關(guān)資源的導航;促進不同控制詞匯系統(tǒng)間的互操作等。詞匯注冊服務要求采用開放標準和通用結(jié)構(gòu)(如Zthes,SKOS,MARC等)描述登記在案的KOS,它還可以提供編程接口,同時向用戶和職能代理提供服務。
3.3.3 其他應用
出版商采用電子排版系統(tǒng)開發(fā)其出版物的文摘和索引服務產(chǎn)品。大型的期刊出版商,如Elsevier建立了它們自己的可提供書目記錄的系統(tǒng),且書目記錄能夠連接到文獻全文。隨著在線電子期刊內(nèi)容的增長,人們越來越需要系統(tǒng)由單純提供目次和期刊卷期瀏覽,轉(zhuǎn)變?yōu)橹С秩臋z索和KOS檢索。電子期刊產(chǎn)生了附屬的KOS,特別是分類表。例如,Elsevier的網(wǎng)站提供主題分類表,為該網(wǎng)站2000多個子網(wǎng)站提供檢索入口。
商業(yè)領(lǐng)域應用規(guī)范檔和分類表。例如美國應用在采購和政府統(tǒng)計中的《標準工業(yè)分類表》(SIC)和《北美工業(yè)分類表》(NAICS);疾病與治療方案一一對應的疾病碼在醫(yī)生、醫(yī)院和保險公司中使用。越來越多的組織機構(gòu)建立網(wǎng)站后,將創(chuàng)建附屬的KOS,以支持其運作。
團體機構(gòu)是KOS最大的創(chuàng)造者和使用者。企業(yè)內(nèi)網(wǎng)和知識管理系統(tǒng)的創(chuàng)建者已經(jīng)發(fā)現(xiàn)了數(shù)百種專門的分類表、術(shù)語表以及其他在組織內(nèi)使用的詞表,其中很多都是為特定任務創(chuàng)建的,其適用的主題領(lǐng)域及目標用戶都比較窄,但是對這些用戶來說,它們?nèi)允秦S富的情報資源。例如,美國能源部(DOE)的環(huán)境管理科學計劃(EMSP) 和科學技術(shù)信息辦公室創(chuàng)建數(shù)字圖書館為EMSP的管理者提供支持。研究人員編制了“需求范疇表”和“科學范疇表”來組織環(huán)境科學網(wǎng)(ESN)。ESN利用這些分類表為DOE內(nèi)部的其他相關(guān)資料及來自美國環(huán)境保護署(EPA)、美國航空航天總署(NASA) 分布數(shù)據(jù)庫的相關(guān)資料提供支持。圍繞這些分類表組織的詞表,將與網(wǎng)絡挖掘工具一起使用,將會為特定主題領(lǐng)域的計劃管理者提供更相關(guān)、更準確的網(wǎng)絡資源。
NKOS代表了知識組織系統(tǒng)的發(fā)展方向:數(shù)字化、網(wǎng)絡化、語義化、協(xié)議化和自動化,其技術(shù)、方法的廣泛應用為知識組織系統(tǒng)的發(fā)展帶來了勃勃生機。NKOS除了為特定社群或用戶提供信息檢索的主要功能外,還能夠在促進數(shù)字圖書館發(fā)展中發(fā)揮作用。在這方面還有很多實際的應用性強的研究課題,如NKOS的半自動構(gòu)件和維護,NKOS輔助信息資源組織檢索,知識組織系統(tǒng)最前沿的發(fā)展——語義網(wǎng)(Semantic Web) 和實用分類系統(tǒng)(Ontologies)等。在研究技術(shù)的同時,研究者必須關(guān)注最終用戶的需求,在以用戶為中心的基礎(chǔ)上研究開發(fā)新技術(shù)。NKOS也將隨著技術(shù)的開發(fā)和廣泛應用而迅速發(fā)展。
[1] Gail H.Systems of Knowledge Organization for Digital Libraries:Beyond Traditional Authority Files[M].Waste mston:The Digital Library Federation,2003:4-7.
[2] Zeng ML,Lois Mai Chan.Trend and issues in establishing interoperability among knowledge organization systems[J].Jounralof American Societyfor Information Science and Technology(JASIST),2007,55(5):377-395.
[3]王一丁,王軍.網(wǎng)絡知識組織系統(tǒng)表示語言:SKOS[J].大學圖書館學報,2007(4):30-35.
[4]司莉,等.知識組織系統(tǒng)在我國數(shù)字圖書館中的應用及界面研究[J].情報科學,2007(3):446-450.
[5]司莉,舒欣.國外網(wǎng)絡知識組織系統(tǒng)研究現(xiàn)狀與發(fā)展趨勢[J].圖書情報知識,2008(9):82-85.