姜冠蘭 張敏
(西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 400715)
網(wǎng)絡(luò)信息資源日益豐富,單獨(dú)使用分類法或主題法已經(jīng)不能滿足信息資源組織與利用需求,理想的模式是使用分類主題一體化語(yǔ)言進(jìn)行集成化組織與揭示[1]。分類主題一體化詞表(以下簡(jiǎn)稱“一體化詞表”)是分類主題一體化的具體體現(xiàn),國(guó)外情報(bào)機(jī)構(gòu)自20世紀(jì)60年代就開(kāi)始了一體化詞表的研究。1969年英國(guó)情報(bào)學(xué)家艾奇遜·瓊編制了《分面敘詞表》,被認(rèn)為是世界上第一部分類主題一體化詞表,1980年侯漢清[2]對(duì)其進(jìn)行了介紹和論證。1983年《常規(guī)武器工業(yè)分面敘詞表》的成功編制,是我國(guó)一體化詞表的最早嘗試。1994年出版的《中國(guó)分類主題詞表》(以下簡(jiǎn)稱《中分表》),是我國(guó)第一部大型綜合性的分類主題一體化詞表。2009年中國(guó)科學(xué)技術(shù)信息研究所牽頭組織了《漢語(yǔ)主題詞表》(以下簡(jiǎn)稱《漢表》)的重新編制,現(xiàn)已完成《漢語(yǔ)主題詞表(工程技術(shù)卷)》和《漢語(yǔ)主題詞表(自然科學(xué)卷)》的出版,在詞表規(guī)模、等同率、詞間關(guān)系方面有了較大提升,推動(dòng)了一體化詞表的創(chuàng)新發(fā)展。
分類主題一體化詞表有機(jī)融合了分類表和主題詞表,可以同時(shí)滿足分類標(biāo)引與檢索、主題標(biāo)引與檢索等需要,能充分發(fā)揮原有的分類法和主題法的長(zhǎng)處,彌補(bǔ)各自的缺點(diǎn)。網(wǎng)絡(luò)環(huán)境下,分類主題一體化語(yǔ)言依然是情報(bào)組織與檢索中不可或缺的工具,因其詞匯控制的規(guī)范性、概念的豐富性、邏輯的嚴(yán)密性,一體化詞表仍然在不同領(lǐng)域得到廣泛應(yīng)用。本研究對(duì)我國(guó)一體化詞表的構(gòu)成模式、實(shí)現(xiàn)方法、應(yīng)用方式等進(jìn)行了系統(tǒng)梳理,希望對(duì)當(dāng)前理論研究及實(shí)踐應(yīng)用提供參考。
按照對(duì)分類類目與主題詞的映射、兼容、集成等控制手段的不同,常見(jiàn)一體化詞表的構(gòu)成模式主要有如下3種(見(jiàn)表1)。
(1)分面敘詞表。通常包括分面分類表和字順敘詞表兩部分,每個(gè)敘詞均同時(shí)出現(xiàn)在分類表和敘詞表中,用分類號(hào)將兩部分連接,使類目和敘詞對(duì)應(yīng)。通過(guò)對(duì)分類表和敘詞表進(jìn)行統(tǒng)一的詞形、詞義和詞間關(guān)系控制,來(lái)實(shí)現(xiàn)二者的兼容,是最典型的一體化詞表。典型代表如《農(nóng)業(yè)科學(xué)敘詞表》(以下簡(jiǎn)稱《農(nóng)表》)。
(2)分類法-敘詞表對(duì)照索引(或稱分類主題映射詞表)。《中分表》就是此類詞表的代表。通常包括分類號(hào)-主題詞對(duì)應(yīng)表、主題詞-分類號(hào)對(duì)應(yīng)表兩部分內(nèi)容。每個(gè)分類號(hào)下列出對(duì)應(yīng)的主題詞或主題詞串,通過(guò)分類類目實(shí)現(xiàn)主題詞的聚類、分類和瀏覽;每個(gè)主題詞下列出對(duì)應(yīng)的分類號(hào),利用主題詞對(duì)類目作進(jìn)一步地注釋與說(shuō)明[3]。
(3)集成詞表。將若干敘詞表與分類表融合匯編而成的一種詞表,通常以某一部分類法或敘詞表為主,列出與分類號(hào)或敘詞相對(duì)應(yīng)的其他分類法或敘詞表中的分類號(hào)或敘詞,以實(shí)現(xiàn)分類語(yǔ)言與主題語(yǔ)言的兼容與互換。如重新編制的《漢表》就是一個(gè)包含分類、主題和概念等不同語(yǔ)義級(jí)別詞匯和概念數(shù)據(jù)庫(kù)的集成知識(shí)組織系統(tǒng)[4],以《中國(guó)圖書(shū)資料分類法》為基礎(chǔ)組織敘詞表的分類顯示體系,將敘詞表和分類表有機(jī)結(jié)合。
表1 常見(jiàn)分類主題一體化模式及代表性詞表
通過(guò)對(duì)分類表和敘詞表各自的術(shù)語(yǔ)、參照、標(biāo)識(shí)和索引實(shí)施統(tǒng)一的控制,可以實(shí)現(xiàn)二者的有機(jī)融合。在數(shù)字時(shí)代到來(lái)之前,主要是人工編制完成;隨著計(jì)算機(jī)技術(shù)的發(fā)展,分類法與主題法的自動(dòng)轉(zhuǎn)換成為可能,詞表的編制開(kāi)始輔以計(jì)算機(jī)技術(shù)實(shí)現(xiàn)。針對(duì)分類語(yǔ)言和主題語(yǔ)言的兼容互換,目前主要實(shí)現(xiàn)方法有直接映射、自動(dòng)映射和集成法[5]。
(1)直接映射。需要人為主觀判定類目、詞匯之間的關(guān)系,建立不同詞表中詞匯間或詞匯與分類號(hào)之間的對(duì)應(yīng)聯(lián)系,準(zhǔn)確率較高,但是過(guò)多依賴于專家?!吨蟹直怼肪褪遣捎弥苯佑成涞姆椒?,實(shí)現(xiàn)《中國(guó)圖書(shū)館分類法》類目與《漢表》主題詞的對(duì)應(yīng),主要依靠手工對(duì)應(yīng)表標(biāo)引完成。
(2)自動(dòng)映射。這是利用計(jì)算機(jī)對(duì)相同的元數(shù)據(jù)或編目記錄中,來(lái)源于不同詞表的語(yǔ)詞和分類號(hào)的共現(xiàn)頻次進(jìn)行統(tǒng)計(jì),計(jì)算語(yǔ)詞與分類號(hào)的相似度值,從而建立語(yǔ)詞與分類號(hào)的映射。自動(dòng)映射需要足夠多的標(biāo)引數(shù)據(jù),并且同一文獻(xiàn)需要用不同分類法和敘詞表進(jìn)行標(biāo)注,對(duì)訓(xùn)練數(shù)據(jù)的要求較高。自動(dòng)映射方法主要是為實(shí)現(xiàn)詞表擴(kuò)充與更新的自動(dòng)化,使其跟上學(xué)科或資源的快速發(fā)展變化。
(3)集成法。實(shí)質(zhì)上是將某一特定主題領(lǐng)域的多部敘詞表或分類法進(jìn)行融合,在各來(lái)源詞表的基礎(chǔ)上建立包含所有術(shù)語(yǔ)及相關(guān)參照的集成詞表,通過(guò)識(shí)別等價(jià)詞及準(zhǔn)等價(jià)詞建立詞匯轉(zhuǎn)換系統(tǒng),實(shí)現(xiàn)分類表與敘詞表的兼容轉(zhuǎn)換。如中醫(yī)藥一體化語(yǔ)言系統(tǒng)(TCMLS)采用集成法,將各種主題詞表、分類表、工具書(shū)中相關(guān)詞匯集成,建立了與UMLS功能相似的中醫(yī)藥學(xué)及相關(guān)學(xué)科的一體化語(yǔ)言系統(tǒng)平臺(tái)。
直接映射準(zhǔn)確率高,但是過(guò)于依賴專家,耗費(fèi)大量人力;相比直接映射,自動(dòng)映射的效率更高,但存在準(zhǔn)確率低等局限;集成法能較好地保留原有知識(shí)體系的邏輯內(nèi)容,但是工作量較大,在具體的實(shí)踐活動(dòng)中,往往會(huì)采用多種方法相互配合。如《漢表》在重新編制過(guò)程中,就結(jié)合語(yǔ)義計(jì)算、共現(xiàn)聚類等計(jì)算機(jī)技術(shù)輔助領(lǐng)域?qū)<掖_立詞間關(guān)系,最終構(gòu)建了一個(gè)集成知識(shí)組織體系[6]。
現(xiàn)有研究中,除了綜合領(lǐng)域之外,分類主題一體化的研究成果主要集中在醫(yī)學(xué)和農(nóng)業(yè)等專業(yè)領(lǐng)域。在醫(yī)學(xué)領(lǐng)域,利用TCMLS實(shí)現(xiàn)醫(yī)學(xué)文本語(yǔ)義關(guān)系的發(fā)現(xiàn)、構(gòu)建中藥概念數(shù)據(jù)模型等;在農(nóng)業(yè)領(lǐng)域,基于《農(nóng)表》開(kāi)展了大量研究,如構(gòu)建農(nóng)業(yè)領(lǐng)域本體、實(shí)現(xiàn)農(nóng)業(yè)科技關(guān)聯(lián)數(shù)據(jù)的構(gòu)建和發(fā)布、構(gòu)建農(nóng)業(yè)知識(shí)服務(wù)平臺(tái)等。一體化詞表的應(yīng)用促進(jìn)了網(wǎng)絡(luò)環(huán)境下信息資源組織及服務(wù)的展開(kāi)。除了醫(yī)學(xué)和農(nóng)業(yè)專業(yè)領(lǐng)域之外,其他領(lǐng)域?qū)W者也開(kāi)始嘗試引入分類主題一體化模式,如國(guó)防軍事[3,7]、電子政務(wù)[8-9]等領(lǐng)域??傮w而言,一體化詞表主要應(yīng)用于標(biāo)引與檢索、詞表互操作、本體構(gòu)建、關(guān)聯(lián)數(shù)據(jù)發(fā)布、知識(shí)發(fā)現(xiàn)等多個(gè)方面。
分類主題一體化是提高檢索效率的保證,用戶可以通過(guò)分類或主題的方式進(jìn)行瀏覽或檢索,并隨意切換檢索方式,還可以通過(guò)分類與主題的相互限定改變檢索范圍。如在數(shù)字圖書(shū)館中,將《中分表》與OPAC鏈接,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)聯(lián)機(jī)檢索目錄的功能,可以為用戶提供學(xué)科分類導(dǎo)航和概念檢索服務(wù)[10]?!稘h語(yǔ)主題詞表(工程技術(shù)卷)》和《漢語(yǔ)主題詞表(自然科學(xué)卷)》則通過(guò)《漢表》服務(wù)系統(tǒng)提供相關(guān)服務(wù)[11],實(shí)現(xiàn)不同顆粒度的智能查詢和檢索功能,既可以從分類層級(jí)類目入手批量獲取文獻(xiàn)信息,也可以通過(guò)主題概念進(jìn)行縮檢與擴(kuò)檢,還可以從主題和學(xué)科角度對(duì)文檔進(jìn)行聚類分析。胡昌平等[12]、陳果等[13]還通過(guò)對(duì)主題詞表的分面化改造實(shí)現(xiàn)科技文獻(xiàn)檢索效果的提升,以及網(wǎng)絡(luò)社區(qū)分面導(dǎo)航系統(tǒng)原型的構(gòu)建。
利用分類主題一體化也可以同時(shí)完成文獻(xiàn)信息的主題標(biāo)引和分類標(biāo)引,一次標(biāo)引能同時(shí)獲得主題和分類標(biāo)引的結(jié)果,提升標(biāo)引的規(guī)范性和準(zhǔn)確性,也能提高標(biāo)引工作效率。在圖書(shū)館中,當(dāng)電子化和網(wǎng)絡(luò)化的一體化詞表與編目系統(tǒng)對(duì)接之后,信息查找更為便利,縮檢、擴(kuò)檢的難度降低,能實(shí)現(xiàn)分類主題一體化標(biāo)引與編目系統(tǒng)的無(wú)縫鏈接,提高編目效率。
在網(wǎng)絡(luò)環(huán)境下,手工標(biāo)引不能完全滿足用戶需求,人們開(kāi)始探索利用計(jì)算技術(shù)進(jìn)行自動(dòng)標(biāo)引,選擇自動(dòng)標(biāo)引的知識(shí)庫(kù)也要同時(shí)兼顧主題標(biāo)引和分類標(biāo)引的需要,因此一體化詞表也為自動(dòng)標(biāo)引提供了有利條件。卜書(shū)慶[14]構(gòu)建了基于《中分表》知識(shí)組織系統(tǒng)的自動(dòng)標(biāo)引服務(wù)系統(tǒng),可以支持?jǐn)?shù)字資源的自動(dòng)標(biāo)引與自動(dòng)分類,以《中分表》為基礎(chǔ),不僅可以簡(jiǎn)化標(biāo)引程序,還能進(jìn)行分類標(biāo)引與主題標(biāo)引的相互對(duì)照與檢驗(yàn)。類似的,在《漢表》服務(wù)系統(tǒng)中,輸入需要標(biāo)引的文獻(xiàn)標(biāo)題和摘要之后,可以輸出代表性高的優(yōu)選詞作為標(biāo)引詞,并同時(shí)賦予文獻(xiàn)合適的分類號(hào)。
針對(duì)一體化詞表的自動(dòng)構(gòu)建和改造,王軍[15]以《中分表》為基礎(chǔ),提出從已標(biāo)引的結(jié)構(gòu)化語(yǔ)料庫(kù)中提取專業(yè)領(lǐng)域詞匯自動(dòng)豐富現(xiàn)有詞表的思路和方法,基于該方法,通過(guò)發(fā)現(xiàn)反映文獻(xiàn)主題的關(guān)鍵詞,并將其映射到規(guī)范的主題詞上,能夠?qū)崿F(xiàn)自動(dòng)標(biāo)引和編目。何琳等[16]將標(biāo)引經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)相結(jié)合,對(duì)《中分表》進(jìn)行了基于自動(dòng)標(biāo)引的改造,測(cè)試結(jié)果表明,改造后的《中分表》在標(biāo)引深度和專指度方面都有所提高。
信息資源在結(jié)構(gòu)、領(lǐng)域、語(yǔ)言等方面的差異,導(dǎo)致了不同知識(shí)組織系統(tǒng)的異構(gòu)性,為解決由異構(gòu)系統(tǒng)帶來(lái)的資源共享不便的問(wèn)題,檢索語(yǔ)言之間的兼容互換研究成為知識(shí)組織研究重點(diǎn)討論的問(wèn)題,通過(guò)對(duì)詞表進(jìn)行互操作研究則可以滿足用戶對(duì)信息資源進(jìn)行跨庫(kù)、跨領(lǐng)域、跨語(yǔ)言檢索的需求。分類主題一體化詞表本質(zhì)上就是由分類語(yǔ)言和主題語(yǔ)言通過(guò)映射兼容形成的知識(shí)組織系統(tǒng),基于一體化詞表本身的集成特點(diǎn),進(jìn)一步對(duì)一體化詞表開(kāi)展互操作研究能使構(gòu)成的知識(shí)組織系統(tǒng)功能更加全面。
針對(duì)不同檢索語(yǔ)言之間的互操作,劉華梅等[17]以《中分表》為核心體系構(gòu)建了教育集成詞庫(kù),利用同現(xiàn)映射、相似度計(jì)算等方法,實(shí)現(xiàn)了多部分類法、敘詞表和《中分表》的兼容。在不同語(yǔ)種詞表間的互操作方面,部分學(xué)者研究了《農(nóng)表》與AGROVOC敘詞表的映射,并提出了跨語(yǔ)言搜索引擎的設(shè)計(jì)方案[18-19];鮮國(guó)建[20]建立了《農(nóng)表》與幾大涉農(nóng)知識(shí)組織系統(tǒng)映射互聯(lián)的描述框架,包括AGROVOC、NALT、LCSH和EUROVOC敘詞表,但還未進(jìn)行互操作具體實(shí)踐;常春等[21]等按照國(guó)際通用的標(biāo)準(zhǔn)規(guī)范,建立了《漢語(yǔ)主題詞表(工程技術(shù)卷)》到英文超級(jí)科技詞表間的映射關(guān)系,促進(jìn)了中英文跨語(yǔ)言、跨庫(kù)檢索的研究和實(shí)施。在此基礎(chǔ)上,鄧盼盼等[22-23]等從不同角度探討了中英文敘詞表概念映射關(guān)系及方法。
一體化詞表能為構(gòu)建本體等知識(shí)組織系統(tǒng)提供語(yǔ)義來(lái)源等術(shù)語(yǔ)服務(wù)[17]。隨著語(yǔ)義網(wǎng)的發(fā)展,OWL、SKOS、Web Service等技術(shù)被引入術(shù)語(yǔ)服務(wù)研究,曾新紅等[24]以《中分表》《社會(huì)科學(xué)檢索詞表》等為例,構(gòu)建了中文敘詞表本體共建共享系統(tǒng)(OTCSS),提供面向應(yīng)用程序的Web Service術(shù)語(yǔ)服務(wù),實(shí)現(xiàn)了術(shù)語(yǔ)的瀏覽、標(biāo)引與檢索。范煒等[25]以經(jīng)過(guò)SKOS表征的《中分表》主題詞表數(shù)據(jù)為基礎(chǔ),構(gòu)建了面向用戶和機(jī)器的術(shù)語(yǔ)服務(wù)原型系統(tǒng),可支持關(guān)鍵詞檢索和可視化服務(wù)。此外,《漢表》服務(wù)系統(tǒng)以網(wǎng)頁(yè)服務(wù)和接口調(diào)用的方式,提供術(shù)語(yǔ)檢索和瀏覽。
從現(xiàn)有研究來(lái)看,將一體化詞表與其他詞表進(jìn)行互操作的項(xiàng)目并不多,且多是相同領(lǐng)域詞表的互操作,對(duì)于跨領(lǐng)域知識(shí)融合等問(wèn)題的研究還較為缺乏。針對(duì)一體化詞表提供的術(shù)語(yǔ)服務(wù),主要是提供術(shù)語(yǔ)的檢索與瀏覽功能,信息檢索之外的更多應(yīng)用還需擴(kuò)展。
本體規(guī)范度高、語(yǔ)義豐富,可以提高異構(gòu)系統(tǒng)之間的互操作性,能夠較好地滿足新網(wǎng)絡(luò)環(huán)境下信息組織需求,有助于知識(shí)共享。本體與分類表和主題詞表有相一致的特性,構(gòu)建本體的方式之一就是將傳統(tǒng)的分類法、主題詞表等知識(shí)組織體系中的相關(guān)概念改造成本體。一體化詞表同時(shí)提供了知識(shí)的等級(jí)體系和主題概念的語(yǔ)義關(guān)聯(lián),為本體的構(gòu)建提供了便利條件。利用一體化詞表構(gòu)建本體時(shí),本體概念可以直接復(fù)用詞表已有的選詞,并且可以根據(jù)詞表中的各類關(guān)系獲得概念關(guān)系,直接參照詞表中的參照關(guān)系、分類號(hào)以及限義詞以確立概念屬性[26]。
在相關(guān)研究中,由于《中分表》能在各學(xué)科領(lǐng)域中廣泛使用,且能夠統(tǒng)一描述各學(xué)科領(lǐng)域內(nèi)的知識(shí),因此較多研究選擇《中分表》作為知識(shí)源。目前一體化詞表用于本體構(gòu)建大致包括完全復(fù)用型和語(yǔ)義輔助型兩種方式[26]。完全復(fù)用型是指在構(gòu)建本體時(shí)完全以詞表中的主題詞、分類類目詞作為術(shù)語(yǔ)集,通過(guò)對(duì)一體化詞表的完全復(fù)用,學(xué)者們構(gòu)建了不同的領(lǐng)域本體,如民樂(lè)本體、圖書(shū)情報(bào)本體、旅游本體、教育領(lǐng)域本體等。語(yǔ)義輔助型是指構(gòu)建本體時(shí)詞表不再用作術(shù)語(yǔ)集的全部來(lái)源,而是開(kāi)始逐漸加入主題詞以外的自然語(yǔ)言,如標(biāo)簽。張?jiān)浦械萚26]將《中分表》和大眾分類法進(jìn)行融合,復(fù)用《中分表》的語(yǔ)義關(guān)系、分類主題詞作為構(gòu)建本體的語(yǔ)義關(guān)系和術(shù)語(yǔ)集,再結(jié)合標(biāo)簽語(yǔ)義關(guān)系和高頻標(biāo)簽輔助構(gòu)建了一個(gè)散文領(lǐng)域本體,可以對(duì)網(wǎng)絡(luò)資源進(jìn)行深入的揭示,也可以確保本體構(gòu)建所用術(shù)語(yǔ)集的新穎性。
一體化詞表具有豐富的概念及語(yǔ)義關(guān)系,能夠有效地對(duì)信息資源進(jìn)行組織和利用,提高信息獲取效率。但是作為傳統(tǒng)知識(shí)組織系統(tǒng),一體化詞表是相對(duì)封閉和孤立的系統(tǒng),目前還沒(méi)有提供便捷獲取和利用的途徑,缺乏與外部網(wǎng)絡(luò)應(yīng)用進(jìn)行開(kāi)放鏈接的能力,妨礙了其在網(wǎng)絡(luò)資源索引和檢索方面的應(yīng)用能力[25]。關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)為其指出了一個(gè)新的發(fā)展方向。關(guān)聯(lián)數(shù)據(jù)主張?jiān)诓煌瑪?shù)據(jù)間建立聯(lián)系,將孤立的資源關(guān)聯(lián)起來(lái),因此,可以將關(guān)聯(lián)數(shù)據(jù)的理念和技術(shù)方法與一體化詞表結(jié)合。
在關(guān)聯(lián)化的一體化詞表相關(guān)研究中,將一體化詞表直接應(yīng)用于信息資源關(guān)聯(lián)數(shù)據(jù)化的現(xiàn)有研究還較為少見(jiàn),在這類研究中,一體化詞表主要作用是構(gòu)建關(guān)聯(lián)數(shù)據(jù)的基本語(yǔ)義關(guān)系模型,為其他關(guān)聯(lián)數(shù)據(jù)提供語(yǔ)義結(jié)構(gòu)和關(guān)系描述框架。如鮮國(guó)建[20]基于《農(nóng)表》等知識(shí)組織體系,建立適用于描述多類型信息資源的多維語(yǔ)義關(guān)聯(lián)框架模型,為多維農(nóng)業(yè)科技語(yǔ)義關(guān)聯(lián)數(shù)據(jù)的構(gòu)建和發(fā)布提供基礎(chǔ)。任瑞娟等[27]依托《中分表》敘詞及詞間關(guān)系建立關(guān)系型本體庫(kù),實(shí)現(xiàn)了學(xué)位論文、書(shū)目信息等多類型學(xué)術(shù)資源的語(yǔ)義化組織與關(guān)聯(lián)化發(fā)布。
較多研究探討了一體化詞表本身的關(guān)聯(lián)數(shù)據(jù)化實(shí)現(xiàn)。要實(shí)現(xiàn)一體化詞表的關(guān)聯(lián)化,首先要實(shí)現(xiàn)詞表的規(guī)范化描述,SKOS是形式化描述的首選方法。SKOS簡(jiǎn)潔、通用、易擴(kuò)展,提供的語(yǔ)義關(guān)系比RDF更加精確,不像OWL那樣苛求較復(fù)雜的邏輯?!吨蟹直怼分黝}詞表部分、《農(nóng)表》均已進(jìn)行了基于SKOS的語(yǔ)義轉(zhuǎn)換實(shí)踐。針對(duì)《中分表》一體化結(jié)構(gòu)的描述也有學(xué)者提出了解決方案,如曾新紅[28]提出將《中分表》當(dāng)成兩個(gè)獨(dú)立的概念體系進(jìn)行描述,然后進(jìn)行映射集成。
在發(fā)布方式上,目前已經(jīng)有許多工具支持關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)換發(fā)布,如D2R Server、Virtuoso universal server、Triplify等,鮮國(guó)建等[29]和蔡穎[30]基于Virtuoso,分別實(shí)現(xiàn)了《農(nóng)表》以及《中分表》關(guān)聯(lián)數(shù)據(jù)發(fā)布系統(tǒng)的構(gòu)建,Virtuoso可以將RDF儲(chǔ)存到關(guān)系型數(shù)據(jù)庫(kù)中,還支持SPARQL語(yǔ)法查詢。關(guān)聯(lián)數(shù)據(jù)集著眼于機(jī)器處理的便利,用戶理解上還存在一定難度,因此可視化十分必要。Relfinder、Graphviz、RDFGravity、Gruff等都是常見(jiàn)的關(guān)聯(lián)數(shù)據(jù)可視化工具。如范煒等[25]結(jié)合Graphviz和Protovis類庫(kù)實(shí)現(xiàn)了《中分表》主題詞部分的關(guān)聯(lián)數(shù)據(jù)可視化,能更直觀地展示相關(guān)數(shù)據(jù),增強(qiáng)用戶對(duì)數(shù)據(jù)的理解。
基于SKOS的關(guān)聯(lián)數(shù)據(jù)發(fā)布能夠較好地表達(dá)概念之間的關(guān)系,但是對(duì)復(fù)雜等級(jí)體系的概念關(guān)系表達(dá)不夠充分。曾新紅[28]構(gòu)建了中文知識(shí)組織系統(tǒng)形式化語(yǔ)義描述標(biāo)準(zhǔn)體系,包括通用CNKOS語(yǔ)義描述規(guī)范、高受控詞表的OntoThesaurus描述規(guī)范以及領(lǐng)域本體的OWL描述規(guī)范三部分。其中通用CNKOS語(yǔ)義描述規(guī)范對(duì)現(xiàn)有SKOS詞匯無(wú)法細(xì)致描述的語(yǔ)義元素進(jìn)行了擴(kuò)展,如受控詞表中組配概念及特種概念,分類法中交替類目、類目注釋的具體類型及其隱含語(yǔ)義、類號(hào)范圍等問(wèn)題的處理;在此基礎(chǔ)上發(fā)布了《中分表》的關(guān)聯(lián)數(shù)據(jù)服務(wù)[31],但目前該服務(wù)還未提供到其他詞表的關(guān)聯(lián),可視化等功能也還在建設(shè)中。
隨著信息資源的爆炸式增長(zhǎng),用戶的需求也從信息檢索轉(zhuǎn)向知識(shí)的有效獲取。知識(shí)發(fā)現(xiàn)是從以各種形式表示的信息中,發(fā)現(xiàn)知識(shí)之間內(nèi)在的聯(lián)系,為用戶提供更好的服務(wù)。從現(xiàn)有的概念關(guān)聯(lián)體系中,直接獲取概念術(shù)語(yǔ)的半監(jiān)督知識(shí)發(fā)現(xiàn)技術(shù)具有良好的效果[32]。一體化詞表將分類法中的層級(jí)關(guān)系與主題詞表中的概念關(guān)系有機(jī)結(jié)合,能夠?yàn)橹R(shí)發(fā)現(xiàn)提供以概念為中心的同義詞匯聚、概念及實(shí)體識(shí)別、基于范疇類目及等級(jí)體系的概念分類組織等信息,有助于優(yōu)化知識(shí)發(fā)現(xiàn)服務(wù)[33]。
劉愛(ài)琴等[34]以《中分表》為受控詞表,設(shè)計(jì)了面向非相關(guān)文獻(xiàn)的知識(shí)關(guān)聯(lián)發(fā)現(xiàn)系統(tǒng),依據(jù)主題詞的等級(jí)結(jié)構(gòu)以及語(yǔ)義關(guān)聯(lián)或相似程度,構(gòu)造文獻(xiàn)的隸屬和相關(guān)結(jié)構(gòu),最后計(jì)算文獻(xiàn)之間知識(shí)關(guān)聯(lián)程度。趙瑞雪等[35]綜合運(yùn)用《農(nóng)表》及其他詞表建立索引,構(gòu)建了基于元數(shù)據(jù)搜索的統(tǒng)一發(fā)現(xiàn)服務(wù),能夠?qū)崿F(xiàn)一站式檢索、多維分面、學(xué)科導(dǎo)航及語(yǔ)義拓展功能。
隨著社會(huì)網(wǎng)絡(luò)的發(fā)展,大量的網(wǎng)絡(luò)社區(qū)也成為用戶獲取知識(shí)和解決問(wèn)題的重要途徑,用戶在網(wǎng)絡(luò)社區(qū)的交流內(nèi)容通過(guò)一定的挖掘和組織后,能實(shí)現(xiàn)更深層次的知識(shí)服務(wù)。陳果[32]以心血管領(lǐng)域?yàn)閷?duì)象進(jìn)行實(shí)驗(yàn),構(gòu)建了基于《中文醫(yī)學(xué)主題詞表》和基于百科的結(jié)構(gòu)化概念關(guān)聯(lián)體系,在丁香園心血管論壇中引入領(lǐng)域概念關(guān)聯(lián)體系,從概念間的細(xì)粒度關(guān)聯(lián)角度對(duì)用戶發(fā)帖內(nèi)容建立相關(guān)關(guān)系,以實(shí)現(xiàn)知識(shí)關(guān)聯(lián)發(fā)現(xiàn)。
隨著一體化詞表的應(yīng)用不斷拓展和延伸,從傳統(tǒng)環(huán)境下最基本的標(biāo)引與檢索、詞表的互操作研究,發(fā)展到語(yǔ)義網(wǎng)環(huán)境下的本體構(gòu)建和關(guān)聯(lián)數(shù)據(jù)發(fā)布,并為知識(shí)關(guān)聯(lián)提供概念支撐;從文獻(xiàn)信息組織擴(kuò)展到網(wǎng)絡(luò)信息組織,并在不同的領(lǐng)域得到應(yīng)用。其中,《中分表》《農(nóng)表》的數(shù)字化建設(shè)領(lǐng)先于其他詞表,為一體化詞表的多方面應(yīng)用奠定了較好基礎(chǔ)。未來(lái)還可以從以下方面實(shí)現(xiàn)理論與應(yīng)用擴(kuò)展。
(1)推動(dòng)主題詞表的分面化改造。國(guó)內(nèi)對(duì)于分類主題一體化的研究主要集中在醫(yī)學(xué)、農(nóng)業(yè)領(lǐng)域,其他專業(yè)領(lǐng)域較少涉及。分面敘詞表是兼容性最好的分類主題一體化模式,將分面分類體系引入不同領(lǐng)域的主題詞表,可以彌補(bǔ)主題詞表缺乏內(nèi)在邏輯性和分類體系的缺陷。另外,概念屬性的分面分析是本體的重要特征,因此在本體構(gòu)建中分面敘詞表也能得到良好的應(yīng)用。有研究調(diào)查了我國(guó)目前已編制出版的140多部主題詞表,這些主題詞表涉及多個(gè)學(xué)科領(lǐng)域,但現(xiàn)有詞表對(duì)新的信息和技術(shù)環(huán)境的不適應(yīng),使得其中70%都已處于休眠狀態(tài),沒(méi)有得到利用與維護(hù)[36]。因此,加強(qiáng)主題詞表的分面化改造,是實(shí)現(xiàn)各類信息資源分類主題一體化的切實(shí)可行方案,可以進(jìn)一步擴(kuò)展分類主題一體化的應(yīng)用領(lǐng)域。
(2)深化一體化詞表的關(guān)聯(lián)化研究。語(yǔ)義網(wǎng)絡(luò)環(huán)境中,一體化詞表要發(fā)揮語(yǔ)義組織與檢索、知識(shí)發(fā)現(xiàn)等功能,實(shí)現(xiàn)詞表的機(jī)器可理解、可操作、可執(zhí)行是基本的前提和保障[37]。因此,如何將一體化詞表加工成形式化的、四星甚至五星的開(kāi)放關(guān)聯(lián)數(shù)據(jù)是必須解決的關(guān)鍵問(wèn)題。國(guó)內(nèi)學(xué)者積極探索一體化詞表的關(guān)聯(lián)數(shù)據(jù)發(fā)布格式,如SKOS模型化。但許多研究聚焦于一體化詞表中主題詞表部分,對(duì)分類法部分重視不足,這也一定程度上導(dǎo)致了一體化詞表集成特性發(fā)揮的作用有限。部分學(xué)者曾對(duì)此提出進(jìn)一步的轉(zhuǎn)換解決方案,如Zeng等[38]曾提出將OWL和SKOS結(jié)合,借助OWL的形式化邏輯解決類號(hào)組配與復(fù)分推理等問(wèn)題,但是這些方案還未在實(shí)踐中得到驗(yàn)證。此外,還需要對(duì)一體化詞表與其他詞表之間的關(guān)聯(lián)匹配進(jìn)行深入探索,關(guān)聯(lián)數(shù)據(jù)五星標(biāo)準(zhǔn)要求就是不同RDF數(shù)據(jù)集之間構(gòu)建關(guān)聯(lián),因此還需探索不同詞表之間的語(yǔ)義映射方法,如引入帶有機(jī)器學(xué)習(xí)的新AI或許可以提高不同詞表間的語(yǔ)義互操作性[39]。
(3)加強(qiáng)一體化詞表的集成化、可視化研究,提升信息服務(wù)質(zhì)量。在詞表的集成研究中,由于不同詞表的語(yǔ)義、層次結(jié)構(gòu),甚至是語(yǔ)言、文化的差異較大,導(dǎo)致詞表的集成和映射任務(wù)較為困難。鄧仲華等[40]曾提出多語(yǔ)種詞表的映射和擴(kuò)展方案,可以為一體化詞表解決跨語(yǔ)言信息檢索的問(wèn)題提供參考。還有學(xué)者指出利用本體和語(yǔ)義框架開(kāi)發(fā)的敘詞表集成工具,可以解決敘詞表的層次結(jié)構(gòu)模糊的問(wèn)題,如VISTA工具旨在通過(guò)可視化詞匯層次結(jié)構(gòu)來(lái)幫助用戶對(duì)兩個(gè)術(shù)語(yǔ)之間的賦值進(jìn)行智能處理[41]。
用戶需求的滿足和使用的便利是詞表研究的最終目的,知識(shí)可視化和圖譜表示越來(lái)越受到歡迎,如何將這些源于其他實(shí)踐領(lǐng)域,但能夠提高用戶體驗(yàn)的知識(shí)表示形式加以整合,也是一體化詞表需要考慮的。引入人工智能、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等領(lǐng)域的技術(shù),探索構(gòu)建知識(shí)圖譜的方法,通過(guò)一體化詞表本身的層級(jí)和概念關(guān)系,可以滿足部分推理需求,并且可以基于知識(shí)圖譜構(gòu)建自動(dòng)問(wèn)答系統(tǒng),為用戶查找問(wèn)題并提高檢索質(zhì)量提供幫助[42]。
探索一體化詞表實(shí)現(xiàn)方法與技術(shù)創(chuàng)新,從概念形成、概念類目映射到規(guī)范描述,均需圖書(shū)情報(bào)機(jī)構(gòu)與專業(yè)機(jī)構(gòu)、知識(shí)組織體系建設(shè)機(jī)構(gòu)與應(yīng)用機(jī)構(gòu)等相關(guān)群體密切協(xié)作,提高信息資源共享程度,從而實(shí)現(xiàn)協(xié)同攻關(guān)。中國(guó)科學(xué)技術(shù)信息研究所提出的國(guó)家敘詞庫(kù)系統(tǒng)發(fā)展戰(zhàn)略[43],倡導(dǎo)加強(qiáng)全國(guó)性科研協(xié)作機(jī)制,對(duì)推動(dòng)我國(guó)分類主題一體化詞表的發(fā)展具有重要意義。