劉 俊 李 華 侯漢清 徐煥良
摘要 敘詞表已有的參照系統(tǒng)及幾種圖形顯示形式在網(wǎng)絡環(huán)境中顯然不能動態(tài)地?全面地顯示詞間關系,不便于瀏覽和檢索?在分析本體編輯工具Protégé實現(xiàn)敘詞表可視化的必要性基礎上,以《漢語主題詞表》為例,利用Protégé的可視化插件TGVizTab,進行敘詞表等同關系?等級關系和相關關系的可視化實驗,并討論了整部關系和例舉關系的可視化?
關鍵詞 本體編輯工具 Protégé 敘詞表可視化 信息可視化オ
敘詞表是信息表示工作過程中廣泛采用的文獻主題標引和檢索工具?它對自然語言進行詞量?詞類?詞形?詞義及詞間關系的全面控制?可視化就是把數(shù)據(jù)信息和知識轉化為圖形?圖像等比較直觀的視覺形式的過程[1]?對敘詞表的詞間關系進行可視化,能夠幫助用戶更直觀地感知詞間關系[2],明確敘詞的涵義,更快速地檢索和選擇所需語詞?
詞間關系是指敘詞之間內(nèi)在的語義聯(lián)系,包括等同關系?等級關系和相關關系?紙制敘詞表的編制通常采用三種詞間關系控制方法:①編制范疇索引和詞族索引;②建立參照系統(tǒng);③圖形顯示?前兩種方法只能線性顯示詞間關系,而第三種方法借助圖形的直觀優(yōu)勢,更有助于把握詞間關系?本文嘗試以《漢語主題詞表》為例,用本體編輯工具Protégé的可視化插件TGVizTab實現(xiàn)敘詞表的可視化,全面?形象?動態(tài)地顯示敘詞表的各種詞間關系?オ
1 敘詞關系的圖形顯示
圖形顯示[3]是將敘詞間關系以二維圖形式加以顯示,亦稱詞族圖,或稱敘詞關系圖;包括同心圓圖?箭頭圖?樹形結構圖?方框圖等顯示形式?
1.1 同心圓圖
族首詞位于同心圓的圓心位置,族中詞根據(jù)級別不同分布于半徑不同的同心圓上?也就是說,專指度越大的下位詞,距離圓心越遠?直接上下位詞之間由單向箭頭相連,從上位詞指向下位詞?與族中詞(同心圓上的某個敘詞)相關的敘詞列于同心圓之外,兩者之間用直線相連?典型的有1963年由武裝部隊技術和情報中心編制的TDCK環(huán)形展示敘詞表[4],圖1是以族首詞“出版物”為中心展開繪制的TDCK環(huán)形圖?
1.2 箭頭圖
由多條橫線和豎線相交成一個坐標圖?族首詞位于坐標圖的中間位置,族中詞根據(jù)級別不同分布于不同坐標點上?也就是說,專指度越大的下位詞,距離中心詞(族首詞)越遠?與同心圓圖一樣,直接上下位詞之間由單向箭頭相連,從上位詞指向下位詞?與族中詞(坐標圖上的某個敘詞)相關的敘詞列于坐標圖之外,兩者之間用虛線相連?圖2就是以族首詞“攝影機”為中心展開繪制的箭頭圖?
1.3 樹形結構圖
詞族中的等級關系用樹狀結構加以展開?族首詞位于樹形結構圖的頂端位置,族中詞根據(jù)等級關系一層層展開:一級下位詞處于族首詞位置之下的第一層,以此類推,最后一級的下位詞處于結構圖的末端?
1.4 方框圖
由多個方框組成的方框圖?一個詞族列于一個方框之內(nèi)?族首詞居中位于框內(nèi)第一行,并用下劃線加以標識?族中詞按照等級關系用空格縮進形式進行全顯示?每一頁集中顯示具有相關關系的幾個詞族方框,并共同置于一個大方框中,不同詞族方框中有相關關系的族中詞之間用直線或折線相連?該頁顯示不下的相關關系,只用縮略形式表示:相關敘詞列于大方框外,加以數(shù)字標識來源,分別置于一個個小方框內(nèi),并與族中詞用直線相連?
“一畫頂千言”,經(jīng)圖形顯示的敘詞關系直觀?形象?清楚,便于用戶對某個敘詞的等級關系和相關關系有一個全面的了解?但是手工繪制詞族圖復雜又費時,而且這類詞族圖只是靜態(tài)圖,由于頁面限制往往一頁只能顯示一個或幾個詞族,不利于瀏覽和檢索?所以,敘詞表采用詞族圖的寥若晨星,難以推廣?
相比較之下,在電子和網(wǎng)絡環(huán)境下,圖形顯示更能發(fā)揮有效作用,因為借助超鏈接技術,用戶就能直接瀏覽選定詞語的詳細內(nèi)容或圖示?網(wǎng)絡上常用的受控詞表的顯示方式有[6]:路徑等級顯示?按分類體系或字母順序顯示?超鏈接導航(為所有與款目詞有關的詞建立鏈接)?
隨著信息可視化技術的發(fā)展,一些商業(yè)產(chǎn)品能夠生成概念圖[7],例如本體編輯工具可以對各類敘詞進行編輯,自動生成敘詞關系圖?這在一定程度上解決了手工繪制詞族圖的繁瑣,突破手工繪制的局限性,具有良好的友好性?動態(tài)性和可檢索性?也就是說,用戶通過瀏覽敘詞表敘詞關系圖,對所感興趣的領域有一個感性認識,可以從一個敘詞到另一個相關敘詞進行選擇,從而確定標引和檢索所要采用的敘詞,有助于信息表示和檢索過程中的找詞選詞?
2 本體編輯工具Protégé的可視化功能
Protégé[8] 是由斯坦福大學醫(yī)學院的醫(yī)學情報學研究組(Stanford Medical Informatics)開發(fā)研制?Protégé[9] 是一個免費的開源平臺,為不斷增長的用戶群提供一套適用工具,用以構建領域本體和基于知識的本體應用?Protégé 具有一套豐富的知識構建框架和方法,能以各種表示格式創(chuàng)建圖形顯示和管理本體?Protégé構建的本體描述了某個特定領域中重要的概念和聯(lián)系;不僅為該領域提供一部詞匯表,也為詞表中的詞語含義提供了一種計算機可操作的規(guī)范?Protégé 構建本體時,用類(Classes)來劃分客觀世界或某個領域,允許在最底層類別(最小類)之下添加實例(Instances),通過定義屬性(Properties)將相關的類和實例聯(lián)系起來,采用各種結構圖形來顯示類或實例之間的各種關系?目前Protégé 提供了幾個插件來實現(xiàn)可視化功能,例如TGVizTab 采用的是網(wǎng)狀圖結構(圖3),將類?實例?屬性節(jié)點與節(jié)點相連,形成一張動態(tài)的語義相關網(wǎng)絡?
TGVizTab 使用TouchGraph 技術可視化顯示本體,具體的功能有:①圖形顯示類或實例的關系;②網(wǎng)狀圖顯示維度控制;③改變圖形顏色;④不同顏色表示不同屬性;⑤隱藏/顯示單個屬性和結點;⑥幾何級和雙曲線型的縮放;⑦旋轉圖形;⑧結點檢索;⑨保存/下載圖形和設置?
3 敘詞表可視化的實現(xiàn)
Protégé 可作為可視化軟件嘗試顯示敘詞表的詞間關系?《漢語主題詞表》(以下簡稱《漢表》)提供了三種詞間關系(表1),筆者從《漢表》自然科學增訂本中部分選取與信息領域相關的幾個詞族及相關關系(表2),在Protégé3.1.1 中編輯后,用TGVizTab插件進行圖形顯示?
3.1 等級關系的可視化
Protégé系統(tǒng)提供了一個基本大類owl:Thing ,在此類之下,允許用戶自定義各大類,再一級級細分出小類,最后一級小類之下可以添加具體實例?由于筆者選取的都是抽象名詞(表2),沒有實例名詞,因而在Protégé 中編輯敘詞表時,一個敘詞就作為一個類?這樣類的等級關系就反映著敘詞間的等級關系?
首先,在owl:Thing總類之下建立兩個大類:正式敘詞和非正式敘詞?在大類“正式敘詞”之下,按照每個詞族的等級關系建立起一級級下位類?在圖形顯示界面,鼠標置于某個敘詞,系統(tǒng)就會自動顯示其周圍敘詞與該詞之間的關系?super 和sub 是由系統(tǒng)默認的等級關系屬性:super 指向上位詞,sub 指向下位詞?如圖4所示,“計算機管理”有一個上位類“正式敘詞”,說明它是個族首詞;有五個下位類?位于敘詞右上角的數(shù)字表示未顯示出的詞間關系的數(shù)量?
3.2 等同關系的可視化
Protégé提供兩種類型屬性:對象屬性(Object Property)和數(shù)據(jù)屬性(Datatype Property)?對象屬性表示類或實例之間的關系,有翻轉屬性?傳遞屬性?對稱屬性和函數(shù)屬性四種類型?數(shù)據(jù)屬性反映的是某類實例的自身屬性,例如圖書的數(shù)據(jù)屬性有開本?頁碼等?不難看出,在表現(xiàn)敘詞間等同關系和相關關系時,需要定義對象屬性?只要在屬性編輯頁面中選定一種對象屬性,再添加該屬性的定義域和值域,就可將存在此類關系的類或實例聯(lián)系起來?
《漢表》在處理同義詞時,通常指定其中一個常用的詞語為正式敘詞,其余詞均為非正式敘詞,表示方法為“正式敘詞 D 非正式敘詞,非正式敘詞 Y 正式敘詞”?根據(jù)D和Y的互逆關系,在Protégé屬性界面中新建兩個對象屬性D和Y,并定義Y是D的翻轉屬性?只要類1用屬性D聯(lián)系到類2,系統(tǒng)就自動地從類2用屬性Y聯(lián)系到類1?如果在屬性D下建立子屬性D1,系統(tǒng)就會自動在屬性Y下建立一個子屬性,作為Y1的翻轉屬性,名為inverse_of_D1,用戶可以根據(jù)習慣重命名?
首先,將某個或幾個非正式敘詞作為下位類列于大類“非正式敘詞”之下?在屬性D下建立子屬性D1,并令系統(tǒng)在屬性Y下生成子屬性inverse_of_D1后,將其重命名為Y1?選中屬性D1,在定義域添加正式敘詞,在值域添加某個或某些非正式敘詞?第二組的等同關系需要建立子屬性D2,以后各組等同關系均在屬性D下依次建立子屬性?因為對象屬性的定義域與值域中各值之間并未建立起相對應的關系?如果所有等同關系都在屬性D和Y中添加,就會造成關系的擴張和混亂?本文中具體的對象屬性設置如表3所示?
例如:
敘詞關系對象屬性
數(shù)據(jù)管理 D信息管理, 資料管理D1
文件系統(tǒng) D文件結構D2
顯示結果如圖5所示,數(shù)據(jù)管理?信息管理和資料管理,文件系統(tǒng)和文件結構之間分別用直線建立聯(lián)系?
3.3 相關關系的可視化——C
相關關系C是一種特殊的翻轉屬性,是一種自逆關系?筆者新建一種對象屬性SA (See Also)(表3)作為屬性C的翻轉屬性,這樣敘詞1若與敘詞2相關,可以從敘詞1用屬性C聯(lián)系到敘詞2,相應地敘詞2用屬性SA反向聯(lián)系到敘詞1? 在此基礎上,與等同關系可視化操作一樣,為每一組相關關系建立一對翻轉子屬性,并相應定義每個子屬性的定義域和值域,即添加有相關關系的兩類或多個類?
3.4 交叉類的可視化
在《漢表》中存在許多交叉類,或稱為多重等級關系,即一個下位敘詞同時擁有多個上位類?例如下位詞“操作系統(tǒng)”擁有兩個上位類,分別為“程序系統(tǒng)”和“計算機系統(tǒng)”?由于Protégé 假設各類之間沒有交叉,不允許類名重復,建立的全是不交叉類,所以筆者沿用《漢表》的屬分關系代碼,另外建立一對翻轉屬性,命其為S和F,代表交叉等級關系(表3),特意表示此類交叉現(xiàn)象?表示交叉類“操作系統(tǒng)”時,先在“計算機系統(tǒng)”之下按照常規(guī)方法建立子類“操作系統(tǒng)”,然后在“操作系統(tǒng)”和“程序系統(tǒng)”之間用屬性S和F相連,表示為操作系統(tǒng) S 程序系統(tǒng)?程序系統(tǒng) F 操作系統(tǒng)?如圖7所示,super和 S 分別指向“操作系統(tǒng)”的兩個上位類?
4 自定義詞間關系
在《漢表》中,等級關系只包括屬種關系,整部關系和例舉關系并未得到揭示?可以利用protégé的屬性設置功能自定義一對翻轉屬性BTP和NTP來揭示整體-部分關系,還可以通過在類下設置實例來揭示例舉關系(BTI和NTI)?BTP和NTP[11]是ANSI/NISO Z39.19-2005標準中建議使用的,BTP 是Broader Term (partitive) 的縮寫,NTP 是Narrower Term (partitive) 的縮寫?其中BTP 指向包括各組成部分的整體,NTP 指向構成整體的組成部分?例如,數(shù)據(jù)庫是信息系統(tǒng)的一個重要組成部分,可以表示為:數(shù)據(jù)庫 BTP 信息系統(tǒng),信息系統(tǒng) NTP 數(shù)據(jù)庫?如圖8所示,屬性NTP 將信息系統(tǒng)(整體)和數(shù)據(jù)庫(部分)聯(lián)系起來,顯示出兩者的整部關系?由于protégé可以在最底層的類下添加實例,因而很容易實現(xiàn)例舉關系的可視化,不再贅述?
5 評價
從以上可視化的實踐來看,Protégé 是一種可行的敘詞關系可視化工具:不僅能夠圖形顯示和自定義詞間關系,還可以用不同顏色代表不同屬性(即顯示圖中不同顏色的直線代表不同類型的關系),也可以對某個局部進行任意縮放,選擇關系網(wǎng)狀圖顯示的深度和復雜度;根據(jù)顯示要求顯示或隱藏某個結點?不僅可以瀏覽網(wǎng)狀圖,還可以直接通過結點檢索查找某個敘詞?利用可視化技術,敘詞表無論在電子或是網(wǎng)絡環(huán)境下都能以友好姿態(tài)面向大眾,不再是限于信息機構的專業(yè)工具,這樣能夠最大限度發(fā)揮敘詞表的作用?
總的來說,Protégé 基本上能夠滿足動態(tài)?全面地實現(xiàn)敘詞表可視化的需求?但是作為本體編輯工具,Protégé畢竟不是專門的敘詞表可視化工具,因而在使用上出現(xiàn)以下兩個問題:①對于類,對象屬性不提供復用,其定義域和值域中的值并未建立一一對應關系,需要建立子屬性加以區(qū)分;②Protégé 設置的各級類不允許重復,也就是說,全部是不交叉類,其建立的等級關系就不能體現(xiàn)交叉類這一常見現(xiàn)象,需要增加對象屬性來補充揭示?在可視化顯示效果方面,雖然TGVizTab能夠提供圖形縮放功能,但是只能簡單提供節(jié)點間連線的縮放,節(jié)點大小并不相應地按照比例縮放而是始終保持不變?當放大到一定程度,圖形結構就過于疏松;當縮小到一定比例,圖形就相當擁擠?以上所提到的問題還有待改進?至于實現(xiàn)敘詞表的可視化,是采用現(xiàn)有的可視化工具,還是開發(fā)專用的可視化工具,也需要進一步探討和實踐?
參考文獻
1 韓麗影,劉偉.信息可視化——知識服務網(wǎng)站的新形象.情報理論與實踐,2005(6):636-639
2 王子熙,馬蕾.《漢語主題詞表》詞間關系的可視化.四川圖書館學報,2006(2):26-29
3 馬張華,侯漢清.文獻分類法主題導論.北京圖書館出版社,1999:148-149
4 同3:150
5 同3:152
6 The National Information Standards Organization. Z39.19-2005 guidelines for the construction, format, and management of monolingual controlled vocabularies, Bethesda, Maryland, U.S.A:NISO Press, 2005:73-74
7 同4:79-81
8 李景.本體理論在文獻檢索系統(tǒng)中的應用研究.北京圖書館出版社,2005:169-173
9 What is Protégé?[2007-01-20]. http://protege.stanford.edu/overview/
10 TGVizTab: A touchgraph visualization tab for protégé2000.[2007-01-20]. http://eprints.ecs.soton.ac.uk/8326/01/Alani-VIKE-camera-ready.pdf
11 同6:49お
作者單位:南京農(nóng)業(yè)大學信息管理系,南京,210095
收稿日期:2007年3月23日
Experiment of The Visualization of Relationship Among the Descriptors in the Thesaurus
Liu Jun Li Hua Hou Hanqing Xu Huanliang
Abstract: This paper analyses the necessity of visualization of thesaurus by dint of the ontology editor Protégé. Taking Chinese Thesaurus for example, relationship among the descriptors is graphically and semantically visualized by the visualization plug-in of Protégé. At the end, an evaluation is given.
Keywords: Ontology Editor; Protégé; Thesaurus Visualization; Information Visualization