張明 李麗 劉羿彤 潘峰 陽彩軍
(中國計量科學研究院 信息與實驗室條件保障部,北京 100013)
計量學主題詞表詞間關系構(gòu)建方法探析
張明 李麗 劉羿彤 潘峰 陽彩軍
(中國計量科學研究院 信息與實驗室條件保障部,北京 100013)
為了防止敘詞性漢語主題詞表可能存在的詞義模糊甚至歧義的問題,防止在應用中出現(xiàn)“誤檢”“漏檢”的現(xiàn)象。在構(gòu)建計量學主題詞表時,本文通過“前方一致”、“后方一致”等方法對專業(yè)術(shù)語進行排序,并針對不同特征進行歸納演繹,有效的獲得了詞間關系,提高了實際應用中“查準率”和“查全率”。
敘詞表 計量學 查準率 查全率
敘詞表以規(guī)范化的、受控的、動態(tài)性的敘詞為基本成分,并以參照系統(tǒng)顯示詞間關系,主要用于信息的標引與檢索。它是通過代表概念的、來源于自然語言的具體詞匯實現(xiàn)[1]。這些詞匯也可以稱為術(shù)語或者概念。概念間有一定的關系,統(tǒng)稱為詞間關系。因此在構(gòu)建主題詞表時,構(gòu)建詞間關系是一項最重要和基礎性的工作。敘詞表的詞間關系包括以下三種:等同關系、等級關系和相關關系[2]。(1)等同關系(Equivalence Relationship),用代關系,這種關系含有概念相同或用法相同的關系。揭示等同關系有利于增加檢索的入口率。(2)等級關系(Hierarchical Relationship),又稱屬分關系,這種關系包含屬種、整部和多層級關系,每種層級關系的下位詞都必須與上位詞的概念類型相同,即兩者都必須屬于同一范疇內(nèi)的事物、行為或性質(zhì)。揭示等級關系有助于通過它擴大和縮小查找范圍,提高族性檢索能力。(3)相關關系(Associative Relationship),是相互關聯(lián)的一種關系。相關關系是揭示敘詞間各種主要聯(lián)系、擴大檢索范圍、進行相關信息查找的重要手段,揭示相關關系有助于提高檢索的查全率[3]。
2010年,中國科學技術(shù)信息研究所啟動了《漢語主題詞表》(簡稱《漢表》)的修訂工作。新《漢表》一方面要吸納先前的專業(yè)概念,借鑒已有的參照關系;更為重要的是充分利用文獻數(shù)據(jù)庫中的關鍵詞以及檢索系統(tǒng)中的檢索詞作為敘詞選擇的重要來源。中國計量科學研究院作為項目組成員單位之一承擔了計量學漢語主題詞表的編制工作。本文從計量學的實際出發(fā),提出一些構(gòu)建詞間關系的方法以及思考。
圖3 屬分關系合并模擬圖
通過網(wǎng)絡查詢信息時,經(jīng)常會發(fā)現(xiàn)有時檢索結(jié)果并不滿意,檢索結(jié)果要么太多,要么太少或未能找到自己所需的相關信息,因此如何選擇恰當?shù)臋z索詞,對用戶來說是至關重要的。因而一部具有優(yōu)秀概念和語義工具的主題詞表,帶著其獨有的知識組織體系和語義結(jié)構(gòu),在組織信息和查找信息資源,尤其在網(wǎng)絡數(shù)據(jù)庫檢索等實踐應用方面,勢必發(fā)揮著越來越大的作用,有著重要的現(xiàn)實意義。基于以上考慮,在建設網(wǎng)絡版主題詞表時我們充分考慮這些因素,秉承以下構(gòu)建原則建立詞間關系。
(1)準確性。盡可能的提高檢索的準確性,即“查準率”,一方面是盡量減少麻煩。應該使讀者在少問路的情況下很快找到自己要找的目標或?qū)ο蟆?/p>
(2)直觀性。機器檢索系統(tǒng)包括計算機檢索系統(tǒng)要同人接觸的,人要把自己的檢索要求,檢索詞或由檢索詞構(gòu)成的檢索公式,告訴機器系統(tǒng),機器系統(tǒng)要把查找結(jié)果告訴查者。這就不能不考慮查找者的習慣。因此直觀明了的敘詞更容易被使用者接受。
(3)通用性。在一個專業(yè)領域所使用的通用詞是最適用于科技交流和思想交流的,特別是當讀者自己在終端進行檢索時,這一點就顯得特別重要,因此選擇敘詞的通用性也至關重要,因此共現(xiàn)詞頻很大程度上也反映了詞語的通用性。
2.2.1 通過“前方一致”獲得詞間分類
通過系統(tǒng)平臺提供的“前方一致”功能,將相關敘詞聚類,并按照2.1原則并結(jié)合貢獻頻次等方法,確定敘詞及屬分關系。屬分關系是最常見的關系,確定的這些敘詞可直接應用到敘詞表或本體構(gòu)建中。
2.2.2 通過“后方一致”獲得詞間關系
建好上下級關系之后,我們在聚類詞中通過“后方一致”來獲得詞間關系,對這些詞進行聚會,在同級詞中通過演繹法來構(gòu)建等同級相關等關系[4]。
2.2.3 對各種詞間關系進行合并
對已經(jīng)分好組建好敘詞的詞之間進行關系合并,在合并過程中有幾種情況需要處理。
(1)等同關系的合并。選定一個詞為敘詞的前提下,與其他詞設為等同關系;在詞匯合并的等同關系集合里,根據(jù)構(gòu)建敘詞表的選詞規(guī)則重新確定敘詞身份,在合并后的等同關系詞匯集中,也會繼承過來一些等級關系、甚至概念對立的概念詞匯,具體細化為等級關系,還是保留等同關系。如圖1所示。
(2)相關關系的合并。如果兩個敘詞是等同概念,相關關系則直接進行合并,根據(jù)敘詞選定規(guī)則,重新確定一個詞為敘詞,另一個詞為非敘詞,其他詞都改為相關詞。一般我們按照2.1的原則來確定敘詞。如圖2所示。
(3)屬分關系的合并。等級關系的合并從最小的節(jié)點或從最大的節(jié)點均可,通過人工判斷每個相同的節(jié)點,如果是相同的概念,則在該節(jié)點將兩個詞族進行連接合并去重,該節(jié)點的下位概念或關系,如果是同等級別的概念,則以同位類關系合并;如果下位概念不是同位類關系,甚至含有等級關系,則應該表達合理的等級關系。如圖3所示。
備選詞資源豐富,可以獲得更多的詞間關系,當然也需要更多的人力成本,在人力資源豐富的前提下,擴大選詞規(guī)模必然會獲得更多更完整的詞間關系,同樣搜索的準確率查全率都會隨之提高。
從上述論述中可以看出,詞間關系的合并大多是通過等同關系為契機點的,所以準確的找出等同關系,是處理的核心。要想找出等同概念,途徑有兩條,一是通過計算機匹配,直接找出相同的術(shù)語,然后人工判斷是否為等同概念; 二是通過詞間關系推薦或推理,通過人工進行確認。
在實際應用,不同的學科有不同的傾向性,我們在實際操作中應該結(jié)合本學科進行有針對性的構(gòu)建詞間關系,這才應該是學科主題詞表的精髓[5]。
構(gòu)建詞間關系在敘詞表編制中是至關重要的一部分,在獲得一定數(shù)量的專業(yè)領域術(shù)語以后,我們通過“前方一致”、“后方一致”等方法對這些術(shù)語進行排序,針對不同特征的歸納演繹方法,獲得有效的詞間關系,在實際應用中有極高的使用概率且準確率高[6]。另外,目前詞間關系的建立多數(shù)要依靠操作人員的經(jīng)驗來完成,我們應該更多的找到機器識別的方法,減少人力成本投入,能更好的提高構(gòu)詞效率。
[1] 劉華,曾建勛,沈玉蘭.網(wǎng)絡環(huán)境下敘詞表編制標準的國際發(fā)展趨勢[J].情報雜志,2009,28(11).
[2] 常春,盧文林.敘詞表編制歷史、現(xiàn)狀與發(fā)展[J].農(nóng)業(yè)圖書情報學刊,2002(5).
[3] 吳雯娜,曾建勛.敘詞表微觀結(jié)構(gòu)的描述與評價:EI敘詞表與中文敘詞表的對比分析[J].圖書情報工作,2009,53(8).
[4] 常春,吳雯娜,曾建勛.基于后方一致獲取詞間關系[J].情報科學,2009.7.27(7).
[5] 朱禮軍,趙新力,喬曉東,等.跨領域多來源主題詞表集成與服務研究[J].現(xiàn)代圖書情報技術(shù),2007,(1).
[6] 吳雯娜,王星.敘詞表融合方法研究[J].中國圖書館學報,2012,4(110).
In order to prevent Chinese Thesaurus may exist vague even ambiguity and mistake and Omissions in application. When building thesaurus of metrology, Specialty vocabulary is ordered by the method of front unanimous and rear unanimous in this paper, generalized by characteristic. So the relationship towards the vocabulary is got effective, increase the accuracy and coverage.
thesaurus metrology accuracy coverage class number g253
張明(1983—),男,北京人,職稱:館員,學位:碩士。