陳辰
敘詞表概念映射研究
陳辰
敘詞表概念映射可滿足用戶深層次的概念檢索需求。區(qū)分術(shù)語映射和概念映射的不同,從現(xiàn)實情況出發(fā),提出基于ISO標準對其映射類型進行擴展使用的方法。結(jié)合敘詞表映射實驗,對概念映射方法進行探析。
敘詞表映射 概念映射 映射類型 映射方法
敘詞表映射[1]是知識組織體系互操作技術(shù)中的一種,它是為兩個或者多個詞表的術(shù)語建立映射關(guān)系,以在詞表之間實現(xiàn)自動的轉(zhuǎn)換和連接,從而實現(xiàn)不同檢索系統(tǒng)間的“一站式”主題檢索。敘詞表概念映射不同于術(shù)語映射,它從滿足用戶概念檢索需求出發(fā),達到語義概念層次的映射,從而提高系統(tǒng)的互操作水平。
相關(guān)機構(gòu)和研究人員對術(shù)語映射與概念映射尚未做明確區(qū)分。但筆者認為,《ISO25964-1——敘詞表和其他敘詞表互操作:信息檢索用敘詞表》將過去基于術(shù)語的改為基于概念的詞表組織結(jié)構(gòu),而且更關(guān)注概念、以及概念間的聯(lián)系,正是反映了用戶具有概念檢索的需求。敘詞表映射為滿足用戶此需求,也需對概念映射和術(shù)語映射進行明確界定,探究兩者的不同,以明確哪些方法可達到概念層次的映射。筆者認為從映射程度上劃分,敘詞表映射分為術(shù)語映射與概念映射。
1.1 術(shù)語映射
術(shù)語映射指詞形不同而詞義相同的詞語之間的映射,它只涉及術(shù)語間的語義對等關(guān)系,而不涉及概念間的等級和相關(guān)關(guān)系。筆者將術(shù)語對等映射概括為兩種情況:一是從詞形學角度分析是同一個詞,但是由于單復(fù)數(shù)形式、全稱和簡寫、大小寫、譯文、標點差異、首字母縮寫等原因造成詞形不規(guī)范的映射情況,這些語法表現(xiàn)形式不一致而語義一致的詞可視為等價映射;二是詞形完全不一致但是詞義相同,如異形同義詞間也是等價映射。對等關(guān)系既可只用一種“等價映射”類型表示,如使用EM(Equivalence Mapping即等價映射,簡稱EM)表示,也可對“等價映射”進行細化,如全稱和簡寫術(shù)語的映射類型可表述為“FT/AB”(Full Term和Abbreviation,全稱和簡稱對等),單復(fù)數(shù)間的映射表示為“Si/pl”(Singular和plural,單數(shù)和復(fù)數(shù)對等)。
1.2 概念映射
概念映射是在術(shù)語等價映射基礎(chǔ)上,進一步實現(xiàn)概念間等級和相關(guān)關(guān)系的映射。相對于術(shù)語映射,它是更深層次的映射,即達到術(shù)語語義對等映射層次后,映射尚未結(jié)束,還可與其他術(shù)語進一步建立等級、相關(guān)等概念映射關(guān)系,實現(xiàn)多映射。比如,一體化醫(yī)學語言系統(tǒng)(Unified Medical Language System,簡稱UMLS)[2]項目中,其超級詞表的建立運用四級結(jié)構(gòu)模式,即通過“元詞-詞串-術(shù)語-概念”四個不同層面,逐層映射來最終達到概念層次的映射,而不滿足于只達到術(shù)語層面的映射。
實施敘詞表概念映射,首先要確定映射類型?!禝SO25964-2——敘詞表和其他敘詞表互操作:與其他詞表的互操作》[3]提出的概念映射包括三種類型:等價映射、等級映射和相關(guān)映射,以及三種映射程度:精確對等、非精確對等和部分映射,三種映射類型下又包含進一步細化的映射類型,如圖1所示。
圖1 ISO25964映射關(guān)系類型
ISO是國際標準,基于利于數(shù)據(jù)交流、共享和重用的考慮,推薦使用此映射類型,以便日后的互操作。標準具有抽象性,而敘詞表具體映射過程中的關(guān)系類型卻要復(fù)雜很多,所以一方面要結(jié)合ISO標準的映射類型,另一方面在使用時要進行適度擴展,以滿足現(xiàn)實映射的需要。筆者以Chaplan和Neville提出的映射類型為例探討如何擴展使用ISO提出的三種映射類型。表1是整合分析情況,映射類型一欄代表ISO標準,帶有圓圈數(shù)字標志的代表Chaplan[4]提出的映射類型,不帶圓圈的數(shù)字代表Neville[5]提出的映射類型。結(jié)果顯示,除Chaplan“無匹配”沒有ISO的對應(yīng)映射類型外,其他類型都是ISO映射類型的擴展。擴展分析過程涉及的歸類定義與說明如下:ISO映射類型分為等價映射、等級映射和相關(guān)映射三大類。
(1)等價映射分為簡單映射和復(fù)合映射,簡單映射根據(jù)映射程度又分為精確映射和非精確映射,“精確映射”包括語法一致和語法不一致兩種情況。語法詞形完全一致,詞義也一致的屬于“精確簡單的等價映射”,詞形不一致,比如單復(fù)數(shù)、連接符等不同,而詞義相同,筆者也將其列為“精確簡單的等價映射”;而組合匹配由于語義上與原有詞不完全對等則歸于“非精確等價匹配”中。需說明的是,表1括號中有“需進一步判定映射類型”的標識,為便于統(tǒng)計分析,這些映射類型暫時列入表1的相應(yīng)位置,但需要進一步進行語義分析,才可以判斷其映射類型,如可能是限定詞、同形異義詞和異形同義詞等情況。
(2)等級映射根據(jù)詞表固有的關(guān)系分為屬種、實例、整體與部分三種,“通用詞匹配”屬于等級映射范疇。
(3)相關(guān)映射主要是概念層次的映射,指在語義上有關(guān)聯(lián)的詞間關(guān)系,其中反義詞匹配歸屬相關(guān)映射。
筆者將ISO映射類型與Chaplan和Neville提出的映射類型進行對比分析,發(fā)現(xiàn)在現(xiàn)實中使用ISO映射類型作為標準,并結(jié)合具體映射情況對ISO進行擴展使用的方案是可行的。ISO標準的使用不僅有利于日后數(shù)據(jù)的重用和共享,通過對標準進行擴展使用,還可更好地滿足現(xiàn)實需要,因此筆者建議在實施映射時,可使用等價、等級和相關(guān)三種映射類型,并根據(jù)需要對其進行擴展。
表1 ISO,Chaplan與Neville映射類型的擴展分析表
3.1 單映射和多映射
在映射方法上,術(shù)語映射一般采用“單映射”,即只允許和目標詞表某個術(shù)語建立一種映射關(guān)系;而概念映射則建立起“多映射”,可和目標詞表多個術(shù)語建立多個映射關(guān)系,以更好地體現(xiàn)概念和概念間的關(guān)系。比如,Earthquakes EM Earthquakes,只建立精確等價映射關(guān)系,屬于單映射;Earthquakes EM Earthquakes,同時Earthquakes BTM Geological hazards,既有精確等價映射,又有上位映射,屬于多映射。(BTM表示上位映射,是Broader Term Mapping的簡稱)。CAT(農(nóng)業(yè)敘詞表)到聯(lián)合國糧農(nóng)組織AGROVOC詞表的映射項目[6]中允許“多對一”和“一對多”的映射,即允許CAT的多個詞映射到AGROVOC上,也允許一個CAT詞映射到多個AGROVOC詞上,實質(zhì)是允許建立“多映射”關(guān)系。
3.2 映射構(gòu)建的影響因素
敘詞表構(gòu)建映射關(guān)系應(yīng)首先考慮應(yīng)用需求。概念映射是多映射,它挖掘概念間的深層映射關(guān)系,可滿足用戶概念檢索需求;而術(shù)語映射只要求建立兩術(shù)語間的對等映射關(guān)系,不能滿足用戶深層次的檢索需求。此外,映射的建立還要考慮檢索系統(tǒng)的效率。將多映射關(guān)系應(yīng)用于檢索系統(tǒng)時,需要系統(tǒng)對多映射關(guān)系進行多層展示和自動轉(zhuǎn)換,這不僅需要系統(tǒng)能對映射關(guān)系進行直觀展示,同時也要保證映射數(shù)據(jù)轉(zhuǎn)換的速度和效率,因此多映射關(guān)系對系統(tǒng)有更高的要求。
3.3 建立多映射類型的方法
3.3.1 參考已有映射關(guān)系類型
(1)在精確等價映射關(guān)系基礎(chǔ)上可考慮建立多映射。為詞形相同或相似的術(shù)語建立精確等價映射關(guān)系,尚不能滿足用戶概念檢索需求,尤其是相同學科或者同一檢索系統(tǒng)兩詞表間的精確等價映射基本不會對檢索結(jié)果有顯著影響,所以需在此基礎(chǔ)上進一步建立等級或者相關(guān)映射等多映射關(guān)系。
(2)等級映射一般建立單映射關(guān)系,即以“最鄰近”為原則,建立最近的上位、下位映射以保證映射數(shù)據(jù)的質(zhì)量。
(3)不宜建立多次相關(guān)映射,因為相關(guān)關(guān)系在語義上不對等,如果建立多次,會造成語義上的失真,影響映射數(shù)據(jù)質(zhì)量。要根據(jù)目標詞表相關(guān)映射詞與源詞表對應(yīng)的映射詞的語義相關(guān)度而定,相關(guān)度大的可建立多映射關(guān)系。兩個詞是否具有相關(guān)關(guān)系以及具有多大相關(guān)度,其確定并無統(tǒng)一標準,為不影響映射數(shù)據(jù)整體質(zhì)量,相關(guān)的映射不宜過多。
3.3.2 根據(jù)詞表本身結(jié)構(gòu)和語義層次關(guān)系
詞表的結(jié)構(gòu)影響映射的構(gòu)建,詞表有多種結(jié)構(gòu)關(guān)系和層次,可根據(jù)映射繼承性原則[7]建立多映射關(guān)系,具體方法見表2。以Life Sciences Thesaurus(Subjects)(生命科學敘詞表)第4版作為源詞表,Aquatic Sciences&Fisheries Abstracts(ASFA)Thesaurus(Subjects)(水科學和漁業(yè)文摘敘詞表)第3版作為目標詞表進行映射實驗,表中NTM表示下位映射(Narrower Term Mapping,簡稱NTM)。
表2 據(jù)詞表結(jié)構(gòu)確定多映射關(guān)系示例
3.3.3 特殊映射關(guān)系的建立方法
除以上兩種映射方法外,筆者在實驗過程還發(fā)現(xiàn)幾種特殊映射關(guān)系的建立方法與規(guī)律,現(xiàn)結(jié)合實驗數(shù)據(jù)進行說明。
(1)精確等價映射基礎(chǔ)上的多映射關(guān)系。精確等價映射主要涉及詞形精確匹配、詞形規(guī)范匹配和同義詞匹配等,是同一概念不同表達術(shù)語間的對等映射關(guān)系。如果還考慮與其他概念建立映射,需要在此精確等價映射基礎(chǔ)上建立多映射關(guān)系。
①詞形精確匹配,是指詞形、詞義完全相同的兩個術(shù)語建立匹配關(guān)系,在此基礎(chǔ)上再構(gòu)建進一步的映射關(guān)系,比如:
Bacterioplankton EM Bacterioplankton (第1層)
Bacterioplankton EM Bacteria+Plankton (第2層)
②詞形規(guī)范匹配,是指語法表現(xiàn)形式不一致而語義一致的兩個術(shù)語建立匹配,在此基礎(chǔ)上構(gòu)建進一步的映射關(guān)系,即在全稱與簡稱、單復(fù)數(shù)、有無連接符術(shù)語、詞綴不同、翻譯、全稱和首字母縮寫等匹配的基礎(chǔ)上建立進一步映射關(guān)系,例如簡寫與全稱等價映射基礎(chǔ)上的進一步映射關(guān)系:
N.M.R.EM Nuclear magnetic resonance (第1層)
N.M.R.BTM Spectroscopy(第2層)
③同義詞匹配,是指詞形不一致,而語義相同或相似的兩術(shù)語間建立匹配,在此基礎(chǔ)上構(gòu)建進一步的映射關(guān)系,比如:
Ranging behavior EM Range action (第1層)
Ranging behavior BTM Behavior(第2層)
Ranging behavior RTM Home range (第3層)
其中,RTM是Related Term Mapping的簡稱,表示相關(guān)映射。
(2)反義詞對基礎(chǔ)上的共同上位概念?!胺戳x詞對”通常是同一事物或者同一現(xiàn)象的兩個相反屬性。用戶在檢索“反義詞對”時往往希望獲取其對應(yīng)上位類——共同現(xiàn)象或事物的信息,所以有必要建立“反義詞對”及其共同上位類映射關(guān)系,比如:
[Abiotic factors RTM(反義)Biotic factors] BTM Environmental factors
Abiotic factors與Biotic factors是Environmental factors的兩個相反屬性,Environmental factors是兩者的共同上位類,故建立上位映射關(guān)系。
(3)詞義不完全組配上的多映射關(guān)系。組配映射分為并列組配和交叉組配,組配既可完全代替源詞表術(shù)語的語義,也可能不能實現(xiàn)語義上的完全對等,這時可在組配映射基礎(chǔ)上建立進一步概念映射關(guān)系,比如:
Bacterial artifical chromosomes BTM(Bacteria+chromosomes)
Bacterial artifical chromosomes(細菌人工染色體)在目標詞表的組配關(guān)系為Bacteria+ chromosomes(細菌染色體),該組配尚不能完全代表源詞表映射詞的語義,源詞表映射詞的實際含義比目標詞表中的映射詞要廣,因此應(yīng)在組配基礎(chǔ)上建立與源詞表映射詞的上位映射關(guān)系。
以上幾種特殊的映射關(guān)系會出現(xiàn)在多數(shù)映射項目中,具有共性和典型性,所以被單獨總結(jié)出來,希望為日后的映射項目提供參考。
第一,需明確敘詞表映射只有達到深層次的概念映射,才能滿足用戶概念檢索需求。通過建立概念間的等價、等級和相關(guān)映射關(guān)系,檢索系統(tǒng)才能基于這種底層的映射數(shù)據(jù)和關(guān)系,自動為用戶提供相應(yīng)檢索詞的等價詞、上下位詞和相關(guān)詞提示,從而實現(xiàn)真正意義上的擴展檢索,進而提高用戶的查全率。
第二,敘詞表映射類型的確定是開展映射工作的前提。各個詞表在詞形、詞義和結(jié)構(gòu)上的差異使兩個詞表間建立完全的精確對等匹配是不可能的,所以要根據(jù)詞表本身的特點以及實際需要來確定建立何種映射類型。ISO提出的等價、等級和相關(guān)映射類型比較抽象,未對現(xiàn)實中的何種映射關(guān)系屬于該三種映射類型做出明確規(guī)定,很難直接在實際映射項目中使用。Chaplan與Neville提出的近30種映射類型,比較全面和具體,但難免會有冗余或者重合定義的情況[8]。據(jù)此,本文通過將兩人提出的映射類型在ISO映射類型中做擴展分析,以尋求最佳映射類型的確定方案。根據(jù)分析結(jié)果,基于映射數(shù)據(jù)共享、重用的考慮,筆者建議使用ISO映射類型,并在此基礎(chǔ)上根據(jù)實際需要對該映射類型進行擴展使用。
第三,敘詞表概念映射方法從實施意義上講是映射確定的過程。筆者根據(jù)敘詞表映射實驗,探討了映射構(gòu)建的影響因素和建立多映射類型的方法。相關(guān)機構(gòu)和人員在建立多映射關(guān)系時,應(yīng)考慮映射數(shù)據(jù)的實際需求與應(yīng)用系統(tǒng)的效率等影響因素。
映射的實施方法,一方面可參考已建立的映射類型實施多映射,另一方面也可根據(jù)詞表本身的結(jié)構(gòu)關(guān)系和語義關(guān)系,推斷并建立多映射關(guān)系。此外,筆者還總結(jié)幾種特殊映射關(guān)系的建立方法,如精確等價基礎(chǔ)上的映射關(guān)系,反義詞對基礎(chǔ)上的共同上位概念和詞義不完全組配上的多映射關(guān)系建立等??傊?,敘詞表概念映射工作相當繁雜,以上只是概念映射的部分實施方案,并沒有涉及映射的整體工作流程。除此之外,概念映射還涉及映射規(guī)則、映射數(shù)據(jù)質(zhì)量檢測和映射數(shù)據(jù)的應(yīng)用等,還需要進行進一步的研究與探討。
[1]ZengM L,Chan LM.Trends and Issues in Establishing Interoperability Among Knowledge Organization Systems[J].Journal of the American Soiety for Information Science and Technology,2004,55(5):377-395.
[2]UMLSreferenceManual[EB/OL].(2009-09-09).[2014 -03-01].http://www.ncbi.nlm.nih.gov/books/NBK 9684.
[3]ISO 25964-2:2011.Information and documentation——Thesauri and interoperability with other vocabularies——Part 2:Interoperability with other vocabularies [S/OL].(2012-10-31).[2014-05-26].http://www. iso.org/iso/catalogue_detail.htm?csnumber=53658.
[4]Chaplan M.A.,Mapping Laborline thesaurus terms to Library of Congress subject headings:Implications for vocabulary switching[J].Library Quarterly,65(1):39-61.
[5]H.H.Neville.Feasibility study of a scheme for reconciling thesauri covering a common subject[J].Journal of Documentation,1970,26(4):313-336.
[6]Liang A C,Sini M,Chang C,et al.The mapping schema from Chinese agricultural thesaurus to agrovoc[C] //Proceedings of the Fifth Conference of the European Federation for Information Technology in Agriculture,F(xiàn)ood and Environment and the Third World Congress on Computers in Agriculture and Natural Resources.Vila Real,Portugal:EFITA/WCCA,2005.
[7]陳辰.敘詞表映射語義判定和自動推理規(guī)則探析[J].圖書情報工作,2014,58(2):126-131.
[8]Mcculloch E,Macgregor G.Analysis of mapping types for terminology services[J].Journal of Information Science,2008,34(1):70-92.
Research on Concept Mapping of Thesaurus
CHEN Chen
Concept mapping of thesaurus can meet users’needs for deep concept retrieval.This article discusses the distinctions between concept mapping and terminology mapping.Based on ISO standard,it proposes the extension use of the three mapping types.Then,it makes a detailed analysis on the methods of concept mapping.
thesaurus mapping;concept mapping;mapping types;mapping methods
格式 陳辰.敘詞表概念映射研究[J].圖書館論壇,2015(1):37-42.
陳辰(1986-),女,碩士,任職于河北金融學院圖書館.
2014-07-14