宋培彥劉稚楠 劉 冰
(1.天津師范大學(xué)管理學(xué)院 天津 300387)
(2.湖北職業(yè)技術(shù)學(xué)院 湖北孝感 432000)
隨著信息技術(shù)快速發(fā)展,為適應(yīng)知識(shí)資源結(jié)構(gòu)不一、領(lǐng)域多元、表示形式多樣等特點(diǎn),知識(shí)組織系統(tǒng)之間也顯現(xiàn)出句法、術(shù)語(yǔ)、概念層面的異構(gòu)性,形成信息孤島現(xiàn)象。為了促進(jìn)知識(shí)集成和共享,通過(guò)映射建立知識(shí)間聯(lián)系、實(shí)現(xiàn)知識(shí)組織系統(tǒng)互操作是可行的方法。以突發(fā)重大公共衛(wèi)生事件為例,通過(guò)映射,可以將分散分布、多源異構(gòu)的公共衛(wèi)生領(lǐng)域知識(shí)建立聯(lián)系,系統(tǒng)化組織并規(guī)范化管理,提高公共衛(wèi)生領(lǐng)域知識(shí)組織的科學(xué)性、規(guī)范性、實(shí)用性,有助于根據(jù)應(yīng)急工作快速、規(guī)范地組織知識(shí),將知識(shí)有序化匯聚和關(guān)聯(lián),最終實(shí)現(xiàn)知識(shí)驅(qū)動(dòng)的應(yīng)急事件科學(xué)決策。
國(guó)內(nèi)外學(xué)者也針對(duì)映射方法開(kāi)展了研究和實(shí)踐,取得了較好的映射效果,但對(duì)映射標(biāo)準(zhǔn)的關(guān)注較少。國(guó)際標(biāo)準(zhǔn)化組織針對(duì)知識(shí)組織系統(tǒng)間的互操作已發(fā)布相關(guān)標(biāo)準(zhǔn),ISO 25964則針對(duì)術(shù)語(yǔ)映射關(guān)系構(gòu)建提出了更為明確的參考建議,有助于規(guī)范術(shù)語(yǔ)映射流程。因此,本文將公共衛(wèi)生領(lǐng)域術(shù)語(yǔ)作為數(shù)據(jù)源,依據(jù)國(guó)際標(biāo)準(zhǔn)ISO 25964,參照中心結(jié)構(gòu)模型,將術(shù)語(yǔ)之間的復(fù)雜語(yǔ)義關(guān)系進(jìn)行繼承和復(fù)用,在國(guó)際規(guī)范框架下探索公共衛(wèi)生領(lǐng)域術(shù)語(yǔ)的映射機(jī)制、建立起知識(shí)組織系統(tǒng)之間的語(yǔ)義映射關(guān)系,實(shí)現(xiàn)公共衛(wèi)生領(lǐng)域知識(shí)有效聯(lián)結(jié)與集成揭示,為知識(shí)組織系統(tǒng)的互操作提供新思路,為公共衛(wèi)生風(fēng)險(xiǎn)研判和決策提供知識(shí)保障。
國(guó)內(nèi)外在公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)映射方面已有不少實(shí)踐,其中代表性的有美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館編制的一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)UMLS(Unified Medical Language System)、醫(yī)學(xué)主題詞表MeSH和SNOMED CT等知識(shí)組織系統(tǒng)。這些項(xiàng)目通過(guò)實(shí)現(xiàn)多個(gè)知識(shí)組織系統(tǒng)之間相互映射、融合等互操作,最終形成大型、全面、具有豐富語(yǔ)義關(guān)系的知識(shí)組織系統(tǒng)。如UMLS是基于概念和語(yǔ)義構(gòu)建其獨(dú)立映射規(guī)則,匯集上百部多種類(lèi)型的知識(shí)組織系統(tǒng),支持不同知識(shí)組織系統(tǒng)之間的互操作。MeSH則通過(guò)語(yǔ)義類(lèi)型與外部語(yǔ)義網(wǎng)絡(luò)高層類(lèi)目建立映射關(guān)聯(lián),共享UMLS語(yǔ)義網(wǎng)的豐富語(yǔ)義關(guān)系。通過(guò)跨語(yǔ)言映射,中文版CMeSH《中文醫(yī)學(xué)主題詞表》在與MeSH映射的基礎(chǔ)上,保留原有編排體系,融合中醫(yī)學(xué)知識(shí),既最大程度與MeSH兼容,也支撐了國(guó)內(nèi)中醫(yī)藥大型數(shù)據(jù)庫(kù)建設(shè)。此外,在UMLS中邏輯護(hù)理術(shù)語(yǔ)(ICNP)映射到SNOMED CT時(shí),通過(guò)模式識(shí)別和術(shù)語(yǔ)自動(dòng)匹配實(shí)現(xiàn)自動(dòng)交叉映射,生成候選映射,并且持續(xù)維護(hù)映射。在UMLS超級(jí)敘詞表和MalaCard疾病術(shù)語(yǔ)的語(yǔ)義映射過(guò)程中,分別使用唯一標(biāo)識(shí)符、Metamap和限制語(yǔ)義類(lèi)型的Metamap三種映射方法,通過(guò)改進(jìn)語(yǔ)義等效性的精確度,保證術(shù)語(yǔ)映射過(guò)程質(zhì)量??梢?jiàn),術(shù)語(yǔ)作為知識(shí)組織系統(tǒng)的基礎(chǔ),在知識(shí)組織系統(tǒng)互操作中扮演重要角色,是保證映射質(zhì)量的關(guān)鍵。
對(duì)于映射方法的研究,學(xué)者從構(gòu)建理論模型、技術(shù)方法、軟件工具等方面為實(shí)現(xiàn)公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)之間的互操作提供多種思路。如王麗偉等從理論模型入手,提出多領(lǐng)域本體映射與聚類(lèi)理論模型,將藥物領(lǐng)域本體RxNorm和NDF-RT(美國(guó)國(guó)家藥物文件—參考術(shù)語(yǔ))中的術(shù)語(yǔ)建立映射,從而實(shí)現(xiàn)藥物信息的分類(lèi)聚合;牟冬梅等通過(guò)構(gòu)建以UMLS為主導(dǎo)的多本體融合模式,實(shí)現(xiàn)醫(yī)學(xué)數(shù)字資源語(yǔ)義互聯(lián),從而促進(jìn)醫(yī)學(xué)信息領(lǐng)域知識(shí)本體的有效共享。部分學(xué)者關(guān)注實(shí)現(xiàn)映射的技術(shù)方法,陳瑞和賈君枝基于眾包模式,采用分類(lèi)法映射,將計(jì)算機(jī)和用戶(hù)智慧相結(jié)合,以確保映射質(zhì)量和效率的提升;孫海霞等則基于詞典的語(yǔ)義相似度方法,根據(jù)CMeSH的語(yǔ)義關(guān)系和詞匯字長(zhǎng)特點(diǎn),實(shí)現(xiàn)文獻(xiàn)自由詞到CMeSH主題詞語(yǔ)義自動(dòng)映射方案。由于人工映射的工作量大、成本高,且質(zhì)量標(biāo)準(zhǔn)難以控制,不適用于信息快速發(fā)展的現(xiàn)狀,自動(dòng)化映射成為重要研究課題。為實(shí)現(xiàn)映射自動(dòng)化,郭思成等利用深度學(xué)習(xí)工具Word2Vec,將實(shí)驗(yàn)對(duì)象詞條轉(zhuǎn)化為向量形式,根據(jù)詞向量相似度結(jié)果與目標(biāo)詞表類(lèi)目進(jìn)行自動(dòng)化匹配篩選,建立《中國(guó)中醫(yī)藥學(xué)主題詞表》TC類(lèi)、《中國(guó)圖書(shū)館分類(lèi)法》R類(lèi)向《中文醫(yī)學(xué)主題詞表》的語(yǔ)義映射。Dos Reis等采取半自動(dòng)化的方式進(jìn)行多生物醫(yī)學(xué)知識(shí)組織系統(tǒng)的映射,考慮已建立的映射關(guān)系、知識(shí)組織系統(tǒng)的變化以及映射過(guò)程可能發(fā)生的變化,構(gòu)建正式啟發(fā)式框架以適應(yīng)映射過(guò)程,并實(shí)現(xiàn)了一定程度的自動(dòng)調(diào)整映射,通過(guò)對(duì)映射結(jié)果準(zhǔn)確率、召回率等指標(biāo)的評(píng)估,證實(shí)該方法的有效性,并有效提高了映射質(zhì)量和映射效率。由以上分析可見(jiàn),學(xué)者從理論、技術(shù)、工具層面提出了知識(shí)組織系統(tǒng)互操作的實(shí)現(xiàn)方式和諸多可能性。知識(shí)組織系統(tǒng)通過(guò)術(shù)語(yǔ)的有序化組織和語(yǔ)義關(guān)系映射,有利于揭示知識(shí)單元內(nèi)容和知識(shí)主題。
綜上,國(guó)內(nèi)外術(shù)語(yǔ)映射相關(guān)研究在生物醫(yī)學(xué)領(lǐng)域已有諸多實(shí)踐,主要從語(yǔ)義和語(yǔ)詞特征入手,借助工具、通過(guò)同義詞計(jì)算實(shí)現(xiàn)映射自動(dòng)化提高映射效率,構(gòu)建理論模型以保證映射質(zhì)量,在各類(lèi)知識(shí)組織系統(tǒng)之間實(shí)現(xiàn)映射,并取得了一定的效果,可以將這些成果進(jìn)行“復(fù)用”,為應(yīng)急管理公共衛(wèi)生領(lǐng)域提供可靠的知識(shí)儲(chǔ)備。同時(shí),由于語(yǔ)義結(jié)構(gòu)復(fù)雜、映射周期較長(zhǎng),很難適應(yīng)公共衛(wèi)生應(yīng)急管理要求快速應(yīng)對(duì)的需求,因此需要尋求一種簡(jiǎn)潔有效、準(zhǔn)確易用的知識(shí)組織映射方式,實(shí)現(xiàn)離散知識(shí)組織系統(tǒng)間的知識(shí)銜接和共享。
為了實(shí)現(xiàn)規(guī)范的映射過(guò)程,本文在國(guó)際通用敘詞表互操作標(biāo)準(zhǔn)ISO 25964的框架下,基于語(yǔ)義層面實(shí)現(xiàn)公共衛(wèi)生領(lǐng)域術(shù)語(yǔ)間的映射,豐富該領(lǐng)域術(shù)語(yǔ)的深度和覆蓋面,為知識(shí)互操作提供新思路,推進(jìn)公共衛(wèi)生領(lǐng)域知識(shí)的共建共享,為公共衛(wèi)生應(yīng)急決策提供決策支持。
ISO 25964是國(guó)際標(biāo)準(zhǔn)化組織發(fā)布的知識(shí)組織系統(tǒng)互操作標(biāo)準(zhǔn),用于指導(dǎo)各類(lèi)知識(shí)組織系統(tǒng)之間的互操作,從概念層面實(shí)現(xiàn)詞表間的語(yǔ)義映射,而非簡(jiǎn)單的語(yǔ)詞形式匹配。通過(guò)公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)之間的互操作,從概念層面連接相關(guān)知識(shí)組織系統(tǒng),從而實(shí)現(xiàn)知識(shí)組織系統(tǒng)構(gòu)建,能有效保障公共衛(wèi)生領(lǐng)域術(shù)語(yǔ)映射過(guò)程的效率、規(guī)范性和映射機(jī)制的國(guó)際性。因此,在ISO 25964框架下對(duì)現(xiàn)有公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)進(jìn)行快速、簡(jiǎn)化映射,有助于厘清該領(lǐng)域知識(shí)的層級(jí)關(guān)系,擴(kuò)大領(lǐng)域知識(shí)的覆蓋面和深度,及時(shí)為應(yīng)急管理工作充分提供可靠的公共衛(wèi)生領(lǐng)域知識(shí)服務(wù)。
ISO 25964將映射模型劃分為三種類(lèi)型:結(jié)構(gòu)統(tǒng)一模型、直接連接模型、中心結(jié)構(gòu)模型。結(jié)構(gòu)統(tǒng)一模型結(jié)構(gòu)簡(jiǎn)單,適用于兩個(gè)具有相同的等級(jí)結(jié)構(gòu)、完全對(duì)稱(chēng)的多語(yǔ)言敘詞表。直接連接模型強(qiáng)調(diào)在范圍、語(yǔ)種、結(jié)構(gòu)等方面具有差異性的兩個(gè)或多個(gè)詞表之間建立直接連接。相對(duì)于以上兩種模型,中心結(jié)構(gòu)模型對(duì)知識(shí)組織系統(tǒng)的概念體積大小和結(jié)構(gòu)一致性沒(méi)有嚴(yán)格要求,通過(guò)指定一個(gè)知識(shí)組織系統(tǒng)為中心,其他知識(shí)組織系統(tǒng)作為衛(wèi)星與其建立映射,以中心知識(shí)組織系統(tǒng)來(lái)搜索用其他衛(wèi)星知識(shí)組織系統(tǒng)標(biāo)引的資源,擴(kuò)展知識(shí)組織系統(tǒng)的覆蓋范圍與深度。
由于公共衛(wèi)生領(lǐng)域術(shù)語(yǔ)所屬的知識(shí)組織系統(tǒng)涉及概念數(shù)量多、覆蓋領(lǐng)域較廣且結(jié)構(gòu)各異,領(lǐng)域知識(shí)不斷更新發(fā)展,為了提高可操作性和繼承性,本文采用中心結(jié)構(gòu)作為映射模型。中心結(jié)構(gòu)模型對(duì)知識(shí)組織系統(tǒng)的結(jié)構(gòu)和體量沒(méi)有嚴(yán)格要求,可以在兩個(gè)不同知識(shí)組織系統(tǒng)中術(shù)語(yǔ)建立間接映射,避免出現(xiàn)差異度極大的術(shù)語(yǔ)映射情況。易于與更多的知識(shí)組織系統(tǒng)映射,可以控制互操作的工作量,降低操作成本和難度,并可在一定程度上提高映射效率。
本文在中心結(jié)構(gòu)模型圖(見(jiàn)圖1)的基礎(chǔ)上,進(jìn)一步擴(kuò)充和優(yōu)化知識(shí)組織系統(tǒng)的映射關(guān)系,設(shè)計(jì)形成優(yōu)化版的映射模型(見(jiàn)圖2)。在圖2中,KOSA和KOS B為衛(wèi)星知識(shí)組織系統(tǒng),KOSC為中心知識(shí)組織系統(tǒng)。根據(jù)該模型,衛(wèi)星知識(shí)組織系統(tǒng)中的每個(gè)概念與中心知識(shí)組織系統(tǒng)中相應(yīng)的概念分別映射,衛(wèi)星知識(shí)組織系統(tǒng)之間不再相互映射。KOSD表示映射完成后融合多種語(yǔ)義關(guān)系的中心知識(shí)組織系統(tǒng)。
圖1 ISO 25964映射模型-中心結(jié)構(gòu)模型(原)
圖2 ISO 25964映射模型-中心結(jié)構(gòu)模型(改進(jìn)后)
在確定映射模型的基礎(chǔ)上,需要明確構(gòu)成映射機(jī)制的映射類(lèi)型。ISO 25964規(guī)定了詞表之間通常有三種主要的映射類(lèi)型:等同映射、等級(jí)映射和相關(guān)映射(見(jiàn)圖3)?;谶@三種映射類(lèi)型,可形成以下幾種映射機(jī)制(見(jiàn)圖4)。
圖3 基于ISO 25964的映射類(lèi)型
圖4 公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)映射方法框架
3.2.1 基于等同關(guān)系的等同映射
在映射過(guò)程中優(yōu)先考慮兩個(gè)術(shù)語(yǔ)的概念是否具有等同關(guān)系,概念等同的術(shù)語(yǔ)之間可以實(shí)現(xiàn)等同映射(EQ)。等同關(guān)系的確定除了兩者之間概念相同,還存在以下幾種情況:術(shù)語(yǔ)完全相同、詞形不同(字符、單復(fù)數(shù)、拼寫(xiě)、后綴等)、語(yǔ)種不同(數(shù)字、量詞)、語(yǔ)序顛倒、互為用代關(guān)系、具有相同代項(xiàng)以及術(shù)語(yǔ)增加多詞界定但內(nèi)涵仍然相同,以上情況均可視為兩者具有等同關(guān)系。
3.2.2 基于等級(jí)關(guān)系的等級(jí)映射
當(dāng)一個(gè)術(shù)語(yǔ)與另一個(gè)術(shù)語(yǔ)被判定為不存在等同關(guān)系,則應(yīng)考慮術(shù)語(yǔ)概念之間是否具有屬種、實(shí)例、整體與部分關(guān)系,若符合,則考慮進(jìn)行等級(jí)映射。等級(jí)映射根據(jù)概念間的等級(jí)關(guān)系分為上位映射(Broader Mapping,BM)和下位映射(Narrower Mapping,NM)兩種。從下位到上位概念的等級(jí)映射表達(dá)為以下格式:“COVID-19 BM Coronavirus”。從上位到下位概念的等級(jí)映射表達(dá)為以下格式:“Coronavirus NM COVID-19”。
3.2.3 基于相關(guān)關(guān)系的相關(guān)映射
當(dāng)概念之間既不存在等同關(guān)系,也不存在等級(jí)關(guān)系,但兩者在語(yǔ)義上有一定程度關(guān)聯(lián),則建立相關(guān)映射,表示兩個(gè)術(shù)語(yǔ)之間具有相關(guān)性。由于語(yǔ)義關(guān)聯(lián)性強(qiáng)弱不一,是否相關(guān)難以判斷,需要根據(jù)實(shí)際應(yīng)用場(chǎng)景判斷兩者相關(guān)性,如通過(guò)結(jié)合語(yǔ)境、充分考慮用戶(hù)興趣和需求、檢索結(jié)果中相關(guān)資源的概念和數(shù)量等區(qū)分相關(guān)性,避免將語(yǔ)義關(guān)聯(lián)性較弱的概念納入映射集合,造成映射結(jié)果冗余,增加檢索的噪音數(shù)據(jù)。
根據(jù)知識(shí)組織系統(tǒng)的結(jié)構(gòu)特性,等同映射、等級(jí)映射和相關(guān)映射三種類(lèi)型具有對(duì)稱(chēng)性和傳遞性,對(duì)稱(chēng)性體現(xiàn)當(dāng)在兩個(gè)概念具有等同關(guān)系時(shí),其映射關(guān)系正反皆成立。傳遞性則是當(dāng)判定兩個(gè)概念具有等同關(guān)系時(shí),通過(guò)推理,其子概念可跟隨父概念傳遞到父概念的等同概念,成為其等同概念的子概念。由于所選知識(shí)組織系統(tǒng)的結(jié)構(gòu)和內(nèi)容上均存在一定的相似性,因此,可利用映射類(lèi)型的對(duì)稱(chēng)性和傳遞性,通過(guò)繼承和推理實(shí)現(xiàn)等級(jí)關(guān)系映射。
本文以不同字母(A、B、C)代表處于不同知識(shí)組織系統(tǒng)的概念,相同字母及其變形(如A-a-a)代表概念處于同一知識(shí)組織系統(tǒng)中,且A、a、a的概念范圍由大到小排列。根據(jù)中心結(jié)構(gòu)模型,以B作為中心知識(shí)組織系統(tǒng)中的概念,A和C作為衛(wèi)星知識(shí)組織系統(tǒng)中的概念分別與B進(jìn)行兩兩映射,單向箭頭連線則表示概念間為上下位關(guān)系,箭頭起始端為父概念,終止端為相應(yīng)的子概念。
(1)如果概念A(yù)與概念B精確匹配而建立等同映射,則概念a、b將自動(dòng)成為概念A(yù)或B的下位概念,不用在A與b、B與a之間人工重復(fù)建立上位匹配,同時(shí),概念b的子概念b和b也自動(dòng)與概念A(yù)構(gòu)成等級(jí)關(guān)系,B與C的映射同理(見(jiàn)圖5)。
圖5 基于繼承推理的等級(jí)映射規(guī)則-1
(2)基于上一繼承規(guī)則,若概念B和概念C建立精確匹配,概念b與概念c建立精確匹配,則概念c自動(dòng)成為概念b的下位概念,概念c成為概念b的下位概念(見(jiàn)圖6)。
圖6 基于繼承推理的等級(jí)映射規(guī)則-2
(3)當(dāng)概念A(yù)、概念B、概念C分別建立精確匹配,概念a和概念b建立下位匹配,概念b和概念c建立精確匹配,則概念a成為概念A(yù)、B、C的下位概念,概念b和概念c成為概念a的下位概念,概念a和概念b原有下位概念a、b成為概念b和概念c的子概念(見(jiàn)圖7)。
圖7 基于繼承推理的等級(jí)映射規(guī)則-3
本文映射機(jī)制的實(shí)現(xiàn)主要按照以下三個(gè)步驟進(jìn)行(見(jiàn)圖4)(1)構(gòu)建公共衛(wèi)生領(lǐng)域語(yǔ)料庫(kù);(2)結(jié)合語(yǔ)義和文本進(jìn)行術(shù)語(yǔ)同義計(jì)算;(3)實(shí)施術(shù)語(yǔ)語(yǔ)義映射。
(1)構(gòu)建公共衛(wèi)生領(lǐng)域語(yǔ)料庫(kù)。實(shí)現(xiàn)現(xiàn)有公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)術(shù)語(yǔ)映射的關(guān)鍵在于復(fù)用該領(lǐng)域現(xiàn)有知識(shí)組織系統(tǒng)。因此,本文以公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)的術(shù)語(yǔ)作為數(shù)據(jù)源。此外,為方便后續(xù)相似度計(jì)算,擬獲取大量公共衛(wèi)生領(lǐng)域的敘詞表、分類(lèi)表等作為文本支撐,對(duì)數(shù)據(jù)進(jìn)行清洗后形成公共衛(wèi)生領(lǐng)域語(yǔ)料庫(kù)。
(2)結(jié)合語(yǔ)義和文本開(kāi)展術(shù)語(yǔ)相似度計(jì)算。在術(shù)語(yǔ)概念體系中,詞間關(guān)系在術(shù)語(yǔ)知識(shí)體系構(gòu)建中具有基礎(chǔ)性作用。本文調(diào)用第一階段構(gòu)建的語(yǔ)料庫(kù),根據(jù)術(shù)語(yǔ)間的等同關(guān)系、上下位關(guān)系、相關(guān)關(guān)系、范疇和釋義等,對(duì)詞語(yǔ)相似度進(jìn)行語(yǔ)義計(jì)算。結(jié)合編輯距離算法(Levenshtein Distance)計(jì)算術(shù)語(yǔ)之間的文本相似度,當(dāng)文本相似度大于閾值時(shí)則判定兩者為同義詞關(guān)系?;谡Z(yǔ)義計(jì)算和文本相似度計(jì)算的結(jié)果,提高語(yǔ)義計(jì)算相似度的覆蓋率和詞間關(guān)系的深度。在文本分類(lèi)、聚類(lèi)的過(guò)程中,優(yōu)化分類(lèi)、聚類(lèi)效果,為實(shí)現(xiàn)“按類(lèi)映射”提供條件,提高映射效率和術(shù)語(yǔ)服務(wù)效果。
(3)實(shí)施術(shù)語(yǔ)語(yǔ)義映射。以國(guó)際標(biāo)準(zhǔn)ISO 25964作為基礎(chǔ)框架,研究術(shù)語(yǔ)的映射方法?;谏弦浑A段的同義詞計(jì)算結(jié)果,采用人機(jī)結(jié)合方式進(jìn)行術(shù)語(yǔ)映射,實(shí)現(xiàn)知識(shí)組織系統(tǒng)間映射流程的規(guī)范化管理,以提高映射質(zhì)量。針對(duì)公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)開(kāi)展映射,在明確知識(shí)組織系統(tǒng)知識(shí)表示框架的基礎(chǔ)上,根據(jù)ISO 25964中的中心結(jié)構(gòu)模型確定中心知識(shí)組織系統(tǒng)和衛(wèi)星知識(shí)組織系統(tǒng),按照等同映射、等級(jí)映射、相關(guān)映射三種映射類(lèi)型,通過(guò)繼承推理的方式實(shí)現(xiàn)術(shù)語(yǔ)語(yǔ)義分類(lèi)映射,實(shí)現(xiàn)有效語(yǔ)義匹配,實(shí)現(xiàn)術(shù)語(yǔ)語(yǔ)義層面的互操作。
傳染病是引發(fā)突發(fā)公共衛(wèi)生事件的重要因素之一,為了構(gòu)建傳染病領(lǐng)域知識(shí)之間的映射關(guān)系,為類(lèi)似公共衛(wèi)生事件的應(yīng)對(duì)提供權(quán)威的知識(shí)來(lái)源和知識(shí)框架,本文選取三個(gè)傳染病領(lǐng)域知識(shí)組織系統(tǒng)中的術(shù)語(yǔ)集作為實(shí)驗(yàn)數(shù)據(jù)源,包括冠狀病毒傳染病本體(Ontology of Coronavirus Infectious Disease,CIDO)、基因流行病學(xué)本體(Genomic Epidemiology Ontology,GenEpio)以及傳染病本體(Infectious Disease Ontology,IDO)(見(jiàn)表1)。這些知識(shí)組織系統(tǒng)均遵循開(kāi)放生物醫(yī)學(xué)本體庫(kù)(OBO Foundry)指南,本體的權(quán)威性與準(zhǔn)確性有所保障。
表1 公共衛(wèi)生領(lǐng)域?qū)嶒?yàn)數(shù)據(jù)概況
從內(nèi)容層面分析,3個(gè)知識(shí)組織系統(tǒng)均引用來(lái)源于基本形式本體(Basic Formal Ontology,BFO)、基因本體(Gene Ontology,GO)、關(guān)系本體(Relation Ontology,RO)等知識(shí)組織系統(tǒng)的數(shù)據(jù),存在一定交叉,但其內(nèi)容各自有所側(cè)重。其中,IDO涵蓋傳染病種類(lèi)最多,覆蓋大部分傳染病領(lǐng)域的術(shù)語(yǔ),并針對(duì)特定的病原體進(jìn)行擴(kuò)展。CIDO側(cè)重于冠狀病毒傳染病知識(shí),從病因、傳播機(jī)制、發(fā)病機(jī)理、診斷、預(yù)防和治療等方面進(jìn)行描述。GenEpio則涵蓋識(shí)別、記錄和研究食源性病原體和相關(guān)疫情所需的詞匯。對(duì)IDO、CIDO、GenEpio進(jìn)行映射,可以豐富傳染病的種類(lèi)、細(xì)化冠狀病毒的病理知識(shí),從識(shí)別、診斷、治療和預(yù)防階段為疫情防控提供知識(shí)基礎(chǔ)。
根據(jù)本體的語(yǔ)義范疇,CIDO、IDO、GenEpio本體中均存在“Process”概念分支,且該概念分支為本體的主要部分,能代表本體各自的內(nèi)容特征,因此,分別節(jié)選三個(gè)本體“Process”概念分支下的概念作為樣本術(shù)語(yǔ),節(jié)選部分的現(xiàn)有存在語(yǔ)義關(guān)系的類(lèi)目數(shù)量(見(jiàn)表2)。CIDO在所選的知識(shí)組織系統(tǒng)的規(guī)模最大,概念結(jié)構(gòu)完整,適合為中心知識(shí)組織系統(tǒng),GenEpio和IDO為衛(wèi)星知識(shí)組織系統(tǒng)分別向CIDO建立映射。
表2 公共衛(wèi)生領(lǐng)域術(shù)語(yǔ)實(shí)驗(yàn)數(shù)據(jù)源
基于以上三種等級(jí)映射規(guī)則,選取了3名具有一定醫(yī)學(xué)知識(shí)背景的實(shí)驗(yàn)人員,在熟悉所規(guī)定的映射規(guī)則的基礎(chǔ)上,分為3組對(duì)實(shí)驗(yàn)數(shù)據(jù)之間的等級(jí)關(guān)系進(jìn)行映射實(shí)驗(yàn)。由于本文研究的重點(diǎn)是建立符合國(guó)際標(biāo)準(zhǔn)的知識(shí)組織系統(tǒng)映射機(jī)制,術(shù)語(yǔ)相似度計(jì)算等技術(shù)僅作為輔助技術(shù)、提高效率。為了保證映射的準(zhǔn)確性和專(zhuān)業(yè)性,采取了專(zhuān)業(yè)人員人工判斷的方式實(shí)現(xiàn)“術(shù)語(yǔ)相似度計(jì)算”,并給出了可能的計(jì)算方法。后續(xù)可以使用術(shù)語(yǔ)相似度計(jì)算的相關(guān)工具,以適應(yīng)大規(guī)模工程化的需要。
映射實(shí)驗(yàn)主要以Excel為操作平臺(tái),實(shí)驗(yàn)人員憑借其專(zhuān)業(yè)背景,并以醫(yī)學(xué)類(lèi)百科詞典、術(shù)語(yǔ)詞典、Wiki百科等作為語(yǔ)料庫(kù),對(duì)術(shù)語(yǔ)概念和語(yǔ)義關(guān)系進(jìn)行理解分析,按照等同關(guān)系—等級(jí)關(guān)系—相關(guān)關(guān)系的順序判定術(shù)語(yǔ)之間的語(yǔ)義關(guān)系。根據(jù)給定的三種映射規(guī)則,將其子概念按照映射規(guī)則繼承,與映射對(duì)象判定為等級(jí)關(guān)系。由于等同和等級(jí)關(guān)系是一種強(qiáng)相關(guān)關(guān)系,在一定程度上已經(jīng)涵蓋了相關(guān)關(guān)系的映射,加之相關(guān)關(guān)系語(yǔ)義關(guān)聯(lián)性較弱,一般不作為映射的重點(diǎn),因此,相關(guān)關(guān)系可以沿用上述映射方法,并通過(guò)語(yǔ)義相似性計(jì)算、共現(xiàn)計(jì)算等方法予以處理。
從統(tǒng)計(jì)學(xué)意義上看,映射后語(yǔ)義關(guān)系的增量和增幅可以反映語(yǔ)義關(guān)系的緊密程度,從而反映映射結(jié)果的評(píng)價(jià)指標(biāo)。映射的增量是指實(shí)驗(yàn)后具有語(yǔ)義關(guān)系的概念比實(shí)驗(yàn)前具有語(yǔ)義關(guān)系的概念增加的數(shù)量。為了避免實(shí)驗(yàn)結(jié)果主觀化,將三組得到的實(shí)驗(yàn)數(shù)據(jù)取平均值,確定為等級(jí)關(guān)系增量的最終數(shù)據(jù)。增幅則是實(shí)驗(yàn)后三組增量數(shù)據(jù)的平均值與實(shí)驗(yàn)前已具有語(yǔ)義關(guān)系的概念數(shù)量的百分比。通過(guò)這兩個(gè)評(píng)價(jià)指標(biāo),可以將實(shí)驗(yàn)結(jié)果量化,更清晰得呈現(xiàn)經(jīng)實(shí)驗(yàn)運(yùn)算后概念之間語(yǔ)義關(guān)系的覆蓋范圍的擴(kuò)大程度以及關(guān)聯(lián)性增強(qiáng)程度的實(shí)驗(yàn)效果。
經(jīng)過(guò)推理繼承,對(duì)三個(gè)知識(shí)組織系統(tǒng)中的術(shù)語(yǔ)語(yǔ)義關(guān)系進(jìn)行映射,原知識(shí)組織系統(tǒng)中等級(jí)關(guān)系“SubClassOf”,現(xiàn)細(xì)化為上位匹配和下位匹配兩種映射關(guān)系(實(shí)驗(yàn)結(jié)果見(jiàn)表3)。
表3 基于推理繼承映射結(jié)果數(shù)據(jù)
其中,上位關(guān)系平均新增14條,下位關(guān)系平均新增58條,共72條,較映射前其等級(jí)關(guān)系增幅達(dá)到13.43%,映射結(jié)果比較理想。由于本實(shí)驗(yàn)節(jié)選的術(shù)語(yǔ)為同一概念分支,其結(jié)構(gòu)和概念較為相似,且由于繼承推理,會(huì)引入更多的下位概念,因此新增等級(jí)關(guān)系的術(shù)語(yǔ)較多,較映射前增幅較大。本實(shí)驗(yàn)為抽樣實(shí)驗(yàn),在其他領(lǐng)域也具有一定的通用性和泛化能力,因而是有效的。
通過(guò)推理繼承的映射結(jié)果分析可知,以ISO 25964為映射標(biāo)準(zhǔn),細(xì)化了原有知識(shí)組織系統(tǒng)中對(duì)等級(jí)關(guān)系劃分不明確的問(wèn)題,將等級(jí)關(guān)系以準(zhǔn)確明了的方式體現(xiàn),既保證了映射結(jié)果的準(zhǔn)確率,也在一定程度上豐富了概念之間的語(yǔ)義關(guān)聯(lián)性,深化知識(shí)組織系統(tǒng)的概念關(guān)聯(lián)度和知識(shí)覆蓋面。
選擇公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)作為概念來(lái)源,以國(guó)際互操作標(biāo)準(zhǔn)ISO 25964為映射標(biāo)準(zhǔn),使用中心結(jié)構(gòu)模型制定映射規(guī)則開(kāi)展術(shù)語(yǔ)語(yǔ)義映射實(shí)驗(yàn),從增量和增幅兩個(gè)指標(biāo)評(píng)價(jià)映射結(jié)果。實(shí)驗(yàn)結(jié)果表明,映射增幅達(dá)到13.43%,證明該方法切實(shí)可行。其優(yōu)點(diǎn)在于,利用ISO 25964結(jié)構(gòu)簡(jiǎn)單、規(guī)范的特點(diǎn),保證了語(yǔ)義映射機(jī)制和映射過(guò)程的規(guī)范性,提高了多知識(shí)組織系統(tǒng)集成的映射效率,達(dá)到了提高概念間的語(yǔ)義關(guān)聯(lián)的廣度和深度的效果。對(duì)于應(yīng)急工作而言,通過(guò)映射能夠快速?gòu)?fù)用和重組現(xiàn)有公共衛(wèi)生知識(shí)成果,有利于快速、準(zhǔn)確提供豐富的知識(shí)來(lái)源,提高應(yīng)急決策和反應(yīng)效率。
今后,將進(jìn)一步引入同義詞計(jì)算技術(shù),并與人工映射相結(jié)合,從概念層面發(fā)現(xiàn)術(shù)語(yǔ)之間的語(yǔ)義關(guān)系,提高映射的精度和準(zhǔn)確度,不斷完善公共衛(wèi)生領(lǐng)域知識(shí)組織系統(tǒng)的概念體系和快速響應(yīng)能力,繼續(xù)做好深入的研究工作。