陳 瑞,曾建勛
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
敘詞表作為一類(lèi)重要的知識(shí)組織工具,在文獻(xiàn)信息檢索方面發(fā)揮著重要作用。國(guó)內(nèi)外根據(jù)情報(bào)檢索需求和應(yīng)用陸續(xù)編制了大量的敘詞表,為用戶(hù)高效地獲取信息資源提供了便利,但是這些敘詞表資源很多未及時(shí)開(kāi)發(fā)維護(hù)被束之高閣,只有很少的敘詞表相對(duì)活躍,整體應(yīng)用情況不很理想。當(dāng)下學(xué)科發(fā)展日新月異,知識(shí)更新迅速,科學(xué)研究的關(guān)聯(lián)度、交叉度進(jìn)一步加深,對(duì)于文獻(xiàn)情報(bào)服務(wù),靜態(tài)的單個(gè)敘詞表資源很難滿(mǎn)足涉及多學(xué)科、多主題的網(wǎng)絡(luò)信息環(huán)境應(yīng)用需求??萍夹g(shù)語(yǔ)資源的規(guī)范化和集成化對(duì)于網(wǎng)絡(luò)信息資源的組織與利用十分重要[1],敘詞表資源的集成與應(yīng)用有助于帶動(dòng)現(xiàn)有資源的更新維護(hù),優(yōu)化知識(shí)組織體系,促進(jìn)敘詞表資源規(guī)模化應(yīng)用[2]。本文借鑒國(guó)內(nèi)外詞表集成理論和實(shí)踐,構(gòu)建面向不同領(lǐng)域、多元學(xué)科交叉融合的敘詞表集成化體系,旨在利用集成方式推動(dòng)不同術(shù)語(yǔ)資源的規(guī)范化、形式化描述,不斷擴(kuò)充、更新語(yǔ)義知識(shí)庫(kù),拓展敘詞表應(yīng)用范圍和應(yīng)用模式,推動(dòng)敘詞表資源的可持續(xù)發(fā)展。
1959 年,美國(guó)編制第一部敘詞表,之后迅速發(fā)展。國(guó)際上敘詞表已超過(guò)2000 部,并廣泛應(yīng)用于各個(gè)領(lǐng)域,一些主流詞表,如MeSH(Medical Subject Headings)建立了持續(xù)的更新機(jī)制[3]。1971 年出版的《航空科技資料主題表》是我國(guó)編制的第一部敘詞表,1980 年我國(guó)第一部大型綜合詞表《漢語(yǔ)主題詞表》正式出版,此后各專(zhuān)業(yè)情報(bào)機(jī)構(gòu)紛紛根據(jù)需要編制一系列專(zhuān)業(yè)敘詞表,逐步確立了我國(guó)敘詞表編制的方法和標(biāo)準(zhǔn)[4]。以往敘詞表的編制主要是以人工為主,耗費(fèi)了大量人力和時(shí)間,且更新修訂困難,已有的150 多部中文敘詞表中,僅有39%的詞表有過(guò)修訂,且修訂時(shí)間的間隔平均為10 年,修訂時(shí)間落后于相應(yīng)科技的發(fā)展,而僅有9%的詞表比較活躍[5]。敘詞表的生命在于不斷地使用、維護(hù)與更新,眾多敘詞表的存在狀態(tài)及應(yīng)用情況不佳,越得不到應(yīng)用就會(huì)越缺乏修訂維護(hù),導(dǎo)致概念過(guò)時(shí)、概念間關(guān)系簡(jiǎn)單,久而久之不被使用。
敘詞表傳統(tǒng)的應(yīng)用環(huán)境主要是圖書(shū)情報(bào)領(lǐng)域,未拓展到社會(huì)更加廣闊的知識(shí)利用環(huán)境中[6],主要原因表現(xiàn)在以下方面:①傳統(tǒng)的敘詞表資源面向?qū)I(yè)的標(biāo)引人員,對(duì)于一般用戶(hù)熟練使用有較高的要求;②眾多敘詞表資源分散在不同機(jī)構(gòu),并且缺少面向網(wǎng)絡(luò)的信息服務(wù)系統(tǒng),未開(kāi)放對(duì)外應(yīng)用接口,一般用戶(hù)沒(méi)有了解敘詞表資源的機(jī)會(huì)以及獲取敘詞表資源的渠道;③傳統(tǒng)敘詞表主要由人工構(gòu)建,知識(shí)結(jié)構(gòu)簡(jiǎn)單,難以被計(jì)算機(jī)直接自動(dòng)利用,嚴(yán)重制約網(wǎng)絡(luò)環(huán)境下敘詞表的應(yīng)用;④敘詞表資源未能與具體應(yīng)用需求和應(yīng)用環(huán)境相結(jié)合[7],缺乏在敘詞表資源基礎(chǔ)上的二次開(kāi)發(fā),很難直接應(yīng)用到具體實(shí)踐中。
總體來(lái)說(shuō),當(dāng)前的眾多敘詞表資源落后于相應(yīng)的科學(xué)研究,缺少應(yīng)用,缺乏修訂維護(hù),這與日新月異的學(xué)科發(fā)展和知識(shí)更新現(xiàn)狀不匹配。同時(shí),各領(lǐng)域、各學(xué)科的詞表資源分散在不同數(shù)據(jù)庫(kù)或不同的機(jī)構(gòu),各表之間缺乏互操作機(jī)制,缺乏統(tǒng)一的、規(guī)范化的資源描述,難以發(fā)揮整體協(xié)同作用,不具備大數(shù)據(jù)環(huán)境下計(jì)算機(jī)大規(guī)模資源處理的應(yīng)用條件。隨著數(shù)字出版產(chǎn)業(yè)不斷發(fā)展,大數(shù)據(jù)、云計(jì)算、人工智能技術(shù)在各領(lǐng)域的應(yīng)用都離不開(kāi)基礎(chǔ)資源的組織和處理,敘詞表資源作為底層規(guī)范化的語(yǔ)義工具,應(yīng)超越傳統(tǒng)的標(biāo)引檢索,融入整個(gè)文本信息處理和知識(shí)組織過(guò)程之中[8],廣泛應(yīng)用于搜索引擎、數(shù)字出版、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等各領(lǐng)域。敘詞表資源需要不斷完善內(nèi)在結(jié)構(gòu)和外在功能,逐漸由數(shù)字化向規(guī)模大型化、概念語(yǔ)義化、編制智能化和服務(wù)及應(yīng)用多樣化的方向發(fā)展[9],發(fā)揮其更加廣泛的作用。
國(guó)外許多機(jī)構(gòu)進(jìn)行了詞表集成實(shí)踐,具有代表性的集成項(xiàng)目有:英國(guó)高層敘詞表項(xiàng)目HILT(High-Level Thesaurus),采用映射方式集成67 部國(guó)際重要的敘詞表和分類(lèi)表進(jìn)行網(wǎng)絡(luò)信息服務(wù)[10];德國(guó) KoMoHe (Kompetenzzentrum Modellbildung und Heterogenittsbehandlung)項(xiàng)目,對(duì)11 個(gè)學(xué)科的25 種受控詞表進(jìn)行集成,實(shí)現(xiàn)了多個(gè)信息系統(tǒng)之間的分布式檢索[11];美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館組織建設(shè)UMLS(Unified Medical Language System)項(xiàng)目,通過(guò)概念融合方式整合了上百部生物醫(yī)學(xué)領(lǐng)域的術(shù)語(yǔ)資源,定義了54 種語(yǔ)義關(guān)系[12-13],構(gòu)建了大型知識(shí)組織工具,并已將其應(yīng)用到生物醫(yī)學(xué)專(zhuān)業(yè)數(shù)據(jù)庫(kù)的自動(dòng)標(biāo)引、智能化檢索、專(zhuān)業(yè)詞表的編制以及相關(guān)領(lǐng)域的語(yǔ)義關(guān)聯(lián)和知識(shí)發(fā)現(xiàn)中。國(guó)內(nèi)參照UMLS 的體系框架和構(gòu)建流程開(kāi)展了一系列集成項(xiàng)目,包括CUMLS (Chinese Unified Medical Language System)中文一體化語(yǔ)言系統(tǒng)、TCMLS(Traditional Chinese Medicine Language System) 中醫(yī)藥一體化語(yǔ)言系統(tǒng) 、 STKOS (Science Technology Knowledge Organi‐zation System) 英文超級(jí)科技詞表等[14-15]。這些項(xiàng)目通過(guò)集成方式,整合多部敘詞表資源及其他術(shù)語(yǔ)資源,定義多種語(yǔ)義關(guān)系并開(kāi)發(fā)面向具體應(yīng)用的服務(wù)系統(tǒng),推動(dòng)敘詞表資源的應(yīng)用。
敘詞表的集成創(chuàng)建具有重要意義,主要體現(xiàn)在以下三個(gè)方面。
(1)敘詞表的集成有助于盤(pán)活各種“閑置”的術(shù)語(yǔ)資源,通過(guò)集成方式進(jìn)行各領(lǐng)域概念及概念關(guān)系的增、刪、改,帶動(dòng)敘詞表資源的更新和維護(hù),進(jìn)而帶動(dòng)各敘詞表的發(fā)展??梢岳米詣?dòng)化技術(shù)集成新概念、新術(shù)語(yǔ),及時(shí)反映學(xué)科知識(shí)的動(dòng)態(tài)變化。傳統(tǒng)的知識(shí)組織結(jié)構(gòu)對(duì)于等級(jí)、相關(guān)關(guān)系的描述過(guò)于寬泛和模糊,而利用集成方式融合當(dāng)下語(yǔ)義網(wǎng)、本體資源的新型語(yǔ)義描述方式,對(duì)現(xiàn)有的術(shù)語(yǔ)資源進(jìn)行深層次的語(yǔ)義關(guān)系細(xì)化,則有助于機(jī)器使用敘詞表資源進(jìn)行知識(shí)推理。
(2)各領(lǐng)域的敘詞表資源進(jìn)行集成,有助于擴(kuò)展資源主題范圍,整合多來(lái)源、多語(yǔ)種、多學(xué)科、多類(lèi)型的術(shù)語(yǔ)資源,實(shí)現(xiàn)更大范圍主題概念的覆蓋和語(yǔ)義關(guān)聯(lián),體現(xiàn)大型詞表的學(xué)科集成優(yōu)勢(shì)。單獨(dú)使用某一領(lǐng)域的敘詞表難以較好地組織和揭示網(wǎng)絡(luò)信息資源,利用集成方式對(duì)各領(lǐng)域的敘詞表、分類(lèi)表、名錄、詞典、本體等不同類(lèi)型的知識(shí)體系整合,可以擴(kuò)充敘詞表的概念資源,同時(shí),協(xié)同使用多種知識(shí)組織體系促進(jìn)對(duì)信息資源的關(guān)聯(lián)和共享。
(3)通過(guò)集成方法建設(shè)規(guī)?;男g(shù)語(yǔ)資源、結(jié)構(gòu)化的概念描述、豐富的語(yǔ)義關(guān)系、不同層次的語(yǔ)義資源和服務(wù),將術(shù)語(yǔ)資源、語(yǔ)義工具和應(yīng)用模式融為一體,有助于數(shù)據(jù)大規(guī)模應(yīng)用取得成效。集成化的詞表資源和服務(wù)體系可以為自然語(yǔ)言的處理提供大規(guī)?;A(chǔ)資源,為信息加工提供自動(dòng)切詞、自動(dòng)標(biāo)引、自動(dòng)分類(lèi)、信息抽取等功能,為知識(shí)挖掘和知識(shí)發(fā)現(xiàn)提供概念實(shí)體識(shí)別、語(yǔ)義識(shí)別、自動(dòng)分類(lèi)、智能推理等語(yǔ)義信息,起到術(shù)語(yǔ)規(guī)范和知識(shí)關(guān)聯(lián)等作用。
圍繞規(guī)范化概念和語(yǔ)義關(guān)系表達(dá),敘詞表的集成化試圖將各主題領(lǐng)域的敘詞表資源及各類(lèi)術(shù)語(yǔ)資源進(jìn)行歸并融合,構(gòu)建一個(gè)語(yǔ)義關(guān)系豐富、明確的新型集成化詞表,并創(chuàng)新集成資源的應(yīng)用和服務(wù)模式。敘詞表的集成化體系建設(shè)是一項(xiàng)系統(tǒng)工程,涉及不同語(yǔ)種、不同結(jié)構(gòu)、不同領(lǐng)域術(shù)語(yǔ)資源的互操作及應(yīng)用,需要從集成的標(biāo)準(zhǔn)、方法、過(guò)程、系統(tǒng)、應(yīng)用出發(fā),構(gòu)建完備的集成化體系框架(如圖1 所示),標(biāo)準(zhǔn)規(guī)范體系對(duì)整個(gè)集成過(guò)程進(jìn)行規(guī)范控制,是集成化過(guò)程的基礎(chǔ);詞表集成化支撐體系輔助集成化過(guò)程的網(wǎng)絡(luò)化和自動(dòng)化,是集成化過(guò)程的工具;詞表集成化概念體系明確集成后的詞表結(jié)構(gòu),是集成化的目標(biāo);自下而上的集成化過(guò)程包括多來(lái)源術(shù)語(yǔ)集成和語(yǔ)義組織與集成,生成集成化詞表;在此基礎(chǔ)上,提供面向用戶(hù)、面向機(jī)器的系統(tǒng)服務(wù)與應(yīng)用,全面深化和拓展敘詞表資源的服務(wù)功能和應(yīng)用機(jī)制。
圖1 集成化體系框架
1)數(shù)據(jù)加工規(guī)范
在整個(gè)集成操作過(guò)程中,從數(shù)據(jù)資源的采集、存儲(chǔ)、篩選、描述到語(yǔ)義集成,都需要制定相應(yīng)的操作規(guī)范和規(guī)則,以保證集成資源從形式到內(nèi)容的加工質(zhì)量。數(shù)據(jù)加工規(guī)范需要調(diào)研多來(lái)源術(shù)語(yǔ)資源的結(jié)構(gòu)特征,明確詞匯資源采集的原則、數(shù)據(jù)表達(dá)規(guī)范、數(shù)據(jù)存儲(chǔ)格式,制定映射規(guī)則、關(guān)系校驗(yàn)規(guī)則等,為整個(gè)集成操作的數(shù)據(jù)加工提供相應(yīng)的標(biāo)準(zhǔn)與規(guī)范。
2)元數(shù)據(jù)統(tǒng)一描述
不同來(lái)源的術(shù)語(yǔ)資源,在總體結(jié)構(gòu)、概念范圍、語(yǔ)義表示、存儲(chǔ)格式等方面均有差異,元數(shù)據(jù)描述各有區(qū)別。結(jié)構(gòu)和描述的差異性為敘詞表的集成服務(wù)帶來(lái)障礙,因此,有必要設(shè)計(jì)統(tǒng)一的元數(shù)據(jù)框架,用統(tǒng)一的標(biāo)記語(yǔ)言進(jìn)行形式化描述。依據(jù)元數(shù)據(jù)設(shè)計(jì)標(biāo)準(zhǔn),充分考慮元數(shù)據(jù)的準(zhǔn)確性、全面性和擴(kuò)展性,借鑒重用比較成熟和大眾認(rèn)可的概念構(gòu)詞描述形式,提煉出具體可行的元數(shù)據(jù)方案,以便保證多來(lái)源概念的統(tǒng)一管理。這些元數(shù)據(jù)標(biāo)準(zhǔn)和描述規(guī)范,一方面可以為不同知識(shí)組織系統(tǒng)之間集成融合提供支撐,另一方面可以為后續(xù)的服務(wù)應(yīng)用奠定基礎(chǔ),實(shí)現(xiàn)集成資源的網(wǎng)絡(luò)共建共享。
構(gòu)建敘詞表統(tǒng)一規(guī)范的元數(shù)據(jù)框架,既需要客觀、真實(shí)地描述詞匯的來(lái)源信息和描述信息,又要充分地揭示詞匯與概念、概念與概念間的關(guān)系。元數(shù)據(jù)描述是分層的,主要分為來(lái)源描述元數(shù)據(jù)、宏觀結(jié)構(gòu)元數(shù)據(jù)、詞匯概念元數(shù)據(jù)、語(yǔ)義關(guān)系元數(shù)據(jù)以及映射關(guān)系元數(shù)據(jù),具體的層次框架如表1 所示。敘詞表以概念為核心,概念通過(guò)詞匯表達(dá),對(duì)每一個(gè)來(lái)源表、詞匯及概念分配唯一的ID,便于查找和識(shí)別。來(lái)源描述元數(shù)據(jù)對(duì)來(lái)源概念、來(lái)源表(即原始詞表)進(jìn)行基本描述,提供來(lái)源表各項(xiàng)信息。宏觀結(jié)構(gòu)元數(shù)據(jù)包括主表與附表、主表與學(xué)科分類(lèi)表間的關(guān)聯(lián)關(guān)系描述。詞匯概念元數(shù)據(jù)及語(yǔ)義關(guān)系元數(shù)據(jù)是描述的核心,詞形層面描述詞匯的名稱(chēng)、拼音、英文或拉丁文、縮略語(yǔ)等非語(yǔ)義信息,詞義層面描述概念的定義、分類(lèi)、概念間的關(guān)系;當(dāng)前概念之間的關(guān)系主要包含等同關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系,需按學(xué)科特征和語(yǔ)義類(lèi)型進(jìn)行拓展。集成化過(guò)程需要建立原始詞表與集成概念間映射關(guān)系、集成概念與附表術(shù)語(yǔ)間映射關(guān)系;除等同、上下位、相關(guān)映射類(lèi)型外,可根據(jù)具體語(yǔ)義關(guān)系進(jìn)行映射類(lèi)型的細(xì)分。按照元數(shù)據(jù)框架選擇合適的形式化描述語(yǔ)言進(jìn)行集成數(shù)據(jù)的描述與存儲(chǔ)。當(dāng)下語(yǔ)義Web 技術(shù)的發(fā)展為詞表形式化描述提供了堅(jiān)實(shí)基礎(chǔ),單純使用一種描述機(jī)制容易丟失部分語(yǔ)義信息,可以采用SKOS (Simple Knowledge Organiza‐tion System)語(yǔ)義描述框架[16]、RDF Schema 描述機(jī)制[17]、DC(Dublin Core)元數(shù)據(jù)等多種描述方式,互相擴(kuò)展補(bǔ)充進(jìn)行敘詞表宏觀結(jié)構(gòu)和微觀詞匯概念的形式化表示[18]。
表1 元數(shù)據(jù)層次框架
3)敘詞表編制、互操作標(biāo)準(zhǔn)
敘詞表資源的集成需要遵循敘詞表編制標(biāo)準(zhǔn),依據(jù)敘詞表質(zhì)量標(biāo)準(zhǔn)規(guī)范體系和詞表間互操作標(biāo)準(zhǔn)確定集成化詞表的概念體系結(jié)構(gòu),滿(mǎn)足敘詞表現(xiàn)行的一系列國(guó)際標(biāo)準(zhǔn)《信息與文獻(xiàn)——敘詞表及與其他詞表的互操作》(Information and documentation—Thesauri and interoperability with other vocabularies;ISO 25964)和國(guó)家標(biāo)準(zhǔn)《信息與文獻(xiàn)敘詞表及與其他詞表的互操作》(GB/T 13190),以及語(yǔ)義關(guān)系細(xì)化的本體化知識(shí)描述機(jī)制。具體到學(xué)科領(lǐng)域,術(shù)語(yǔ)表達(dá)方式存在差異,需要在遵循統(tǒng)一標(biāo)準(zhǔn)的前提下,按照學(xué)科特點(diǎn)制定具體的編制規(guī)則,并在集成過(guò)程中不斷調(diào)整完善。
敘詞表集成需要滿(mǎn)足不同術(shù)語(yǔ)來(lái)源下各學(xué)科領(lǐng)域?qū)I(yè)人員的協(xié)同操作問(wèn)題,有必要設(shè)計(jì)一套先進(jìn)的、適用于敘詞表融合集成的操作平臺(tái),為集成過(guò)程的自動(dòng)化、集成化詞表的動(dòng)態(tài)編制和維護(hù)提供強(qiáng)有力的支撐。該平臺(tái)依托互聯(lián)網(wǎng)技術(shù),支持多用戶(hù)、分布式、可視化地協(xié)同完成集成化操作[19],包括開(kāi)放式多來(lái)源數(shù)據(jù)的導(dǎo)入,集成化詞表的構(gòu)建、審核、質(zhì)量控制與管理、發(fā)布等一系列工作流程所需的各種功能模塊,平臺(tái)建設(shè)需要突出以下三方面的要求。
(1)協(xié)同操作機(jī)制。敘詞表集成化涉及各學(xué)科主題領(lǐng)域和專(zhuān)業(yè)人員,集成詞匯量眾多、語(yǔ)義關(guān)系復(fù)雜,需要通過(guò)分布并發(fā)式機(jī)制,實(shí)現(xiàn)集成化詞表的協(xié)同編制。平臺(tái)應(yīng)充分考慮橫向多人同時(shí)分工協(xié)作與縱向不同過(guò)程協(xié)作的使用特點(diǎn),以滿(mǎn)足多人、多地、隨時(shí)處理的需求,促進(jìn)集成過(guò)程的實(shí)時(shí)溝通和協(xié)調(diào)。橫向協(xié)同應(yīng)按不同的學(xué)科領(lǐng)域,以整表、詞族、概念等不同粒度建立權(quán)限分配操作管理機(jī)制,實(shí)現(xiàn)數(shù)據(jù)協(xié)同共享與沖突規(guī)避機(jī)制,保證集成融合過(guò)程的有序性;縱向協(xié)同需對(duì)詞表集成化全過(guò)程進(jìn)行科學(xué)合理設(shè)計(jì),包括任務(wù)指派、下發(fā)、編輯、提交、審核、監(jiān)督、發(fā)布、更新,以及該過(guò)程中的數(shù)據(jù)自動(dòng)核驗(yàn)、人工干預(yù)等,實(shí)現(xiàn)集成融合的規(guī)范性。
(2)智能化輔助技術(shù)。融合集成工作平臺(tái)為集成化過(guò)程提供智能化輔助,最大限度地減輕集成過(guò)程中的人工工作量,加快集成化詞表的構(gòu)建速度。積極探索概念的自動(dòng)映射和自動(dòng)歸并,語(yǔ)義關(guān)系的自動(dòng)合并和語(yǔ)義關(guān)系沖突的自動(dòng)糾錯(cuò),采用詞匯相關(guān)分析、文獻(xiàn)數(shù)據(jù)分析、語(yǔ)義關(guān)系挖掘、學(xué)科新詞發(fā)現(xiàn)、新術(shù)語(yǔ)評(píng)估等自動(dòng)化處理技術(shù),為集成工作人員提供語(yǔ)義關(guān)系推薦、學(xué)科分類(lèi)推薦、新術(shù)語(yǔ)推薦等智能服務(wù),提高集成化詞表的編制效率。伴隨著來(lái)源詞表的持續(xù)更新,集成化詞表需保持同步更新,借助自動(dòng)化技術(shù)及時(shí)識(shí)別來(lái)源詞表的變更術(shù)語(yǔ)、及時(shí)整合科學(xué)文獻(xiàn)的新術(shù)語(yǔ),實(shí)現(xiàn)詞表擴(kuò)充和更新的動(dòng)態(tài)發(fā)展[20],使詞表維護(hù)速度跟上學(xué)科的發(fā)展變化。
(3)可視化技術(shù)。結(jié)合中文集成化詞表的特點(diǎn)和用戶(hù)使用習(xí)慣,將多種可視化技術(shù)應(yīng)用于詞表表示和知識(shí)組織的可視化、信息處理與操作的可視化、檢索過(guò)程和結(jié)果的可視化三個(gè)方面。采用點(diǎn)、線、平面圖、三維圖、數(shù)據(jù)表等方式從不同維度、不同層級(jí)全面、直觀、動(dòng)態(tài)地展示詞匯概念及各種概念間的關(guān)系;集成化詞表支持多種語(yǔ)義關(guān)系的定義,設(shè)計(jì)一個(gè)敘詞表可視化過(guò)程,盡可能準(zhǔn)確合理地展示出概念間豐富的語(yǔ)義關(guān)系,詞間關(guān)系一目了然,幫助用戶(hù)進(jìn)一步明確概念的內(nèi)涵,啟發(fā)用戶(hù)發(fā)現(xiàn)一些新的潛在信息并進(jìn)行快速檢索和調(diào)整。同時(shí),利用可視化技術(shù)優(yōu)化平臺(tái)人機(jī)交互邏輯,簡(jiǎn)化平臺(tái)操作復(fù)雜度,設(shè)計(jì)改進(jìn)工作流,強(qiáng)化用戶(hù)體驗(yàn)和反饋,輔助用戶(hù)分析、決策和管理,使集成化過(guò)程更加順暢。
敘詞表集成化建設(shè)旨在繼承現(xiàn)有規(guī)范術(shù)語(yǔ)資源的經(jīng)驗(yàn)和成果,融合新的概念和關(guān)系,實(shí)現(xiàn)不同類(lèi)型的知識(shí)組織體系之間的關(guān)聯(lián)整合,構(gòu)建詞表集成化概念體系,生成集成化詞表。集成化詞表并非傳統(tǒng)意義上的敘詞表,以概念和概念語(yǔ)義網(wǎng)絡(luò)描述為核心,借助新的語(yǔ)義描述機(jī)制對(duì)語(yǔ)義關(guān)系的含義和類(lèi)型進(jìn)行拓展細(xì)分,采用特定的結(jié)構(gòu)將各學(xué)科領(lǐng)域的敘詞表和相關(guān)術(shù)語(yǔ)資源組織匯編在一起,以獲得更好的應(yīng)用性能。借鑒本體的描述機(jī)制,集成化詞表的體系結(jié)構(gòu)如圖2 所示,主題概念繼承頂層概念的語(yǔ)義類(lèi)型,將不同來(lái)源的多個(gè)詞匯、術(shù)語(yǔ)進(jìn)行合并融合,每個(gè)概念歸入一個(gè)學(xué)科分類(lèi)下;同時(shí),保留來(lái)源詞表的詞義、概念和關(guān)系,建立多個(gè)來(lái)源表的概念與主題概念之間的映射關(guān)系,保障概念可以還原到原始的術(shù)語(yǔ)表中,將多來(lái)源知識(shí)組織體系有序地組織在一起;獨(dú)立的概念體系支持隨時(shí)添加新的概念和語(yǔ)義關(guān)系,從而對(duì)概念體系進(jìn)行擴(kuò)充。
圖2 集成化詞表的體系結(jié)構(gòu)
頂層概念體系為所有集成的主題概念提供語(yǔ)義架構(gòu)和分面框架,定義類(lèi)體系、類(lèi)屬性和類(lèi)關(guān)系,具體步驟:①構(gòu)建概念類(lèi),并從敘詞表的術(shù)語(yǔ)等級(jí)出發(fā)構(gòu)建層級(jí)類(lèi);②確定概念屬性和屬性值類(lèi)型,明確概念下語(yǔ)義類(lèi)型。頂層概念體系不可能覆蓋所有的語(yǔ)義范圍,具體構(gòu)建過(guò)程需要面向通用領(lǐng)域和專(zhuān)業(yè)領(lǐng)域,確定體系規(guī)模,優(yōu)先采用語(yǔ)義明確、應(yīng)用較廣的語(yǔ)義關(guān)系類(lèi)型。從實(shí)用角度出發(fā),認(rèn)真梳理、充分借用已有的專(zhuān)業(yè)領(lǐng)域知識(shí)組織體系的結(jié)構(gòu)與關(guān)系,同時(shí),結(jié)合當(dāng)下學(xué)科發(fā)展和應(yīng)用需求,最終確定概念范圍的深度與廣度,進(jìn)行合理的細(xì)化和描述。學(xué)科分類(lèi)是涵蓋全學(xué)科的統(tǒng)一分類(lèi)體系,確定術(shù)語(yǔ)資源的主要學(xué)科歸屬,亦方便為各來(lái)源概念提供統(tǒng)一的導(dǎo)航服務(wù),輔助實(shí)現(xiàn)多來(lái)源概念的語(yǔ)義集成。對(duì)于學(xué)科分類(lèi)體系的建設(shè),參考《中國(guó)圖書(shū)館分類(lèi)法》《中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)科分類(lèi)與代碼》(GB/T 13745-2009)及各專(zhuān)業(yè)分類(lèi)體系,充分考慮學(xué)科交叉特征、類(lèi)目層級(jí)深度,面向多個(gè)學(xué)科統(tǒng)一構(gòu)建。
主表包括各學(xué)科領(lǐng)域的主題概念、術(shù)語(yǔ)、屬性和關(guān)系,主題概念包含同義詞、縮略語(yǔ)、注釋、分類(lèi)號(hào)、英文、拉丁文、來(lái)源信息、詞頻信息等描述屬性,概念語(yǔ)義關(guān)系以“屬”“分”“參”進(jìn)行細(xì)分。隨著敘詞表的不斷使用及網(wǎng)絡(luò)技術(shù)的發(fā)展,各領(lǐng)域敘詞表的結(jié)構(gòu)與功能也在不斷發(fā)展和完善,對(duì)語(yǔ)義關(guān)系的描述更加靈活多樣[21]。眾多學(xué)科領(lǐng)域?qū)Φ燃?jí)關(guān)系及相關(guān)關(guān)系的語(yǔ)義類(lèi)型和語(yǔ)義關(guān)系進(jìn)行明確定義和細(xì)化,如等級(jí)關(guān)系又可細(xì)化分為屬種關(guān)系、整體-部分關(guān)系、類(lèi)-實(shí)例關(guān)系等;相關(guān)關(guān)系表示兩個(gè)概念之間存在關(guān)聯(lián),又可細(xì)分為物理上相關(guān)、空間上相關(guān)、功能上相關(guān)、位置上相關(guān)和概念上相關(guān)等;特殊領(lǐng)域需要結(jié)合學(xué)科領(lǐng)域特點(diǎn)從多方位對(duì)語(yǔ)義關(guān)系拓展細(xì)分,提供更加明確的、更符合用戶(hù)使用習(xí)慣的語(yǔ)義關(guān)系,如對(duì)于疾病的描述,可從病因、診斷、治療等角度具體化語(yǔ)義關(guān)系。附表可以豐富集成化詞表的術(shù)語(yǔ)資源,將一些名錄資源獨(dú)立于主表而存在,在不影響主表概念結(jié)構(gòu)的情況下集成更多的術(shù)語(yǔ)資源,建立這些術(shù)語(yǔ)概念與主題概念間的映射關(guān)系。
眾多詞匯資源先經(jīng)過(guò)采集加工建立詞匯集成庫(kù),再進(jìn)行概念層面的語(yǔ)義組織與集成,具體的語(yǔ)義集成化過(guò)程和方法如圖3 所示。針對(duì)各來(lái)源概念進(jìn)行概念映射,映射主要是在不同概念體系中找到最相關(guān)的概念和參考信息。在映射的基礎(chǔ)上進(jìn)行概念的融合集成,即集成化詞表的概念建設(shè)及概念語(yǔ)義關(guān)系重塑,在這個(gè)過(guò)程中需要將新詞匯、新語(yǔ)義關(guān)系的發(fā)現(xiàn)融合到概念體系中。融合集成過(guò)程可能會(huì)導(dǎo)致語(yǔ)義關(guān)系的邏輯問(wèn)題,因此,需要進(jìn)行關(guān)系一致性檢驗(yàn)。整個(gè)集成過(guò)程離不開(kāi)語(yǔ)義分析工具和人工專(zhuān)家的輔助,最終生成統(tǒng)一結(jié)構(gòu)的集成化詞表。
圖3 語(yǔ)義集成化過(guò)程和方法
在集成內(nèi)容上,為了有效擴(kuò)展敘詞表的應(yīng)用領(lǐng)域和應(yīng)用范圍,集成的詞匯來(lái)源主要包括國(guó)家編制的綜合性詞表和各學(xué)科領(lǐng)域的敘詞表、分類(lèi)表等規(guī)范化知識(shí)組織體系的一系列主題概念、概念關(guān)系和屬性描述,包括各類(lèi)術(shù)語(yǔ)資源等更廣泛的詞匯概念,如詞典、名詞名錄、網(wǎng)絡(luò)百科、各類(lèi)數(shù)據(jù)庫(kù)術(shù)語(yǔ)資源等大量專(zhuān)有名稱(chēng)術(shù)語(yǔ)和專(zhuān)業(yè)科技術(shù)語(yǔ)。同時(shí),集成系統(tǒng)的構(gòu)建需要注重學(xué)科性和時(shí)效性,將學(xué)科的新進(jìn)展和新術(shù)語(yǔ)及時(shí)集成到應(yīng)用系統(tǒng)中。新術(shù)語(yǔ)的來(lái)源主要依賴(lài)兩類(lèi):一類(lèi)是針對(duì)海量文獻(xiàn)信息資源進(jìn)行數(shù)據(jù)挖掘,提取高頻概念術(shù)語(yǔ);另一類(lèi)則充分考慮當(dāng)下用戶(hù)的需求,及時(shí)獲取用戶(hù)檢索高頻關(guān)鍵詞、用戶(hù)推薦詞等。
這些資源數(shù)量龐大,依據(jù)數(shù)據(jù)加工規(guī)范對(duì)數(shù)據(jù)進(jìn)行清洗過(guò)濾,按照統(tǒng)一的元數(shù)據(jù)框架對(duì)術(shù)語(yǔ)資源規(guī)范化描述,綜合評(píng)估詞匯的詞性規(guī)范性、語(yǔ)義明確性、學(xué)科專(zhuān)業(yè)性及使用情況,篩選建立詞匯集成庫(kù)。詞匯集成庫(kù)為集成化詞表的構(gòu)建提供數(shù)據(jù)來(lái)源和數(shù)據(jù)屬性參考,全面、高效地收集相關(guān)術(shù)語(yǔ)和術(shù)語(yǔ)信息(來(lái)源信息、詞頻信息、分類(lèi)信息、使用信息等),保障來(lái)源詞匯的全面性和準(zhǔn)確性。同時(shí),詞匯集成庫(kù)包含眾多集成化詞表所沒(méi)有的術(shù)語(yǔ)資源作為集成化詞表的拓展和延伸,有效關(guān)聯(lián)更多的概念和詞匯,可以有效地幫助提高集成化此表資源與用戶(hù)語(yǔ)言的匹配效率[22]。
不同來(lái)源的術(shù)語(yǔ)概念在集成時(shí),首先需要進(jìn)行概念間的映射并建立映射文件,為后續(xù)的概念融合集成提供參考。映射主要是建立多來(lái)源概念間的對(duì)應(yīng)關(guān)系,找到等同映射、等級(jí)映射、相關(guān)映射關(guān)系。可以從詞匯層、結(jié)構(gòu)層和語(yǔ)料層三個(gè)方面實(shí)現(xiàn)概念映射[23],按照這三個(gè)層次對(duì)應(yīng)的映射方法歸納為基于詞形的映射方法、基于結(jié)構(gòu)的映射方法和基于語(yǔ)料的映射方法[24]。
(1)基于詞形的映射方法。主要是基于詞匯的詞形進(jìn)行匹配。對(duì)于單個(gè)詞匯,詞形相同即代表完全相似,否則判定為不相似;為了提高相似度,可以充分考慮漢語(yǔ)詞匯的構(gòu)詞特征,借鑒基于詞素的相似度計(jì)算方法,針對(duì)多字的詞匯進(jìn)行詞素的切分,通過(guò)考慮詞素匹配個(gè)數(shù)與在詞匯中的位置進(jìn)行映射關(guān)系發(fā)現(xiàn)?;谠~形相似度獲得的映射關(guān)系,可能只是詞形相似,并非概念上的等同,需要進(jìn)一步分析判斷。
(2)基于結(jié)構(gòu)的映射方法。充分考慮敘詞表本身規(guī)范的結(jié)構(gòu)形式,將詞表用代、屬、分、參各項(xiàng)結(jié)構(gòu)內(nèi)容作為主題詞映射的背景和語(yǔ)境,可以提高匹配效率。比較成熟的方法是構(gòu)建詞匯語(yǔ)義向量空間,充分考慮結(jié)構(gòu)語(yǔ)義信息,進(jìn)行類(lèi)目概念相似度的計(jì)算,最終依據(jù)匹配相似度大小和匹配類(lèi)型拓展語(yǔ)義映射關(guān)系。
(3)基于語(yǔ)料的映射方法。主要是依靠外部資源挖掘類(lèi)目之間的關(guān)系。根據(jù)語(yǔ)料資源的不同采用不同的映射方法,可以采用同義詞典(如WordNet、HowNet、同義詞林等語(yǔ)義詞典)有效改進(jìn)基于詞性的相似度計(jì)算方法,但是通用同義詞典包含專(zhuān)業(yè)領(lǐng)域同義詞的規(guī)模往往較小,可以根據(jù)應(yīng)用需求構(gòu)建具體的同義詞庫(kù)。可以充分利用標(biāo)引文獻(xiàn)資源,基于大規(guī)模語(yǔ)料庫(kù)統(tǒng)計(jì)方法進(jìn)行映射,利用共現(xiàn)頻次關(guān)系,為概念間關(guān)系提供有益線索。
不同的概念映射方法具有各自的特點(diǎn)和應(yīng)用場(chǎng)景,有的相互之間存在互補(bǔ)關(guān)系,在具體的集成映射實(shí)踐中,并不只是單一使用一種映射方法,需要有機(jī)地組合使用。映射作為語(yǔ)義集成的關(guān)鍵環(huán)節(jié)和重要方法,需要保障映射質(zhì)量,減少融合邏輯問(wèn)題。映射之初,必須建立明確適用的映射規(guī)則,對(duì)映射的通用規(guī)則、等同映射規(guī)則、等級(jí)映射規(guī)則、相關(guān)映射規(guī)則、組配映射規(guī)則規(guī)范化[25],討論映射的語(yǔ)義類(lèi)型及映射的順序問(wèn)題,優(yōu)先建立哪些映射類(lèi)型,建立映射關(guān)系后是否還拓展其他的映射類(lèi)型,映射過(guò)程是否可以繼承和傳遞等,在映射過(guò)程中要充分考慮詞匯各項(xiàng)語(yǔ)義信息和語(yǔ)境信息,從不同角度的匹配來(lái)提高映射效率,保障映射概念的準(zhǔn)確性。
在統(tǒng)一的集成規(guī)范體系下,確定集成化詞表的概念范圍,進(jìn)行概念和術(shù)語(yǔ)的篩選。多來(lái)源的概念詞匯難免存在交叉和重復(fù)的問(wèn)題,需要對(duì)概念進(jìn)行選擇和合并。對(duì)于概念的選擇,結(jié)合學(xué)科背景和實(shí)際應(yīng)用需求進(jìn)行調(diào)整,需要充分考慮概念的專(zhuān)業(yè)應(yīng)用深度和廣度、概念的專(zhuān)指度,保障概念規(guī)范且含義清晰。在選擇概念的過(guò)程中,可以利用概念名稱(chēng)、使用頻次和領(lǐng)域?qū)<彝扑]法,以及文獻(xiàn)標(biāo)題、摘要或關(guān)鍵詞部位和用戶(hù)檢索詞的調(diào)查分析,有效地反映當(dāng)前發(fā)展趨勢(shì)和用戶(hù)應(yīng)用需求,專(zhuān)家推薦可以保障概念的專(zhuān)指性和準(zhǔn)確性,將各專(zhuān)業(yè)領(lǐng)域經(jīng)常使用的、能夠準(zhǔn)確表達(dá)科學(xué)概念的優(yōu)先詞匯選定,對(duì)于一些詞頻低的概念,可根據(jù)具體應(yīng)用情況進(jìn)行選擇。在確定優(yōu)選概念的基礎(chǔ)上,利用映射信息進(jìn)行概念屬性的合并,將表達(dá)概念的同義詞、注釋、縮略語(yǔ)、譯稱(chēng)、學(xué)科分類(lèi)號(hào)等屬性信息進(jìn)行查重、合并。依照概念的學(xué)科專(zhuān)業(yè)、內(nèi)涵信息為每個(gè)概念分配一個(gè)或多個(gè)學(xué)科分類(lèi)號(hào),從多角度揭示概念的科學(xué)屬性,選擇與概念表達(dá)最為接近的類(lèi)號(hào),確保多個(gè)分類(lèi)號(hào)之間不構(gòu)成上下級(jí)關(guān)系。同時(shí),給每個(gè)概念進(jìn)行形式分類(lèi),將一個(gè)概念歸入一個(gè)語(yǔ)義類(lèi)型,并繼承該語(yǔ)義類(lèi)型的屬性,為后續(xù)語(yǔ)義關(guān)系的梳理提供規(guī)范和參考。
當(dāng)前學(xué)科的交叉日益顯著,對(duì)于交叉概念的歸屬,應(yīng)綜合考慮概念在相關(guān)概念體系領(lǐng)域的應(yīng)用深度和廣度,放入某一概念體系下并建立概念間的參照關(guān)系。對(duì)于有歧義的概念,需要保障“一詞一義”,考慮是否可以改用其他詞匯,可以利用概念的屬性信息明確概念的內(nèi)涵和應(yīng)用領(lǐng)域,借助頂層概念的標(biāo)簽對(duì)有歧義的概念進(jìn)行限定,通過(guò)添加注釋對(duì)詞義不夠清晰的概念進(jìn)行說(shuō)明。對(duì)于融合過(guò)程中的一些復(fù)合概念,可以進(jìn)行概念的分拆和合并,參照方面型關(guān)系構(gòu)建主題概念及方面概念間的關(guān)系,進(jìn)而從不同角度拓展語(yǔ)義關(guān)系。
豐富、明確而規(guī)范的概念間關(guān)系是集成化詞表的重要特征,是發(fā)揮其重要作用的基礎(chǔ)和條件保障。通過(guò)建立的等級(jí)映射、相關(guān)映射關(guān)系對(duì)概念的語(yǔ)義關(guān)系進(jìn)行發(fā)現(xiàn)和細(xì)化,實(shí)現(xiàn)語(yǔ)義關(guān)系的重塑。以?xún)?yōu)選概念為核心建立邏輯合理、脈絡(luò)清晰的語(yǔ)義關(guān)系,一方面,是對(duì)現(xiàn)有規(guī)范詞表概念關(guān)系的繼承和合并,現(xiàn)有的眾多詞表資源包含豐富且可靠的概念關(guān)系,需要依據(jù)專(zhuān)業(yè)領(lǐng)域?qū)W科進(jìn)展,圍繞優(yōu)選概念的等級(jí)映射、相關(guān)映射關(guān)系剔除不合理和過(guò)時(shí)的語(yǔ)義關(guān)系,梳理可靠的上下位等級(jí)關(guān)系和細(xì)化不同方面的相關(guān)關(guān)系;另一方面,利用大規(guī)模語(yǔ)義計(jì)算技術(shù)將新的語(yǔ)義關(guān)系集成進(jìn)來(lái),考慮利用文獻(xiàn)詞匯共現(xiàn)關(guān)系發(fā)現(xiàn)、用戶(hù)檢索信息共現(xiàn)發(fā)現(xiàn)、專(zhuān)家和用戶(hù)推薦方式、詞匯上下文語(yǔ)境分析方法,并結(jié)合字面相似度計(jì)算、關(guān)聯(lián)規(guī)則算法發(fā)現(xiàn)新的語(yǔ)義關(guān)系及跨學(xué)科的術(shù)語(yǔ)間關(guān)系,將這些關(guān)系進(jìn)行明確的形式化的表示。
在概念融合過(guò)程中,隨著概念的合并和關(guān)聯(lián),概念體系的復(fù)雜度增加,不恰當(dāng)?shù)母拍顨w并容易導(dǎo)致概念語(yǔ)義模糊、產(chǎn)生歧義、語(yǔ)義關(guān)系沖突等各種邏輯問(wèn)題。融合過(guò)程需要通過(guò)對(duì)概念關(guān)系邏輯的整理,提煉關(guān)系邏輯推導(dǎo)規(guī)則和判定規(guī)則,消除因融合導(dǎo)致的概念關(guān)系沖突。概念融合中常出現(xiàn)的邏輯問(wèn)題有三種:關(guān)系沖突、關(guān)系循環(huán)和關(guān)系冗余[2,26]。關(guān)系沖突是指兩個(gè)概念之間同時(shí)存在等級(jí)關(guān)系和相關(guān)關(guān)系;關(guān)系循環(huán)是指出現(xiàn)互為等級(jí)關(guān)系的概念相互串接后形成收尾相接的環(huán);關(guān)系冗余是指兩個(gè)概念之間的等級(jí)關(guān)系可以通過(guò)其他關(guān)系推導(dǎo)得出,不需要直接構(gòu)建。關(guān)系校驗(yàn)過(guò)程中,也存在部分概念之間的關(guān)系沒(méi)有邏輯錯(cuò)誤,但由于來(lái)源表對(duì)概念劃分的分面角度、顆粒度的差異導(dǎo)致語(yǔ)義關(guān)系交叉,需要對(duì)這些邏輯問(wèn)題進(jìn)行一致性處理。這些邏輯問(wèn)題涉及多個(gè)專(zhuān)業(yè)領(lǐng)域,需要借助計(jì)算機(jī)檢查發(fā)現(xiàn)問(wèn)題,支持語(yǔ)義關(guān)系的可視化瀏覽,組織領(lǐng)域?qū)<乙灰淮_認(rèn),人工糾正和處理。處理過(guò)程必須充分考慮概念集的使用目的、概念顆粒度的粗細(xì),依據(jù)一定的處理規(guī)則和流程取舍優(yōu)化具體的概念間關(guān)系,先進(jìn)行邏輯錯(cuò)誤的糾正,再考慮關(guān)系的優(yōu)化,先進(jìn)行一個(gè)詞族內(nèi)檢查和解決,再拓展到多個(gè)詞族間進(jìn)行處理,防止對(duì)某些語(yǔ)義關(guān)系的增刪改產(chǎn)生新的邏輯問(wèn)題,進(jìn)而保證整個(gè)集成過(guò)程有條不紊。
傳統(tǒng)的敘詞表資源在文獻(xiàn)資源的組織和檢索中發(fā)揮了重要作用,但其資源分散、語(yǔ)義體系相對(duì)簡(jiǎn)單、應(yīng)用場(chǎng)景單一,嚴(yán)重制約敘詞表資源在大數(shù)據(jù)環(huán)境下的應(yīng)用。敘詞表集成化體系需要適應(yīng)應(yīng)用環(huán)境的變化,充分發(fā)揮集成資源在信息智能化處理中的作用,拓展新的應(yīng)用模式。應(yīng)用模式主要分為前臺(tái)服務(wù)模式和后臺(tái)應(yīng)用模式:前臺(tái)服務(wù)模式主要是通過(guò)敘詞表集成服務(wù)平臺(tái)和微服務(wù)架構(gòu)平臺(tái)為用戶(hù)提供良好的使用體驗(yàn)和服務(wù)方式;后臺(tái)應(yīng)用模式則需要整合整體概念資源,優(yōu)化集成資源的組織、呈現(xiàn)和利用方式,提高集成化詞表的知識(shí)服務(wù)效率,兩者相輔相成,共同推進(jìn)敘詞表的集成化應(yīng)用。
很多詞表資源存在著數(shù)據(jù)應(yīng)用更新不及時(shí)或者沒(méi)有更新的問(wèn)題,實(shí)現(xiàn)集成化詞表的可持續(xù)發(fā)展,最重要的是保證集成數(shù)據(jù)的動(dòng)態(tài)維護(hù),在應(yīng)用中促進(jìn)不斷更新。集成系統(tǒng)是一個(gè)動(dòng)態(tài)變化的體系,舊的術(shù)語(yǔ)不斷發(fā)展,新的術(shù)語(yǔ)不斷出現(xiàn),需要建立專(zhuān)門(mén)的網(wǎng)站和維護(hù)人員進(jìn)行在線管理,從數(shù)據(jù)來(lái)源、數(shù)據(jù)更新和數(shù)據(jù)應(yīng)用三方面構(gòu)建定期動(dòng)態(tài)維護(hù)機(jī)制。將文獻(xiàn)語(yǔ)料資源新出現(xiàn)的重要術(shù)語(yǔ)概念及語(yǔ)義關(guān)系及時(shí)增補(bǔ)到集成化詞表中,滿(mǎn)足概念和語(yǔ)義關(guān)系及時(shí)、全面、準(zhǔn)確三方面要求;重視用戶(hù)參與在線更新維護(hù),提供實(shí)時(shí)在線反饋機(jī)制,適當(dāng)吸納用戶(hù)的意見(jiàn)和反饋;并結(jié)合應(yīng)用效果對(duì)詞表進(jìn)行調(diào)整和優(yōu)化,在應(yīng)用中采集更新需求,并基于應(yīng)用檢驗(yàn)更新內(nèi)容。集成化詞表的構(gòu)建和完善是一個(gè)長(zhǎng)期反復(fù)的過(guò)程,需要吸引各界社會(huì)力量參與進(jìn)來(lái),強(qiáng)調(diào)利用詞表的同時(shí)反哺詞表的更新,編用相互支撐形成良性循環(huán),以保障集成化詞表的可持續(xù)發(fā)展。
在開(kāi)放環(huán)境下,集成系統(tǒng)資源如何得到高效利用,必須構(gòu)建完備的互操作共享機(jī)制。集成系統(tǒng)通過(guò)術(shù)語(yǔ)服務(wù)與關(guān)聯(lián)數(shù)據(jù)服務(wù)將詞表資源進(jìn)行整合和聯(lián)系,制定一定的共享約束條件,構(gòu)建集成資源互操作共享機(jī)制。利用術(shù)語(yǔ)服務(wù),進(jìn)行詞表術(shù)語(yǔ)資源的規(guī)范和控制,實(shí)現(xiàn)機(jī)器可讀、可理解以及更方便的數(shù)據(jù)交換與共享,支持對(duì)詞表整體資源、術(shù)語(yǔ)及語(yǔ)義關(guān)系層面的元數(shù)據(jù)瀏覽、檢索、應(yīng)用的各種Web 服務(wù),促進(jìn)分布異構(gòu)資源的檢索與發(fā)現(xiàn),通過(guò)API 支持機(jī)器對(duì)詞表及其內(nèi)容的訪問(wèn)和調(diào)用等。開(kāi)發(fā)關(guān)聯(lián)數(shù)據(jù)服務(wù),利用關(guān)聯(lián)數(shù)據(jù)一系列技術(shù)將集成數(shù)據(jù)進(jìn)行鏈接結(jié)構(gòu)化表示,構(gòu)建計(jì)算機(jī)可理解的語(yǔ)義數(shù)據(jù)網(wǎng)絡(luò),通過(guò)關(guān)聯(lián)數(shù)據(jù)服務(wù)與網(wǎng)絡(luò)中其他語(yǔ)義資源進(jìn)行有效鏈接,在此之上構(gòu)建更加智能化的應(yīng)用。集成化詞表資源的術(shù)語(yǔ)服務(wù)不再是孤立地存在于特定的檢索系統(tǒng)中,而是作為一種關(guān)聯(lián)數(shù)據(jù)類(lèi)型融入開(kāi)放關(guān)聯(lián)的結(jié)構(gòu)化語(yǔ)義網(wǎng)絡(luò)中,通過(guò)資源共享機(jī)制有效降低整合分布式異構(gòu)數(shù)據(jù)源的復(fù)雜性,提高資源的利用率,通過(guò)關(guān)聯(lián)推動(dòng)集成化詞表資源與其他資源形成共享服務(wù)優(yōu)勢(shì),有效推進(jìn)相關(guān)知識(shí)的發(fā)現(xiàn),實(shí)現(xiàn)數(shù)據(jù)融合和語(yǔ)義服務(wù)。
集成化詞表涉及的領(lǐng)域非常廣泛,可應(yīng)用的領(lǐng)域也非常廣,突破圖書(shū)情報(bào)領(lǐng)域應(yīng)用范圍,拓展應(yīng)用到電子政務(wù)環(huán)境、電子商務(wù)環(huán)境、大型企業(yè)知識(shí)管理、醫(yī)學(xué)、教育等專(zhuān)門(mén)的行業(yè)或領(lǐng)域之中,建立集成化詞表與相應(yīng)的應(yīng)用業(yè)務(wù)相結(jié)合的應(yīng)用模式,考慮嵌入特定的應(yīng)用系統(tǒng)平臺(tái)中對(duì)特定應(yīng)用場(chǎng)景提供詞匯支持,支持具體業(yè)務(wù)的知識(shí)組織與利用。集成化詞表資源統(tǒng)一的形式化描述可提供信息自動(dòng)化處理的基礎(chǔ)數(shù)據(jù),可以考慮與具體的行業(yè)機(jī)構(gòu)進(jìn)行合作開(kāi)發(fā)和利用,在集成化詞表現(xiàn)有資源的基礎(chǔ)上,深度開(kāi)發(fā)面向具體應(yīng)用環(huán)境的專(zhuān)用詞表以滿(mǎn)足特殊需求,共享開(kāi)發(fā)成果。集成化詞表可以選擇合適的平臺(tái)、網(wǎng)站、系統(tǒng)等運(yùn)營(yíng)平臺(tái),推進(jìn)引進(jìn)平臺(tái)、網(wǎng)站、系統(tǒng)中對(duì)集成化詞表的嵌入式利用模塊,進(jìn)而普及拓展集成化詞表在更大范圍的應(yīng)用,充分發(fā)揮集成化詞表的社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值。
集成化詞表需要基于專(zhuān)門(mén)的網(wǎng)站或平臺(tái),作為其對(duì)外服務(wù)的直接門(mén)戶(hù),提供術(shù)語(yǔ)層、概念層、語(yǔ)義層和工具層不同層次的知識(shí)服務(wù)。用戶(hù)通過(guò)平臺(tái)可以進(jìn)行查詢(xún)、瀏覽、檢索、下載及編輯操作,免費(fèi)檢索詞表中的概念,查詢(xún)術(shù)語(yǔ)信息,獲取同義詞、上下位詞、相關(guān)詞等語(yǔ)義相關(guān)的概念,了解各來(lái)源詞表的基本信息和歷史版本,根據(jù)自身需求對(duì)各詞表進(jìn)行選擇和瀏覽。同時(shí),平臺(tái)結(jié)合當(dāng)下熱門(mén)技術(shù),提供個(gè)性化服務(wù),如為用戶(hù)提供術(shù)語(yǔ)概念的可視化展示、主題圖服務(wù)及敘詞表向本體轉(zhuǎn)化提供基礎(chǔ)服務(wù)等,方便用戶(hù)理解和使用。平臺(tái)也可適當(dāng)?shù)膶⒓苫~表部分內(nèi)容免費(fèi)授權(quán)給提供公共服務(wù)的社會(huì)機(jī)構(gòu),通過(guò)在線服務(wù)和免費(fèi)的詞表應(yīng)用,不斷提升集成化詞表的社會(huì)認(rèn)知度,使集成化詞表在更廣泛的范圍內(nèi)被大眾所認(rèn)知。
微服務(wù)是將傳統(tǒng)的單體服務(wù)拆分為多個(gè)不同的、實(shí)現(xiàn)某個(gè)具體功能的單一服務(wù),然后,通過(guò)遠(yuǎn)程服務(wù)調(diào)用實(shí)現(xiàn)各個(gè)服務(wù)的使用,多個(gè)服務(wù)共同組成一個(gè)完整的系統(tǒng),該服務(wù)架構(gòu)最大的特點(diǎn)是構(gòu)建高度模塊化、可擴(kuò)展、可定制的個(gè)性化應(yīng)用平臺(tái)。圍繞集成化詞表資源開(kāi)發(fā)詞表一體化微服務(wù)應(yīng)用平臺(tái),在詞表業(yè)務(wù)基礎(chǔ)上開(kāi)展最小單元應(yīng)用服務(wù),不斷延伸集成系統(tǒng)的服務(wù)功能。利用微服務(wù)平臺(tái)主要提供機(jī)器可讀的詞表整體資源服務(wù)以及機(jī)器可調(diào)用的語(yǔ)義開(kāi)發(fā)工具服務(wù)。詞表集成系統(tǒng)開(kāi)發(fā)術(shù)語(yǔ)映射輔助、自動(dòng)標(biāo)引、知識(shí)挖掘、學(xué)科發(fā)展分析預(yù)測(cè)等語(yǔ)義應(yīng)用工具,通過(guò)API 應(yīng)用開(kāi)放接口,將集成系統(tǒng)的術(shù)語(yǔ)服務(wù)、文本分析、主題分析、自動(dòng)標(biāo)引、學(xué)科分類(lèi)等各項(xiàng)業(yè)務(wù)通過(guò)網(wǎng)絡(luò)對(duì)外發(fā)布開(kāi)放,更好地推動(dòng)大數(shù)據(jù)環(huán)境下敘詞表資源在中文自然語(yǔ)言處理、人工智能技術(shù)的應(yīng)用。同時(shí),微服務(wù)應(yīng)用平臺(tái)允許其他信息系統(tǒng)、門(mén)戶(hù)網(wǎng)站接入,通過(guò)鏈接和調(diào)用到各應(yīng)用系統(tǒng)本地,擴(kuò)展其資源服務(wù)能力,最大限度地提高資源使用的便捷性,這樣將大大提高集成化詞表利用效率。
敘詞表集成化涉及多渠道詞表資源的采集與整合以及集成之后詞表資源的開(kāi)放共享,需要明確開(kāi)發(fā)和應(yīng)用各主體間的權(quán)利和義務(wù),建立數(shù)字版權(quán)管理機(jī)制和相應(yīng)授權(quán)機(jī)制,實(shí)現(xiàn)參與主體數(shù)據(jù)價(jià)值釋放和融合發(fā)展,進(jìn)而推動(dòng)集成化詞表資源更大限度地共建共享。探索建立基于詞表集成共享聯(lián)盟的版權(quán)合作機(jī)制,增加數(shù)據(jù)許可使用條款,即集成化詞表資源的編制者、發(fā)布者、使用者之間就數(shù)據(jù)使用中的義務(wù)、許可使用范圍、具體使用方式、非授權(quán)使用限制等方面達(dá)成開(kāi)放共享協(xié)議,明確責(zé)任分配,在應(yīng)用過(guò)程中保障各方的利益。同時(shí),逐步細(xì)化建立可兼容多類(lèi)型和多層次的靈活授權(quán)機(jī)制,面向不同的應(yīng)用需求提供以學(xué)科、整表、詞族、概念、功能等不同粒度的權(quán)限分配和分級(jí)服務(wù)模式,在知識(shí)產(chǎn)權(quán)框架下推進(jìn)集成化詞表開(kāi)放應(yīng)用。對(duì)于編研機(jī)構(gòu)及其他公益性社會(huì)應(yīng)用,需按照開(kāi)放許可協(xié)議,在標(biāo)注來(lái)源的前提下發(fā)布、利用;對(duì)于公司或企業(yè)以及其他的產(chǎn)業(yè)化應(yīng)用,根據(jù)服務(wù)層次和應(yīng)用效果可以適當(dāng)收取費(fèi)用,推動(dòng)集成化詞表資源的傳播和發(fā)展。
總體來(lái)說(shuō),敘詞表集成系統(tǒng)有很大的應(yīng)用空間,但是當(dāng)前圍繞集成化詞表資源的應(yīng)用工具和產(chǎn)品還不夠成熟,社會(huì)應(yīng)用場(chǎng)景還有待開(kāi)發(fā),有必要提升集成資源的可獲得性和可用性、開(kāi)發(fā)嵌入式語(yǔ)義工具、探索集成化詞表的社會(huì)應(yīng)用渠道和版權(quán)管理機(jī)制,有效改善集成化詞表的獲取環(huán)境,支持更大范圍地利用敘詞表資源進(jìn)行知識(shí)描述和知識(shí)發(fā)現(xiàn)。
本文針對(duì)敘詞表資源缺乏修訂、更新緩慢、自動(dòng)化程度低、落后于學(xué)科發(fā)展的現(xiàn)狀,提出構(gòu)建面向不同領(lǐng)域、多元學(xué)科交叉融合的敘詞表集成化體系。整個(gè)集成化體系通過(guò)標(biāo)準(zhǔn)規(guī)范體系、詞表集成化支撐體系、詞表集成化概念體系建設(shè),利用多來(lái)源概念映射、融合方法形成集成化詞表。在保留既有語(yǔ)義的同時(shí),拓展和豐富詞表內(nèi)涵和關(guān)系,為大規(guī)模、開(kāi)放式、合作式敘詞表創(chuàng)新應(yīng)用服務(wù)提供有力推進(jìn)支撐,實(shí)現(xiàn)敘詞表資源的高效、有序、可持續(xù)發(fā)展。敘詞表的集成建設(shè)借助計(jì)算機(jī)技術(shù)概念量不斷擴(kuò)大,語(yǔ)義關(guān)系更加復(fù)雜和細(xì)化,詞表的應(yīng)用逐漸從以人工為主轉(zhuǎn)換到以機(jī)器為主,從文獻(xiàn)檢索領(lǐng)域擴(kuò)展到自然語(yǔ)言處理和知識(shí)計(jì)算服務(wù)等領(lǐng)域。在未來(lái),提高集成過(guò)程自動(dòng)化及智能化水平,強(qiáng)化敘詞表在大數(shù)據(jù)環(huán)境下的創(chuàng)新應(yīng)用和服務(wù),構(gòu)建敘詞表的應(yīng)用生態(tài)機(jī)制,仍然需要進(jìn)一步研究和探索。