何陽(yáng)宇 易綿竹 李宏欣
摘 要:政治外交領(lǐng)域本體術(shù)語(yǔ)的獲取是構(gòu)建相關(guān)領(lǐng)域本體的關(guān)鍵,也是進(jìn)行信息抽取、信息檢索的重要組成部分。文章首先利用現(xiàn)有資源構(gòu)建了基礎(chǔ)術(shù)語(yǔ)集,然后利用Word2Vec的新詞推薦功能在此基礎(chǔ)上進(jìn)行擴(kuò)展,最后以融合知網(wǎng)和同義詞詞林的方法進(jìn)行詞語(yǔ)語(yǔ)義相似度計(jì)算,篩選出合格的本體術(shù)語(yǔ)構(gòu)建擴(kuò)展術(shù)語(yǔ)集。由此建立起老撾政治外交領(lǐng)域本體術(shù)語(yǔ)集。
關(guān)鍵詞:老撾;政治外交;本體術(shù)語(yǔ);信息檢索;信息抽取
中圖分類(lèi)號(hào):D507;D82;H059;H083文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2019.04.001
The Construction of Ontology Term Set in Laos Political Diplomacy Domain//HE Yangyu,YI Mianzhu,LI Hongxin
Abstract: The acquisition of ontology terms in political diplomacy domain is the key to the construction of ontology in related fields, and also an important part of information extraction and information retrieval. We construct the basic term set by using existing resources, and then use Word2Vecs new word recommendation function to expand on the basis. Moreover, we calculate the semantic similarity computation of words by the method of integrating HowNet and Cilin, select the qualified ontology terms to construct a set of extended term, and thus establish the ontology term set of Laos political diplomacy.
Keywords: Laos; political diplomacy; ontology term; information retrieval; information extraction
引 言
老撾作為東南亞唯一的內(nèi)陸國(guó)家[1],北鄰中國(guó),南接柬埔寨,東臨越南,西北達(dá)緬甸,西南毗連泰國(guó),素有“東南亞十字路口”之稱(chēng),地理位置十分重要[2]。近年來(lái),老撾積極響應(yīng)“一帶一路”倡議,在多個(gè)領(lǐng)域與中國(guó)進(jìn)行了廣泛的合作。但目前中國(guó)還未對(duì)老撾有較為全面的認(rèn)識(shí),對(duì)其政治經(jīng)濟(jì)制度、國(guó)內(nèi)產(chǎn)業(yè)格局、民族、文化、宗教、風(fēng)土人情等的了解還遠(yuǎn)達(dá)不到需求[3]。為了及時(shí)準(zhǔn)確地了解老撾動(dòng)態(tài),為國(guó)家戰(zhàn)略和政策提供重要參考,有必要加強(qiáng)信息基礎(chǔ)資源的建設(shè)。隨著信息時(shí)代的到來(lái),如何使網(wǎng)上的海量數(shù)據(jù)形成一個(gè)互相關(guān)聯(lián)的網(wǎng)絡(luò)顯得尤為重要?;诒倔w知識(shí)庫(kù)的信息抽取和檢索可以有效解決這個(gè)問(wèn)題,而本體術(shù)語(yǔ)抽取是本體構(gòu)建的首要工作,對(duì)本體學(xué)習(xí)以及基于本體的應(yīng)用技術(shù)的發(fā)展具有重要意義[4]。
本體術(shù)語(yǔ)的獲取途徑可大致分為基于規(guī)則、基于知識(shí)庫(kù)、基于統(tǒng)計(jì)以及多策略融合的方法。雅克曼(Christian Jacquemin)[5]提出了一個(gè)描述多詞術(shù)語(yǔ)的形態(tài)、句法和語(yǔ)義變化的雙層模型,用于醫(yī)學(xué)和農(nóng)業(yè)領(lǐng)域的術(shù)語(yǔ)標(biāo)準(zhǔn)化。張桂平等[6]基于HowNet構(gòu)建了面向航天領(lǐng)域的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)。韋小麗等 [7]采用基于最大熵模型的方法來(lái)獲取概念,通過(guò)對(duì)領(lǐng)域文本進(jìn)行挖掘而得到名詞性短語(yǔ),使用改進(jìn)的TF-IDF公式從中抽取具有領(lǐng)域性的短語(yǔ),并經(jīng)人工修正后得到本體概念。杜波等 [8]設(shè)計(jì)了一個(gè)將統(tǒng)計(jì)方法與規(guī)則方法相結(jié)合的專(zhuān)業(yè)領(lǐng)域內(nèi)術(shù)語(yǔ)抽取算法??偟膩?lái)說(shuō),基于規(guī)則的方法準(zhǔn)確率高,操作簡(jiǎn)單,能夠有效提取低頻術(shù)語(yǔ),但是語(yǔ)言學(xué)規(guī)則制定難度大,耗時(shí)耗力;基于知識(shí)庫(kù)的方法無(wú)需語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,易于理解,但知識(shí)庫(kù)的建設(shè)很大程度上依賴(lài)于人的主觀(guān)判斷和知識(shí)結(jié)構(gòu);基于統(tǒng)計(jì)的方法效率高、可移植性較好,但計(jì)算量大,效果取決于語(yǔ)料庫(kù)的規(guī)模和質(zhì)量,同時(shí)針對(duì)低頻術(shù)語(yǔ)的效果較差。以上方法各有優(yōu)缺點(diǎn),因此多策略融合的方法是目前術(shù)語(yǔ)獲取的最佳途徑。
本文構(gòu)建的術(shù)語(yǔ)集主要包括兩大部分:基礎(chǔ)術(shù)語(yǔ)集和擴(kuò)展術(shù)語(yǔ)集。首先,通過(guò)各種渠道對(duì)現(xiàn)有術(shù)語(yǔ)資源進(jìn)行收集整理,然后利用CiteSpace從相關(guān)文獻(xiàn)中提取領(lǐng)域術(shù)語(yǔ),進(jìn)而合并為基礎(chǔ)術(shù)語(yǔ)集。接下來(lái),以基礎(chǔ)術(shù)語(yǔ)集作為種子術(shù)語(yǔ),以Word2Vec、知網(wǎng)和同義詞詞林作為統(tǒng)計(jì)模型和知識(shí)庫(kù),利用融合的詞語(yǔ)語(yǔ)義相似度計(jì)算方法進(jìn)行術(shù)語(yǔ)拓展,形成擴(kuò)展術(shù)語(yǔ)集。最終,兩部分術(shù)語(yǔ)集組合成為老撾政治外交領(lǐng)域本體術(shù)語(yǔ)集。
一 老撾政治外交領(lǐng)域基礎(chǔ)術(shù)語(yǔ)集的構(gòu)建
(一)基礎(chǔ)術(shù)語(yǔ)集簡(jiǎn)介
老撾政治外交領(lǐng)域基礎(chǔ)術(shù)語(yǔ)集的來(lái)源可大致分為兩類(lèi):現(xiàn)有術(shù)語(yǔ)資源和相關(guān)文獻(xiàn)?,F(xiàn)有術(shù)語(yǔ)資源主要包括專(zhuān)業(yè)詞典、相關(guān)論著、權(quán)威網(wǎng)站等,相關(guān)文獻(xiàn)主要是國(guó)內(nèi)關(guān)于老撾政治外交的碩士與博士論文、期刊論文等。這一術(shù)語(yǔ)集是后續(xù)擴(kuò)展術(shù)語(yǔ)集的基礎(chǔ),對(duì)整個(gè)術(shù)語(yǔ)集的構(gòu)建起著至關(guān)重要的作用。具體流程如圖1所示。
(二)現(xiàn)有術(shù)語(yǔ)資源的收集整理
現(xiàn)有術(shù)語(yǔ)資源中的詞典主要采用《老撾語(yǔ)漢語(yǔ)詞典》[9]和《老撾語(yǔ)漢語(yǔ)·漢語(yǔ)老撾語(yǔ)簡(jiǎn)明外交詞典》[10],前者是目前涵蓋范圍最廣的老撾語(yǔ)漢語(yǔ)綜合詞典,共收6萬(wàn)多詞條,包括古今語(yǔ)言、文學(xué)、宗教和各門(mén)科學(xué)用語(yǔ),根據(jù)本文目的,取其中與政治外交相關(guān)部分;后者是一部外交領(lǐng)域的專(zhuān)門(mén)詞典,共收詞1.5萬(wàn)余條,內(nèi)容包括外交、時(shí)政、宗教、人權(quán)、法律、科技、歷史、軍事、安全等各方面在外事工作中經(jīng)常涉及的詞匯。其他現(xiàn)有資源來(lái)自相關(guān)紙質(zhì)、電子版著作以及權(quán)威網(wǎng)站,著作主要包括:《解決老撾問(wèn)題的擴(kuò)大的日內(nèi)瓦會(huì)議文件匯編》[11]《老撾和老撾人民反對(duì)美國(guó)新殖民主義的勝利斗爭(zhēng)》[12]《老撾戰(zhàn)后大事記》[13]《中國(guó)古籍中有關(guān)老撾資料匯編》[14]《列國(guó)志·老撾》[15]《老撾》[16]《老撾概論》[1]《老撾:在革新中騰飛》[17]《新世紀(jì)以來(lái)GMS五國(guó)國(guó)情的演進(jìn):轉(zhuǎn)型與發(fā)展研究》[18]《世界主要政黨規(guī)章制度文獻(xiàn):越南、老撾、朝鮮、古巴》[19]《老撾史》[20]《老撾與“一帶一路”》[21]《美國(guó)對(duì)老撾政策研究(1955—1963)》[22]等,權(quán)威網(wǎng)站包括:維基百科[23]、百度百科[24]、人民網(wǎng)[25]、中華人民共和國(guó)外交部[26]、中華人民共和國(guó)駐老撾人民民主共和國(guó)大使館[27]等。
通過(guò)對(duì)上述資料進(jìn)行整理及人工篩選,得到老撾政治外交領(lǐng)域術(shù)語(yǔ)672個(gè),其中將老撾人民革命黨和老撾政府各組織機(jī)構(gòu)及主要領(lǐng)導(dǎo)人、老撾重要的歷史事件和人物、東盟各組織機(jī)構(gòu)等作為重點(diǎn)進(jìn)行收集和整理。篩選標(biāo)準(zhǔn)為:(1)具有領(lǐng)域代表性;(2)得到較為權(quán)威的認(rèn)證;(3)盡量遵循單義性、準(zhǔn)確性和簡(jiǎn)明性;(4)涵蓋廣泛,全稱(chēng)、簡(jiǎn)稱(chēng)、別稱(chēng)等均應(yīng)收錄。其中根據(jù)實(shí)際情況,對(duì)部分術(shù)語(yǔ)進(jìn)行了修正和更新,如涉及組織機(jī)構(gòu)調(diào)整改革的,為保證術(shù)語(yǔ)信息的完整性以及保證后續(xù)信息檢索和信息抽取的準(zhǔn)確性,對(duì)新舊組織機(jī)構(gòu)名都予以保留。
(三)基于相關(guān)文獻(xiàn)的術(shù)語(yǔ)提取
本小節(jié)主要利用CiteSpace對(duì)中國(guó)知網(wǎng)(CNKI)中老撾政治外交領(lǐng)域相關(guān)文獻(xiàn)進(jìn)行可視化分析。CiteSpace最早見(jiàn)于2004年美國(guó)德雷塞爾大學(xué)(Drexel University)陳超美發(fā)表的Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[28],這是一款主要用于計(jì)量和分析科技文獻(xiàn)數(shù)據(jù)的信息可視化軟件,可以用來(lái)繪制科學(xué)和技術(shù)領(lǐng)域發(fā)展的知識(shí)圖譜,直觀(guān)地展現(xiàn)科技知識(shí)領(lǐng)域的信息全景,識(shí)別某一科技領(lǐng)域中的關(guān)鍵文獻(xiàn)、研究熱點(diǎn)和前沿方向,在實(shí)際應(yīng)用中既科學(xué)有效又簡(jiǎn)單易用,且具有豐富美觀(guān)的可視化效果,在國(guó)內(nèi)外信息科學(xué)領(lǐng)域得到了廣泛的應(yīng)用[29]。
在CNKI的高級(jí)檢索功能中,將領(lǐng)域主題限定為政治或外交,將檢索范圍設(shè)定為老撾,由于關(guān)于老撾的文獻(xiàn)數(shù)量較少,所以在檢索老撾相關(guān)文獻(xiàn)時(shí)采取窮盡搜索的辦法,得到2834條結(jié)果(檢索時(shí)間跨度為1979年1月1日—2018年8月10日)。利用CiteSpace對(duì)上述文獻(xiàn)進(jìn)行分析,如圖2所示。在圖2操作的基礎(chǔ)上,對(duì)結(jié)果進(jìn)行可視化處理,得到按詞頻排序的相關(guān)術(shù)語(yǔ)861個(gè)。
(四)小結(jié)
本節(jié)主要通過(guò)兩個(gè)渠道構(gòu)建基礎(chǔ)術(shù)語(yǔ)集,其中對(duì)現(xiàn)有術(shù)語(yǔ)的收集整理主要依靠人工篩選,對(duì)老撾重要政治外交人物、政治外交事件、主要組織機(jī)構(gòu)及其他相關(guān)政治外交術(shù)語(yǔ)做了總結(jié)和統(tǒng)計(jì),獲得術(shù)語(yǔ)672個(gè);利用CiteSpace對(duì)CNKI相關(guān)文獻(xiàn)進(jìn)行可視化分析,獲得術(shù)語(yǔ)861個(gè)。通過(guò)對(duì)這些術(shù)語(yǔ)進(jìn)行領(lǐng)域性分析、刪除重復(fù)項(xiàng)等操作,共獲取政治外交術(shù)語(yǔ)1332個(gè)。
二 老撾政治外交領(lǐng)域擴(kuò)展術(shù)語(yǔ)集的構(gòu)建
擴(kuò)展術(shù)語(yǔ)集的構(gòu)建主要以上述構(gòu)建的基礎(chǔ)術(shù)語(yǔ)集為種子術(shù)語(yǔ),利用Word2Vec的相似詞推薦功能進(jìn)行新詞推薦,然后利用融合知網(wǎng)、同義詞詞林的詞語(yǔ)相似度計(jì)算方法對(duì)推薦的新詞進(jìn)行相似度計(jì)算,最后根據(jù)實(shí)際情況設(shè)定閾值進(jìn)行篩選。具體流程如圖3所示。
(一)基于Word2Vec的新詞推薦
1.Word2Vec簡(jiǎn)介
2003年,本希奧(Yoshua Bengio)等[30]提出了一套用神經(jīng)網(wǎng)絡(luò)建立統(tǒng)計(jì)語(yǔ)言模型的框架(neural network language model),如圖4所示,這為Word2Vec等后續(xù)研究奠定了基礎(chǔ)。
2013年, 米科洛夫(Tomas Mikolov)等人提出了Word2Vec,可用于詞向量計(jì)算,它可以在大規(guī)模數(shù)據(jù)集上進(jìn)行高效訓(xùn)練,得到訓(xùn)練結(jié)果——詞向量(word embedding),由此度量詞語(yǔ)之間的相似度。Word2Vec是一個(gè)淺層神經(jīng)網(wǎng)絡(luò),主要包括CBOW(continuous bag-of-words model)(如圖5)和Skip-gram(如圖6)兩大架構(gòu)模型,這兩種模型實(shí)際上是互為鏡像的,CBOW根據(jù)上下文預(yù)測(cè)當(dāng)前單詞,而Skip-gram根據(jù)給定單詞預(yù)測(cè)上下文。另外,還包括層次softmax算法、負(fù)采樣(negative sampling)算法以及欠采樣(sub-sampling)技術(shù)等[31]。
2.語(yǔ)料收集及預(yù)處理
本文采用八爪魚(yú)網(wǎng)頁(yè)數(shù)據(jù)采集器進(jìn)行網(wǎng)絡(luò)爬蟲(chóng)操作,爬取網(wǎng)站主要包括百度[32]、人民網(wǎng)、新華網(wǎng)[33]、中華人民共和國(guó)外交部、中國(guó)國(guó)際廣播電臺(tái)國(guó)際在線(xiàn)網(wǎng)[34]以及知名公眾號(hào)CRI悅生活、老撾快訊、老撾要聞、老撾那些事兒等。將采集到的數(shù)據(jù)進(jìn)行過(guò)濾處理,去除圖片、標(biāo)簽、未知符號(hào)等無(wú)效數(shù)據(jù),然后利用AnsjSeg[35]對(duì)語(yǔ)料進(jìn)行分詞處理,最后以txt的格式進(jìn)行保存。
3.模型訓(xùn)練
CBOW和Skip-gram兩個(gè)模型都可用來(lái)生成詞的分布式表示,CBOW訓(xùn)練效率更高,速度更快,Skip-gram雖然計(jì)算量較大,但訓(xùn)練質(zhì)量更高,尤其針對(duì)低頻詞的效果更優(yōu),Mikolov等[31]的實(shí)驗(yàn)結(jié)果也印證了這一點(diǎn)。 因此,本研究采用Skip-gram模型。在Word2Vec的訓(xùn)練過(guò)程中,需要設(shè)置一些參數(shù),以保證訓(xùn)練質(zhì)量和速度[36]。主要參數(shù)如表1所示。
參數(shù)設(shè)置完畢后,將預(yù)處理完成的數(shù)據(jù)作為輸入,便可完成Word2Vec的訓(xùn)練工作。然后利用訓(xùn)練好的模型對(duì)種子術(shù)語(yǔ)進(jìn)行新詞推薦,經(jīng)實(shí)驗(yàn)比較,當(dāng)推薦數(shù)量設(shè)置為50以上時(shí),就會(huì)產(chǎn)生較多冗余詞語(yǔ),而設(shè)置為10以下又可能導(dǎo)致重要詞語(yǔ)遺漏。綜合考慮,將推薦閾值設(shè)定為20,由此建立新詞術(shù)語(yǔ)集。
(二)融合知網(wǎng)和同義詞詞林的詞語(yǔ)語(yǔ)義相似度計(jì)算
1.知網(wǎng)、同義詞詞林簡(jiǎn)介
知網(wǎng)創(chuàng)建于1988年,主要是描述概念及其屬性間的網(wǎng)狀關(guān)系。創(chuàng)建者董振東將哲學(xué)思想貫穿于知網(wǎng)構(gòu)建的全過(guò)程,認(rèn)為世界上一切事物都在一定的時(shí)間和空間內(nèi)不停地運(yùn)動(dòng)和變化,而且通常是從一種狀態(tài)變化到另一種狀態(tài),并一般由其屬性值的改變來(lái)體現(xiàn)。知網(wǎng)將高層概念分為N、V、A三大范疇,這三大范疇又包括若干子范疇,具體如表2所示。為了便于理解,其中N相當(dāng)于名詞,V相當(dāng)于動(dòng)詞和部分形容詞,A相當(dāng)于形容詞和副詞,但這只是幫助認(rèn)知,實(shí)際不能如此對(duì)應(yīng)。
知網(wǎng)作為一個(gè)常識(shí)知識(shí)庫(kù),它重點(diǎn)刻畫(huà)的是概念的共性和個(gè)性,此外概念以及屬性間的各種關(guān)系也屬于其描述范圍,知網(wǎng)的全部主要文件構(gòu)成了一個(gè)有機(jī)結(jié)合的知識(shí)系統(tǒng)[37]。概念關(guān)系示例如圖7。
《同義詞詞林》是梅家駒等人于1983年編纂而成的,與WordNet的格式有類(lèi)似之處,即都是用一個(gè)同義詞集合來(lái)表示一個(gè)概念。后來(lái)哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室在此基礎(chǔ)上做了改進(jìn),即《同義詞詞林?jǐn)U展版》。該擴(kuò)展版剔除了原版中大量的罕用詞,最終的詞表包含77 492條詞語(yǔ),其中一詞多義的詞語(yǔ)為8860個(gè),共分為12個(gè)大類(lèi),94個(gè)中類(lèi),1428個(gè)小類(lèi),小類(lèi)下再以同義原則劃分詞群,最細(xì)的級(jí)別為原子詞群[38],由此形成了5層樹(shù)狀結(jié)構(gòu),如圖8。每一層都有相應(yīng)的編碼符號(hào)對(duì)應(yīng),通過(guò)編碼,可以精確定位每一個(gè)節(jié)點(diǎn),詞語(yǔ)編碼如表3所示。
2.融合知網(wǎng)、同義詞詞林的詞語(yǔ)相似度計(jì)算
本文采用朱新華等人提出的綜合知網(wǎng)和同義詞詞林的詞語(yǔ)相似度計(jì)算方法,知網(wǎng)部分根據(jù)義原層次結(jié)構(gòu)的特征,采用了一定的邊權(quán)重策略,改進(jìn)了現(xiàn)有的基于知網(wǎng)的相似度算法;詞林部分采用以詞語(yǔ)距離為主要因素、分支節(jié)點(diǎn)數(shù)和分支間隔為微調(diào)節(jié)參數(shù)的方法,改進(jìn)了現(xiàn)有的詞林詞語(yǔ)相似度算法。然后再根據(jù)詞語(yǔ)的分布情況,采用綜合考慮知網(wǎng)與同義詞詞林的動(dòng)態(tài)加權(quán)策略計(jì)算出最終的詞語(yǔ)語(yǔ)義相似度。該方法充分利用了詞語(yǔ)在知網(wǎng)與詞林中的語(yǔ)義信息,極大地?cái)U(kuò)充了可計(jì)算詞語(yǔ)的范圍,同時(shí)也提高了詞語(yǔ)相似度計(jì)算的準(zhǔn)確率[39]。
(1)改進(jìn)的基于知網(wǎng)的詞語(yǔ)相似度計(jì)算
該方法將詞語(yǔ)相似度計(jì)算轉(zhuǎn)換為對(duì)詞語(yǔ)義項(xiàng)語(yǔ)義表達(dá)式(DEF)的相似度計(jì)算,而義項(xiàng)的相似度計(jì)算又可轉(zhuǎn)化成綜合獨(dú)立義原集合、關(guān)系義原特征結(jié)構(gòu)與關(guān)系符號(hào)義原特征結(jié)構(gòu)的相似度計(jì)算,分別表示為sim1(C1,C2)、sim2(C1,C2)、sim3(C1,C2),這三項(xiàng)相似度因重要程度不同,所占權(quán)重也不同,其中sim1(C1,C2)占大部分比重??紤]到部分詞語(yǔ)有多個(gè)義項(xiàng),兩個(gè)詞語(yǔ)的最終相似度取所有義項(xiàng)組合中相似度最大的值為有效值。最終得到公式①:
(2)改進(jìn)的基于同義詞詞林的詞語(yǔ)相似度計(jì)算
同義詞詞林的整體構(gòu)造是一個(gè)五層樹(shù)形結(jié)構(gòu),因此兩個(gè)詞語(yǔ)在詞林樹(shù)中的連接路徑是影響詞語(yǔ)相似度的主要因素。詞林的第一層是大類(lèi),朱新華等將不屬于同一個(gè)大類(lèi)的詞語(yǔ)間的距離都處理為18,同時(shí)按照低層到高層的順序,賦予層際連接邊越來(lái)越低的權(quán)重Wi(1≤i≤4),且滿(mǎn)足:0.5≤W1≤W2≤W3≤W4≤5,W1+W2+W3+W4≤10,由此提出了一個(gè)以詞語(yǔ)距離d為主要影響因素,分支節(jié)點(diǎn)數(shù)n和分支間隔k為調(diào)節(jié)參數(shù)的同義詞詞林詞語(yǔ)相似度計(jì)算公式②:
式中,dis(C1,C2)是詞語(yǔ)編碼C1和C2在樹(shù)狀結(jié)構(gòu)中的距離函數(shù),等于詞語(yǔ)對(duì)的連接路徑中各邊的權(quán)重之和,可取值2×W1、2×(W1+W2)、2×(W1+W2+W3)、2×(W1+W2+W3+W4)。n和k的表達(dá)式作為e的負(fù)指數(shù),并對(duì)其開(kāi)平方,以此降低公式對(duì)n和k這兩個(gè)參數(shù)的敏感度,避免出現(xiàn)修正幅度過(guò)大的現(xiàn)象。
(3)知網(wǎng)、詞林加權(quán)融合計(jì)算方法
綜合考慮知網(wǎng)和詞林的詞語(yǔ)相似度計(jì)算的總體思想為:對(duì)于任意兩個(gè)詞語(yǔ)W1和W2,按照上述策略分別計(jì)算出它們基于知網(wǎng)及詞林的相似度,記作s1和s2,然后根據(jù)它們?cè)趫D9中的分布情況,為這兩個(gè)相似度分別賦予權(quán)重λ1和λ2,且滿(mǎn)足:λ1+λ2=1,最后按照公式③計(jì)算出綜合知網(wǎng)和詞林的詞語(yǔ)語(yǔ)義相似度:
因?yàn)橹W(wǎng)和詞林屬于兩套不同的知識(shí)庫(kù),因此勢(shì)必會(huì)出現(xiàn)涵蓋范圍不盡相同的情況。大致會(huì)出現(xiàn)以下情況:知網(wǎng)特有的詞語(yǔ)、詞林特有的詞語(yǔ)、兩者共有的詞語(yǔ)以及兩者都未包括的詞語(yǔ)。圖9中, I表示所有詞語(yǔ)構(gòu)成的全集,A表示知網(wǎng)涵蓋的詞語(yǔ)集,B表示詞林涵蓋的詞語(yǔ)集,C表示兩者的交集。
下面以“老撾人民革命黨”為例展示融合策略詞語(yǔ)相似度計(jì)算,見(jiàn)表4。
通過(guò)對(duì)所有推薦的新詞進(jìn)行相似度計(jì)算,觀(guān)察發(fā)現(xiàn)大部分正確新詞的相似值位于0.6以上,因此本文將正確術(shù)語(yǔ)的相似值閾值設(shè)置為0.6,以此方法可將大部分符合要求的新詞術(shù)語(yǔ)篩選出來(lái),然后再人工檢驗(yàn),得到擴(kuò)展術(shù)語(yǔ)2430個(gè),經(jīng)過(guò)領(lǐng)域性分析和去除重復(fù)項(xiàng)等操作,最終共計(jì)獲得2281個(gè)術(shù)語(yǔ)。
(三)小結(jié)
本部分主要利用Word2Vec在基礎(chǔ)術(shù)語(yǔ)集的基礎(chǔ)上進(jìn)行新詞推薦,然后借助知網(wǎng)和詞林在中文詞語(yǔ)概念上的強(qiáng)大描述能力和可計(jì)算化,對(duì)推薦的新詞進(jìn)行了相似詞計(jì)算和篩選,最終得到了2281個(gè)術(shù)語(yǔ),由此構(gòu)建了擴(kuò)展術(shù)語(yǔ)集。
三 結(jié)論及展望
本文利用CiteSpace、Word2Vec、知網(wǎng)、詞林等嘗試構(gòu)建了老撾政治外交領(lǐng)域本體術(shù)語(yǔ)集,包括基礎(chǔ)術(shù)語(yǔ)集和擴(kuò)展術(shù)語(yǔ)集,共計(jì)3613個(gè)術(shù)語(yǔ)。本體術(shù)語(yǔ)的獲取是建立領(lǐng)域本體的關(guān)鍵,是國(guó)家基礎(chǔ)信息資源的重要組成部分,是實(shí)現(xiàn)政治外交領(lǐng)域信息化必不可少的工作。隨著“一帶一路”倡議的深入開(kāi)展,中國(guó)和老撾之間的政治外交往來(lái)日益頻繁,要想及時(shí)、準(zhǔn)確地把握最新政治外交動(dòng)態(tài),制定相應(yīng)的政策、措施,為國(guó)家發(fā)展助力,就必須加強(qiáng)信息抽取能力,而領(lǐng)域本體術(shù)語(yǔ)是提高該能力的“鑰匙”。
本研究仍有很多不足之處,在本體術(shù)語(yǔ)集構(gòu)建的“深度”和“廣度”上還有待進(jìn)一步加強(qiáng)。由于老撾相關(guān)文獻(xiàn)較少,詞典等現(xiàn)有資源也較為匱乏,這在一定程度上制約了領(lǐng)域本體術(shù)語(yǔ)的收集。此外,本文只針對(duì)中文術(shù)語(yǔ)進(jìn)行了獲取,如果用于信息抽取等實(shí)際任務(wù)中,可能會(huì)漏掉重要的英文和老撾文文本。因此,在今后的工作中可以進(jìn)一步細(xì)化概念分析框架,擴(kuò)充更多的文獻(xiàn)資源,并將術(shù)語(yǔ)獲取拓展到英文和老撾文。同時(shí),可以嘗試其他模型和算法,取長(zhǎng)補(bǔ)短,爭(zhēng)取達(dá)到更優(yōu)的效果。
注釋
① 第8位的標(biāo)記有3種,分別是“=”“#”“@”。 “=”代表“相等”“同義”; “#”代表“不等”“同類(lèi)”,屬于相關(guān)詞語(yǔ); “@”代表“自我封閉”“獨(dú)立”,它在詞典中既沒(méi)有同義詞,也沒(méi)有相關(guān)詞。
參考文獻(xiàn)
[1]郝勇,黃勇,覃海倫.老撾概論[M].廣州:世界圖書(shū)出版廣東有限公司,2012.
[2]何陽(yáng)宇.論“一帶一路”與老撾社會(huì)經(jīng)濟(jì)的發(fā)展[J].語(yǔ)文學(xué)刊,2016(1):87-89.
[3]康生.“一帶一路”戰(zhàn)略下中老關(guān)系問(wèn)題研究[D].長(zhǎng)春:吉林大學(xué)碩士學(xué)位論文,2017.
[4]湯青,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語(yǔ)抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,30(1):43-50.
[5]Jacquemin C.Syntagmatic and paradigmatic representations of term variation[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics:Association for Computational Linguistics,1999:341-348.
[6]張桂平,刁麗娜,王裴巖.基于HowNet的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2014,28(5):92-101.
[7]韋小麗,孫涌,張書(shū)奎,等.基于最大熵模型的本體概念獲取方法[J].計(jì)算機(jī)工程,2009,35(24):114-116.
[8]杜波,田懷鳳,王立,等.基于多策略的專(zhuān)業(yè)領(lǐng)域術(shù)語(yǔ)抽取器的設(shè)計(jì)[J].計(jì)算機(jī)工程,2005,31(14):159-160.
[9]黃冰.老撾語(yǔ)漢語(yǔ)詞典[M].尚未正式出版.
[10]程琳.老撾語(yǔ)漢語(yǔ)·漢語(yǔ)老撾語(yǔ)簡(jiǎn)明外交詞典[M].北京:軍事誼文出版社,2013.
[11]世界知識(shí)出版社.解決老撾問(wèn)題的擴(kuò)大的日內(nèi)瓦會(huì)議文件匯編[G].北京:世界知識(shí)出版社,1962.
[12]馮維希.老撾和老撾人民反對(duì)美國(guó)新殖民主義的勝利斗爭(zhēng)[M].北京:人民出版社,1974.
[13]秦欽峙.老撾戰(zhàn)后大事記[M].昆明:云南省社會(huì)科學(xué)院東南亞研究所,1985.
[14]景振國(guó).中國(guó)古籍中有關(guān)老撾資料匯編[M].鄭州:中州古籍出版社,1985.
[15]馬樹(shù)洪,方蕓.列國(guó)志·老撾[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2004.
[16]蔡文欉.老撾[M].北京:世界知識(shí)出版社,2008.
[17]柴尚金.老撾:在革新中騰飛[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2015.
[18]王士錄,趙姝嵐,李秋瑾.新世紀(jì)以來(lái)GMS五國(guó)國(guó)情的演進(jìn):轉(zhuǎn)型與發(fā)展研究[M].北京:中國(guó)社會(huì)科學(xué)出版社,2015.
[19]許寶友.世界主要政黨規(guī)章制度文獻(xiàn):越南、老撾、朝鮮、古巴[M].北京:中央編譯出版社,2016.
[20]埃文斯.老撾史[M].郭繼光,劉剛,王瑩,譯.上海:東方出版中心,2016.
[21]張海冰,周太東.老撾與“一帶一路”[M].北京:時(shí)事出版社,2017.
[22]溫榮剛.美國(guó)對(duì)老撾政策研究(1955—1963)[M].北京:中國(guó)社會(huì)科學(xué)出版社,2018.
[23]維基百科[DB/OL]. [2018-07-20].https://zh.wikipedia.org.
[24]百度百科[DB/OL]. [2018-07-20].https://baike.baidu.com.
[25]人民網(wǎng)[DB/OL]. [2018-07-20].http://www.people.com.cn.
[26]中華人民共和國(guó)外交部[DB/OL]. [2018-07-20].http://www.fmprc.gov.cn/web.
[27]中華人民共和國(guó)駐老撾人民民主共和國(guó)大使館[DB/OL]. [2018-07-20].http://la.china-embassy.org/chn.
[28]Chen C. Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[J].Proceedings of the National Academy of Sciences,2004,101(1):5303-5310.
[29]侯劍華,胡志剛.CiteSpace軟件應(yīng)用研究的回顧與展望[J].現(xiàn)代情報(bào),2013,33(4):99-103.
[30]Bengio Y,Vincent P,Janvin C.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.
[31]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.
[32]百度[DB/OL]. [2018-09-05].https://www.baidu.com.
[33]新華網(wǎng)[DB/OL]. [2018-09-05].http://www.xinhuanet.com.
[34]中國(guó)國(guó)際廣播電臺(tái)國(guó)際在線(xiàn)網(wǎng)[DB/OL]. [2018-09-05].http://www.cri.cn/index.html?lang=zh-CN.
[35]AnsjSeg[DB/OL]. [2018-09-05].http://nlpchina.github.io/ansj_seg.
[36]周練.Word2vec的工作原理及應(yīng)用探究[J].圖書(shū)情報(bào)導(dǎo)刊,2015(2):145-148.
[37]董振東.語(yǔ)義關(guān)系的表達(dá)和知識(shí)系統(tǒng)的建造[J].語(yǔ)言文字應(yīng)用,1998(3):79-85.
[38]劉丹丹,彭成,錢(qián)龍華,等.《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用[J].中文信息學(xué)報(bào),2014,28(2):91-99.
[39]朱新華,馬潤(rùn)聰,孫柳,等.基于知網(wǎng)與詞林的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2016,30(4):29-36.