亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域中文術(shù)語(yǔ)字典的構(gòu)造

        2019-03-27 01:07:18杜翠鳳陳雍君沈文明李建中
        移動(dòng)通信 2019年2期

        杜翠鳳 陳雍君 沈文明 李建中

        【摘? 要】針對(duì)當(dāng)前特定領(lǐng)域中文術(shù)語(yǔ)字典構(gòu)建工程量巨大、自動(dòng)化程度低的問(wèn)題,提出一種基于語(yǔ)義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域的中文術(shù)語(yǔ)字典構(gòu)造方法,以提高構(gòu)造中文術(shù)語(yǔ)字典的智能化程度,減少人工的參與。將語(yǔ)義規(guī)則和關(guān)聯(lián)規(guī)則引入特定領(lǐng)域中文術(shù)語(yǔ)字典的構(gòu)造,在分詞基礎(chǔ)上,采用互信息、上下文以獲取種子詞;其次,以改進(jìn)Textrank創(chuàng)建新術(shù)語(yǔ)或?qū)ΜF(xiàn)有的術(shù)語(yǔ)進(jìn)行擴(kuò)展;最后,結(jié)合語(yǔ)義規(guī)則和關(guān)聯(lián)規(guī)則優(yōu)化本領(lǐng)域的術(shù)語(yǔ),形成特定領(lǐng)域、動(dòng)態(tài)更新的中文術(shù)語(yǔ)字典。實(shí)驗(yàn)證明:本文提出的方法提高了特定領(lǐng)域術(shù)語(yǔ)提取的概率和效率,能夠從語(yǔ)義層面為智能信息檢索與集成、潛在語(yǔ)義分析提供更有效、精準(zhǔn)的信息服務(wù)能力。

        【關(guān)鍵詞】術(shù)語(yǔ)字典;語(yǔ)義規(guī)則;關(guān)聯(lián)規(guī)則;Textrank

        1? ?引言

        人工智能的提出與發(fā)展,要求計(jì)算機(jī)或者機(jī)器人具備從語(yǔ)義層面上認(rèn)知和理解人類語(yǔ)言或者文字的能力,最終實(shí)現(xiàn)信息無(wú)歧義地交互。術(shù)語(yǔ)作為刻畫(huà)、描寫(xiě)領(lǐng)域的基本信息承載單元,是知識(shí)庫(kù)的核心成員,也是本體構(gòu)成的基本單元[1]。術(shù)語(yǔ)提取的準(zhǔn)確率和完備性直接影響到信息檢索和集成的服務(wù)能力,因此,術(shù)語(yǔ)自動(dòng)化提取研究已經(jīng)成為自然語(yǔ)言領(lǐng)域的一個(gè)研究熱點(diǎn)。具體包括:利用互信息、上下文依賴提取文本的種子詞方法[2-4];結(jié)合詞頻方法對(duì)詞語(yǔ)進(jìn)行拼接構(gòu)成關(guān)鍵領(lǐng)域復(fù)合詞[5-7];采用領(lǐng)域一致度、領(lǐng)域相關(guān)度、領(lǐng)域隸屬度定量衡量術(shù)語(yǔ)之間的關(guān)聯(lián)度[8]?;诨バ畔ⅰ⑸舷挛囊蕾?、信息熵的種子詞提取方法,以文本頻繁詞為基準(zhǔn)點(diǎn),采用向前或向后的拼接方式合成文本種子詞,該方法提取的術(shù)語(yǔ)具有較高的完備性,但是計(jì)算復(fù)雜度太高;除此之外,該方法沒(méi)有考慮中文語(yǔ)法層次的問(wèn)題,會(huì)造成大量的非領(lǐng)域復(fù)合詞或者術(shù)語(yǔ)。采用領(lǐng)域一致度、領(lǐng)域相關(guān)度、領(lǐng)域隸屬度的術(shù)語(yǔ)提取方法雖然能夠較好地提取該領(lǐng)域的復(fù)合詞和術(shù)語(yǔ),但是各指標(biāo)的閾值很難找到一個(gè)最佳值。本文在借鑒相關(guān)學(xué)者研究成果的基礎(chǔ)上,在力求字典完備性的基礎(chǔ)上,通過(guò)構(gòu)建種子詞網(wǎng)絡(luò),大大降低詞語(yǔ)關(guān)系計(jì)算的復(fù)雜度。采用改進(jìn)Textrank創(chuàng)建新術(shù)語(yǔ)或?qū)ΜF(xiàn)有的術(shù)語(yǔ)進(jìn)行擴(kuò)展,以滿足特定領(lǐng)域字典的動(dòng)態(tài)更新的要求,符合現(xiàn)代海量文本術(shù)語(yǔ)高速提取的需求。

        2? ?術(shù)語(yǔ)字典提取流程

        術(shù)語(yǔ)字典的提取流程:

        (1)多個(gè)領(lǐng)域語(yǔ)料庫(kù)的非結(jié)構(gòu)化文檔作為語(yǔ)料庫(kù),作為模型的輸入。

        (2)采用互信息、上下文依賴等指標(biāo)提取種子詞,并構(gòu)建種子詞網(wǎng)絡(luò)。

        (3)采用改進(jìn)Textrank算法創(chuàng)建新術(shù)語(yǔ)或者對(duì)現(xiàn)有術(shù)語(yǔ)進(jìn)行擴(kuò)展,形成候選術(shù)語(yǔ)集合。

        (4)采用術(shù)語(yǔ)語(yǔ)義規(guī)則提取候選術(shù)語(yǔ)集合中滿足條件的術(shù)語(yǔ)。

        (5)采用關(guān)聯(lián)規(guī)則,篩選非特定領(lǐng)域的術(shù)語(yǔ),形成特定領(lǐng)域中文術(shù)語(yǔ)字典。

        圖1為術(shù)語(yǔ)字典的提取流程:

        3? ?實(shí)驗(yàn)驗(yàn)證

        3.1? 數(shù)據(jù)說(shuō)明

        本文以中國(guó)知網(wǎng)收集的600份關(guān)于人工智能、移動(dòng)通信、經(jīng)濟(jì)管理領(lǐng)域的文章作為數(shù)據(jù)基礎(chǔ),用于特定領(lǐng)域的術(shù)語(yǔ)提取。采用上述的流程對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)本文提出的算法進(jìn)行驗(yàn)證,將本文算法的提取結(jié)果與基于互信息的提取結(jié)果進(jìn)行對(duì)比。

        3.2? 實(shí)驗(yàn)過(guò)程說(shuō)明

        (1)構(gòu)建種子詞網(wǎng)絡(luò)

        首先,利用hanlp分詞系統(tǒng)對(duì)語(yǔ)料庫(kù)的非結(jié)構(gòu)化文本進(jìn)行詞語(yǔ)的最小單位劃分、詞性標(biāo)注;然后在詞性標(biāo)注的基礎(chǔ)上,從分詞中提取滿足條件的詞語(yǔ)或者詞語(yǔ)組合作為種子詞。本文采用互信息、上下文依賴等幾個(gè)指標(biāo)的綜合值作為種子詞選取的標(biāo)準(zhǔn)。

        針對(duì)傳統(tǒng)互信息會(huì)弱化詞語(yǔ)在語(yǔ)料中出現(xiàn)的概率問(wèn)題,本文引入概率影響系數(shù)對(duì)互信息進(jìn)行改進(jìn),其公式為:

        其中,詞語(yǔ)串S=t1t2…ti,其中ti是被hanlp分詞系統(tǒng)切分的一個(gè)詞語(yǔ)或者詞語(yǔ)組合;f(t)表示頻率;ni是詞語(yǔ)串S出現(xiàn)的次數(shù),Ni是預(yù)料庫(kù)中所有詞語(yǔ)出現(xiàn)的次數(shù)。

        上下文依賴是指在特定窗口內(nèi)在上下文詞語(yǔ)ti已經(jīng)出現(xiàn)的情況下的條件熵,即:

        w是指在特定滑動(dòng)窗口內(nèi)ti出現(xiàn)的情況下某個(gè)詞語(yǔ)出現(xiàn)的概率,而W則表示為特定窗口內(nèi)ti出現(xiàn)的情況下詞語(yǔ)的集合。

        根據(jù)語(yǔ)料庫(kù)設(shè)定互信息和上下文依賴的閾值,如果詞語(yǔ)或者詞語(yǔ)組合均滿足上述的閾值,則將其納入種子詞集合。在此基礎(chǔ)上,由種子集合節(jié)點(diǎn)V以及節(jié)點(diǎn)之間的邊E構(gòu)成種子詞網(wǎng)絡(luò)G=(V, E)。圖2為種子詞網(wǎng)絡(luò)示意圖:

        (2)采用改進(jìn)Textrank創(chuàng)建新術(shù)語(yǔ)或?qū)ΜF(xiàn)有的術(shù)語(yǔ)進(jìn)行擴(kuò)展

        Textrank模型最開(kāi)始用于提取詞語(yǔ)特征,但該模型過(guò)于注重統(tǒng)計(jì)的指標(biāo)來(lái)衡量詞語(yǔ)的特征,并沒(méi)有從語(yǔ)義層面來(lái)反映詞語(yǔ)之間的語(yǔ)義特征。針對(duì)上述問(wèn)題,本文采用語(yǔ)義關(guān)聯(lián)性來(lái)定義種子詞網(wǎng)絡(luò)的權(quán)值,在此基礎(chǔ)上,通過(guò)Textrank模型迭代種子詞網(wǎng)絡(luò)節(jié)點(diǎn)的權(quán)重,直至收斂;然后對(duì)節(jié)點(diǎn)的權(quán)重進(jìn)行Top-N排序,得到Top-N種子詞,若Top-N種子詞之間形成相鄰詞組,則作為術(shù)語(yǔ)提取出來(lái)。

        節(jié)點(diǎn)語(yǔ)義關(guān)聯(lián)性意味著種子詞同時(shí)出現(xiàn)的概率,這符合embedding方法的假設(shè),即擁有相似的上下文。通過(guò)定量衡量種子詞之間的語(yǔ)義層次關(guān)系,以此來(lái)判斷種子詞是否屬于同一類別。而基于語(yǔ)料庫(kù)的embedding方法訓(xùn)練出來(lái)的詞向量是帶有語(yǔ)義相關(guān)關(guān)系的。因此,本文在對(duì)各個(gè)語(yǔ)料庫(kù)進(jìn)行word2vec訓(xùn)練預(yù)處理的基礎(chǔ)上,采用向量之間的相似性來(lái)反映語(yǔ)義關(guān)聯(lián)性的特征:

        其中,wij是詞語(yǔ)ti與tj之間的語(yǔ)義關(guān)聯(lián)性,表示節(jié)點(diǎn)之間的邊連接的重要程度。

        在定義邊連接的重要性程度后,本文采用Textrank模型迭代種子詞網(wǎng)絡(luò)節(jié)點(diǎn)的權(quán)重,其公式為:

        其中,WS(ti)表示節(jié)點(diǎn)的重要性;d表示阻尼系數(shù),通常小于1;tj∈In(ti)表示是詞語(yǔ)ti緊跟tj之后;同理tk∈Out(tj)表示詞語(yǔ)tk緊跟其tj之后。

        根據(jù)語(yǔ)料庫(kù)詞語(yǔ)排序的規(guī)則不斷迭代,直至滿足停止條件后,對(duì)節(jié)點(diǎn)的權(quán)重采用Top-N方式進(jìn)行排序,得到Top-N種子詞。若Top-N種子詞之間形成相鄰詞組,則作為術(shù)語(yǔ)提取出來(lái)。這種方法從語(yǔ)義層面反映構(gòu)成術(shù)語(yǔ)的詞語(yǔ)之間的語(yǔ)義特征,能夠在一定程度上減少不相關(guān)詞語(yǔ)組合的干擾。

        (3)采用中文術(shù)語(yǔ)規(guī)則獲取候選術(shù)語(yǔ)集合

        本文在參考賀海濤[8]等人研究的基礎(chǔ)上,使用詞性分析規(guī)則提取候選術(shù)語(yǔ)集合,其規(guī)則如表1所示:

        其中,限定性定語(yǔ)包括:形容詞、區(qū)別詞、動(dòng)詞、名詞以及數(shù)詞+量詞。

        (4)特定領(lǐng)域中文字典構(gòu)造

        關(guān)聯(lián)規(guī)則的獲取主要是通過(guò)數(shù)據(jù)挖掘的方法從大量的事件記錄數(shù)據(jù)庫(kù)中找出滿足一定條件的最小支持度Minsup和最小置信度Minconf的頻繁模式[10]。

        支持度揭示了術(shù)語(yǔ)mi與mj同時(shí)出現(xiàn)的概率,其公式為:

        置信度則揭示了術(shù)語(yǔ)mi出現(xiàn)后,術(shù)語(yǔ)mj是否會(huì)出現(xiàn)或多大概率會(huì)出現(xiàn),其公式為:

        通過(guò)公式(5)和公式(6)計(jì)算每一個(gè)候選術(shù)語(yǔ)在特定領(lǐng)域中的支持度和置信度,并與設(shè)定的最小支持度和置信度進(jìn)行比較,將小于最小支持度和置信度的候選術(shù)語(yǔ)排除在外,最終形成特定領(lǐng)域的中文字典。

        3.3? 實(shí)驗(yàn)結(jié)果

        本實(shí)驗(yàn)的目的是為了驗(yàn)證本文3.2節(jié)中所提出的中文術(shù)語(yǔ)抽取算法的過(guò)濾性能。為了便于說(shuō)明本文算法的優(yōu)越性,將本文算法與傳統(tǒng)互信息算法進(jìn)行比較,本文算法的改進(jìn)互信息閾值設(shè)定為0.6,傳統(tǒng)互信息算法的閾值設(shè)定為0.4。

        本文算法的步驟為:

        (1)改進(jìn)互信息的閾值為0.6;

        (2)上下文依賴的閾值取0.08;

        (3)改進(jìn)Textrank的閾值為0.01。

        考慮到三個(gè)不同領(lǐng)域術(shù)語(yǔ)的分布特點(diǎn),因此最低支持度的區(qū)間為[0.05, 0.13],最低可信度的區(qū)間為[0.6, 0.8]。

        實(shí)驗(yàn)結(jié)果如圖3所示:

        從實(shí)驗(yàn)結(jié)果看,互信息通過(guò)確定詞語(yǔ)之間的相關(guān)性來(lái)進(jìn)行詞語(yǔ)的拼接,但是這種方法沒(méi)有考慮到詞語(yǔ)的中文語(yǔ)法層次,因此在同樣的查全率的情況下,查準(zhǔn)率較低。本文提出的算法,不僅考慮了詞語(yǔ)的相關(guān)性,還從上下文的角度考慮了詞語(yǔ)之間的位置分布。除此之外,采用支持度和置信度來(lái)提取術(shù)語(yǔ),充分考慮了術(shù)語(yǔ)在領(lǐng)域內(nèi)和不同領(lǐng)域間的分布特征,因此在很大程度上提升了數(shù)據(jù)的查準(zhǔn)率。

        4? ?結(jié)束語(yǔ)

        中文術(shù)語(yǔ)提取自動(dòng)化程度低,在術(shù)語(yǔ)抽取過(guò)程中沒(méi)有考慮到中文語(yǔ)法而導(dǎo)致其抽取結(jié)果出現(xiàn)大量非領(lǐng)域術(shù)語(yǔ)的問(wèn)題。本文提出了一種基于語(yǔ)義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域中文術(shù)語(yǔ)字典的構(gòu)造方法,該方法結(jié)合了自然語(yǔ)言處理與統(tǒng)計(jì)方法的優(yōu)點(diǎn)。首先,在種子詞網(wǎng)絡(luò)構(gòu)建的基礎(chǔ)上,采用改進(jìn)Textrank算法創(chuàng)建新術(shù)語(yǔ)或?qū)ΜF(xiàn)有的術(shù)語(yǔ)進(jìn)行擴(kuò)展,大大提升了術(shù)語(yǔ)創(chuàng)建的速度。然后,采用關(guān)聯(lián)規(guī)則,篩選非特定領(lǐng)域的術(shù)語(yǔ),形成特定領(lǐng)域中文術(shù)語(yǔ)字典。實(shí)驗(yàn)表明,本文提出的基于語(yǔ)義規(guī)則和關(guān)聯(lián)規(guī)則的特定領(lǐng)域中文術(shù)語(yǔ)字典的構(gòu)造方法,能夠以較高的準(zhǔn)確率和效率從特定領(lǐng)域語(yǔ)料庫(kù)提取出中文術(shù)語(yǔ),構(gòu)成動(dòng)態(tài)更新的中文術(shù)語(yǔ)字典。

        參考文獻(xiàn):

        [1] 何燕,穗志方,段慧明,等. 一種結(jié)合術(shù)語(yǔ)部件庫(kù)的術(shù)語(yǔ)提取方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2006,42(33): 4-7.

        [2] 范小麗,劉曉霞. 文本分類中互信息特征選擇方法的研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010(34): 123-125.

        [3] 杜海舟,陳政波,鐘孔露. 基于上下文關(guān)系和TextRank算法的關(guān)鍵詞提取方法[J]. 上海電力學(xué)院學(xué)報(bào), 2017(6): 607-612.

        [4] 黃政豪,崔榮一. 基于術(shù)語(yǔ)自動(dòng)抽取的科技文獻(xiàn)翻譯輔助系統(tǒng)的設(shè)計(jì)[J]. 延邊大學(xué)學(xué)報(bào):自然科學(xué)版, 2017(3): 74-78.

        [5] 陳宇,朱建鋒,吳毅堅(jiān),等. 一種基于領(lǐng)域本體的新術(shù)語(yǔ)擴(kuò)充方法[J]. 計(jì)算機(jī)工程, 2011,37(7): 24-27.

        [6] 李伊瀟,李宏偉,沈立煒,等. 基于啟發(fā)式規(guī)則的自動(dòng)化本體擴(kuò)充[J]. 計(jì)算機(jī)科學(xué), 2016,43(3): 213-219.

        [7] 王衛(wèi)民,賀冬春,符建輝. 基于種子擴(kuò)充的專業(yè)術(shù)語(yǔ)識(shí)別方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2012,29(11): 4105-4107.

        [8] 賀海濤,鄭山紅,李萬(wàn)龍,等. 基于關(guān)聯(lián)規(guī)則和語(yǔ)義規(guī)則的本體概念提取研究[J]. 吉林大學(xué)學(xué)報(bào):信息科學(xué)版, 2014,32(6): 657-663.

        [9] 朱惠,楊建林,王昊. 中文學(xué)科術(shù)語(yǔ)相關(guān)語(yǔ)義關(guān)系獲取方法研究[J]. 圖書(shū)與情報(bào), 2017(2): 125-132.

        [10] 葉圣俊,孫濟(jì)慶,李楠. 基于詞素的中文術(shù)語(yǔ)語(yǔ)義關(guān)聯(lián)研究[J]. 圖書(shū)館雜志, 2017(1): 80-87.

        五月丁香六月综合激情在线观看| 中文字幕无线码一区二区| 日本大骚b视频在线| 亚洲av成人综合网| 91久久国产情侣真实对白| 日本高清在线播放一区二区 | 亚洲一区二区三区四区五区黄| 少妇放荡的呻吟干柴烈火动漫| 无码Av在线一区二区三区| 丰满熟女人妻一区二区三区| 色欲一区二区三区精品a片 | 国产优质女主播在线观看| 麻豆国产精品一区二区三区| 美女脱了内裤张开腿让男人桶网站| 亚洲av无码成人精品区天堂| 亚洲国产一区久久yourpan| 二区免费在线视频观看| 无码国产69精品久久久久孕妇 | 亚洲一区二区三区重口另类| 亚洲国产精品无码专区在线观看 | 一本色道无码道在线观看| 一国产区在线观看| 天堂av在线播放观看| 中国一级黄色片久久久| 亚洲aⅴ在线无码播放毛片一线天| 亚洲欧洲久久久精品| 国产三级不卡在线观看视频| 国产激情无码一区二区| 亚洲av乱码中文一区二区三区| 在线免费观看亚洲天堂av| 国产青青草在线观看视频| 熟妇人妻av中文字幕老熟妇| 国产精品久久久久久久专区| 国产亚洲3p一区二区| 天堂网www资源在线| 欧美成人专区| 国产一区二区在线观看av| 欧美大胆性生话| 亚洲人成网站在线观看播放| 国产在线视频网站不卡| 国产无套中出学生姝|