亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合語(yǔ)境與布朗聚類(lèi)特征的上下位關(guān)系驗(yàn)證

        2015-01-06 08:21:05張志昌陳松毅馬慧芳
        計(jì)算機(jī)工程 2015年2期
        關(guān)鍵詞:評(píng)測(cè)布朗語(yǔ)義

        張志昌,陳松毅,劉 鑫,馬慧芳

        (西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州730070)

        結(jié)合語(yǔ)境與布朗聚類(lèi)特征的上下位關(guān)系驗(yàn)證

        張志昌,陳松毅,劉 鑫,馬慧芳

        (西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州730070)

        對(duì)海量文本語(yǔ)料進(jìn)行上下位語(yǔ)義關(guān)系自動(dòng)抽取是自然語(yǔ)言處理的重要內(nèi)容,利用簡(jiǎn)單模式匹配方法抽取得到候選上下位關(guān)系后,對(duì)其進(jìn)行驗(yàn)證過(guò)濾是難點(diǎn)問(wèn)題。為此,分別通過(guò)對(duì)詞匯語(yǔ)境相似度與布朗聚類(lèi)相似度計(jì)算,提出一種結(jié)合語(yǔ)境相似度和布朗聚類(lèi)相似度特征對(duì)候選下位詞集合進(jìn)行聚類(lèi)的上下位關(guān)系驗(yàn)證方法。通過(guò)對(duì)少量已標(biāo)注訓(xùn)練語(yǔ)料的語(yǔ)境相似度和布朗聚類(lèi)相似度進(jìn)行計(jì)算,得到驗(yàn)證模型和2種相似度的結(jié)合權(quán)重系數(shù)。該方法無(wú)需借助現(xiàn)有的詞匯關(guān)系詞典和知識(shí)庫(kù),可對(duì)上下位關(guān)系抽取結(jié)果進(jìn)行有效過(guò)濾。在CCF NLP&2012詞匯語(yǔ)義關(guān)系評(píng)測(cè)語(yǔ)料上進(jìn)行實(shí)驗(yàn),結(jié)果表明,與模式匹配和上下文比較等方法相比,該方法可使F值指標(biāo)得到明顯提升。

        上下位關(guān)系;語(yǔ)境相似度;布朗聚類(lèi)相似度;點(diǎn)互信息;模式匹配;聚類(lèi)驗(yàn)證

        1 概述

        詞匯上下位關(guān)系是指詞匯概念之間在語(yǔ)義上的從屬關(guān)系,即給定概念A(yù)和B,若A的外延包含B的外延,則認(rèn)為A和B具有上下位關(guān)系,即A是B的上位概念,B是A的下位概念,這種關(guān)系也被稱(chēng)作“is-a”關(guān)系,記作ISA(B,A)。例如,“中國(guó)是一個(gè)國(guó)家”,則“國(guó)家”是“中國(guó)”的上位概念,即ISA(中國(guó),國(guó)家)。這種語(yǔ)義上的詞匯上下位關(guān)系在本體知識(shí)庫(kù)構(gòu)建、機(jī)器翻譯、自動(dòng)問(wèn)答等自然語(yǔ)言領(lǐng)域的相關(guān)應(yīng)用中起著重要的作用。自文獻(xiàn)[1]開(kāi)始,已有很多關(guān)于上下位關(guān)系自動(dòng)抽取的研究。但多數(shù)抽取方法都面臨一個(gè)重要問(wèn)題:如何驗(yàn)證抽取到的一組候選上下位關(guān)系詞匯實(shí)例是否真正屬于同一個(gè)語(yǔ)義類(lèi),即候選上下位關(guān)系的驗(yàn)證問(wèn)題[2-3]。

        本文提出一種基于統(tǒng)計(jì)并且無(wú)指導(dǎo)的詞匯上下位關(guān)系驗(yàn)證方法。利用簡(jiǎn)單的模式匹配方法獲得候選的詞匯上下文關(guān)系后,通過(guò)計(jì)算詞匯語(yǔ)境相似度和布朗聚類(lèi)的相似度,將兩者進(jìn)行結(jié)合作為新的相似度特征,通過(guò)對(duì)上位詞的全部候選下位詞進(jìn)行K-means聚類(lèi)來(lái)對(duì)候選上下位關(guān)系進(jìn)行驗(yàn)證和選擇。

        2 相關(guān)研究

        對(duì)已有的研究成果進(jìn)行總結(jié),可將詞匯上下位關(guān)系自動(dòng)抽取的方法大致分為以下3類(lèi):

        (1)基于模式匹配的方法

        該方法以文獻(xiàn)[1]的研究為代表,主要根據(jù)特定語(yǔ)言的使用習(xí)慣,將人工設(shè)置的多種匹配模式在大語(yǔ)料中進(jìn)行匹配來(lái)獲取上下位關(guān)系。例如:設(shè)置模式形如“Bis a A”,“Bis a kind ofA”,“B,Cand otherA”等(中文模式如:“B是一個(gè)/類(lèi)/種A”等)。該方法有不同的變體,如文獻(xiàn)[4]使用模式自舉方法,而文獻(xiàn)[5]使用了詞性模板。該方法實(shí)現(xiàn)簡(jiǎn)單,并且模式的形式符合語(yǔ)言使用習(xí)慣,容易理解。但由于模式是由人來(lái)構(gòu)造,模式的形式單一,只能覆蓋部分詞匯的表達(dá)形式,因此存在稀疏性問(wèn)題[6],導(dǎo)致系統(tǒng)的準(zhǔn)確率和召回率相對(duì)偏低。

        (2)基于語(yǔ)義詞典、知識(shí)庫(kù)的方法

        目前廣泛使用的語(yǔ)義詞典、在線百科等知識(shí)庫(kù)中都含有同義、反義、上下位關(guān)系等語(yǔ)義信息(英文有WordNet[7],Wikipedia,Freebase等,中文有HowNet、百度百科、互動(dòng)百科等)。許多語(yǔ)義關(guān)系的抽取研究借助于此類(lèi)語(yǔ)義詞典、知識(shí)庫(kù)所包含的語(yǔ)義信息[6,8]。但由于此類(lèi)語(yǔ)義詞典的構(gòu)建多由人工參與,耗時(shí)耗力,因此往往其知識(shí)覆蓋范圍非常有限,且實(shí)時(shí)性較弱,無(wú)法及時(shí)體現(xiàn)最新的語(yǔ)言現(xiàn)象。

        (3)基于統(tǒng)計(jì)的方法

        這類(lèi)方法基于統(tǒng)計(jì)思想,通過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建語(yǔ)義模型,應(yīng)用分類(lèi)等數(shù)據(jù)挖掘技術(shù)計(jì)算不同概念之間的相關(guān)程度來(lái)獲取上下位關(guān)系。文獻(xiàn)[9]運(yùn)用依存句法構(gòu)建語(yǔ)義模型,通過(guò)SVM進(jìn)行分類(lèi)來(lái)抽取上下位關(guān)系,文獻(xiàn)[10]運(yùn)用了一種非線性概率模型,文獻(xiàn)[11]構(gòu)建了概念空間,并運(yùn)用了潛在語(yǔ)義分析。該類(lèi)方法越來(lái)越普遍地使用在語(yǔ)義關(guān)系抽取任務(wù)中。該類(lèi)方法普遍基于以下假設(shè):語(yǔ)義相似的概念出現(xiàn)在相似的上下文之中。

        針對(duì)已有方法的特點(diǎn)和不足,本文提出一種基于統(tǒng)計(jì)并且無(wú)指導(dǎo)的詞匯上下位關(guān)系驗(yàn)證方法,該方法和已有方法的區(qū)別在于:(1)利用無(wú)指導(dǎo)的聚類(lèi)方法對(duì)上下位關(guān)系進(jìn)行驗(yàn)證選擇;(2)將聚類(lèi)所用的相似度特征在傳統(tǒng)的語(yǔ)境相似度的基礎(chǔ)上結(jié)合了詞匯的布朗聚類(lèi)相似度。

        3 候選上下位關(guān)系的獲取

        借鑒文獻(xiàn)[12]方法,本文對(duì)候選上下位關(guān)系的獲取方法進(jìn)行了擴(kuò)展,其實(shí)質(zhì)是一種改良的基于模式匹配的方法。根據(jù)中文語(yǔ)法特點(diǎn)構(gòu)造表1中的模式,然后利用搜索引擎索抽取大量能夠匹配該模式的上下位候選上下位關(guān)系詞對(duì)。在表1中,模式1為基本模式,模式2~模式4為模式1的擴(kuò)展模式,即通過(guò)擴(kuò)展模式對(duì)基本模式獲得的抽取結(jié)果進(jìn)行自舉擴(kuò)展。

        表1 上下位關(guān)系抽取模式

        抽取算法如下:

        輸入上位詞C,閾值R(本文設(shè)R=5)

        輸出與C對(duì)應(yīng)的實(shí)例集合IS=[I1,I2,…,In]

        步驟1通過(guò)模式1在搜索引擎中進(jìn)行查詢(xún)獲得支持句。從而獲得候選上下位關(guān)系詞對(duì),放入集合IS?。

        步驟2對(duì)于集合IS?的每個(gè)元素,分別根據(jù)模式2~模式4構(gòu)造相應(yīng)的查詢(xún)字符串,獲得相應(yīng)的擴(kuò)展支持句,并從中獲得擴(kuò)展后的上下位關(guān)系候選詞對(duì)。

        步驟3統(tǒng)計(jì)擴(kuò)展詞的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于閾值R次的詞語(yǔ)放入集合IS中。

        步驟4重復(fù)步驟2~步驟3,直到擴(kuò)展詞數(shù)量不再明顯增加。

        通過(guò)抽取算法可以獲得一定數(shù)量的候選上下位關(guān)系。通過(guò)實(shí)驗(yàn)可知,對(duì)獲取結(jié)果進(jìn)行自舉擴(kuò)展對(duì)召回率有較大的提高,但同時(shí)又增加了錯(cuò)誤結(jié)果的數(shù)量,準(zhǔn)確率大大降低。因此,為有效提高準(zhǔn)確率,本文提出一種基于語(yǔ)境特征與布朗聚類(lèi)相結(jié)合的上下位關(guān)系驗(yàn)證方法,用于對(duì)模式匹配的結(jié)果進(jìn)行驗(yàn)證過(guò)濾。

        4 語(yǔ)境與布朗聚類(lèi)特征結(jié)合的關(guān)系驗(yàn)證

        將詞匯的語(yǔ)境相似度特征和布朗聚類(lèi)相似度特征結(jié)合起來(lái),通過(guò)聚類(lèi)進(jìn)行詞匯的上下位關(guān)系驗(yàn)證,也是基于分布假設(shè),即語(yǔ)義相似的概念出現(xiàn)在相似的上下文中。根據(jù)聚類(lèi)理論:同一類(lèi)別中的對(duì)象相似度較高,而不同類(lèi)別中的對(duì)象相似度較小。同理,在候選上下位關(guān)系中,具有相同類(lèi)別候選詞的相似度較高,反之,相似度較低。

        基于上述分析,本文將K-means聚類(lèi)作為候選上下位關(guān)系的驗(yàn)證方法。在聚類(lèi)過(guò)程中所使用的相似度分別為語(yǔ)境相似度、布朗聚類(lèi)相似度和兩者加權(quán)調(diào)和平均結(jié)合之后的相似度。

        4.1 語(yǔ)境相似度特征

        每個(gè)實(shí)體詞在自然文本中都有各自的使用環(huán)境,即語(yǔ)境。語(yǔ)境即言語(yǔ)環(huán)境,分為狹義和廣義2種。狹義的語(yǔ)境是指書(shū)面語(yǔ)的上下文或口語(yǔ)的前言后語(yǔ)所形成的言語(yǔ)環(huán)境。后者則是指言語(yǔ)表達(dá)時(shí)的具體環(huán)境(既可指具體場(chǎng)合、也可指社會(huì)環(huán)境)。本文使用的詞匯語(yǔ)境是指前者,即自然文本中的上下文信息。例如,“國(guó)家”一詞常常出現(xiàn)在“舉辦”、“經(jīng)濟(jì)”等語(yǔ)境詞之中,“中國(guó)”和“國(guó)家”有著相似的語(yǔ)境,但“中國(guó)人”跟“國(guó)家”的語(yǔ)境就有很大區(qū)別。如果可以獲得概念的語(yǔ)境信息,就可以利用該信息對(duì)相應(yīng)的上下位關(guān)系進(jìn)行驗(yàn)證,從而過(guò)濾錯(cuò)誤結(jié)果。

        鑒于點(diǎn)互信息(Point Mutual Information,PMI)能較好地反映詞匯與特征之間的共現(xiàn)關(guān)系,本文采用點(diǎn)互信息來(lái)選擇和衡量詞的語(yǔ)境特征及其權(quán)重,對(duì)詞的語(yǔ)境信息進(jìn)行量化建模。詞匯wi與上下文語(yǔ)境特征fj之間的點(diǎn)互信息定義為:

        其中,P(wi,fj)是詞wi和上下文語(yǔ)境特征fj的共現(xiàn)概率;P(wi)和P(fj)分別是詞的出現(xiàn)概率,它們均可從語(yǔ)料庫(kù)中用最大似然估計(jì)得到。

        首先,通過(guò)點(diǎn)互信息值構(gòu)造出目標(biāo)詞的語(yǔ)境特征詞集合。本文通過(guò)對(duì)大量文本語(yǔ)料進(jìn)行統(tǒng)計(jì),取得與目標(biāo)詞互信息值最大的前20個(gè)詞,并將這些詞作為目標(biāo)詞的語(yǔ)境特征詞,記作CF(T)。CF(T)是一個(gè)詞集合,例如,“體育運(yùn)動(dòng)”的語(yǔ)境特征詞如表2所示。

        表2 “體育運(yùn)動(dòng)”的語(yǔ)境特征詞集合

        根據(jù)向量空間模型可以構(gòu)造該詞的語(yǔ)境特征向量Tcf=(w1,t,w2,t,…,wN,t),其中,權(quán)重值wN,t為在目標(biāo)詞和第n維上的語(yǔ)境特征詞之間的點(diǎn)互信息值;N為詞匯表中的詞量。本文通過(guò)計(jì)算2個(gè)語(yǔ)境特征向量的余弦相似度值來(lái)得到兩詞之間的語(yǔ)境相似度,即:

        4.2 布朗聚類(lèi)相似度特征

        聚類(lèi)方法是數(shù)據(jù)挖掘中通過(guò)特征進(jìn)行無(wú)監(jiān)督分類(lèi)的有效方法。本文首先使用布朗聚類(lèi)計(jì)算出各個(gè)候選下位詞的前綴編碼[13],得到候選詞間布朗相似度,然后使用K-Means聚類(lèi)方法進(jìn)行多次聚類(lèi),通過(guò)計(jì)算上位詞與每個(gè)候選詞子集的距離,選擇距離更近的一個(gè),即可達(dá)到上下位關(guān)系驗(yàn)證的目的。

        布朗聚類(lèi)算法是文獻(xiàn)[13]提出的一種基于純文本的以詞為處理單位的聚類(lèi)算法。該方法用于分析未標(biāo)注的大語(yǔ)料詞匯聚合分布情況,并根據(jù)詞分布相似度對(duì)詞進(jìn)行聚類(lèi)。

        定義分類(lèi)器C,C:V→{1,2,…,k}表示C將V中的詞劃分為k類(lèi),其中,V為詞匯表。

        布朗聚類(lèi)模型定義如下:

        其中,w1,w2,…,wn是自然句詞序列;e表示在wi的分類(lèi)下產(chǎn)生詞wi的概率;q表示wi-1出現(xiàn)后接wi的概率,即:

        根據(jù)以上定義,將分類(lèi)器評(píng)價(jià)函數(shù)定義為:

        其中,G為常數(shù)。

        通過(guò)對(duì)語(yǔ)料進(jìn)行布朗聚類(lèi)分析,可得每個(gè)詞的前綴編碼(記為M(word)),在此基礎(chǔ)上可構(gòu)造一顆分類(lèi)樹(shù)。根據(jù)分布假設(shè)可以知,具有相似前綴碼的詞的語(yǔ)義相似度較高,即分享同一個(gè)節(jié)點(diǎn)的詞的語(yǔ)義相似度較高。所以,對(duì)于每一個(gè)從模式支持句中獲得的候選上下位關(guān)系候選,本文使用候選詞之間的布朗聚類(lèi)相似度SimBrown(A,B)進(jìn)行驗(yàn)證過(guò)濾。

        定義A,B節(jié)點(diǎn)距離為NodeDis(A,B):

        其中,BLSS(M(A),M(B))表示A和B前綴碼從根開(kāi)始的最長(zhǎng)連續(xù)公共子序列;Len(S)代表序列長(zhǎng)度。

        通過(guò)節(jié)點(diǎn)距離,本文定義兩節(jié)點(diǎn)布朗聚類(lèi)相似度為:

        4.3 語(yǔ)境和布朗聚類(lèi)結(jié)合的相似度特征

        除了利用語(yǔ)境相似度(SimCF)和布朗聚類(lèi)相似度(SimBrown)作為K-means聚類(lèi)的相似度特征,對(duì)候選上下位關(guān)系進(jìn)行聚類(lèi)驗(yàn)證之外,本文提出一種基于2種相似度相結(jié)合的新的相似度特征計(jì)算方法。該方法采用加權(quán)調(diào)和平均的方式結(jié)合了語(yǔ)境、布朗2種相似度。具體的結(jié)合公式如下:

        其中,α是結(jié)合系數(shù)。

        通過(guò)式(9)計(jì)算出的候選上下位關(guān)系相似度值越高,則目標(biāo)候選上下位關(guān)系屬于正確關(guān)系的概率也就越大。所以,參數(shù)α優(yōu)化過(guò)程的實(shí)質(zhì)為使得∑AllSimilarity(A,B)最大化的過(guò)程。通過(guò)訓(xùn)練可知,α=0.595時(shí)獲得最佳效果。

        以結(jié)合相似度為例,選擇上位詞“主食”和其候選下位詞,如表3所示。

        表3 “主食”的候選下位詞集合

        將候選下位詞集合中的所有詞基于式(9)所得的相似度進(jìn)行K-means聚類(lèi)(本文取K=2),可得到如圖1所示的散點(diǎn)圖,該圖體現(xiàn)點(diǎn)間距離的聚合關(guān)系,其坐標(biāo)無(wú)實(shí)義。

        圖1 “主食”的候選下位詞集合聚類(lèi)散點(diǎn)圖

        從圖1可得候選詞集合的2個(gè)子集。定義上位詞與候選詞子集距離如下:

        其中,[B1,B2,…,Bn]是上位詞A的下位詞集合。

        通過(guò)式(10)計(jì)算上位詞與每個(gè)候選詞子集的距離,選擇距離更近的一個(gè),并對(duì)結(jié)果進(jìn)行多次迭代過(guò)濾,即可達(dá)到候選上下位關(guān)系驗(yàn)證過(guò)濾的目的。

        5 實(shí)驗(yàn)結(jié)果與分析

        5.1 評(píng)測(cè)語(yǔ)料與評(píng)價(jià)標(biāo)準(zhǔn)

        本文采用CCF NLP&CC 2012語(yǔ)義關(guān)系識(shí)別標(biāo)準(zhǔn)評(píng)測(cè)集作為詞匯上下位關(guān)系驗(yàn)證方法的訓(xùn)練和評(píng)測(cè)語(yǔ)料。該評(píng)測(cè)集包含256個(gè)上位詞和分別與之對(duì)應(yīng)的5 718個(gè)下位詞。評(píng)測(cè)集的數(shù)據(jù)來(lái)源包括普通詞典、百科詞條、敘詞表等多種資源。詞匯的詞性包括普通名詞和專(zhuān)有名詞。評(píng)測(cè)集格式如表4所示。

        表4 CCF NLP&CC 2012標(biāo)準(zhǔn)評(píng)測(cè)集中“廟號(hào)”的下位詞

        本文將評(píng)測(cè)集等分為訓(xùn)練集和測(cè)試集2個(gè)部分,每部分各有128個(gè)上位詞,分別用于結(jié)合權(quán)重系數(shù)α的確定訓(xùn)練和方法的驗(yàn)證測(cè)試。

        評(píng)測(cè)方法使用CCF NLP&CC 2012語(yǔ)義關(guān)系識(shí)別中的評(píng)測(cè)方法[14]。對(duì)抽取到的候選中文詞匯上下位關(guān)系進(jìn)行驗(yàn)證過(guò)濾,然后對(duì)結(jié)果采用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-measure)3個(gè)評(píng)測(cè)指標(biāo)進(jìn)行評(píng)價(jià)。

        5.2 權(quán)重系數(shù)α的確定

        單個(gè)上位詞與其對(duì)應(yīng)下位詞相似度計(jì)算公式如下:

        其中,Qk為k個(gè)詞相似度。

        在計(jì)算出訓(xùn)練集中所有128個(gè)上位詞與它們分別對(duì)應(yīng)的下位詞的語(yǔ)境特征相似度、布朗聚類(lèi)相似度之后,可計(jì)算出訓(xùn)練集中所有上位詞與其對(duì)應(yīng)下位詞的結(jié)合相似度值,公式如下:

        根據(jù)訓(xùn)練集計(jì)算出所有的SimCF(Ak,Bk,i)和SimBrown(Ak,Bk,i)之后,式(12)就成為了關(guān)于α的函數(shù)。依照上文分析,為使Q128最大,對(duì)該函數(shù)求導(dǎo),且令Q’=0,所獲得的極值點(diǎn),即最優(yōu)的α值:

        令Xik=SimCF(Ak,Bik),Yik=SimBrown(Ak,Bik),則有:

        根據(jù)訓(xùn)練集數(shù)據(jù)(128個(gè)上位詞),計(jì)算可得α= 0.595。

        5.3 結(jié)果分析

        綜合上述方法,對(duì)CCF NLP&CC 2012語(yǔ)義關(guān)系識(shí)別評(píng)測(cè)集中的上位詞(即測(cè)試集中的128個(gè)詞)做上下位關(guān)系抽取。本文使用搜狗實(shí)驗(yàn)室2012年發(fā)布的全網(wǎng)新聞數(shù)據(jù)和搜狐新聞數(shù)據(jù)(http://www. sogou.com/labs/resources.html)作為下位詞抽取的主要數(shù)據(jù)來(lái)源,以訓(xùn)練語(yǔ)境特征模型和布朗聚類(lèi)模型。該數(shù)據(jù)集為2012年6月-2012年7月國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂(lè)等18個(gè)頻道的新聞數(shù)據(jù),共包含2 623 521篇文檔。

        首先用模式匹配和模式自舉的方法抽取下位詞,對(duì)獲得的候選上下位關(guān)系集合進(jìn)行性能評(píng)測(cè),評(píng)測(cè)結(jié)果如表5所示。

        表5 基于模式匹配的上下位關(guān)系抽取結(jié)果

        由表5可以看出,通過(guò)模式匹配抽取上下位關(guān)系的方法可以獲得較多的候選結(jié)果,獲得相對(duì)較高的召回率,但準(zhǔn)確率很低。通過(guò)對(duì)抽取結(jié)果進(jìn)行進(jìn)一步的自舉擴(kuò)展,召回率方面獲得了約10%的提升,但準(zhǔn)確率進(jìn)一步下降。說(shuō)明模式自舉擴(kuò)展方法在提升召回率的同時(shí)使得錯(cuò)誤結(jié)果數(shù)量也同時(shí)增大。

        在模式匹配方法獲取的候選結(jié)果基礎(chǔ)上,本文分別使用語(yǔ)境特征相似度聚類(lèi)驗(yàn)證方法、布朗聚類(lèi)相似度聚類(lèi)驗(yàn)證方法和二者結(jié)合的相似度特征聚類(lèi)方法,對(duì)測(cè)試集進(jìn)行驗(yàn)證過(guò)濾,不同方法的性能對(duì)比如表6所示。

        表6 不同上下位關(guān)系驗(yàn)證方法的性能對(duì)比

        從表6可知,對(duì)候選上下位關(guān)系分別進(jìn)行基于語(yǔ)境特征相似度的聚類(lèi)驗(yàn)證和基于布朗聚類(lèi)相似度的聚類(lèi)驗(yàn)證,抽取結(jié)果的準(zhǔn)確率和F值均獲得較大幅度的提升。但2種相似度特征結(jié)合后獲得了比單一特征方法更好的效果,即證明了結(jié)合語(yǔ)境相似度和布朗聚類(lèi)相似度為特征的上下位關(guān)系聚類(lèi)驗(yàn)證方法的有效性。

        將本文方法與其他參與了CCF NLP&CC 2012語(yǔ)義關(guān)系識(shí)別評(píng)測(cè)的中科院聲學(xué)所等5種系統(tǒng)[15]進(jìn)行比較,不同系統(tǒng)的方法性能比較情況如表7所示。

        表7 本文方法與其他系統(tǒng)的方法評(píng)測(cè)結(jié)果對(duì)比

        由表7可見(jiàn),在參與該次評(píng)測(cè)的所有方法中,方法5所使用方法在F值上取到了較好的性能,該方法主要是通過(guò)使用維基百科和百度百科等現(xiàn)有的開(kāi)放語(yǔ)義資源,并結(jié)合模板匹配和復(fù)合詞拆解的方法得到了較高的準(zhǔn)確率和召回率??梢哉J(rèn)為該方法是一種基于現(xiàn)有知識(shí)詞庫(kù)和在線百科的上下位關(guān)系抽取方法。而本文所提出的方法無(wú)需借助現(xiàn)有上下位關(guān)系詞庫(kù)和在線百科,同樣達(dá)到了較好的性能。

        另外,由于測(cè)評(píng)結(jié)果根據(jù)CCF NLP&CC 2012語(yǔ)義關(guān)系所使用的標(biāo)準(zhǔn)評(píng)測(cè)集所判定,但該標(biāo)準(zhǔn)評(píng)測(cè)集中所包含的上下位關(guān)系相對(duì)有限,從而導(dǎo)致結(jié)果測(cè)試指標(biāo)普遍偏低。例如,“傳輸協(xié)議”一詞在標(biāo)準(zhǔn)集中的下位詞集合與本文抽取結(jié)果對(duì)比如圖2所示。由圖2可見(jiàn),在使用本文抽取方法獲得的結(jié)果中只有“網(wǎng)絡(luò)傳輸協(xié)議”一詞出現(xiàn)在標(biāo)準(zhǔn)評(píng)測(cè)集中,而根據(jù)人工評(píng)測(cè),本文方法抽取到了更多的正確結(jié)果。因此,CCF NLP&&CC 2012的評(píng)測(cè)集對(duì)上下位關(guān)系的覆蓋并不完備。鑒于此,筆者對(duì)本文方法抽取結(jié)果進(jìn)行了人工評(píng)測(cè)(僅計(jì)算準(zhǔn)確率),評(píng)測(cè)結(jié)果如表8所示。

        圖2 “傳輸協(xié)議”在標(biāo)準(zhǔn)評(píng)測(cè)集中的下位詞集合與本文抽取結(jié)果對(duì)比

        表8 人工評(píng)測(cè)結(jié)果

        6 結(jié)束語(yǔ)

        詞匯的上下位關(guān)系在自然語(yǔ)言處理領(lǐng)域有著重要的應(yīng)用價(jià)值。本文提出一種結(jié)合語(yǔ)境相似度特征和布朗聚類(lèi)相似度特征的詞匯上下位關(guān)系聚類(lèi)驗(yàn)證方法,該方法在模式匹配方法抽取結(jié)果的基礎(chǔ)上對(duì)上下位關(guān)系進(jìn)行驗(yàn)證過(guò)濾。在CCF NLP&CC 2012評(píng)測(cè)語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,該方法實(shí)現(xiàn)簡(jiǎn)單,同時(shí)可取得較好的效果。

        本文方法的不足在于語(yǔ)境特征提取過(guò)程和布朗聚類(lèi)過(guò)程所需時(shí)間較長(zhǎng),且由于中文普遍存在的分詞(詞組)問(wèn)題也對(duì)結(jié)果有較大的影響。下一步將嘗試使用更高效的上下位詞抽取方法,并結(jié)合有監(jiān)督的自動(dòng)分類(lèi)方法對(duì)候選上下位關(guān)系進(jìn)行是否為上下位關(guān)系的分類(lèi)判斷,以進(jìn)一步優(yōu)化驗(yàn)證效果。

        [1] Hearst M.Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of COLING’92. New York,USA:[s.n.],1992:539-545.

        [2] Kozareva Z,Riloff E,Hovy E.Semantic Class Learning fromtheWebwithHyponymPatternLinkage Graphs[C]//Proceedings of the 46th Annual Meeting oftheAssociationforComputationalLinguistics: HumanLanguageTechnologies.Columbus,USA: [s.n.],2008:1048-1056.

        [3] Kozareva Z,Hovy E.A Semi-supervised Method to Learn and Construct Taxonomies Using the Web[C]// Proceedings of EMNLP’10.Boston,USA:[s.n.], 2010:1110-1118.

        [4] Zhang Chunxia,Jiang Peng.Automatic Extraction of Definitions[C]//Proceedings of ICCSIT’09.Beijing, China:[s.n.],2009:364-368.

        [5] Westerhout E.Definition Extraction Using Linguistic and StructuralFeatures[C]//Proceedingsofthe1st Workshop on Definition Extraction.Borovets,Bulgaria: [s.n.],2009:61-67.

        [6] Akiba T,Sakai T.Japanese Hyponymy Extraction Based on a Term Similarity Graph[R].Tokyo,Japan:IPSJ SIG,Technical Reprot:2011-IFAT-104,2011.

        [7] Miller G A.WordNet:A Lexical Database for English[J]. Communications of the ACM,1995,38(11):39-41.

        [8] Suchanek F M,Kasneci G,Weikum G.Yago:A Large Ontology from Wikipedia and WordNet[J].Web Semantics:Science,Services and Agents on the World Wide Web,2008,6(3):203-217.

        [9] Boella G,diCaroL.ExtractingDefinitionsand Hypernym Relations Relying on Syntactic Dependencies and Support Vector Machines[C]//Proceedings of the 51stAnnualMeetingoftheAssociationfor Computational Linguistics.Sofia,Bulgaria:[s.n.], 2013:532-537.

        [10] Zhang Fan,Shi Shuming,Liu Jing,et al.Nonlinear EvidenceFusionandPropagationforHyponymy Relation Mining[C]//Proceedings of the 49th Annual MeetingoftheAssociationforComputational Linguistics.Portland,USA:[s.n.],2011,1159-1168.

        [11] 劉 磊,曹存根,張春霞,等.概念空間中上下位關(guān)系的意義識(shí)別研究[J].計(jì)算機(jī)學(xué)報(bào),2009,32(8):1-14.

        [12] Wang R C,CohenWW.AutomaticSetInstance Extraction Using Web[C]//Proceedings of the18th International Conference on World Wide Web.Madrid, Spain:[s.n.],2009:101-110.

        [13] Brown P F,Pietra V J D,de Souza P V.Class-based ngram Models of Natural Language[J].Computational Linguistics,1992,18(4):467-480.

        [14] CCF NLP&CC2012語(yǔ)義關(guān)系識(shí)別標(biāo)準(zhǔn)評(píng)測(cè)集[EB/OL]. [2014-02-14].http://tcci.ccf.org.cn/conference/2012.

        [15] CCF NLP&CC2012語(yǔ)義關(guān)系評(píng)測(cè)結(jié)果[EB/OL]. [2014-02-14].http://tcci.ccf.org.cn/conference/ 2012/dldoc/2012語(yǔ)義關(guān)系評(píng)測(cè)結(jié)果.pdf.

        編輯 金胡考

        Hyponymy Relation Validation Combined with Context and Brown Clustering Feature

        ZHANG Zhichang,CHEN Songyi,LIU Xin,MA Huifang
        (School of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China)

        Hyponymy has many important applications in the field of Natural Language Processing(NLP)and the automatic extraction of hyponym relation from massive text datasets is naturally one of important NLP research tasks.The emphasis and difficult point of the research is how to validate a hyponym which is extracted with simple pattern matching method is really correct.By calculating the context feature similarity(SimCF)and Brown clustering similarity (SimBrown),this paper proposes a novel approach of hyponymy validation.It applies a clustering on hyponym candidates,and the clustering similarity feature is obtained by combiningSimCFandSimBrown.The combination coefficient of two kinds of similarity is derived based on theSimCFs andSimBrowns between all labeled training words and their hyponyms.The model can filter roughly extraction results without any existed lexical relation dictionary or knowledge base.Evaluation on CCF NLP&CC2012 word semantic relation corpus shows that the proposed approach in this paper significantly improves the F measure value compared with other approaches including pattern matching and simple context comparison.

        hyponymy relation;context similarity;Brown clustering similarity;Point Mutual Information(PMI); pattern matching;clustering validation

        張志昌,陳松毅,劉 鑫,等.結(jié)合語(yǔ)境與布朗聚類(lèi)特征的上下位關(guān)系驗(yàn)證[J].計(jì)算機(jī)工程,2015, 41(2):145-150.

        英文引用格式:Zhang Zhichang,Chen Songyi,Liu Xin,et al.Hyponymy Relation Validation Combined with Context and Brown Clustering Feature[J].Computer Engineering,2015,41(2):145-150.

        1000-3428(2015)02-0145-06

        :A

        :TP18

        10.3969/j.issn.1000-3428.2015.02.028

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61163039,61163036,61363058);西北師范大學(xué)青年教師科研能力提升計(jì)劃基金資助項(xiàng)目(NWNU-LKQN-10-2)。

        張志昌(1976-),男,副教授、博士,主研方向:自然語(yǔ)言處理,Web挖掘;陳松毅、劉 鑫,碩士研究生;馬慧芳,副教授、博士。

        2014-03-04

        :2014-04-03E-mail:zzc@nwnu.edu.cn

        猜你喜歡
        評(píng)測(cè)布朗語(yǔ)義
        Legendary British Climber Joe Brown喬·布朗
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
        語(yǔ)言與語(yǔ)義
        你好,我是布朗熊
        攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
        你好,我是布朗熊
        丹·布朗主要作品
        Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        久久亚洲精品一区二区三区| 99久久精品免费看国产情侣 | 国产午夜亚洲精品一级在线| 人妻丰满熟妇一二三区| 天天综合天天爱天天做| 国产精品综合一区二区三区| 96精品在线| av在线男人的免费天堂| 国产视频自拍一区在线观看| 最新亚洲人成网站在线观看| aaa毛片视频免费观看| 亚洲国产精品色一区二区 | 无码国产精品久久一区免费| 国产精品区一区第一页| 狠狠躁夜夜躁人人爽天天不卡| 国产在线一区二区三区四区乱码| av国产传媒精品免费| 亚洲另类自拍丝袜第五页| 青青草99久久精品国产综合| 亚洲精品98中文字幕 | 五十路熟妇高熟无码视频| 久久99久久99精品免观看女同 | 欧美亅性猛交内射| 老色鬼永久精品网站| 亚洲九九夜夜| 各类熟女熟妇激情自拍| 无码区a∨视频体验区30秒| 亚洲AV无码一区二区三区人| 中文字幕在线人妻视频| 中文字幕一区二区中出后入| 丰满熟妇乱子伦| 午夜影视啪啪免费体验区入口| 精品久久一区二区三区av制服| 久久精品国产亚洲av香蕉| 色偷偷88888欧美精品久久久| 日韩精品视频免费福利在线观看| 免费一区二区高清不卡av | 国产AV无码专区久久精品网站| 黑丝国产精品一区二区| 一本色道久久hezyo无码| 色悠久久久久综合欧美99|