亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于敘詞表的領(lǐng)域知識(shí)圖譜初始種子集自動(dòng)生成算法

        2018-09-18 09:18:54韓其琛趙亞偉付立軍
        中文信息學(xué)報(bào) 2018年8期
        關(guān)鍵詞:語義

        韓其琛,趙亞偉,姚 鄭,付立軍

        (中國(guó)科學(xué)院大學(xué) 大數(shù)據(jù)分析技術(shù)實(shí)驗(yàn)室,北京 100049)

        0 引言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)變得越來越龐大,伴隨而來的就是對(duì)于龐大數(shù)據(jù)的管理問題。同時(shí)傳統(tǒng)的文檔網(wǎng)頁組織方式造成了大量數(shù)據(jù)資源浪費(fèi),也加大了人們從互聯(lián)網(wǎng)中查詢信息的難度。知識(shí)圖譜作為一種用實(shí)體及其語義關(guān)系來表達(dá)知識(shí)的有向圖,可以將傳統(tǒng)互聯(lián)網(wǎng)中由龐大信息組成的文檔(網(wǎng)頁)萬維網(wǎng)變?yōu)榘罅棵枋龈鞣N實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)。因此,自動(dòng)構(gòu)建圖譜的算法成為目前的研究熱點(diǎn)。

        Bootstrapping算法是目前開放域信息抽取中比較常見的一種方法,通過模板生成和實(shí)例抽取兩個(gè)階段不斷迭代,進(jìn)而不斷擴(kuò)充關(guān)系實(shí)例。由于Bootstrapping的使用并不需要引入句法分析等深度語言分析工具,因此具有很強(qiáng)的跨領(lǐng)域通用性和魯棒性。但是Bootstrapping的效果往往取決于種子的選取和設(shè)置[1]。在Bootstrapping方法中,自動(dòng)化的種子生成主要利用現(xiàn)有的知識(shí)庫如知識(shí)圖譜或本體,從知識(shí)庫中已經(jīng)確定的實(shí)體和關(guān)系類型中抽取種子[2]。這種方法在構(gòu)建通用知識(shí)圖譜時(shí)產(chǎn)生了很好的效果,但是在垂直行業(yè)領(lǐng)域,由于領(lǐng)域本體和圖譜均尚未成熟,實(shí)體和關(guān)系類型粒度過粗,導(dǎo)致該方法難以利用。與之相對(duì)的是,目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。

        敘詞表是一個(gè)相對(duì)完善并且發(fā)展成熟的受控詞表,最早用于傳統(tǒng)文獻(xiàn)標(biāo)引工作,其內(nèi)部蘊(yùn)含豐富的語義關(guān)系。敘詞表中的關(guān)系有相等關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系三種,其中除了相等關(guān)系和等級(jí)關(guān)系,其余的所有關(guān)系都用相關(guān)關(guān)系命名。作為一個(gè)受控詞表,敘詞表并沒有顯式地表達(dá)出實(shí)體類型和關(guān)系類型。針對(duì)這一問題,本文提出兩個(gè)假設(shè),即一元關(guān)系種子假設(shè)和二元關(guān)系種子假設(shè),利用假設(shè)可以從敘詞表內(nèi)部結(jié)構(gòu)中提取實(shí)體類型和關(guān)系類型,進(jìn)而提出了一種基于敘詞表的自動(dòng)生成高質(zhì)量種子的方法。在實(shí)驗(yàn)中,利用由敘詞表自動(dòng)生成的種子作為初始種子進(jìn)行抽取工作,通過對(duì)抽取結(jié)果進(jìn)行分析,發(fā)現(xiàn)利用敘詞表得到的初始種子可以取得同人工設(shè)計(jì)種子比較接近的效果。

        1 相關(guān)工作

        在關(guān)于開放域無/弱監(jiān)督信息抽取的研究中,除了Bootstrapping方法外,主流方法有開放域抽取[3-5]和遠(yuǎn)程監(jiān)督方法[6-8]。開放域抽取方法雖然可以在無監(jiān)督的條件下從句子中抽取關(guān)系,但無法明確定義關(guān)系類別;而遠(yuǎn)程監(jiān)督方法則需要一個(gè)具有一定規(guī)模且關(guān)系種類多的知識(shí)庫,因此在垂直領(lǐng)域難以應(yīng)用。

        Bootstrapping方法最早由Blum等人于1998年提出[9],Wang和Cohen進(jìn)一步完善該方法,提出了用于抽取一元關(guān)系和二元關(guān)系的SEAL算法[10-11],這也是目前Bootstrapping算法的基本形式。Carlson等人利用SEAL及其改進(jìn)方法構(gòu)建一個(gè)NELL(toward never ending language learning)系統(tǒng)[2,12],利用一個(gè)初始的本體得到需要抽取的實(shí)體和關(guān)系類型,并通過人來手工構(gòu)造種子。Bootstrapping方法面臨的一個(gè)主要問題是在迭代過程中會(huì)引入噪聲實(shí)例和噪聲模板,這一問題稱為語義漂移問題[13],這也是導(dǎo)致算法準(zhǔn)確度下降的主要原因。為了解決這一問題,文獻(xiàn)[14]通過建模不同抽取關(guān)系之間的約束,尋找最大化滿足這些約束的抽取結(jié)果;文獻(xiàn)[15]通過引入負(fù)實(shí)例來限制語義漂移,以上均是在抽取的過程中進(jìn)行改進(jìn)。Wang和Cohen等人在其研究中證實(shí)良好的種子設(shè)計(jì)同樣可以大大提高算法的準(zhǔn)確度[16]。這也說明,高質(zhì)量的種子可以在算法迭代的初始階段有效地避免語義漂移問題的發(fā)生。

        關(guān)于敘詞表的應(yīng)用,同本文類似的研究為敘詞表到本體的轉(zhuǎn)化。與本文只需要從敘詞表中提取實(shí)體和關(guān)系類型不同,該研究最終需要得到一個(gè)符合OWL等相關(guān)規(guī)范的具有完整體系的本體。由于本體同敘詞表的結(jié)構(gòu)有著很大的差異[17],因此,該類研究通常需要先手工構(gòu)建對(duì)應(yīng)領(lǐng)域的本體框架,隨后將敘詞表中的關(guān)系轉(zhuǎn)化到對(duì)應(yīng)的框架中。文獻(xiàn)[18]發(fā)現(xiàn)大部分轉(zhuǎn)換方法只針對(duì)特定敘詞表,缺乏通用性的轉(zhuǎn)換方法。文獻(xiàn)[19]給出了從領(lǐng)域敘詞表轉(zhuǎn)化為領(lǐng)域本體的完整方法,使得在保留原有語義的同時(shí)能夠具有本體特有的語義信息如推理等,但是依舊需要人工來制定本體的基本結(jié)構(gòu)以及轉(zhuǎn)化規(guī)則。

        2 相關(guān)定義

        敘詞表一般可表示為一個(gè)三元組G={PT,VT,R},PT為敘詞集合,也稱為優(yōu)選術(shù)語集合,是所有關(guān)系的基礎(chǔ),VT為非敘詞集合,與優(yōu)選術(shù)語定義等價(jià),所有詞的集合為WT=PT∪VT。R為詞間關(guān)系,可表示為一個(gè)五元組R=D,S,F,C,Z,其中有三種關(guān)系為建立在PT內(nèi)部的對(duì)應(yīng),對(duì)于任一敘詞x∈PT,S(x)表示x的上位詞,F(xiàn)(x)表示x下位詞,C(x)表示x的相關(guān)詞。D為建立在PT子集到VT之間的對(duì)應(yīng),對(duì)于任一敘詞x∈PT,D(x)代表x的同義詞。Z為建立在PT到TT的映射,對(duì)于任一敘詞x∈PT,Z(x)代表x的族首詞,其中TT={x∈PT|Sx=?∧Fx≠?}。

        定義1(敘詞表概念樹) 在敘詞表中,對(duì)于?z∈TT,集合y∈PT|Zy=z為一個(gè)由有限節(jié)點(diǎn)組成的具有層次關(guān)系的集合,根據(jù)樹的定義,該集合可以用多叉樹表示,該集合T稱為敘詞表概念樹。樹中的節(jié)點(diǎn)N稱為敘詞節(jié)點(diǎn)。對(duì)于每一個(gè)節(jié)點(diǎn)N所對(duì)應(yīng)的敘詞y,若D(y)不為空集,那么D(y)中的非敘詞也在節(jié)點(diǎn)中存儲(chǔ)。每個(gè)敘詞節(jié)點(diǎn)對(duì)應(yīng)一個(gè)實(shí)體。

        敘詞表概念樹的形式如圖1所示。

        圖1 敘詞表概念樹

        定義2(敘詞森林) 對(duì)于集合TT={z1,z2,...,zn},根據(jù)定義1將族首詞zi轉(zhuǎn)化為敘詞表概念樹ti。 所有ti構(gòu)成的集合稱為敘詞森林。

        根據(jù)前兩個(gè)定義,可以將整個(gè)敘詞表轉(zhuǎn)化為一個(gè)敘詞森林。值得注意的是,在每棵敘詞表概念樹T的內(nèi)部,只存在等級(jí)和等價(jià)兩種關(guān)系,相關(guān)關(guān)系存在于樹與樹之間。為了得到更多的相關(guān)關(guān)系,對(duì)敘詞表中原有的相關(guān)關(guān)系做了擴(kuò)充。

        定義3(相關(guān)關(guān)系) 相關(guān)關(guān)系CP=C∪CI,若x,y存在相關(guān)關(guān)系,那么CP(x,y)為真。其中,敘詞表中所規(guī)定的相關(guān)關(guān)系C稱為直接相關(guān)關(guān)系,本文拓展得到的相關(guān)關(guān)系CI稱為間接相關(guān)關(guān)系。

        定義4(間接相關(guān)關(guān)系) 假設(shè)兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)的敘詞yi,yj存在相關(guān)關(guān)系C,那么存在式(1)。

        為了篩選出運(yùn)行性能最好的種子,引入有效候選實(shí)體(對(duì))和語義范圍的概念進(jìn)行種子篩選,從而得到抗語義漂移能力強(qiáng)且更加具體的種子。一般來說,一個(gè)一(二)元種子包含兩個(gè)實(shí)體詞(對(duì)),因此規(guī)定一個(gè)一元種子為集合useed=s1,s2,一個(gè)二元種子為集合bseed=px1,py1,px2,py2。

        定義5(有效候選實(shí)體) 對(duì)于?useed進(jìn)行一輪迭代,對(duì)于返回的候選實(shí)體t,若滿足t∈{y|s1,s2,y∈T},其中,T為一棵敘詞表概念樹,則t稱為有效候選實(shí)體。

        定義6(實(shí)體類型集合) 設(shè)USi={useed1,useed2}為自動(dòng)生成的第i個(gè)實(shí)體類型的種子,規(guī)定對(duì)USi進(jìn)行擴(kuò)充后的實(shí)體詞集合為ETi=bstuseed1∪bstuseed2∪Ti。 其中,Ti為種子所在的敘詞表概念樹,bstuseed指對(duì)種子useed進(jìn)行限輪次的迭代得到的實(shí)體集合。將所有實(shí)體類別分別進(jìn)行擴(kuò)展得到的ETS={ET1,ET2,...,ETn}稱為實(shí)體類型集合。

        定義7(有效候選實(shí)體對(duì)) 對(duì)?bseed進(jìn)行一輪迭代,對(duì)于返回的候選實(shí)體對(duì)(x,y),若滿足x,y∈{x,y|y,py1,py2∈ETi∧x,px1,px2∈ETj},則稱(x,y)為有效候選實(shí)體對(duì)。

        定義8(語義范圍) 在敘詞表概念樹T中,對(duì)于任意節(jié)點(diǎn)N,其語義范圍定義為式(2)。

        其中,ln為以節(jié)點(diǎn)N為根節(jié)點(diǎn)的子樹所包含的葉子節(jié)點(diǎn)數(shù)目,lN為T所包含的全部葉子節(jié)點(diǎn)數(shù)目。

        3 種子自動(dòng)生成算法

        3.1 一元關(guān)系種子自動(dòng)生成

        當(dāng)Bootstrapping進(jìn)行一元關(guān)系擴(kuò)展時(shí),其主要接受少部分詞作為種子,在文本中找到適用于這些種子的共同模板,利用這些共同模板從文本中抽取新的候選實(shí)體,從中優(yōu)選出合適的實(shí)體詞加入到種子集合中,從而達(dá)到一元關(guān)系擴(kuò)展的目的。本算法首先提出一個(gè)判斷敘詞表內(nèi)部任意兩個(gè)詞是否屬于同一個(gè)實(shí)體類型的假設(shè),隨后利用該假設(shè)提出USAG(unary seed auto-generation)算法。首先,本文提出假設(shè)1,如下文所示。

        假設(shè)1(一元關(guān)系種子假設(shè)) 在敘詞表中,對(duì)于任意兩個(gè)詞?w1,w2∈WT,若存在一個(gè)敘詞表概念樹T,滿足w1∈T∧w2∈T,那么w1,w2具有相同的實(shí)體類型,否則,w1,w2具有不同的實(shí)體類型。

        例如,在地質(zhì)領(lǐng)域敘詞表中有兩個(gè)族首詞分別為金屬元素和金屬礦,由這兩個(gè)族首詞所形成的兩棵敘詞表概念樹分別代表地質(zhì)領(lǐng)域兩種常見的實(shí)體類型。

        根據(jù)假設(shè)1,可以將敘詞森林中的每一棵樹轉(zhuǎn)化為一個(gè)實(shí)體類型集合。為了選擇更加合適的種子,提出一元種子評(píng)分函數(shù)。種子評(píng)分函數(shù)的設(shè)計(jì)主要考慮兩方面要素。首先是指代明確,種子中的實(shí)體詞應(yīng)表示明確的實(shí)體,這樣才能找到更多有效的實(shí)體;其次是防止語義漂移的能力,如果一個(gè)種子在初始階段會(huì)發(fā)生嚴(yán)重的語義漂移現(xiàn)象,那么后續(xù)的準(zhǔn)確率將無法保證。對(duì)于一個(gè)一元種子useed=s1,s2迭代三到五輪,其評(píng)分uscore定義如式(3)所示。

        其中,q為每輪迭代返回候選實(shí)體的平均數(shù),p為每輪迭代有效候選實(shí)體的平均數(shù),α為調(diào)節(jié)因子。

        在評(píng)分公式中,返回的有效實(shí)體比例越大,該種子的防止語義漂移的能力越強(qiáng);兩個(gè)實(shí)體的語義范圍越小,該種子中的實(shí)體詞更加明確具體。

        算法1 USAG算法偽代碼輸入: 敘詞森林TF=T1,T2,…,Tn 輸出: TOP1,TOP2,…,TOPm ,TOPm指第m個(gè)實(shí)體類型的種子1. 根據(jù)假設(shè)1構(gòu)建實(shí)體類型集合,size表示集合元素的個(gè)數(shù)。ETS=ETi|sizeETi >2 ,ETi={y|y∈Ti};2. 對(duì)于ETS中的每個(gè)元素ETi,執(zhí)行步驟3;3. 將ETi中的元素兩兩組合,利用Bootstrapping算法進(jìn)行迭代,并根據(jù)公式(3)計(jì)算uscore,選取得分最高的前兩個(gè)種子加入TOPi

        3.2 二元關(guān)系種子自動(dòng)生成

        當(dāng)Bootstrapping進(jìn)行二元關(guān)系擴(kuò)展時(shí),其主要接受少部分實(shí)體對(duì)作為種子,主要的步驟和方法同一元關(guān)系類似,最終將優(yōu)選的實(shí)體對(duì)加入到種子集合中。在設(shè)計(jì)種子時(shí),需要預(yù)先定義好所有的關(guān)系類型,從而根據(jù)關(guān)系的類型來選取合適的實(shí)體對(duì)作為種子。本算法首先提出一個(gè)判斷敘詞表中任意兩個(gè)實(shí)體詞對(duì)是否具有同一個(gè)關(guān)系類型的假設(shè),隨后利用該假設(shè)提出BSAG(binary seed auto-generation)算法。本文提出的假設(shè)2如下所示。

        假設(shè)2(二元關(guān)系種子假設(shè)) 在敘詞表中,對(duì)于兩個(gè)具有相關(guān)關(guān)系的實(shí)體詞對(duì){x1,y1,x2,y2|CPx1,y1∧CPx2,y2},若存在兩棵敘詞表概念樹T1,T2,滿足y1,y2∈T1∧x1,x2∈T2,那么x1,y1,x2,y2具有相同的關(guān)系類型,否則,x1,y1,x2,y2具有不同的關(guān)系類型。

        文獻(xiàn)[20]中曾提出一個(gè)假設(shè): 如果關(guān)系已經(jīng)確定,那么關(guān)系前后的實(shí)體類別就可以確定。本文所提出假設(shè)可以視為該假設(shè)的反向結(jié)論,但是需要一個(gè)前提,就是在同一個(gè)領(lǐng)域敘詞表中。在敘詞表中,由于族的劃分非常細(xì)致,實(shí)體類型粒度足夠小,因此,利用關(guān)系前后主體和客體的實(shí)體類別基本可以限定一個(gè)關(guān)系。例如,敘詞表中含有兩個(gè)族首詞為金屬元素和金屬礦,那么如果一個(gè)具有相關(guān)關(guān)系的實(shí)體對(duì)包括一個(gè)金屬元素和一個(gè)金屬礦,其描述的關(guān)系可以確定為是一種包含關(guān)系。

        算法2 BSAG算法偽代碼輸入: 敘詞森林TF=T1,T2,…,Tn 輸出: TOP1,TOP2,…,TOPi ,TOPi指第i個(gè)關(guān)系類型的種子1. 根據(jù)假設(shè)2構(gòu)建關(guān)系類型集合RTS={RTi|sizeRTi >2},RTi={x,y |x∈Ti∧y∈Tj∧CPx,y };2. 對(duì)于RTS中的每個(gè)元素RTi,執(zhí)行步驟3;3. 將RTi中的元素兩兩組合,利用Bootstrapping算法進(jìn)行迭代,并根據(jù)公式(4)計(jì)算bscore,選取得分最高的前兩個(gè)種子加入TOPi

        借助假設(shè)2,可以將敘詞表中的相關(guān)關(guān)系根據(jù)前后實(shí)體類型的不同轉(zhuǎn)化為不同的關(guān)系。利用有效實(shí)體對(duì)和語義范圍的定義,對(duì)于一個(gè)二元種子bseed=px1,py1,px2,py2迭代三到五輪,其評(píng)分bscore定義如式(4)所示。

        其中,q為每輪迭代之后返回候選實(shí)體對(duì)的平均數(shù),p為每輪迭代有效候選實(shí)體對(duì)的平均數(shù),β為調(diào)節(jié)因子,sc為scover函數(shù)的簡(jiǎn)寫。在評(píng)分公式中,返回的有效實(shí)體對(duì)比例越大,該種子的防止語義漂移的能力越強(qiáng);關(guān)系的前后實(shí)體的語義范圍越小,該種子中的關(guān)系也更加明確具體。

        種子自動(dòng)生成整體框架如圖2所示。

        圖2 種子自動(dòng)生成框架

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)的選取

        為了更好地驗(yàn)證方法的通用性,本文利用由中國(guó)地質(zhì)圖書館提供的地質(zhì)領(lǐng)域敘詞表(總詞數(shù)為10 511,族首詞數(shù)為431),以及從中國(guó)林業(yè)信息網(wǎng)得到的林業(yè)敘詞表(總詞數(shù)為38 521,族首詞數(shù)為93)作為實(shí)驗(yàn)的敘詞表資源,通過抓取搜索引擎的每條檢索結(jié)果對(duì)應(yīng)的網(wǎng)頁得到。實(shí)驗(yàn)采用百度搜索作為搜索引擎。

        本文選取文獻(xiàn)[11]中的SEAL算法實(shí)現(xiàn)作為實(shí)驗(yàn)的Bootstrapping算法。在SEAL中,每一輪算法會(huì)返回一個(gè)排序后的候選實(shí)體列表。因此,本文采用信息檢索的方式來對(duì)種子抽取的效果進(jìn)行評(píng)估。平均準(zhǔn)確率(MAP)是在信息檢索領(lǐng)域常用的評(píng)價(jià)指標(biāo),該指標(biāo)融合了準(zhǔn)確率和召回率的衡量,而且對(duì)于排序的位置非常敏感。在MAP公式的設(shè)置上,為了更加合理的對(duì)比,本文采用文獻(xiàn)[11]中的設(shè)計(jì)方式,具體如式(5)所示。

        其中,L為抽取候選實(shí)例的列表;cn表示正確實(shí)例的個(gè)數(shù);prec(r)為截止r之前的準(zhǔn)確率,若r位置的實(shí)例不正確,則為0;isfresh(r)是一個(gè)二值函數(shù),判斷同義的實(shí)例是否在之前出現(xiàn)過,如果出現(xiàn),則為0,否則,為1。對(duì)于關(guān)系類型抽取得到的實(shí)體對(duì),也按照式(5)進(jìn)行檢驗(yàn),每一個(gè)實(shí)體對(duì)作為一個(gè)關(guān)系實(shí)例來判斷是否正確。

        4.2 類型抽取檢驗(yàn)

        為了驗(yàn)證算法中所提出的兩個(gè)假設(shè)的準(zhǔn)確性,根據(jù)兩個(gè)假設(shè)的內(nèi)容,從兩個(gè)不同領(lǐng)域的敘詞表中提取各自的實(shí)體類型和關(guān)系類型,通過人工評(píng)測(cè)的方式找到其中的有效實(shí)體(關(guān)系)類型。這里有效的標(biāo)準(zhǔn)在于類型表達(dá)的含義明確而且和其他類型可以明確區(qū)分。由于敘詞表的編排相對(duì)比較隨意,這里保留至少有10個(gè)實(shí)例的實(shí)體類型和至少有七個(gè)實(shí)例的關(guān)系類型作為最終的類型。實(shí)驗(yàn)結(jié)果如表1所示。

        表1 類型抽取測(cè)試

        從表1中看出,實(shí)體類型的有效比例要好于關(guān)系類型,這是由于敘詞表中族首詞的劃分本身就是由領(lǐng)域?qū)<抑付?,相?duì)來說比較規(guī)范;地質(zhì)領(lǐng)域的效果普遍好于林業(yè)領(lǐng)域,這是由于不同敘詞表雖然遵循同樣的標(biāo)準(zhǔn),但是其質(zhì)量還是取決于人工制定的質(zhì)量。通過對(duì)于無效類型的分析,主要的問題在于由于族首詞劃分過細(xì)導(dǎo)致類型之間會(huì)互相覆蓋。

        4.3 種子質(zhì)量實(shí)驗(yàn)

        為了檢驗(yàn)算法中自動(dòng)生成的種子的質(zhì)量,從兩個(gè)領(lǐng)域各自抽取八個(gè)實(shí)體(關(guān)系)類型,選取的類型如表2第二列所示。

        對(duì)于每個(gè)實(shí)體(關(guān)系)類型分別得到兩個(gè)種子,分別利用SEAL迭代至10輪,對(duì)于第10輪返回的候選實(shí)例列表進(jìn)行MAP的測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示。

        表2 實(shí)例展示

        關(guān)于超參數(shù)的設(shè)定,從表2的16個(gè)類型中,每個(gè)領(lǐng)域分別選擇兩個(gè)實(shí)體類型和兩個(gè)關(guān)系類型共計(jì)八個(gè)用于測(cè)試超參數(shù)取值。利用網(wǎng)格搜索方法確定兩個(gè)超參數(shù)α和β的取值,具體方法為,令α和β的取值區(qū)間均為[0, 10],設(shè)定步長(zhǎng)(本文設(shè)為0.5),以第10輪返回的候選實(shí)例列表的MAP值作為最終的評(píng)價(jià)指標(biāo)。最終確定最優(yōu)的超參數(shù)的取值,本實(shí)驗(yàn)獲得的最優(yōu)超參數(shù)α的值為1,β的值為1.5。

        表3 種子質(zhì)量測(cè)試

        這里利用三種方法對(duì)于兩個(gè)領(lǐng)域的類型進(jìn)行了測(cè)試。

        (1) 隨機(jī)選擇種子是從類型當(dāng)中隨機(jī)抽取兩個(gè)作為種子進(jìn)行測(cè)試,對(duì)于關(guān)系類型,由于百度結(jié)果本身較少,有可能存在隨機(jī)抽取得到的種子沒有找到任何候選是實(shí)體對(duì),那么以第一個(gè)有結(jié)果的種子作為結(jié)果記錄。

        (2) 自動(dòng)生成種子就是利用本文提出的兩個(gè)算法得到。

        (3) 人工構(gòu)造種子由人工來設(shè)計(jì)多個(gè)種子,最終選擇效果最好的種子作為結(jié)果記錄,基本可以認(rèn)為是最好的結(jié)果。

        SEAL平均得分是對(duì)于通用領(lǐng)域的人工設(shè)計(jì)種子進(jìn)行的測(cè)試,相比于專業(yè)領(lǐng)域,通用領(lǐng)域所涉及的信息在互聯(lián)網(wǎng)上更加全面豐富。

        從實(shí)體類型的結(jié)果來看,自動(dòng)生成的種子相比隨機(jī)選擇得到的種子效果有了大幅度的提升,取得了近似于人工構(gòu)造種子的效果;林業(yè)領(lǐng)域的效果要略好于地質(zhì)領(lǐng)域,但是基本上比較接近,這說明算法的跨領(lǐng)域通用性。

        從關(guān)系類型的結(jié)果來看,相比于一元關(guān)系種子,通過三種方法得到的二元關(guān)系種子的準(zhǔn)確率有一定程度的下降。其主要原因在于二元關(guān)系限制較多,從互聯(lián)網(wǎng)中得到同時(shí)包含多個(gè)專業(yè)領(lǐng)域?qū)嶓w的文檔數(shù)量會(huì)快速下降,在沒有足夠語料保障的情況下,候選種子的準(zhǔn)確率會(huì)快速下降。

        4.4 樣例展示

        為了更好地展示抽取效果,在表2第三列展示用于實(shí)驗(yàn)的實(shí)體類型和關(guān)系類型的前十個(gè)抽取結(jié)果。根據(jù)SEAL算法的規(guī)定,同4.3節(jié)中用于評(píng)估MAP的第10輪候選實(shí)例列表不同,這里的抽取結(jié)果是由每一輪迭代返回的候選列表中評(píng)分最高且非重復(fù)實(shí)例組成。為了方便進(jìn)行錯(cuò)誤的分析,在表2中利用黑體加框表示抽取錯(cuò)誤。

        通過觀察表2,可以發(fā)現(xiàn)抽取的結(jié)果大部分都是符合其對(duì)應(yīng)的類型名稱,對(duì)于某些實(shí)例有限的類型例如育種培養(yǎng)和湖泊地貌,基本覆蓋了常見的全部實(shí)例,這說明本文算法的有效性。

        針對(duì)錯(cuò)誤的實(shí)例,可以發(fā)現(xiàn)少量的實(shí)體類型錯(cuò)誤,主要原因是由于實(shí)體范圍有限或者語義漂移導(dǎo)致。例如,黃土地貌類型下,由于實(shí)體范圍有限,前九個(gè)實(shí)體基本涵蓋了所有常見的黃土地貌,所以第十個(gè)會(huì)出現(xiàn)錯(cuò)誤;而在育種培養(yǎng)中,花器官作為植物繁殖器官同其他育種實(shí)體有著比較大的語義關(guān)系,這種情況會(huì)導(dǎo)致語義漂移的現(xiàn)象出現(xiàn)。

        關(guān)系類型存在比較明顯的語義漂移現(xiàn)象,例如,交代作用—變質(zhì)巖以及顯生宙—地殼運(yùn)動(dòng)中的錯(cuò)誤,這是由于通用搜索引擎的領(lǐng)域性不強(qiáng)所導(dǎo)致,在沒有足夠語料保障的情況下,會(huì)出現(xiàn)一些錯(cuò)誤;表中其他的關(guān)系類型錯(cuò)誤主要是由于關(guān)系中實(shí)體類型不準(zhǔn)確導(dǎo)致,例如,烏姆賴薩斯考古遺址并不屬于國(guó)家公園,熱帶草原不屬于森林等。

        4.5 模型通用性分析

        經(jīng)過幾十年的發(fā)展,敘詞表的編制方法得到不斷改善,最終形成了一系列的國(guó)際標(biāo)準(zhǔn)。國(guó)際標(biāo)準(zhǔn)有1974年發(fā)布的ISO 2788和1985年發(fā)布的ISO 5964, 中國(guó)目前的現(xiàn)行標(biāo)準(zhǔn)為 1991 年發(fā)布的GB/T 13190。在這些標(biāo)準(zhǔn)中均明確規(guī)定了敘詞表的結(jié)構(gòu)以及詞間關(guān)系。本文所利用的敘詞表的結(jié)構(gòu)以及詞間關(guān)系在現(xiàn)行任何符合標(biāo)準(zhǔn)的敘詞表中均是存在的,因此本文所提出的算法具有較強(qiáng)的通用性。

        5 結(jié)束語

        由于Bootstrapping算法的性能很大程度上依賴于種子設(shè)計(jì)的質(zhì)量,本文利用敘詞表中所蘊(yùn)含的語義信息,提出了從敘詞表內(nèi)部結(jié)構(gòu)中提取實(shí)體類型和關(guān)系類型的兩個(gè)假設(shè),并設(shè)計(jì)了一種基于敘詞表的自動(dòng)生成高質(zhì)量種子的方法,實(shí)驗(yàn)表明,該方法取得了同人工設(shè)計(jì)種子比較接近的效果。由于敘詞表的通用性,本文模型同樣適合其他的行業(yè)領(lǐng)域。該方法為構(gòu)建領(lǐng)域知識(shí)圖譜提供了一個(gè)新的研究思路。在今后的研究中可以從引入第三方監(jiān)督進(jìn)行聯(lián)合建模等方面進(jìn)行改進(jìn)和完善。

        猜你喜歡
        語義
        為什么字看久了就不認(rèn)識(shí)了
        語言與語義
        “社會(huì)”一詞的語義流動(dòng)與新陳代謝
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        “吃+NP”的語義生成機(jī)制研究
        “V+了+NP1+NP2”中V的語義指向簡(jiǎn)談
        認(rèn)知范疇模糊與語義模糊
        “V+X+算+X”構(gòu)式的語義功能及語義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
        語言與翻譯(2014年2期)2014-07-12 15:49:25
        “熊孩子”語義新探
        “深+N季”組配的認(rèn)知語義分析
        在线永久免费观看黄网站| 青青草中文字幕在线播放| 亚洲中文无码av永久| 国内精品卡一卡二卡三| 亚洲国产欧美在线成人| 午夜无码国产18禁| av免费网站免费久久网| 人妻洗澡被强公日日澡电影| 99re热这里只有精品最新| 久久dvd| 亚洲av男人的天堂在线| 噜噜综合亚洲av中文无码| 亚洲国产成人久久综合电影| 2022国内精品免费福利视频| 在线观看免费视频发布白白色| 狠狠综合亚洲综合亚洲色| 人妻av中文字幕无码专区| 亚洲一区二区欧美色妞影院| 国产一区二区三区在线av| 蜜桃视频网站在线免费观看| 日韩av一区二区三区激情在线| 亚洲精品无码久久久影院相关影片| 亚洲一区欧美二区| 魔鬼身材极品女神在线| 蜜桃av噜噜一区二区三区策驰| 国产顶级熟妇高潮xxxxx| 久久99精品久久久久久| 亚洲在线一区二区三区四区| 日本一区二区视频高清| 国产无遮挡又黄又爽免费网站 | 中文无码成人免费视频在线观看| 亚洲国产不卡av一区二区三区| 少妇太爽了在线观看免费| 成人毛片无码一区二区三区| 亚洲国产一区在线二区三区| 国产亚洲精品视频在线| 99国产精品久久久久久久成人热 | 亚洲人成亚洲人成在线观看| 国产大学生自拍三级视频| 妺妺窝人体色www在线| 精品久久亚洲中文无码|