亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法

        2016-10-27 02:04:09杜亞茹杜會(huì)芳張家軍王紅說
        關(guān)鍵詞:百科詞條語(yǔ)料

        趙 明 杜亞茹 杜會(huì)芳 張家軍 王紅說 陳 瑛

        (中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083)

        ?

        植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法

        趙明杜亞茹杜會(huì)芳張家軍王紅說陳瑛

        (中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083)

        采用本體學(xué)習(xí)的方法,以百度百科植物類詞條內(nèi)容的非結(jié)構(gòu)和半結(jié)構(gòu)化中文文本信息作為語(yǔ)料進(jìn)行處理。使用一種有指導(dǎo)的基于依存句法分析的詞匯-語(yǔ)法模式來獲取植物領(lǐng)域的概念、分類和非分類關(guān)系,并分別利用基于詞表過濾的方法和給模式添加限制的方法,較大程度地提高了關(guān)系抽取的精確度,完成在輕量級(jí)本體的基礎(chǔ)上自動(dòng)構(gòu)建重量級(jí)本體。該方法建立了一個(gè)特定領(lǐng)域語(yǔ)料的概念層次,提高了最具代表性的分類和非分類關(guān)系的發(fā)現(xiàn),并使用OWL語(yǔ)言形式化表達(dá)抽取結(jié)果。實(shí)驗(yàn)表明,該方法在非分類關(guān)系抽取上取得了較好的結(jié)果,為該領(lǐng)域知識(shí)圖譜構(gòu)建奠定了基礎(chǔ)。

        植物領(lǐng)域本體; 知識(shí)圖譜; 非分類關(guān)系; 本體學(xué)習(xí); 百度百科

        引言

        “知識(shí)圖譜”[1]作為一種知識(shí)表示方法,包含了大量概念(實(shí)體)以及概念間的分類和非分類關(guān)系,使其成為具有語(yǔ)義性的知識(shí)庫(kù)。它支撐綜合性知識(shí)檢索、智能問答、智能決策等方面的廣泛應(yīng)用。知識(shí)圖譜構(gòu)建的主要任務(wù)是抽取豐富的概念和關(guān)系,其中概念間非分類關(guān)系抽取是構(gòu)建知識(shí)圖譜的難點(diǎn)問題。而本體(Ontology)作為構(gòu)建知識(shí)圖譜的概念模型和邏輯基礎(chǔ),尤其是概念之間的非分類關(guān)系,不僅增加了知識(shí)表達(dá)的完備性和復(fù)雜性,還在很大程度上對(duì)知識(shí)圖譜進(jìn)行了豐富和擴(kuò)展[2]。

        本體[3]是用于描述或表達(dá)某一領(lǐng)域中術(shù)語(yǔ)、概念以及之間關(guān)系的一個(gè)基本知識(shí)體系,是共享概念模型的形式化的明確說明。基于本體的應(yīng)用和解決方案是在本體構(gòu)建的基礎(chǔ)上實(shí)現(xiàn)的。然而,現(xiàn)有的各種本體開發(fā)工具(如Protégé、KAON等)支持的是手工構(gòu)建本體的方式,存在費(fèi)時(shí)、費(fèi)力且不易及時(shí)動(dòng)態(tài)更新等問題。因此如何快速、低成本、自動(dòng)或半自動(dòng)構(gòu)建大規(guī)模領(lǐng)域本體——即所謂的本體學(xué)習(xí)(Ontology learning)就成為一個(gè)很有意義的研究方向[4-5]。目前,在本體學(xué)習(xí)領(lǐng)域抽取非分類關(guān)系的方法主要有:基于詞典的方法、基于關(guān)聯(lián)規(guī)則的方法和基于模式匹配的方法。

        基于詞典的方法抽取出的關(guān)系必須是WordNet 中已經(jīng)存在的關(guān)系,并僅能從WordNet 中抽取同義、反義和部分/整體這幾種關(guān)系,局限性比較大?;陉P(guān)聯(lián)規(guī)則的方法研究中,研究者分別設(shè)置不同的參數(shù),諸如概念之間的關(guān)聯(lián)度閾值[6]、術(shù)語(yǔ)之間相似度權(quán)重[7]、對(duì)數(shù)似然比[8-9]以及粒計(jì)算模型[10]等進(jìn)行非分類關(guān)系抽取。但是該類方法中,由于詞性標(biāo)注的錯(cuò)誤對(duì)準(zhǔn)確率有較大的影響,因此還要探索更為有效的方法。

        基于模式匹配的方法[11]是通過分析領(lǐng)域相關(guān)文本,歸納出頻繁使用的語(yǔ)言模式,來識(shí)別相應(yīng)的語(yǔ)義關(guān)系。研究者均采用語(yǔ)義依存[1]的本體非分類關(guān)系抽取方法,經(jīng)過詞性標(biāo)注、角色標(biāo)注[3]和語(yǔ)義分析得到具有語(yǔ)義依存的動(dòng)詞框架,構(gòu)建動(dòng)詞向量語(yǔ)料庫(kù)[12],再進(jìn)行句子相似度的計(jì)算。還有一部分研究者提出一種綜合語(yǔ)義模式和統(tǒng)計(jì)學(xué)的啟發(fā)式非分類關(guān)系學(xué)習(xí)框架[11,13]。該類方法中,抽取精度較高,但是有些中心詞的選取會(huì)對(duì)非分類關(guān)系的選取造成影響。另外,非分類關(guān)系復(fù)雜多樣,不僅僅包含術(shù)語(yǔ)和術(shù)語(yǔ)之間的關(guān)系,還包含一些諸如產(chǎn)地、病蟲害等屬性關(guān)系,此類關(guān)系更為復(fù)雜且豐富,以上方法沒有針對(duì)性,因此提取效果較差。以上方法由于中文概念的多義性對(duì)非分類關(guān)系種類的影響等原因,該方法的準(zhǔn)確率和召回率在領(lǐng)域本體構(gòu)建中還可以進(jìn)一步優(yōu)化。

        以上非分類關(guān)系抽取的研究方法所涉及的領(lǐng)域包括農(nóng)業(yè)[14]、醫(yī)學(xué)診療[15]、網(wǎng)站[16]、航空管理等[17]。還有一部分研究者利用非監(jiān)督的本體學(xué)習(xí)方法[18]從Web文檔提取非分類關(guān)系,并對(duì)該方法進(jìn)行評(píng)測(cè)[19]。但是中文本體的自動(dòng)構(gòu)建,尤其是農(nóng)業(yè)領(lǐng)域非分類關(guān)系的學(xué)習(xí)研究才剛剛起步。因此本文針對(duì)基于模式匹配方法提取非分類關(guān)系的局限,以百度百科植物詞條內(nèi)容為語(yǔ)料,采用詞匯-語(yǔ)法模式進(jìn)行非分類關(guān)系的抽取,利用停用詞表過濾和為模式增加限制的方法對(duì)該方法進(jìn)行改進(jìn),并且對(duì)非分類關(guān)系的類別進(jìn)行討論,開展基于Web的中文植物本體非分類關(guān)系學(xué)習(xí)方法的研究。

        1 基于詞匯-語(yǔ)法模式的非分類關(guān)系抽取

        針對(duì)基于百度百科植物領(lǐng)域本體學(xué)習(xí)中非分類關(guān)系的學(xué)習(xí)方法,采用的主要技術(shù)和步驟如下:

        (1)抓取相關(guān)詞條的網(wǎng)頁(yè)內(nèi)容,以此為語(yǔ)料,對(duì)語(yǔ)料進(jìn)行預(yù)處理,使用改進(jìn)的詞匯-語(yǔ)法模式進(jìn)行非分類關(guān)系的自動(dòng)抽取,提升抽取的準(zhǔn)確度。

        (2)抽取百度百科半結(jié)構(gòu)化文本中的非分類關(guān)系。

        (3)在抽取出關(guān)系三元組的基礎(chǔ)上,使用OWL語(yǔ)言將其形式化。

        總體流程如圖1所示。

        圖1 技術(shù)流程圖Fig.1 Flow chart of technological process

        1.1基于詞匯-語(yǔ)法模式的非分類關(guān)系抽取

        1.1.1數(shù)據(jù)的獲取與預(yù)處理

        利用Python編寫的語(yǔ)料采集工具從百度百科的植物分類下抓取了9 623個(gè)詞條作為語(yǔ)料。這些語(yǔ)料用GBK編碼的文本文件形式存儲(chǔ)。為解決百度百科詞條正文非結(jié)構(gòu)化文本難以直接利用的問題,借助自然語(yǔ)言處理的開源工具LTP(Language technology platform)[20],主要使用分詞、詞性標(biāo)注和依存句法分析這3個(gè)模塊對(duì)語(yǔ)料進(jìn)行預(yù)處理,得到的結(jié)果以XML的形式保存。

        1.1.2模式獲取

        從百度百科植物語(yǔ)料中選取一小批高質(zhì)量并具有代表性的詞條(在19個(gè)分類下共選取了97個(gè)詞條),自動(dòng)找出典型的表達(dá)非分類關(guān)系的語(yǔ)句(共339句),該類語(yǔ)句均含有農(nóng)業(yè)概念,且主要集中在具有農(nóng)業(yè)價(jià)值的非分類關(guān)系上,如植物的地理分布、適生環(huán)境、病蟲害、經(jīng)濟(jì)價(jià)值等,表1列舉了其中部分語(yǔ)句。

        表1 部分語(yǔ)句Tab.1 Some of statements

        模式提取的任務(wù)實(shí)際上也是一種序列標(biāo)注問題,解決該任務(wù)一般采用有監(jiān)督學(xué)習(xí)方式。令{(xi,yi)}(i=1,2,…,N)為一個(gè)大小為N的訓(xùn)練樣本集。每個(gè)序列對(duì)(xi,yi)為一個(gè)樣本,其中xi=,yi=。序列標(biāo)注的目標(biāo)就是尋找一個(gè)模型M,可以在給定輸入序列x的基礎(chǔ)上預(yù)測(cè)標(biāo)注序列y。

        另外,考慮到植物領(lǐng)域詞匯的特殊性,其概念詞匯出現(xiàn)的上下文中往往包含特定的詞匯,例如:又名、又叫、輪作、套種、有、富含、含有、栽培、病害、蟲害等。因此在植物詞匯出現(xiàn)的語(yǔ)句中,分別在淺層和深層依存句法分析結(jié)果進(jìn)行標(biāo)注,即找出并標(biāo)明句子中存在非分類關(guān)系的概念,以及非分類關(guān)系的名稱,記為Ri(Xi,Yi)。然后統(tǒng)計(jì)Xi、Ri、Yi之間的依存關(guān)系序列在其他標(biāo)注Xj、Rj、Yj(i≠j)中出現(xiàn)的次數(shù)。其中,淺層句法分析通過正則表達(dá)式匹配的方法獲取非分類關(guān)系,深層句法分析通過句法依賴分析匹配模式的方法獲得關(guān)系。再借助相似度計(jì)算等機(jī)器學(xué)習(xí)方法統(tǒng)計(jì)訓(xùn)練語(yǔ)料中出現(xiàn)頻率較高的詞語(yǔ)構(gòu)成高頻詞表,進(jìn)行多次迭代不斷泛化來獲取表達(dá)非分類關(guān)系的詞匯-語(yǔ)法模式,剔除不符合語(yǔ)法的序列后,得到出現(xiàn)多次的依存關(guān)系序列即為表達(dá)非分類關(guān)系的詞匯-語(yǔ)法模式,如表2所示(依存句法標(biāo)注含義見LTP官方文檔)。

        表2 詞匯-語(yǔ)法模式集Tab.2 Set of lexicon-syntactic patterns

        其中,模式采用依存關(guān)系(頭節(jié)點(diǎn),依存節(jié)點(diǎn))→非分類關(guān)系名稱(施事概念,受事概念)的形式表示??梢孕问交癁?/p>

        (1)

        其中L、A、B為si和ti中指定的元素,式(1)表示當(dāng)所有依存關(guān)系Di都滿足時(shí),則L(A,B)關(guān)系成立。

        1.1.3為模式增加規(guī)則

        對(duì)于抽取的詞匯-語(yǔ)法模式,一個(gè)值得注意的問題是有些模式含有并列關(guān)系(COO)和連動(dòng)結(jié)構(gòu)(VV):對(duì)于并列關(guān)系,如果某個(gè)節(jié)點(diǎn)的依存關(guān)系為COO的話,則該節(jié)點(diǎn)視為等同于依存關(guān)系所指向的節(jié)點(diǎn),并且該性質(zhì)具有傳遞性。例如,在句子 “主要蟲害有介殼蟲和斑蛾?!敝校瑢ⅰ敖闅はx”與“斑蛾”視為等同;對(duì)于連動(dòng)結(jié)構(gòu),如果某個(gè)節(jié)點(diǎn)的依存關(guān)系為VV的話,則該節(jié)點(diǎn)依存關(guān)系所指向的節(jié)點(diǎn)可視為與該節(jié)點(diǎn)共享主語(yǔ),即VV(X, Y), SBV(X, Z)→SBV(Y, Z),并且該性質(zhì)具有傳遞性。例如,在句子“黃芪產(chǎn)于內(nèi)蒙古等地,為國(guó)家三級(jí)保護(hù)植物。” 中,“產(chǎn)”與“為”是連動(dòng)結(jié)構(gòu),“為”共享“產(chǎn)”的主語(yǔ)“黃芪”。

        另一個(gè)值得注意的問題是,表2中的模式?jīng)]有利用定中關(guān)系(ATT)和狀中結(jié)構(gòu)(ADV),這樣會(huì)導(dǎo)致抽取出來的非分類關(guān)系的概念和關(guān)系名稱都是語(yǔ)句中相應(yīng)成分的中心詞,從而丟失了部分語(yǔ)義,例如,“鐵觀音原產(chǎn)于福建安溪縣西坪?!边@句話,利用模式SBV(Y, X), HED(Root, Y), CMP(Y, Z), POB(Z, W)→Y_Z(X, W)會(huì)抽取出“產(chǎn)_于(鐵觀音,西坪)”,關(guān)系名稱丟失了“原產(chǎn)于”中的狀語(yǔ)“原”,也影響了關(guān)系名稱的精確性。本文在歸納總結(jié)詞匯-語(yǔ)法模式時(shí),考慮到要盡可能提高模式的召回率,采用了這種弱限定的模式,對(duì)于上述抽取結(jié)果語(yǔ)義缺失的情況,本文采用后處理的方法,如果抽取出的非分類關(guān)系的概念和關(guān)系名稱在語(yǔ)句中前面有限定性修飾成分的話,則會(huì)補(bǔ)上。

        另外,由于百度百科詞條的文本圍繞著詞條進(jìn)行闡述說明,故許多句子的主語(yǔ)默認(rèn)就是詞條名稱,從而被缺省。這種情況對(duì)非分類關(guān)系抽取的影響是導(dǎo)致抽取出來的非分類關(guān)系缺少施事概念,本文的處理方法就是將詞條名稱作為默認(rèn)的施事概念。

        1.1.4非分類關(guān)系抽取

        在所獲詞匯-語(yǔ)法模式的基礎(chǔ)上,可以進(jìn)行非分類關(guān)系的提取。具體過程為:對(duì)待提取的文檔利用LTP進(jìn)行分段、分句、分詞、依存句法分析;然后將模式匹配歸結(jié)為在依存樹中尋找子樹的問題,即對(duì)句子的依存樹進(jìn)行檢測(cè),如果樹中存在這些節(jié)點(diǎn),其滿足模式前件中的每項(xiàng)約束,則模式匹配成功;并將這些節(jié)點(diǎn)按照模式的后件轉(zhuǎn)換為非分類關(guān)系。以表2中第3行為例,“鐵觀音原產(chǎn)于福建安溪縣西坪?!边@句話的依存樹如圖2所示,因?yàn)椤拌F觀音”與“產(chǎn)”為主謂關(guān)系(SBV),虛擬節(jié)點(diǎn)Root與“產(chǎn)”為HED關(guān)系,“產(chǎn)”與“于”為動(dòng)補(bǔ)結(jié)構(gòu)(CMP),“于”與“西坪”為介賓關(guān)系(POB),所以滿足了該模式的前件,根據(jù)模式的后件,將這些節(jié)點(diǎn)轉(zhuǎn)為非分類關(guān)系:產(chǎn)_于(鐵觀音,西坪)。

        圖2 “鐵觀音原產(chǎn)于福建安溪縣西坪”的依存樹Fig.2 An example of a D-tree

        另外,當(dāng)利用SBV-HED-VOB模式對(duì)句子進(jìn)行模式匹配時(shí),將句子中依存關(guān)系名稱為“SBV”、“HED”、“VOB”的詞組成三元組,然后再去判斷這些三元組內(nèi)部的依存關(guān)系是否和模式中的完全一致,當(dāng)一致時(shí),則匹配成功,否則失敗。

        1.1.5對(duì)詞匯-語(yǔ)法模式添加約束

        (1)對(duì)結(jié)果進(jìn)行過濾

        針對(duì)模式過于寬泛而影響準(zhǔn)確率的問題,為避免抽取出一些非農(nóng)業(yè)領(lǐng)域的通用語(yǔ)義關(guān)系,采用詞表過濾的方式,當(dāng)關(guān)系的施事概念、受事概念都屬于植物領(lǐng)域相關(guān)概念時(shí),保留該關(guān)系,其余關(guān)系則為錯(cuò)誤關(guān)系。這種方式可以大幅提高關(guān)系抽取的準(zhǔn)確度。

        (2)對(duì)詞匯-語(yǔ)法模式增加限制

        對(duì)上述詞匯-語(yǔ)法模式進(jìn)行改進(jìn),添加更多的約束,以提高模式的準(zhǔn)確度。改進(jìn)方法的流程如圖3所示。

        圖3 改進(jìn)方法的流程圖Fig.3 Flow chart of the improved method

        單個(gè)限制用如圖4所示的方式表示??梢杂肅onstraint Combination對(duì)象表示多個(gè)限制的組合。

        圖4單個(gè)限制的數(shù)據(jù)結(jié)構(gòu)
        Fig.4Data structure of a single constraint

        首先用基本模式,如SBV-HED-VOB在標(biāo)注集上進(jìn)行初步抽取,對(duì)于抽取成功的實(shí)例,本文將施事概念、關(guān)系名稱、受事概念的詞性和詞中的字用圖4中的方式表示為限制(限制值均為XML處理過程中對(duì)文本的標(biāo)記。其中,段落id和句子id分別為實(shí)例所在段落和句子的位置;基準(zhǔn)id為依存父節(jié)點(diǎn)在句子中的位置;相對(duì)于基準(zhǔn)的偏移量為抽取實(shí)例與依存父節(jié)點(diǎn)位置差值;限制的值為模式抽取的正確實(shí)例所含的特征),并計(jì)算這些限制的所有子集在標(biāo)注集上的Laplacian值,Laplacian因子計(jì)算公式為

        (2)

        式中e——抽取的錯(cuò)誤數(shù)

        n——抽取的總數(shù)

        Laplacian用來估計(jì)所添加的約束的性能好壞,Laplacian值低的表示該限制組合在標(biāo)注集上抽取表現(xiàn)良好。

        1.2基于百度百科半結(jié)構(gòu)化文本的非分類關(guān)系抽取

        由于對(duì)模式增加限制會(huì)對(duì)抽取非分類關(guān)系的召回率造成影響,本文除了從非結(jié)構(gòu)化文本信息中進(jìn)行關(guān)系提取,還有效利用百度百科中大量的半結(jié)構(gòu)化文本,這些半結(jié)構(gòu)化文本通常是經(jīng)過總結(jié)和提純過的知識(shí),相較于自然語(yǔ)言處理的方式,這種通過收割半結(jié)構(gòu)化文本的知識(shí)重用方式不僅可以抽取非分類關(guān)系作為補(bǔ)充來提高召回率,還具有簡(jiǎn)單易行、準(zhǔn)確度高的優(yōu)點(diǎn),因而也是本體學(xué)習(xí)的一個(gè)重要途徑。

        百度百科的詞條結(jié)構(gòu)包括:詞條名稱、百科名片、段落標(biāo)題和目錄、詞條正文等。可用于抽取非分類關(guān)系的半結(jié)構(gòu)化信息存在于百科名片和詞條正文的表格中。

        百科名片中包含了大量的植物別名、產(chǎn)地等屬性信息,該類信息也為植物領(lǐng)域非分類關(guān)系的一部分,且清晰易得。百度百科詞條正文中的大部分都是非結(jié)構(gòu)化的自由文本,但是有的詞條正文中也會(huì)同時(shí)采用表格的方式表示知識(shí)。

        本文利用百度百科詞條半結(jié)構(gòu)化信息的方法為:對(duì)網(wǎng)頁(yè)的DOM樹進(jìn)行解析處理,查找出其中表示百科名片中詞條基本信息欄表格和正文表格的HTML標(biāo)簽,獲取表格中“分布區(qū)域”等表示非分類關(guān)系的表項(xiàng),然后將其轉(zhuǎn)換為對(duì)應(yīng)的非分類關(guān)系三元組,其中,關(guān)系名稱為表格中表項(xiàng)的名稱,施事概念為詞條名稱,受事概念為表項(xiàng)的內(nèi)容。因?yàn)楸磉_(dá)受事概念的表項(xiàng)內(nèi)容通常為一些簡(jiǎn)單的自然語(yǔ)言語(yǔ)句,因此需先對(duì)其進(jìn)行LTP分詞、命名實(shí)體識(shí)別等處理。例如表3為百度百科詞條“紫薯”的正文中的一張表格,其中含有較多的表示營(yíng)養(yǎng)成分的概念,因此觸發(fā)了非分類關(guān)系的生成,這些概念均處于表示營(yíng)養(yǎng)成分主題的列表中,故非分類關(guān)系的名稱取“營(yíng)養(yǎng)成分”。

        1.3抽取結(jié)果的形式化

        將抽取的關(guān)系三元組用OWL(Web ontology language)語(yǔ)言進(jìn)行形式化,并借助Protégé的可視化插件OWLPropViz進(jìn)行抽取結(jié)果的顯示。對(duì)應(yīng)的可視化結(jié)果如圖5所示。

        2 實(shí)驗(yàn)與結(jié)果分析

        本研究從收集的語(yǔ)料中挑選了70個(gè)含有植物

        表3 百度百科中紫薯的營(yíng)養(yǎng)成分Tab.3 Nutrients of Solanum tuberdsm in Baidu encyclopedia

        注:各成分含量為每100 g中的含量。

        圖5 部分結(jié)果的可視化結(jié)果Fig.5 Partial results of visualization

        分布區(qū)域關(guān)系的句子和31個(gè)含有植物病蟲害關(guān)系的句子,測(cè)試上文提出的非分類關(guān)系抽取方法的性能。作為抽取方法的baseline,基本模式的抽取情況如表4所示。其中SBV-HED-VOB模式主要用于病蟲害關(guān)系的抽取,SBV-HED-CMP-POB模式主要用于分布區(qū)域關(guān)系的抽取。

        表4 基本模式的抽取情況Tab.4 Extraction of basic pattern

        注:表中N/A表示不可用。

        從表4中可以看出,在利用LTP對(duì)文本進(jìn)行自然語(yǔ)言處理結(jié)果的基礎(chǔ)上,直接用模式進(jìn)行抽取,準(zhǔn)確率在70%左右,還有較大的提升空間。一方面,LTP對(duì)于長(zhǎng)難句和語(yǔ)言風(fēng)格偏科研文獻(xiàn)句子的處理結(jié)果都會(huì)有一些問題。因此,本文把LTP處理有錯(cuò)誤的句子進(jìn)行過濾,模式抽取準(zhǔn)確率大有提升。另一方面,針對(duì)模式過于寬泛而影響準(zhǔn)確率的問題,本文采用詞表過濾的方法作為對(duì)模式的一種改進(jìn)。如表4所示,過濾后的結(jié)果具有較高的準(zhǔn)確率。

        另一種提高模式準(zhǔn)確率的改進(jìn)方法是為其增加限制。將31個(gè)含有植物病蟲害關(guān)系的句子分為2部分,前15個(gè)句子用來計(jì)算限制的Laplacian因子,并據(jù)此挑選在其上表現(xiàn)最優(yōu)的限制;然后將模式和限制合在一起,用來抽取后16個(gè)句子中的病蟲害關(guān)系。這時(shí)根據(jù)啟發(fā)式的策略選擇擁有最低Laplacian值的限制,測(cè)試語(yǔ)句上的準(zhǔn)確率如表5所示。

        表5 加上限制后模式的抽取情況Tab.5 Extraction after adding restriction

        可以看出,通過對(duì)模式增加限制,可更充分地利用除依存關(guān)系外的其他語(yǔ)言特征,從而提高了模式的抽取準(zhǔn)確度。

        近幾年內(nèi),國(guó)內(nèi)外本體學(xué)習(xí)界也有一些非分類關(guān)系學(xué)習(xí)的研究,例如加拿大ZOUAQ等[21]研究的OntoCmaps工具,以及國(guó)內(nèi)的古凌嵐等[22]提出的中文本體非分類關(guān)系抽取方法,這些研究在一定程度上代表了當(dāng)前本體非分類關(guān)系學(xué)習(xí)的水平,非分類關(guān)系抽取方法的性能如表6所示。

        表6 相關(guān)研究的抽取情況Tab.6 Extraction condition of related study

        ZOUAQ等在OntoCmaps中采用的是手工總結(jié)的詞匯-語(yǔ)法模式,其在論文中的測(cè)評(píng)結(jié)果顯示,該方法在不同語(yǔ)料上的性能波動(dòng)較大,故表6中給出了其平均準(zhǔn)確率的最大和最小值,總的來說,該結(jié)果和本文手工設(shè)定的模式準(zhǔn)確率基本一致,但二者均由于LTP性能問題以及其方法缺少對(duì)結(jié)果的過濾功能,導(dǎo)致抽取的準(zhǔn)確率偏低。

        綜合實(shí)驗(yàn)結(jié)果來看,本文用改進(jìn)的詞匯-語(yǔ)法模式作為非分類關(guān)系提取的基本方法,已經(jīng)能夠達(dá)到與同類方法相當(dāng)?shù)臏?zhǔn)確度。在此基礎(chǔ)上,分別利用基于詞表過濾的方法和給模式添加限制的方法,較大程度地提高了關(guān)系抽取的準(zhǔn)確度。

        3 結(jié)論

        (1)以網(wǎng)絡(luò)百科為知識(shí)來源,在信息提取、自然語(yǔ)言處理等領(lǐng)域的一些關(guān)系抽取方法基礎(chǔ)上,提出了一種改進(jìn)的基于詞匯-語(yǔ)法模式的中文非分類關(guān)系抽取辦法,實(shí)驗(yàn)表明其有效地提高了模式的準(zhǔn)確度,取得了預(yù)期的效果。

        (2)本文的研究屬于嘗試性的探索工作,測(cè)試的語(yǔ)句集還較少,未來還有一些需要改進(jìn)的地方和可能的研究方向:鑒于LTP等中文自然語(yǔ)言處理工具在百度百科的文本上性能有所下降,說明目前的技術(shù)在依存句法分析等相對(duì)深層的自然語(yǔ)言處理中與完全實(shí)用尚有一定的距離。本體是知識(shí)圖譜表示的概念模型和邏輯基礎(chǔ),在本體非分類關(guān)系抽取的基礎(chǔ)上,進(jìn)行實(shí)體和關(guān)系的映射,構(gòu)建完整的植物領(lǐng)域知識(shí)圖譜還需要進(jìn)一步完善。

        1王昊奮. 大規(guī)模知識(shí)圖譜技術(shù)[EB/OL]. (2014-06-12)http:∥www.China-cloud.com/zhongyunxy/20140612_38070.html.

        2DESHPANDE O, LAMBA D S, TOURN T, et al. Building, maintaining, and using knowledge bases: a report from the trenches[C]∥2013 SIGMOD’13, 2013:1209-1220.

        3程童凌, 李娟子. 基于維基類百科知識(shí)資源的實(shí)體關(guān)系發(fā)現(xiàn)和語(yǔ)標(biāo)注[J]. 電子技術(shù)與軟件工程, 2015(18):170-173.

        4MAEDCHE A, STAAB S. Ontology learning for the semantic web[J]. IEEE, Intelligent Systems, 2001, 16(2):72-79.

        5WONG W, LIU W, BENNAMOUN M. Ontology learning from text: a look back and into the future[J]. Acm Computing Surveys, 2012, 44(4):1-36.

        6廖福燕. 本體構(gòu)建中概念和關(guān)系獲取方法研究[D]. 西安:西安建筑科技大學(xué), 2011.

        LIAO Fuyan. Research on domain ontology concept and relation acquisition[D]. Xi’an:Xi’an University of Architecture and Technology,2011.(in Chinese)

        7谷俊, 嚴(yán)明, 王昊. 基于改進(jìn)關(guān)聯(lián)規(guī)則的本體關(guān)系獲取研究[J]. 情報(bào)理論與實(shí)踐, 2011, 34(12):121-125.

        GU Jun, YAN Ming, WANG Hao. Research on ontology relation extraction based on improved association rule[J]. Information Studies, 2011, 34(12):121-125. (in Chinese)

        8舒萬里. 中文領(lǐng)域本體學(xué)習(xí)中概念和關(guān)系抽取的研究[D]. 重慶:重慶大學(xué), 2012.

        SHU Wanli. Research on concept and relation extraction of Chinese domain ontology[D]. Chongqing: Chongqing University, 2012. (in Chinese)

        9胡云飛. 本體學(xué)習(xí)中關(guān)系獲取的研究[D]. 西安:西安建筑科技大學(xué), 2012.

        HU Yunfei. Research on relations acquisition of ontology learning[D]. Xi’an: Xi’an University of Architecture and Technology, 2012. (in Chinese)

        10邱桃榮,黃海泉,段文影,等.非分類關(guān)系學(xué)習(xí)的粒計(jì)算模型研究[J].南昌大學(xué)學(xué)報(bào):工科版,2012,34(3):273-278.

        QIU T R, HUANG H Q, DUAN W Y, et al. Research on granular computing model for non-taxonomic relations learning[J]. Journal of Nanchang University, 2012,34(3):273-278. (in Chinese)

        11梁吉震. 基于領(lǐng)域概念知識(shí)的非分類關(guān)系學(xué)習(xí)研究[D]. 長(zhǎng)春:吉林大學(xué), 2012.

        LIANG Jizhen. Research on non-taxonomic relationships learning based on domain concept knowledge[D]. Changchun: Jilin University, 2012. (in Chinese)

        12WEICHSELBRAUN A, WOHLGENANNT G, SCHARL A. Refining non-taxonomic relation labels with external structured data to support ontology learning[J]. Data & Knowledge Engineering, 2010, 69(8):763-778.

        13向陽(yáng), 張波, 韓婕. Agent驅(qū)動(dòng)的中文本體智能構(gòu)建研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(10):133-137.

        XIANG Yang, ZHANG Bo, HAN Jie. Agent driven intelligent construction of Chinese ontology[J]. Computer Engineering and Appfication, 2009, 45(10):133-137. (in Chinese)

        14葉瓊. 農(nóng)業(yè)領(lǐng)域本體知識(shí)云化方法研究[D]. 合肥:安徽農(nóng)業(yè)大學(xué), 2012.

        YE Qiong. Research on cloudization method of agricultural ontology knowledge[D]. Hefei: Anhui Agricultural University, 2012. (in Chinese)

        15鄧子平. 面向醫(yī)學(xué)診療的本體自動(dòng)生成系統(tǒng)的研究與開發(fā)[D]. 廣州:廣東工業(yè)大學(xué), 2011.

        DENG Ziping. Research and development of a ontology automatic generation system oriented medical diagnosis[D]. Guangzhou: Guangdong University of Technology,2011. (in Chinese)

        16馬莉,陳志新.基于網(wǎng)站結(jié)構(gòu)的領(lǐng)域本體學(xué)習(xí)方法[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(16):83,85.

        MA Li, CHEN Zhixin. Domain ontology learning mehtod based on structure of the site[J]. Computer CD Software and Applications,2014(16):83,85. (in Chinese)

        17王紅,高斯婷,潘振杰,等.基于NNV關(guān)聯(lián)規(guī)則的非分類關(guān)系提取方法及其應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(10):3665-3668.

        WANG Hong, GAO Siting, PAN Zhenjie, et al. Application and research of non-taxonimic relation extraction method based on NNV association rule[J]. Application Research of Computers, 2012, 29(10): 3665-3668. (in Chinese)

        19SERRA I, GIRARDI R, NOVAIS P. Evaluating techniques for learning non-taxonomic relationships of ontologies from text[J]. Expert Systems with Applications, 2014, 41(11):5201-5211.

        20CHE W, LI Z, LIU T. LTP: a Chinese language technology platform[C]∥Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, 2010:13-16.

        21ZOUAQ A, GASEVIC D, HATALA M. Linguistic patterns for information extraction in OntoCmaps[C]∥Proceedings of the 3rd Workshop on Ontology Patterns, 2012:1-12.

        22古凌嵐, 孫素云. 基于語(yǔ)義依存的中文本體非分類關(guān)系抽取方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012, 33(4):1676-1680.

        GU Linglan, SUN Suyun. Approach to Chinese ontology non-taxonomic relation extraction based on semantic dependency[J].Computer Engineering and Design, 2012, 33(4):1676-1680. (in Chinese)

        Research on Ontology Non-taxonomic Relations Extraction in Plant Domain Knowledge Graph Construction

        Zhao MingDu YaruDu HuifangZhang JiajunWang HongshuoChen Ying

        (CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China)

        In order to provide more specific knowledge and technology of plant field, the main task of KG (knowledge graph) is to extract a wealth of concepts and relationships. Due to the relation extraction is the most difficult in KG construction, this paper makes use of ontology learning, and proposes a non-taxonomic relation learning method to obtain representative concepts and their relations from unstructured and semi-structured texts of Baidu Encyclopedia entry content by using lexicon-syntactic patterns based on dependency grammar analysis. Moreover, the methods of adding constraint models and words filtering were adopted to build heavy weight ontology automatically based on a lightweight ontology and greatly improved the precision of the relation extraction. The approach established a concept structure from the plant domain corpus, ameliorated the discovery of the most representative non-taxonomic relation, and formalized them in the standardized OWL 2.0. A set of experiments was performed using the approach implemented in the plant domain. The results indicated that extraction by patterns should be performed directly after natural language processing, which has a comparatively high accuracy compared to the former algorithms, and this approach can extract non-taxonomic relations with high effectiveness, which lays the foundation for KG construction of plant field.

        plant domain ontology; knowledge graph; non-taxonomic relation; ontology learning; Baidu Encyclopedia

        10.6041/j.issn.1000-1298.2016.09.038

        2016-03-09

        2016-05-15

        國(guó)家自然科學(xué)基金項(xiàng)目(61503386)

        趙明(1963—),男,副教授,主要從事知識(shí)工程與計(jì)算機(jī)圖形學(xué)研究,E-mail: zhaoming@cau.edu.cn

        陳瑛(1978—),女,副教授,主要從事自然語(yǔ)言處理研究,E-mail: chenying@cau.edu.cn

        TP391

        A

        1000-1298(2016)09-0278-07

        猜你喜歡
        百科詞條語(yǔ)料
        樂樂“畫”百科
        百科小知識(shí)
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        2016年4月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
        2016年3月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
        2016年9月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        大數(shù)據(jù)相關(guān)詞條
        《苗防備覽》中的湘西語(yǔ)料
        探索百科
        国产精品久久婷婷六月| 欧美性猛交xxxx乱大交丰满| 久久精品这里只有精品| 日韩在线精品视频观看| 狠色人妻丝袜中文字幕| 久久国产亚洲高清观看| 国产精品国语对白露脸在线播放| 日韩AV无码乱伦丝袜一区| 一区二区在线观看日本视频| 一本色道久久综合狠狠躁篇| 熟妇高潮一区二区三区在线观看| 国产在线 | 中文| 麻豆第一区MV免费观看网站| 亚洲国产色图在线视频| 一本色道久久综合亚洲| 人妻哺乳奶头奶水| 欧美午夜a级精美理论片| 国产麻豆放荡av激情演绎| 日本av亚洲中文字幕| 国产精品r级最新在线观看| 国产小视频网址| 丰满人妻一区二区三区精品高清| 女同精品一区二区久久| 天天夜碰日日摸日日澡| 久久无码高潮喷水免费看| 亚洲一区二区三区精彩视频| 国产高清在线精品一区app| 日日碰狠狠躁久久躁9| 人妻无码人妻有码不卡| 成人免费播放视频影院| 精品久久人妻av中文字幕| 国产精品调教| 国产精品久久中文字幕亚洲| 少妇无套裸按摩呻吟无呜| 欧美大肥婆大肥bbbbb| 国产成人精品麻豆| 麻豆精品在线视频观看| 三a级做爰片免费观看| 无码不卡高清毛片免费| 中文字幕一区二区区免| 亚洲av色香蕉一区二区三区|