植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法

2016-10-27 02:04:09杜亞茹杜會(huì)芳張家軍王紅說

農(nóng)業(yè)機(jī)械學(xué)報(bào) 2016年9期

關(guān)鍵詞：百科詞條語(yǔ)料

趙　明　杜亞茹　杜會(huì)芳　張家軍　王紅說　陳　瑛

(中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院，北京 100083)

植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法

趙明杜亞茹杜會(huì)芳張家軍王紅說陳瑛

(中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院，北京 100083)

采用本體學(xué)習(xí)的方法，以百度百科植物類詞條內(nèi)容的非結(jié)構(gòu)和半結(jié)構(gòu)化中文文本信息作為語(yǔ)料進(jìn)行處理。使用一種有指導(dǎo)的基于依存句法分析的詞匯-語(yǔ)法模式來獲取植物領(lǐng)域的概念、分類和非分類關(guān)系，并分別利用基于詞表過濾的方法和給模式添加限制的方法，較大程度地提高了關(guān)系抽取的精確度，完成在輕量級(jí)本體的基礎(chǔ)上自動(dòng)構(gòu)建重量級(jí)本體。該方法建立了一個(gè)特定領(lǐng)域語(yǔ)料的概念層次，提高了最具代表性的分類和非分類關(guān)系的發(fā)現(xiàn)，并使用OWL語(yǔ)言形式化表達(dá)抽取結(jié)果。實(shí)驗(yàn)表明，該方法在非分類關(guān)系抽取上取得了較好的結(jié)果，為該領(lǐng)域知識(shí)圖譜構(gòu)建奠定了基礎(chǔ)。

植物領(lǐng)域本體；知識(shí)圖譜；非分類關(guān)系；本體學(xué)習(xí)；百度百科

引言

“知識(shí)圖譜”[1]作為一種知識(shí)表示方法，包含了大量概念(實(shí)體)以及概念間的分類和非分類關(guān)系，使其成為具有語(yǔ)義性的知識(shí)庫(kù)。它支撐綜合性知識(shí)檢索、智能問答、智能決策等方面的廣泛應(yīng)用。知識(shí)圖譜構(gòu)建的主要任務(wù)是抽取豐富的概念和關(guān)系，其中概念間非分類關(guān)系抽取是構(gòu)建知識(shí)圖譜的難點(diǎn)問題。而本體(Ontology)作為構(gòu)建知識(shí)圖譜的概念模型和邏輯基礎(chǔ)，尤其是概念之間的非分類關(guān)系，不僅增加了知識(shí)表達(dá)的完備性和復(fù)雜性，還在很大程度上對(duì)知識(shí)圖譜進(jìn)行了豐富和擴(kuò)展[2]。

本體[3]是用于描述或表達(dá)某一領(lǐng)域中術(shù)語(yǔ)、概念以及之間關(guān)系的一個(gè)基本知識(shí)體系，是共享概念模型的形式化的明確說明。基于本體的應(yīng)用和解決方案是在本體構(gòu)建的基礎(chǔ)上實(shí)現(xiàn)的。然而，現(xiàn)有的各種本體開發(fā)工具(如Protégé、KAON等)支持的是手工構(gòu)建本體的方式，存在費(fèi)時(shí)、費(fèi)力且不易及時(shí)動(dòng)態(tài)更新等問題。因此如何快速、低成本、自動(dòng)或半自動(dòng)構(gòu)建大規(guī)模領(lǐng)域本體——即所謂的本體學(xué)習(xí)(Ontology learning)就成為一個(gè)很有意義的研究方向[4-5]。目前，在本體學(xué)習(xí)領(lǐng)域抽取非分類關(guān)系的方法主要有：基于詞典的方法、基于關(guān)聯(lián)規(guī)則的方法和基于模式匹配的方法。

基于詞典的方法抽取出的關(guān)系必須是WordNet 中已經(jīng)存在的關(guān)系，并僅能從WordNet 中抽取同義、反義和部分/整體這幾種關(guān)系，局限性比較大?；陉P(guān)聯(lián)規(guī)則的方法研究中，研究者分別設(shè)置不同的參數(shù)，諸如概念之間的關(guān)聯(lián)度閾值[6]、術(shù)語(yǔ)之間相似度權(quán)重[7]、對(duì)數(shù)似然比[8-9]以及粒計(jì)算模型[10]等進(jìn)行非分類關(guān)系抽取。但是該類方法中，由于詞性標(biāo)注的錯(cuò)誤對(duì)準(zhǔn)確率有較大的影響，因此還要探索更為有效的方法。

基于模式匹配的方法[11]是通過分析領(lǐng)域相關(guān)文本，歸納出頻繁使用的語(yǔ)言模式，來識(shí)別相應(yīng)的語(yǔ)義關(guān)系。研究者均采用語(yǔ)義依存[1]的本體非分類關(guān)系抽取方法，經(jīng)過詞性標(biāo)注、角色標(biāo)注[3]和語(yǔ)義分析得到具有語(yǔ)義依存的動(dòng)詞框架，構(gòu)建動(dòng)詞向量語(yǔ)料庫(kù)[12]，再進(jìn)行句子相似度的計(jì)算。還有一部分研究者提出一種綜合語(yǔ)義模式和統(tǒng)計(jì)學(xué)的啟發(fā)式非分類關(guān)系學(xué)習(xí)框架[11，13]。該類方法中，抽取精度較高，但是有些中心詞的選取會(huì)對(duì)非分類關(guān)系的選取造成影響。另外，非分類關(guān)系復(fù)雜多樣，不僅僅包含術(shù)語(yǔ)和術(shù)語(yǔ)之間的關(guān)系，還包含一些諸如產(chǎn)地、病蟲害等屬性關(guān)系，此類關(guān)系更為復(fù)雜且豐富，以上方法沒有針對(duì)性，因此提取效果較差。以上方法由于中文概念的多義性對(duì)非分類關(guān)系種類的影響等原因，該方法的準(zhǔn)確率和召回率在領(lǐng)域本體構(gòu)建中還可以進(jìn)一步優(yōu)化。

以上非分類關(guān)系抽取的研究方法所涉及的領(lǐng)域包括農(nóng)業(yè)[14]、醫(yī)學(xué)診療[15]、網(wǎng)站[16]、航空管理等[17]。還有一部分研究者利用非監(jiān)督的本體學(xué)習(xí)方法[18]從Web文檔提取非分類關(guān)系，并對(duì)該方法進(jìn)行評(píng)測(cè)[19]。但是中文本體的自動(dòng)構(gòu)建，尤其是農(nóng)業(yè)領(lǐng)域非分類關(guān)系的學(xué)習(xí)研究才剛剛起步。因此本文針對(duì)基于模式匹配方法提取非分類關(guān)系的局限，以百度百科植物詞條內(nèi)容為語(yǔ)料，采用詞匯-語(yǔ)法模式進(jìn)行非分類關(guān)系的抽取，利用停用詞表過濾和為模式增加限制的方法對(duì)該方法進(jìn)行改進(jìn)，并且對(duì)非分類關(guān)系的類別進(jìn)行討論，開展基于Web的中文植物本體非分類關(guān)系學(xué)習(xí)方法的研究。

1　基于詞匯-語(yǔ)法模式的非分類關(guān)系抽取

針對(duì)基于百度百科植物領(lǐng)域本體學(xué)習(xí)中非分類關(guān)系的學(xué)習(xí)方法，采用的主要技術(shù)和步驟如下：

(1)抓取相關(guān)詞條的網(wǎng)頁(yè)內(nèi)容，以此為語(yǔ)料，對(duì)語(yǔ)料進(jìn)行預(yù)處理，使用改進(jìn)的詞匯-語(yǔ)法模式進(jìn)行非分類關(guān)系的自動(dòng)抽取，提升抽取的準(zhǔn)確度。

(2)抽取百度百科半結(jié)構(gòu)化文本中的非分類關(guān)系。

(3)在抽取出關(guān)系三元組的基礎(chǔ)上，使用OWL語(yǔ)言將其形式化。

總體流程如圖1所示。

圖1　技術(shù)流程圖Fig.1　Flow chart of technological process

1.1基于詞匯-語(yǔ)法模式的非分類關(guān)系抽取

1.1.1數(shù)據(jù)的獲取與預(yù)處理

利用Python編寫的語(yǔ)料采集工具從百度百科的植物分類下抓取了9 623個(gè)詞條作為語(yǔ)料。這些語(yǔ)料用GBK編碼的文本文件形式存儲(chǔ)。為解決百度百科詞條正文非結(jié)構(gòu)化文本難以直接利用的問題，借助自然語(yǔ)言處理的開源工具LTP(Language technology platform)[20]，主要使用分詞、詞性標(biāo)注和依存句法分析這3個(gè)模塊對(duì)語(yǔ)料進(jìn)行預(yù)處理，得到的結(jié)果以XML的形式保存。

1.1.2模式獲取

從百度百科植物語(yǔ)料中選取一小批高質(zhì)量并具有代表性的詞條(在19個(gè)分類下共選取了97個(gè)詞條)，自動(dòng)找出典型的表達(dá)非分類關(guān)系的語(yǔ)句(共339句)，該類語(yǔ)句均含有農(nóng)業(yè)概念，且主要集中在具有農(nóng)業(yè)價(jià)值的非分類關(guān)系上，如植物的地理分布、適生環(huán)境、病蟲害、經(jīng)濟(jì)價(jià)值等，表1列舉了其中部分語(yǔ)句。

表1　部分語(yǔ)句Tab.1　Some of statements

模式提取的任務(wù)實(shí)際上也是一種序列標(biāo)注問題，解決該任務(wù)一般采用有監(jiān)督學(xué)習(xí)方式。令{(xi,yi)}(i=1,2,…,N)為一個(gè)大小為N的訓(xùn)練樣本集。每個(gè)序列對(duì)(xi,yi)為一個(gè)樣本，其中xi=，yi=。序列標(biāo)注的目標(biāo)就是尋找一個(gè)模型M，可以在給定輸入序列x的基礎(chǔ)上預(yù)測(cè)標(biāo)注序列y。

另外，考慮到植物領(lǐng)域詞匯的特殊性，其概念詞匯出現(xiàn)的上下文中往往包含特定的詞匯，例如：又名、又叫、輪作、套種、有、富含、含有、栽培、病害、蟲害等。因此在植物詞匯出現(xiàn)的語(yǔ)句中，分別在淺層和深層依存句法分析結(jié)果進(jìn)行標(biāo)注，即找出并標(biāo)明句子中存在非分類關(guān)系的概念，以及非分類關(guān)系的名稱，記為Ri(Xi,Yi)。然后統(tǒng)計(jì)Xi、Ri、Yi之間的依存關(guān)系序列在其他標(biāo)注Xj、Rj、Yj(i≠j)中出現(xiàn)的次數(shù)。其中，淺層句法分析通過正則表達(dá)式匹配的方法獲取非分類關(guān)系，深層句法分析通過句法依賴分析匹配模式的方法獲得關(guān)系。再借助相似度計(jì)算等機(jī)器學(xué)習(xí)方法統(tǒng)計(jì)訓(xùn)練語(yǔ)料中出現(xiàn)頻率較高的詞語(yǔ)構(gòu)成高頻詞表，進(jìn)行多次迭代不斷泛化來獲取表達(dá)非分類關(guān)系的詞匯-語(yǔ)法模式，剔除不符合語(yǔ)法的序列后，得到出現(xiàn)多次的依存關(guān)系序列即為表達(dá)非分類關(guān)系的詞匯-語(yǔ)法模式，如表2所示(依存句法標(biāo)注含義見LTP官方文檔)。

表2　詞匯-語(yǔ)法模式集Tab.2　Set of lexicon-syntactic patterns

其中，模式采用依存關(guān)系(頭節(jié)點(diǎn)，依存節(jié)點(diǎn))→非分類關(guān)系名稱(施事概念，受事概念)的形式表示?？梢孕问交癁?/p>

(1)

其中L、A、B為si和ti中指定的元素，式(1)表示當(dāng)所有依存關(guān)系Di都滿足時(shí)，則L(A,B)關(guān)系成立。

1.1.3為模式增加規(guī)則

對(duì)于抽取的詞匯-語(yǔ)法模式，一個(gè)值得注意的問題是有些模式含有并列關(guān)系(COO)和連動(dòng)結(jié)構(gòu)(VV)：對(duì)于并列關(guān)系，如果某個(gè)節(jié)點(diǎn)的依存關(guān)系為COO的話，則該節(jié)點(diǎn)視為等同于依存關(guān)系所指向的節(jié)點(diǎn)，并且該性質(zhì)具有傳遞性。例如，在句子 “主要蟲害有介殼蟲和斑蛾?！敝校瑢ⅰ敖闅はx”與“斑蛾”視為等同；對(duì)于連動(dòng)結(jié)構(gòu)，如果某個(gè)節(jié)點(diǎn)的依存關(guān)系為VV的話，則該節(jié)點(diǎn)依存關(guān)系所指向的節(jié)點(diǎn)可視為與該節(jié)點(diǎn)共享主語(yǔ)，即VV(X, Y), SBV(X, Z)→SBV(Y, Z)，并且該性質(zhì)具有傳遞性。例如，在句子“黃芪產(chǎn)于內(nèi)蒙古等地，為國(guó)家三級(jí)保護(hù)植物。” 中，“產(chǎn)”與“為”是連動(dòng)結(jié)構(gòu)，“為”共享“產(chǎn)”的主語(yǔ)“黃芪”。

另一個(gè)值得注意的問題是，表2中的模式?jīng)]有利用定中關(guān)系(ATT)和狀中結(jié)構(gòu)(ADV)，這樣會(huì)導(dǎo)致抽取出來的非分類關(guān)系的概念和關(guān)系名稱都是語(yǔ)句中相應(yīng)成分的中心詞，從而丟失了部分語(yǔ)義，例如，“鐵觀音原產(chǎn)于福建安溪縣西坪?！边@句話，利用模式SBV(Y, X), HED(Root, Y), CMP(Y, Z), POB(Z, W)→Y_Z(X, W)會(huì)抽取出“產(chǎn)_于(鐵觀音，西坪)”，關(guān)系名稱丟失了“原產(chǎn)于”中的狀語(yǔ)“原”，也影響了關(guān)系名稱的精確性。本文在歸納總結(jié)詞匯-語(yǔ)法模式時(shí)，考慮到要盡可能提高模式的召回率，采用了這種弱限定的模式，對(duì)于上述抽取結(jié)果語(yǔ)義缺失的情況，本文采用后處理的方法，如果抽取出的非分類關(guān)系的概念和關(guān)系名稱在語(yǔ)句中前面有限定性修飾成分的話，則會(huì)補(bǔ)上。

另外，由于百度百科詞條的文本圍繞著詞條進(jìn)行闡述說明，故許多句子的主語(yǔ)默認(rèn)就是詞條名稱，從而被缺省。這種情況對(duì)非分類關(guān)系抽取的影響是導(dǎo)致抽取出來的非分類關(guān)系缺少施事概念，本文的處理方法就是將詞條名稱作為默認(rèn)的施事概念。

1.1.4非分類關(guān)系抽取

在所獲詞匯-語(yǔ)法模式的基礎(chǔ)上，可以進(jìn)行非分類關(guān)系的提取。具體過程為：對(duì)待提取的文檔利用LTP進(jìn)行分段、分句、分詞、依存句法分析；然后將模式匹配歸結(jié)為在依存樹中尋找子樹的問題，即對(duì)句子的依存樹進(jìn)行檢測(cè)，如果樹中存在這些節(jié)點(diǎn)，其滿足模式前件中的每項(xiàng)約束，則模式匹配成功；并將這些節(jié)點(diǎn)按照模式的后件轉(zhuǎn)換為非分類關(guān)系。以表2中第3行為例，“鐵觀音原產(chǎn)于福建安溪縣西坪?！边@句話的依存樹如圖2所示，因?yàn)椤拌F觀音”與“產(chǎn)”為主謂關(guān)系(SBV)，虛擬節(jié)點(diǎn)Root與“產(chǎn)”為HED關(guān)系，“產(chǎn)”與“于”為動(dòng)補(bǔ)結(jié)構(gòu)(CMP)，“于”與“西坪”為介賓關(guān)系(POB)，所以滿足了該模式的前件，根據(jù)模式的后件，將這些節(jié)點(diǎn)轉(zhuǎn)為非分類關(guān)系：產(chǎn)_于(鐵觀音，西坪)。

圖2　“鐵觀音原產(chǎn)于福建安溪縣西坪”的依存樹Fig.2　An example of a D-tree

另外，當(dāng)利用SBV-HED-VOB模式對(duì)句子進(jìn)行模式匹配時(shí)，將句子中依存關(guān)系名稱為“SBV”、“HED”、“VOB”的詞組成三元組，然后再去判斷這些三元組內(nèi)部的依存關(guān)系是否和模式中的完全一致，當(dāng)一致時(shí)，則匹配成功，否則失敗。

1.1.5對(duì)詞匯-語(yǔ)法模式添加約束

(1)對(duì)結(jié)果進(jìn)行過濾

針對(duì)模式過于寬泛而影響準(zhǔn)確率的問題，為避免抽取出一些非農(nóng)業(yè)領(lǐng)域的通用語(yǔ)義關(guān)系，采用詞表過濾的方式，當(dāng)關(guān)系的施事概念、受事概念都屬于植物領(lǐng)域相關(guān)概念時(shí)，保留該關(guān)系，其余關(guān)系則為錯(cuò)誤關(guān)系。這種方式可以大幅提高關(guān)系抽取的準(zhǔn)確度。

(2)對(duì)詞匯-語(yǔ)法模式增加限制

對(duì)上述詞匯-語(yǔ)法模式進(jìn)行改進(jìn)，添加更多的約束，以提高模式的準(zhǔn)確度。改進(jìn)方法的流程如圖3所示。

圖3　改進(jìn)方法的流程圖Fig.3　Flow chart of the improved method

單個(gè)限制用如圖4所示的方式表示?？梢杂肅onstraint Combination對(duì)象表示多個(gè)限制的組合。

圖4單個(gè)限制的數(shù)據(jù)結(jié)構(gòu)
Fig.4Data structure of a single constraint

首先用基本模式，如SBV-HED-VOB在標(biāo)注集上進(jìn)行初步抽取，對(duì)于抽取成功的實(shí)例，本文將施事概念、關(guān)系名稱、受事概念的詞性和詞中的字用圖4中的方式表示為限制(限制值均為XML處理過程中對(duì)文本的標(biāo)記。其中，段落id和句子id分別為實(shí)例所在段落和句子的位置；基準(zhǔn)id為依存父節(jié)點(diǎn)在句子中的位置；相對(duì)于基準(zhǔn)的偏移量為抽取實(shí)例與依存父節(jié)點(diǎn)位置差值；限制的值為模式抽取的正確實(shí)例所含的特征)，并計(jì)算這些限制的所有子集在標(biāo)注集上的Laplacian值，Laplacian因子計(jì)算公式為

(2)

式中e——抽取的錯(cuò)誤數(shù)

n——抽取的總數(shù)

Laplacian用來估計(jì)所添加的約束的性能好壞，Laplacian值低的表示該限制組合在標(biāo)注集上抽取表現(xiàn)良好。

1.2基于百度百科半結(jié)構(gòu)化文本的非分類關(guān)系抽取

由于對(duì)模式增加限制會(huì)對(duì)抽取非分類關(guān)系的召回率造成影響，本文除了從非結(jié)構(gòu)化文本信息中進(jìn)行關(guān)系提取，還有效利用百度百科中大量的半結(jié)構(gòu)化文本，這些半結(jié)構(gòu)化文本通常是經(jīng)過總結(jié)和提純過的知識(shí)，相較于自然語(yǔ)言處理的方式，這種通過收割半結(jié)構(gòu)化文本的知識(shí)重用方式不僅可以抽取非分類關(guān)系作為補(bǔ)充來提高召回率，還具有簡(jiǎn)單易行、準(zhǔn)確度高的優(yōu)點(diǎn)，因而也是本體學(xué)習(xí)的一個(gè)重要途徑。

百度百科的詞條結(jié)構(gòu)包括：詞條名稱、百科名片、段落標(biāo)題和目錄、詞條正文等。可用于抽取非分類關(guān)系的半結(jié)構(gòu)化信息存在于百科名片和詞條正文的表格中。

百科名片中包含了大量的植物別名、產(chǎn)地等屬性信息，該類信息也為植物領(lǐng)域非分類關(guān)系的一部分，且清晰易得。百度百科詞條正文中的大部分都是非結(jié)構(gòu)化的自由文本，但是有的詞條正文中也會(huì)同時(shí)采用表格的方式表示知識(shí)。

本文利用百度百科詞條半結(jié)構(gòu)化信息的方法為：對(duì)網(wǎng)頁(yè)的DOM樹進(jìn)行解析處理，查找出其中表示百科名片中詞條基本信息欄表格和正文表格的HTML標(biāo)簽，獲取表格中“分布區(qū)域”等表示非分類關(guān)系的表項(xiàng)，然后將其轉(zhuǎn)換為對(duì)應(yīng)的非分類關(guān)系三元組，其中，關(guān)系名稱為表格中表項(xiàng)的名稱，施事概念為詞條名稱，受事概念為表項(xiàng)的內(nèi)容。因?yàn)楸磉_(dá)受事概念的表項(xiàng)內(nèi)容通常為一些簡(jiǎn)單的自然語(yǔ)言語(yǔ)句，因此需先對(duì)其進(jìn)行LTP分詞、命名實(shí)體識(shí)別等處理。例如表3為百度百科詞條“紫薯”的正文中的一張表格，其中含有較多的表示營(yíng)養(yǎng)成分的概念，因此觸發(fā)了非分類關(guān)系的生成，這些概念均處于表示營(yíng)養(yǎng)成分主題的列表中，故非分類關(guān)系的名稱取“營(yíng)養(yǎng)成分”。

1.3抽取結(jié)果的形式化

將抽取的關(guān)系三元組用OWL(Web ontology language)語(yǔ)言進(jìn)行形式化，并借助Protégé的可視化插件OWLPropViz進(jìn)行抽取結(jié)果的顯示。對(duì)應(yīng)的可視化結(jié)果如圖5所示。

2　實(shí)驗(yàn)與結(jié)果分析

本研究從收集的語(yǔ)料中挑選了70個(gè)含有植物

表3　百度百科中紫薯的營(yíng)養(yǎng)成分Tab.3　Nutrients of Solanum tuberdsm in Baidu encyclopedia

注：各成分含量為每100 g中的含量。

圖5　部分結(jié)果的可視化結(jié)果Fig.5　Partial results of visualization

分布區(qū)域關(guān)系的句子和31個(gè)含有植物病蟲害關(guān)系的句子，測(cè)試上文提出的非分類關(guān)系抽取方法的性能。作為抽取方法的baseline，基本模式的抽取情況如表4所示。其中SBV-HED-VOB模式主要用于病蟲害關(guān)系的抽取，SBV-HED-CMP-POB模式主要用于分布區(qū)域關(guān)系的抽取。

表4　基本模式的抽取情況Tab.4　Extraction of basic pattern

注：表中N/A表示不可用。

從表4中可以看出，在利用LTP對(duì)文本進(jìn)行自然語(yǔ)言處理結(jié)果的基礎(chǔ)上，直接用模式進(jìn)行抽取，準(zhǔn)確率在70%左右，還有較大的提升空間。一方面，LTP對(duì)于長(zhǎng)難句和語(yǔ)言風(fēng)格偏科研文獻(xiàn)句子的處理結(jié)果都會(huì)有一些問題。因此，本文把LTP處理有錯(cuò)誤的句子進(jìn)行過濾，模式抽取準(zhǔn)確率大有提升。另一方面，針對(duì)模式過于寬泛而影響準(zhǔn)確率的問題，本文采用詞表過濾的方法作為對(duì)模式的一種改進(jìn)。如表4所示，過濾后的結(jié)果具有較高的準(zhǔn)確率。

另一種提高模式準(zhǔn)確率的改進(jìn)方法是為其增加限制。將31個(gè)含有植物病蟲害關(guān)系的句子分為2部分，前15個(gè)句子用來計(jì)算限制的Laplacian因子，并據(jù)此挑選在其上表現(xiàn)最優(yōu)的限制；然后將模式和限制合在一起，用來抽取后16個(gè)句子中的病蟲害關(guān)系。這時(shí)根據(jù)啟發(fā)式的策略選擇擁有最低Laplacian值的限制，測(cè)試語(yǔ)句上的準(zhǔn)確率如表5所示。

表5　加上限制后模式的抽取情況Tab.5　Extraction after adding restriction

可以看出，通過對(duì)模式增加限制，可更充分地利用除依存關(guān)系外的其他語(yǔ)言特征，從而提高了模式的抽取準(zhǔn)確度。

近幾年內(nèi)，國(guó)內(nèi)外本體學(xué)習(xí)界也有一些非分類關(guān)系學(xué)習(xí)的研究，例如加拿大ZOUAQ等[21]研究的OntoCmaps工具，以及國(guó)內(nèi)的古凌嵐等[22]提出的中文本體非分類關(guān)系抽取方法，這些研究在一定程度上代表了當(dāng)前本體非分類關(guān)系學(xué)習(xí)的水平，非分類關(guān)系抽取方法的性能如表6所示。

表6　相關(guān)研究的抽取情況Tab.6　Extraction condition of related study

ZOUAQ等在OntoCmaps中采用的是手工總結(jié)的詞匯-語(yǔ)法模式，其在論文中的測(cè)評(píng)結(jié)果顯示，該方法在不同語(yǔ)料上的性能波動(dòng)較大，故表6中給出了其平均準(zhǔn)確率的最大和最小值，總的來說，該結(jié)果和本文手工設(shè)定的模式準(zhǔn)確率基本一致，但二者均由于LTP性能問題以及其方法缺少對(duì)結(jié)果的過濾功能，導(dǎo)致抽取的準(zhǔn)確率偏低。

綜合實(shí)驗(yàn)結(jié)果來看，本文用改進(jìn)的詞匯-語(yǔ)法模式作為非分類關(guān)系提取的基本方法，已經(jīng)能夠達(dá)到與同類方法相當(dāng)?shù)臏?zhǔn)確度。在此基礎(chǔ)上，分別利用基于詞表過濾的方法和給模式添加限制的方法，較大程度地提高了關(guān)系抽取的準(zhǔn)確度。

3　結(jié)論

(1)以網(wǎng)絡(luò)百科為知識(shí)來源，在信息提取、自然語(yǔ)言處理等領(lǐng)域的一些關(guān)系抽取方法基礎(chǔ)上，提出了一種改進(jìn)的基于詞匯-語(yǔ)法模式的中文非分類關(guān)系抽取辦法，實(shí)驗(yàn)表明其有效地提高了模式的準(zhǔn)確度，取得了預(yù)期的效果。

(2)本文的研究屬于嘗試性的探索工作，測(cè)試的語(yǔ)句集還較少，未來還有一些需要改進(jìn)的地方和可能的研究方向：鑒于LTP等中文自然語(yǔ)言處理工具在百度百科的文本上性能有所下降，說明目前的技術(shù)在依存句法分析等相對(duì)深層的自然語(yǔ)言處理中與完全實(shí)用尚有一定的距離。本體是知識(shí)圖譜表示的概念模型和邏輯基礎(chǔ)，在本體非分類關(guān)系抽取的基礎(chǔ)上，進(jìn)行實(shí)體和關(guān)系的映射，構(gòu)建完整的植物領(lǐng)域知識(shí)圖譜還需要進(jìn)一步完善。

1王昊奮. 大規(guī)模知識(shí)圖譜技術(shù)[EB/OL]. (2014-06-12)http:∥www.China-cloud.com/zhongyunxy/20140612_38070.html.

2DESHPANDE O, LAMBA D S, TOURN T, et al. Building, maintaining, and using knowledge bases: a report from the trenches[C]∥2013 SIGMOD’13, 2013:1209-1220.

3程童凌, 李娟子. 基于維基類百科知識(shí)資源的實(shí)體關(guān)系發(fā)現(xiàn)和語(yǔ)標(biāo)注[J]. 電子技術(shù)與軟件工程, 2015(18):170-173.

4MAEDCHE A, STAAB S. Ontology learning for the semantic web[J]. IEEE, Intelligent Systems, 2001, 16(2):72-79.

5WONG W, LIU W, BENNAMOUN M. Ontology learning from text: a look back and into the future[J]. Acm Computing Surveys, 2012, 44(4):1-36.

6廖福燕. 本體構(gòu)建中概念和關(guān)系獲取方法研究[D]. 西安:西安建筑科技大學(xué), 2011.

LIAO Fuyan. Research on domain ontology concept and relation acquisition[D]. Xi’an:Xi’an University of Architecture and Technology,2011.(in Chinese)

7谷俊, 嚴(yán)明, 王昊. 基于改進(jìn)關(guān)聯(lián)規(guī)則的本體關(guān)系獲取研究[J]. 情報(bào)理論與實(shí)踐, 2011, 34(12):121-125.

GU Jun, YAN Ming, WANG Hao. Research on ontology relation extraction based on improved association rule[J]. Information Studies, 2011, 34(12):121-125. (in Chinese)

8舒萬里. 中文領(lǐng)域本體學(xué)習(xí)中概念和關(guān)系抽取的研究[D]. 重慶:重慶大學(xué), 2012.

SHU Wanli. Research on concept and relation extraction of Chinese domain ontology[D]. Chongqing: Chongqing University, 2012. (in Chinese)

9胡云飛. 本體學(xué)習(xí)中關(guān)系獲取的研究[D]. 西安：西安建筑科技大學(xué), 2012.

HU Yunfei. Research on relations acquisition of ontology learning[D]. Xi’an: Xi’an University of Architecture and Technology, 2012. (in Chinese)

10邱桃榮,黃海泉,段文影,等.非分類關(guān)系學(xué)習(xí)的粒計(jì)算模型研究[J].南昌大學(xué)學(xué)報(bào):工科版,2012,34(3):273-278.

QIU T R, HUANG H Q, DUAN W Y, et al. Research on granular computing model for non-taxonomic relations learning[J]. Journal of Nanchang University, 2012,34(3):273-278. (in Chinese)

11梁吉震. 基于領(lǐng)域概念知識(shí)的非分類關(guān)系學(xué)習(xí)研究[D]. 長(zhǎng)春:吉林大學(xué), 2012.

LIANG Jizhen. Research on non-taxonomic relationships learning based on domain concept knowledge[D]. Changchun: Jilin University, 2012. (in Chinese)

12WEICHSELBRAUN A, WOHLGENANNT G, SCHARL A. Refining non-taxonomic relation labels with external structured data to support ontology learning[J]. Data & Knowledge Engineering, 2010, 69(8):763-778.

13向陽(yáng), 張波, 韓婕. Agent驅(qū)動(dòng)的中文本體智能構(gòu)建研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(10):133-137.

XIANG Yang, ZHANG Bo, HAN Jie. Agent driven intelligent construction of Chinese ontology[J]. Computer Engineering and Appfication, 2009, 45(10):133-137. (in Chinese)

14葉瓊. 農(nóng)業(yè)領(lǐng)域本體知識(shí)云化方法研究[D]. 合肥:安徽農(nóng)業(yè)大學(xué), 2012.

YE Qiong. Research on cloudization method of agricultural ontology knowledge[D]. Hefei: Anhui Agricultural University, 2012. (in Chinese)

15鄧子平. 面向醫(yī)學(xué)診療的本體自動(dòng)生成系統(tǒng)的研究與開發(fā)[D]. 廣州:廣東工業(yè)大學(xué), 2011.

DENG Ziping. Research and development of a ontology automatic generation system oriented medical diagnosis[D]. Guangzhou: Guangdong University of Technology,2011. (in Chinese)

16馬莉,陳志新.基于網(wǎng)站結(jié)構(gòu)的領(lǐng)域本體學(xué)習(xí)方法[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(16):83,85.

MA Li, CHEN Zhixin. Domain ontology learning mehtod based on structure of the site[J]. Computer CD Software and Applications,2014(16):83,85. (in Chinese)

17王紅,高斯婷,潘振杰,等.基于NNV關(guān)聯(lián)規(guī)則的非分類關(guān)系提取方法及其應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(10):3665-3668.

WANG Hong, GAO Siting, PAN Zhenjie, et al. Application and research of non-taxonimic relation extraction method based on NNV association rule[J]. Application Research of Computers, 2012, 29(10): 3665-3668. (in Chinese)

19SERRA I, GIRARDI R, NOVAIS P. Evaluating techniques for learning non-taxonomic relationships of ontologies from text[J]. Expert Systems with Applications, 2014, 41(11):5201-5211.

20CHE W, LI Z, LIU T. LTP: a Chinese language technology platform[C]∥Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, 2010:13-16.

21ZOUAQ A, GASEVIC D, HATALA M. Linguistic patterns for information extraction in OntoCmaps[C]∥Proceedings of the 3rd Workshop on Ontology Patterns, 2012:1-12.

22古凌嵐, 孫素云. 基于語(yǔ)義依存的中文本體非分類關(guān)系抽取方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012, 33(4):1676-1680.

GU Linglan, SUN Suyun. Approach to Chinese ontology non-taxonomic relation extraction based on semantic dependency[J].Computer Engineering and Design, 2012, 33(4):1676-1680. (in Chinese)

Research on Ontology Non-taxonomic Relations Extraction in Plant Domain Knowledge Graph Construction

Zhao MingDu YaruDu HuifangZhang JiajunWang HongshuoChen Ying

(CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China)

In order to provide more specific knowledge and technology of plant field, the main task of KG (knowledge graph) is to extract a wealth of concepts and relationships. Due to the relation extraction is the most difficult in KG construction, this paper makes use of ontology learning, and proposes a non-taxonomic relation learning method to obtain representative concepts and their relations from unstructured and semi-structured texts of Baidu Encyclopedia entry content by using lexicon-syntactic patterns based on dependency grammar analysis. Moreover, the methods of adding constraint models and words filtering were adopted to build heavy weight ontology automatically based on a lightweight ontology and greatly improved the precision of the relation extraction. The approach established a concept structure from the plant domain corpus, ameliorated the discovery of the most representative non-taxonomic relation, and formalized them in the standardized OWL 2.0. A set of experiments was performed using the approach implemented in the plant domain. The results indicated that extraction by patterns should be performed directly after natural language processing, which has a comparatively high accuracy compared to the former algorithms, and this approach can extract non-taxonomic relations with high effectiveness, which lays the foundation for KG construction of plant field.

plant domain ontology; knowledge graph; non-taxonomic relation; ontology learning； Baidu Encyclopedia

10.6041/j.issn.1000-1298.2016.09.038

2016-03-09

2016-05-15

國(guó)家自然科學(xué)基金項(xiàng)目(61503386)

趙明(1963—)，男，副教授，主要從事知識(shí)工程與計(jì)算機(jī)圖形學(xué)研究，E-mail: zhaoming@cau.edu.cn

陳瑛(1978—)，女，副教授，主要從事自然語(yǔ)言處理研究，E-mail: chenying@cau.edu.cn

TP391

1000-1298(2016)09-0278-07

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法

引言

1 基于詞匯-語(yǔ)法模式的非分類關(guān)系抽取

2 實(shí)驗(yàn)與結(jié)果分析

3 結(jié)論

1　基于詞匯-語(yǔ)法模式的非分類關(guān)系抽取

2　實(shí)驗(yàn)與結(jié)果分析

3　結(jié)論