呂鵬飛,王春寧,朱月琴
(1.中國(guó)地質(zhì)圖書館,北京 100083;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;4.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100037)
基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取方法研究
呂鵬飛1,2,王春寧1,朱月琴3,4
(1.中國(guó)地質(zhì)圖書館,北京100083;2.中國(guó)科學(xué)院大學(xué),北京100049;3.中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心,北京100037;4.國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京100037)
實(shí)體關(guān)系抽取是信息抽取的一項(xiàng)重要內(nèi)容,通過(guò)實(shí)體關(guān)系的抽取能夠發(fā)現(xiàn)文本中的有價(jià)值信息。本文在分析和比較了有監(jiān)督、無(wú)監(jiān)督、弱監(jiān)督以及開放式等關(guān)系抽取方法的原理和特點(diǎn)的基礎(chǔ)上,建立了基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取模型:采用統(tǒng)計(jì)語(yǔ)言模型作為關(guān)系抽取方式、采用Bootstrapping算法作為關(guān)系擴(kuò)展方式。最后據(jù)此進(jìn)行了關(guān)聯(lián)關(guān)系發(fā)現(xiàn)和關(guān)系擴(kuò)展發(fā)現(xiàn)實(shí)驗(yàn)。
文獻(xiàn);關(guān)系抽??;統(tǒng)計(jì)語(yǔ)言模型;Bootstrapping
進(jìn)入大數(shù)據(jù)時(shí)代,隨著獲取數(shù)據(jù)的規(guī)模、范圍和深度在不斷寬展和延伸,人們關(guān)注的重點(diǎn)開始從起初數(shù)據(jù)的積累,向挖掘數(shù)據(jù)的深層次價(jià)值、實(shí)現(xiàn)數(shù)據(jù)的“增值”轉(zhuǎn)變。在成礦預(yù)測(cè)領(lǐng)域,同樣面臨這樣的問(wèn)題,地質(zhì)調(diào)查工作的成果基本上是信息性的成果,地質(zhì)調(diào)查工作者在百年的工作實(shí)踐中,積累了海量的成果報(bào)告、勘查資料、文獻(xiàn)等數(shù)據(jù)資源,這些數(shù)據(jù)資源中蘊(yùn)含著豐富的地質(zhì)信息,如何在成礦規(guī)律和預(yù)測(cè)的研究過(guò)程中充分利用這些數(shù)據(jù)?如何將數(shù)據(jù)轉(zhuǎn)化為新的認(rèn)識(shí)或知識(shí),為地質(zhì)找礦實(shí)踐提供積極的數(shù)據(jù)支撐。本文論述了一套基于文獻(xiàn)的地質(zhì)實(shí)體關(guān)系抽取模型的研究方法,嘗試通過(guò)建立地質(zhì)實(shí)體的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn)發(fā)現(xiàn)潛在知識(shí)的目的。
為了解決從文本數(shù)據(jù)中獲取有價(jià)值的信息,信息抽取技術(shù)應(yīng)運(yùn)而生。信息抽取被定義為從非結(jié)構(gòu)化信息中獲取結(jié)構(gòu)化數(shù)據(jù)的過(guò)程[1]。信息抽取一般包含兩個(gè)任務(wù):實(shí)體識(shí)別和關(guān)系抽取。實(shí)體識(shí)別是通過(guò)自然語(yǔ)言處理技術(shù)從文本中提取實(shí)體要素,而關(guān)系抽取是在實(shí)體識(shí)別的基礎(chǔ)上結(jié)合語(yǔ)義環(huán)境提取出實(shí)體之間的關(guān)系[2]。Etzioni認(rèn)為關(guān)系抽取是分析檢查文本中的實(shí)體對(duì),并判斷它們之間是否存在關(guān)系[3]。通過(guò)實(shí)體識(shí)別獲得的一個(gè)個(gè)離散的實(shí)體要素對(duì)于理解文本語(yǔ)義、發(fā)現(xiàn)有價(jià)值的知識(shí)點(diǎn)毫無(wú)幫助。有價(jià)值的信息往往是通過(guò)實(shí)體間的關(guān)系來(lái)體現(xiàn)的,比如在成礦預(yù)測(cè)研究中礦種和特定生物的關(guān)聯(lián)關(guān)系、和巖石的伴生關(guān)系等。此外,關(guān)系抽取在很多領(lǐng)域具有應(yīng)用價(jià)值。例如在檢索系統(tǒng)中,傳統(tǒng)的檢索方式是基于關(guān)鍵詞的匹配檢索,而關(guān)系抽取技術(shù)則可以實(shí)現(xiàn)智能語(yǔ)義檢索。比如輸入“石墨烯”不光可以得到關(guān)鍵詞里含有石墨烯的文本資料,還可以得到類似“前沿技術(shù)”、“知名學(xué)者”、“研究機(jī)構(gòu)”等結(jié)果。此外,實(shí)體關(guān)系抽取在自動(dòng)問(wèn)答、自動(dòng)標(biāo)引、機(jī)器翻譯方面具有重要的研究意義。
關(guān)系抽取技術(shù)路線經(jīng)歷了從模式、詞典等簡(jiǎn)單方法到機(jī)器學(xué)習(xí)、基于本體的關(guān)系抽取等復(fù)雜方法,從基于分詞、句法等匹配的淺表分析到基于語(yǔ)義的深層分析的發(fā)展過(guò)程[4]。基于模式和詞典的方式準(zhǔn)確率較高,但要求前期制定細(xì)致的規(guī)則和語(yǔ)料,而且跨領(lǐng)域移植很困難;本體是對(duì)信息資源進(jìn)行語(yǔ)義化和有序化,理想化的本體包含實(shí)體及其關(guān)系,但由于本體構(gòu)建需要投入巨大的工作量,目前仍然沒(méi)有較為成熟的體系和應(yīng)用。機(jī)器學(xué)習(xí)采用自然語(yǔ)言處理中的統(tǒng)計(jì)語(yǔ)言模型作為基礎(chǔ),實(shí)質(zhì)上是一個(gè)源于數(shù)據(jù)的模型訓(xùn)練過(guò)程。機(jī)器學(xué)習(xí)的關(guān)系抽取方式是通過(guò)對(duì)大量文本數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,從中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè),從中提取出有助于關(guān)聯(lián)分析的關(guān)鍵性數(shù)據(jù)。它的優(yōu)勢(shì)是入手簡(jiǎn)易、效率較高。采用機(jī)器學(xué)習(xí)的關(guān)系抽取方法按照對(duì)人工干預(yù)標(biāo)注數(shù)據(jù)的依賴的程度可以分為:有監(jiān)督關(guān)系抽取、遠(yuǎn)距離監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取[5]。此外,近來(lái)隨著大數(shù)據(jù)的理念和落地應(yīng)用日趨成熟,開放式關(guān)系抽取方式開始興起,下面分別做介紹。
有監(jiān)督的關(guān)系抽取方法是最基本的機(jī)器學(xué)習(xí)方法,思路是在已標(biāo)注的語(yǔ)料上建立機(jī)器學(xué)習(xí)模型,然后使用模型在目標(biāo)文本里進(jìn)關(guān)系識(shí)別。有監(jiān)督的學(xué)習(xí)效率較高,但前期需要大量的工作量投入人工標(biāo)注語(yǔ)料。這種方法的問(wèn)題在于適用于訓(xùn)練語(yǔ)料豐富的領(lǐng)域,所以跨領(lǐng)域移植性較弱。其典型算法諸如決策樹、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等算法,已廣泛用于機(jī)器學(xué)習(xí)及模式識(shí)別、人工智能等領(lǐng)域中[6]。
遠(yuǎn)距離監(jiān)督又叫弱監(jiān)督或無(wú)監(jiān)督,它不需要建立人工標(biāo)注的關(guān)系模型,是以預(yù)先定義關(guān)系模式和關(guān)系實(shí)例作為種子,通過(guò)機(jī)器學(xué)習(xí),發(fā)現(xiàn)新的關(guān)系模板和實(shí)例。實(shí)現(xiàn)過(guò)程首先根據(jù)實(shí)體對(duì)出現(xiàn)的上下文將相似度高的實(shí)體對(duì)聚為一類,然后選擇具有代表性的詞語(yǔ)來(lái)標(biāo)記這種關(guān)系[7]。遠(yuǎn)距離監(jiān)督關(guān)系抽取一般基于統(tǒng)計(jì)語(yǔ)言模型的關(guān)系抽取思想。遠(yuǎn)距離監(jiān)督關(guān)系抽取方法克服了費(fèi)時(shí)費(fèi)力的人工語(yǔ)料標(biāo)注環(huán)節(jié),不需要或需要很少預(yù)先處理的語(yǔ)料支撐,能自動(dòng)地提取文本中包含的實(shí)體關(guān)系。而且由于不依賴于特定的訓(xùn)練語(yǔ)料,該方法對(duì)各領(lǐng)域的適應(yīng)性很高。相較于有監(jiān)督的關(guān)系抽取方法,遠(yuǎn)距離監(jiān)督關(guān)系抽取方法的缺點(diǎn)是準(zhǔn)確率較低。
顧名思義,人工干預(yù)標(biāo)注程度基于有監(jiān)督和無(wú)監(jiān)督之間的方法我們稱之為半監(jiān)督的關(guān)系抽取方法,半監(jiān)督實(shí)體關(guān)系抽取無(wú)需大規(guī)模標(biāo)注語(yǔ)料,只需人工標(biāo)注少量關(guān)系實(shí)例,適用于缺乏標(biāo)注語(yǔ)料的實(shí)體關(guān)系抽取。最典型的實(shí)例是Bootstrapping算法。Bootstrapping源于“重抽樣”的統(tǒng)計(jì)思想,即通過(guò)現(xiàn)有模式不斷擴(kuò)展出新的模式,屬于啟發(fā)式的方法[8]。
傳統(tǒng)的關(guān)系抽取方式是有“限定”作為先決條件的,限定的范圍包括:目標(biāo)數(shù)據(jù)的范圍、實(shí)體的類型、限特點(diǎn)定的關(guān)系等。而在網(wǎng)絡(luò)時(shí)代,我們面對(duì)的是大量的無(wú)規(guī)則、開放的數(shù)據(jù),因而有學(xué)者提出了開放式關(guān)系抽取的思想,主要基于以下特點(diǎn):目標(biāo)數(shù)據(jù)開放,不再限定數(shù)據(jù)的領(lǐng)域范圍和數(shù)量;抽取類型開放,不在限定抽取的實(shí)體、關(guān)系類型。自動(dòng)識(shí)別、分析、抽取語(yǔ)義類型[9]。開放式關(guān)系抽取方法是順應(yīng)大數(shù)據(jù)時(shí)代要求的產(chǎn)物,一經(jīng)提出引起了廣泛的關(guān)注,但至今成熟應(yīng)用的案例還不多。
以上的關(guān)系抽取方法各有優(yōu)缺點(diǎn),關(guān)系抽取方法的選擇需要結(jié)合語(yǔ)料準(zhǔn)備和應(yīng)用需要具體問(wèn)題具體分析,通過(guò)比較分析得出以下結(jié)論。
1) 由于地質(zhì)領(lǐng)域缺乏較為齊整的人工標(biāo)注的地質(zhì)信息本體,因此排除有監(jiān)督關(guān)系抽取的方法。
2) 傳統(tǒng)開放域抽取的方法基本上都是基于語(yǔ)法分析,而中文的短語(yǔ)結(jié)構(gòu)分析和依存關(guān)系分析的水平還未能達(dá)到應(yīng)用的水平。故本項(xiàng)目考慮改進(jìn)傳統(tǒng)的開放域抽取方法,引入統(tǒng)計(jì)語(yǔ)言方法代替語(yǔ)法規(guī)則的方法。故采用基于統(tǒng)計(jì)語(yǔ)言模型的關(guān)系抽取方式。
3) 基于Bootstrapping的方法可以很好的結(jié)合人的先驗(yàn)知識(shí)和龐大語(yǔ)料帶來(lái)的統(tǒng)計(jì)效果,而且便于人去使用和修改,此外結(jié)合領(lǐng)域當(dāng)中的關(guān)系專業(yè)性較強(qiáng)的特點(diǎn),借助Bootstrapping方法可以利用龐大的語(yǔ)料對(duì)于人為規(guī)定的實(shí)體關(guān)系進(jìn)行擴(kuò)展,從而快速實(shí)現(xiàn)信息的同種關(guān)系抽取。因此,選擇基于Bootstrapping的方法進(jìn)行關(guān)系擴(kuò)展。
2.1.1 統(tǒng)計(jì)語(yǔ)言模型算法研究
統(tǒng)計(jì)語(yǔ)言模型最早是由賈里尼克提出,他認(rèn)為一個(gè)句子是否合理,就看它的可能性大小,這個(gè)可能性就是概率[10]。簡(jiǎn)單來(lái)說(shuō),統(tǒng)計(jì)語(yǔ)言模型就是可能出現(xiàn)的句子或其他語(yǔ)言學(xué)單位的一個(gè)概率分布。統(tǒng)計(jì)語(yǔ)言模型可以形式化統(tǒng)一表示為式(1)。
p(S)=p(w1,w2,…,wn)=
p(S)就是用來(lái)計(jì)算句子S概率的模型。那么,如何計(jì)算p(wi|w1,w2,…,wi-1),最簡(jiǎn)單的辦法就是采用極大似然估計(jì)(Maximum Likelihood Estimate,MLE),見式(2)。
p(wi|w1,w2,…,wi-1)=
(2)
其中,count(w1,w2,…wi)表示詞序(w1,w2,…,wi)在語(yǔ)料庫(kù)中出現(xiàn)的頻率。但由于數(shù)據(jù)稀疏和參數(shù)空間過(guò)大,導(dǎo)致實(shí)際中無(wú)法得到應(yīng)用。所以,實(shí)際中通常采用N元語(yǔ)法模型(N-Gram),它采用馬爾科夫假設(shè):語(yǔ)言中每個(gè)單詞只與其前面N-1的上下文有關(guān)。假設(shè)下一個(gè)詞的出現(xiàn)只依賴它前面的一個(gè)詞,即二元語(yǔ)法模型(BiGram),則有式(3)。
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)…
p(wn|w1,w2,…,wn-1)=
(3)
理論上講,N值越大計(jì)算出來(lái)的值精確度越高。但是隨著N值的增大,模型的復(fù)雜度也越大[7]。具體來(lái)說(shuō)計(jì)算p(w1)、p(w2)很容易,但是當(dāng)N=3時(shí),計(jì)算p(w3|w1,w2)已經(jīng)有些困難了,當(dāng)N>3時(shí),計(jì)算量將變的非常大。所以對(duì)于N的選擇:理論上越大越好;經(jīng)驗(yàn)上Trigram(三元模型)用的最多;原則上能有Bigram解決的,就不用Trigram。
2.1.2 構(gòu)建基于統(tǒng)計(jì)語(yǔ)言模型的關(guān)系抽取模型
在實(shí)驗(yàn)中采用三元語(yǔ)法模型,滿足二元馬爾科夫假設(shè)。具體操作步驟如下所示。
1) 分詞,對(duì)每個(gè)句子進(jìn)行分詞;過(guò)濾出名詞、動(dòng)詞和介詞。
2) 對(duì)關(guān)系詞進(jìn)行過(guò)濾,過(guò)濾出不及物動(dòng)詞(例如,奔跑)以及以人為主語(yǔ)的詞(例如,看見)。
3) 獲得關(guān)系三元組可能集合:句子中所有n-v/p-n結(jié)構(gòu)的三元組,不考慮相鄰關(guān)系。
并計(jì)算獲得的所有三元組的聯(lián)合概率作為該三元組的得分(用二元語(yǔ)法模型);獲得關(guān)系三元組的候選集合:找出得分最高的n-v/p-n三元組作為候選的關(guān)系三元組。
4) 確定關(guān)系三元組:通過(guò)規(guī)則,對(duì)關(guān)系三元組的候選集合進(jìn)行過(guò)濾,得到關(guān)系三元組,目前主要通過(guò)兩條規(guī)則進(jìn)行過(guò)濾:對(duì)于抽取出來(lái)的n1-(v/p)-n2結(jié)構(gòu),如果n1和n2之間距離超過(guò)5,我們認(rèn)為這個(gè)關(guān)系較弱而舍棄;對(duì)于抽取出來(lái)的n1-(v/p)-n2結(jié)果,如果n2后面是一個(gè)動(dòng)詞,我們認(rèn)為這個(gè)關(guān)系抽取的不完整故舍棄。例如:“我對(duì)他說(shuō),明天放假”,會(huì)抽取出來(lái)“我-對(duì)-他”的關(guān)系三元組,而這個(gè)關(guān)系不完整。
5) 關(guān)系三元組置信度計(jì)算:加入評(píng)分函數(shù),計(jì)算抽取的關(guān)系三元組的置信度。評(píng)分函數(shù)利用統(tǒng)計(jì)語(yǔ)言模型統(tǒng)計(jì)關(guān)系對(duì)出現(xiàn)的次數(shù),并參與聯(lián)合概率計(jì)算:如式(3)所示,語(yǔ)言中每個(gè)單詞只與其前面n-1的上下文有關(guān)。接下來(lái)的關(guān)鍵問(wèn)題就是如何計(jì)算Pp(wn|wn-1)。現(xiàn)在有了大量機(jī)讀文本后,這個(gè)問(wèn)題變得很簡(jiǎn)單,只要數(shù)計(jì)算(wn,wn-1)在統(tǒng)計(jì)的文本中出現(xiàn)了多少次,以及wn-1本身在同樣的文本中前后相鄰出現(xiàn)了多少次,然后用兩個(gè)數(shù)相除就可以了p(wn|wn-1)=p(wn,wn-1)/p(wn-1)。
關(guān)系抽取流程如圖1所示。
圖1 基于統(tǒng)計(jì)語(yǔ)言模型的關(guān)系抽取模型流程圖
2.2.1 Bootstrapping算法研究
統(tǒng)計(jì)語(yǔ)言模型解決的是關(guān)系抽取的問(wèn)題,而Bootstrapping解決的是關(guān)系擴(kuò)展的問(wèn)題。Bootstrapping首先利用少量已標(biāo)記樣本的特征及其結(jié)果度量建立初始學(xué)習(xí)模型,主要的思路是通過(guò)人工指定幾個(gè)初始的種子,隨后系統(tǒng)會(huì)尋找滿足人工提供種子的句式模板,利用得到的模板找到新的種子不斷的迭代下去,最終達(dá)到舉一反三的目的。該方法的缺點(diǎn)是對(duì)初始關(guān)系種子的質(zhì)量要求較高。比如我們現(xiàn)在知道“中國(guó)-北京”,“美國(guó)-華盛頓”兩個(gè)國(guó)家-首都的關(guān)系,但是還想知道所有其他的國(guó)家-首都關(guān)系,那么就可以用Bootstrapping方法,以“中國(guó)-北京”,“美國(guó)-華盛頓”為基礎(chǔ),可以找到語(yǔ)料中幾乎所有的國(guó)家-首都關(guān)系。
2.2.2 構(gòu)建基于Bootstrapping算法的關(guān)系擴(kuò)展模型
依據(jù)Bootstrapping算法的基本思想,設(shè)計(jì)算法流程共分為以下幾個(gè)步驟:上下文構(gòu)建階段、模板抽取階段、候選種子抽取階段和候選種子評(píng)分階段。
1) 上下文構(gòu)建階段。上下文構(gòu)建階段主要是利用一種前綴字典樹的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)種子的前后的文字,在抽取上下文的時(shí)候,只選擇在同一個(gè)分句當(dāng)中的內(nèi)容即任何標(biāo)點(diǎn)符號(hào)都作為邊界處理。前綴字典樹是一種壓縮存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu),他的特征在于父節(jié)點(diǎn)是子節(jié)點(diǎn)的前綴。構(gòu)造兩個(gè)字典樹,分別存儲(chǔ)種子之前的文字和之后的文字。
2) 模板抽取階段。模板抽取階段主要是利用上下文構(gòu)建得到的兩個(gè)字典樹,找到滿足所有種子的最長(zhǎng)的句式模板。
3) 候選種子抽取階段。候選種子抽取階段主要是利用找到的句式模板,在整個(gè)語(yǔ)料中找到滿足句式句子并利用句式抽出去對(duì)應(yīng)位置的種子,作為候選種子。
4) 候選種子評(píng)分階段。候選種子評(píng)分階段主要是利用隨機(jī)游走的方法從圖中進(jìn)行迭代直到到達(dá)圖中的任何一點(diǎn)的概率收斂。在這里的圖的結(jié)構(gòu)如下:共有三種類型的節(jié)點(diǎn),分別為文檔、句式和候選種子,文檔和句式之間的關(guān)系是包含,句式和種子之間的關(guān)系是抽取,文檔和種子的關(guān)系是含有。具體如圖2所示。
在具體算法的實(shí)施過(guò)程中,首先由人工給出2~3個(gè)種子,每次迭代的過(guò)程中,從已有的種子集合中抽取三個(gè)種子并加上上一次迭代得到的分?jǐn)?shù)最高的種子作為本次迭代的初始種子,利用上述的四個(gè)階段提取種子,每次僅選取最高的一個(gè)加入到種子集合當(dāng)中。具體抽取流程如圖3所示。
圖2 種子評(píng)分所采用的隨機(jī)游走方法結(jié)構(gòu)圖
圖3 基于Bootstrapping算法的關(guān)系擴(kuò)展模型流程圖
實(shí)驗(yàn)的目的是從文獻(xiàn)數(shù)據(jù)中發(fā)現(xiàn)潛在的關(guān)聯(lián)關(guān)系,建立實(shí)體間的關(guān)聯(lián)網(wǎng)絡(luò),為成礦預(yù)測(cè)工作提供未被發(fā)現(xiàn)的、有價(jià)值的新知識(shí)點(diǎn)。根據(jù)前期需求調(diào)研,本次實(shí)驗(yàn)將圍繞發(fā)現(xiàn)并驗(yàn)證“金礦”和“生物”兩個(gè)領(lǐng)域間的關(guān)系展開。
目標(biāo)數(shù)據(jù)源主要有兩類:第一類為生物和金礦會(huì)議文獻(xiàn),生物會(huì)議文獻(xiàn)約44 640篇,金礦會(huì)議文獻(xiàn)約1 647篇,大小共約457 M;第二類為生物和金礦期刊文獻(xiàn),生物期刊文獻(xiàn)約387 660篇,金礦期刊文獻(xiàn)約28 740篇,大小共約9.54 G。文獻(xiàn)類型為txt類型。
1) 服務(wù)器配置:CPU:Intel Xeon E5-2609 V3,內(nèi)存:24 GB。
2) 操作系統(tǒng):RedHat 4.4.7-4(Linux內(nèi)核版本2.6.32) 64位。
3) 數(shù)據(jù)庫(kù):MySQL 5.6。
4) 分布式搜索引擎:ElasticSearch2.3.4。
5) 開發(fā)環(huán)境:MyEclipse 2015、Java版本:1.8.0.131。
3.3.1 實(shí)驗(yàn)描述
發(fā)現(xiàn)“金礦”與“微生物”領(lǐng)域關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系。
3.3.2 實(shí)驗(yàn)步驟
1) 獲得候選關(guān)系對(duì)集合,在詞典里提取金礦和微生物詞表,并進(jìn)行兩兩配對(duì)。
2) 獲得可能關(guān)系對(duì)集合,挑選出語(yǔ)料中關(guān)系對(duì)至少同現(xiàn)10次的關(guān)系對(duì)和所有同現(xiàn)的語(yǔ)句。
3) 確定關(guān)系,采用統(tǒng)計(jì)語(yǔ)言模型的方法在關(guān)系對(duì)同現(xiàn)的語(yǔ)句中抽取關(guān)系詞,用來(lái)表達(dá)關(guān)系對(duì)的關(guān)系。每個(gè)同現(xiàn)語(yǔ)句至多抽取一個(gè)關(guān)系,每個(gè)關(guān)系對(duì)可能有多個(gè)關(guān)系詞,這些詞統(tǒng)統(tǒng)保留(因?yàn)槭顷P(guān)系發(fā)現(xiàn),沒(méi)有足夠的證據(jù)表明哪個(gè)關(guān)系詞是錯(cuò)誤的)。
4) 關(guān)系過(guò)濾,對(duì)于句子中關(guān)系對(duì)距離過(guò)遠(yuǎn)的關(guān)系丟棄。
3.3.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如圖4、圖5所示。
圖4 “金礦”與“微生物”關(guān)聯(lián)關(guān)系發(fā)現(xiàn)結(jié)果
圖5 “金礦”與“微生物”關(guān)聯(lián)關(guān)系發(fā)現(xiàn)結(jié)果改進(jìn)
在隨后的實(shí)驗(yàn)中,考慮到此次研究的目的是新知識(shí)發(fā)現(xiàn),限定關(guān)系對(duì)至少出現(xiàn)10次以上并不能很好的發(fā)現(xiàn)新知識(shí)(出現(xiàn)頻次高的一般不是新知識(shí)),故在實(shí)驗(yàn)中取消了至少出現(xiàn)10詞的過(guò)濾規(guī)則。
3.3.4 實(shí)驗(yàn)分析
本次實(shí)驗(yàn)的目的是發(fā)現(xiàn)分析“金礦”和“微生物”間的關(guān)系,驗(yàn)證并完善基于統(tǒng)計(jì)語(yǔ)言模型的關(guān)系抽取模型。下一步改進(jìn)方向包括以下兩方面。
1) 無(wú)用關(guān)系去除??梢酝ㄟ^(guò)不斷完善停用詞表來(lái)實(shí)現(xiàn)。
2) 關(guān)系的歸類分析。在目前的統(tǒng)計(jì)語(yǔ)言模型中沒(méi)有考慮關(guān)系的歸類,遍歷出的關(guān)系維度很大,考慮引入基于業(yè)務(wù)專家指導(dǎo)的關(guān)系聚類技術(shù),提高模型的實(shí)用性。
3.4.1 實(shí)驗(yàn)描述
驗(yàn)證基于Bootstrapping算法的關(guān)系擴(kuò)展模型,主思路如下:提供兩對(duì)關(guān)系對(duì)(種子),模型將會(huì)自動(dòng)擴(kuò)展這兩對(duì)關(guān)系對(duì),并根據(jù)提交的關(guān)系對(duì)(種子)進(jìn)行搜索,查詢到由此生成的句式模板和候選集合(候選關(guān)系)。根據(jù)篩選得到的候選集合(候選關(guān)系)進(jìn)行判定。
3.4.2 實(shí)驗(yàn)步驟
1) 關(guān)系對(duì)(種子)提交。人工提交一個(gè)關(guān)系對(duì)(種子),模型自動(dòng)識(shí)別判斷交的關(guān)系對(duì)(種子)關(guān)系。
2) 定義抽取模板。根據(jù)關(guān)系對(duì)(種子)抽取一個(gè)模板,再根據(jù)這個(gè)模板抽取其對(duì)應(yīng)的候選關(guān)系,如發(fā)現(xiàn)新關(guān)系在進(jìn)行種子提交和定義新抽取模板,如此循環(huán),直到再也無(wú)法抽取出模板為止。
3) 句式模板抽取。根據(jù)模板中的兩個(gè)關(guān)系實(shí)體通過(guò)Elastic Search(IK分詞器的Elastic Search搜索引擎,下同)來(lái)搜索文獻(xiàn)中包含這兩個(gè)實(shí)體的句子。只要輸入的關(guān)系實(shí)體之間有相關(guān)關(guān)系,則這兩個(gè)關(guān)系實(shí)體可以抽出至少一個(gè)模板。當(dāng)兩對(duì)關(guān)系都被抽取過(guò)模板之后,需要對(duì)模板集合中的對(duì)應(yīng)字段進(jìn)行檢索,僅保留對(duì)應(yīng)于兩個(gè)種子的模板。最后利用得到的模板進(jìn)行候選集合(候選關(guān)系)的抽取工作
4) 候選關(guān)系對(duì)抽取。根據(jù)待抽取模板在Elastic Search中查找包含該模板的句子。再利用模板的類型和內(nèi)容決定需要過(guò)濾的部分,過(guò)濾掉多余的字符串,只保留生成的關(guān)系。
5) 關(guān)系判定。然后對(duì)生成的關(guān)系進(jìn)行清理,除去不完整的關(guān)系對(duì)(如關(guān)系實(shí)體殘缺、關(guān)系實(shí)體有標(biāo)點(diǎn))。
3.4.3 實(shí)驗(yàn)結(jié)果
輸入“礦石-黃鐵礦”、“礦石-黃銅礦”關(guān)系對(duì)作為種子。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 輸入關(guān)系對(duì)(種子)表的關(guān)系對(duì)
3.4.4 實(shí)驗(yàn)分析
1) 實(shí)驗(yàn)驗(yàn)證了在給定的關(guān)系對(duì)(種子)在適當(dāng)?shù)年P(guān)系條件下,可以根據(jù)其定義抽取模板,進(jìn)而抽取新的候選關(guān)系對(duì)的過(guò)程。抽取的關(guān)系和模板保存在數(shù)據(jù)庫(kù)中的“cgl_seed_relation”表中, rel_template字段記錄了抽取出的關(guān)系,而rel_ent1和rel_ent1分別對(duì)應(yīng)了關(guān)系中的arg0和arg1。
2) 候選集合(候選關(guān)系對(duì))中某個(gè)關(guān)系對(duì)出現(xiàn)的頻率遠(yuǎn)高于其它的關(guān)系對(duì),這種高頻結(jié)果可能是前人已經(jīng)總結(jié)過(guò)的成果,可以直接利用起來(lái)。相應(yīng)的如果某個(gè)關(guān)系對(duì)在一些高頻模板中出現(xiàn)的頻率很低,這樣的關(guān)系對(duì)可能還沒(méi)有被挖掘出價(jià)值,因此可以作為新的研究的重點(diǎn)。
3) 在實(shí)驗(yàn)中我們發(fā)現(xiàn)抽取出的模板和候選關(guān)系對(duì)有一些在語(yǔ)義上不連貫。產(chǎn)生該情況的原因一部分是中文亂碼,另一部分是由于生成的模板中只有虛詞(模板中只有介詞的情況多見)。在下一階段中我們需要進(jìn)一步使用NLP相關(guān)算法對(duì)生成的結(jié)果加以限制。
地質(zhì)文獻(xiàn)是地質(zhì)調(diào)查工作的成果的重要載體和呈現(xiàn)方式,很多研究發(fā)現(xiàn)都是通過(guò)對(duì)地質(zhì)文獻(xiàn)研究分析而誕生的。本文通過(guò)建立地質(zhì)實(shí)體關(guān)系抽取模型的方式自動(dòng)發(fā)現(xiàn)分析地質(zhì)文獻(xiàn)中實(shí)體間的關(guān)系并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。關(guān)系抽取模型包括了關(guān)系抽取模型和關(guān)系擴(kuò)展模型兩部分:關(guān)系抽取模型采用了極大似然估計(jì)的三元統(tǒng)計(jì)語(yǔ)言模型收取出候選關(guān)系集合,并通過(guò)制定過(guò)濾規(guī)則和評(píng)分函數(shù)進(jìn)行關(guān)系的過(guò)濾和排序;關(guān)系擴(kuò)展模型采用了Bootstrapping算法,在試驗(yàn)中將人工定義的種子模板通過(guò)檢索Elastic Search來(lái)發(fā)現(xiàn)擴(kuò)展新的關(guān)系模板。在后續(xù)的工作中,需要加入不同領(lǐng)域、體裁、規(guī)模的文本擴(kuò)充試驗(yàn),以驗(yàn)證方法的可移植性和實(shí)用性;同時(shí)需要進(jìn)一步優(yōu)化算法模型,研究關(guān)系分析過(guò)濾以及關(guān)系歸類算法,提升實(shí)驗(yàn)精度。最終的目的是通過(guò)統(tǒng)計(jì)語(yǔ)言模型發(fā)現(xiàn)成礦預(yù)測(cè)領(lǐng)域有價(jià)值的關(guān)系,再通過(guò)關(guān)系擴(kuò)展模型進(jìn)行關(guān)系擴(kuò)展,實(shí)現(xiàn)發(fā)現(xiàn)新知識(shí),為成礦預(yù)測(cè)提供積極數(shù)據(jù)支持的目的。
[1] Jurafsky D,Martin J H.Speech and Language Processing.An Introduction to Natural Language Processing,Computational Linguistics and Speech Recognition (Draft)[C]∥Prentice Hall PTR.1999:638-641.
[2] 馮志偉.當(dāng)前自然語(yǔ)言處理發(fā)展的幾個(gè)特點(diǎn)[J].華文教學(xué)與研究,2006(1):34-40.
[3] A Culotta,A McCallum,J Betz.Integrating probabilistic extraction models and data mining to discover relations and patterns in text[C]∥In:Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics,Association for Computational Linguistics,New York.2006.
[4] 徐健,張智雄.典型關(guān)系抽取系統(tǒng)的技術(shù)方法解析[J].數(shù)字圖書館論壇,2008(9):13-18.
[5] 劉方馳,鐘志農(nóng),雷霖,吳燁.基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法[J].兵工自動(dòng)化,2013,32(9):57-62.
[6] Natalia K.Review of Relation Extraction Methods:What is New Out There?[J].Communications in Computer & Information Science,2014,436(1):15-28.
[7] 王晶.無(wú)監(jiān)督的中文實(shí)體關(guān)系抽取研究[D].上海:華東師范大學(xué),2012.
[8] 劉珍,王若愚,劉瓊.基于Bootstrapping的因特網(wǎng)流量分類方法[J].北京郵電大學(xué)學(xué)報(bào),2014(5):66-70.
[9] 秦兵,劉安安,劉挺.無(wú)指導(dǎo)的中文開放式實(shí)體關(guān)系抽取[J].計(jì)算機(jī)研究與發(fā)展,2015(5):1029-1035.
[10] 吳軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2015:28.
Studyongeologicentityrelationextractionmethodbasedonliterature
LYU Pengfei1,2,WANG Chunning1,ZHU Yueqin3,4
(1.National Geological Library of China,Beijing 100083,China;2.University of Chinese Academy of Sciences,Beijing 100049,China;3.Development and Research Center,China Geological Survey,Beijing 100037,China;4.Key Laboratory of Geological Information Technology of Ministry of Land and Resources,Beijing 100037,China)
Relation extraction is an important section of information extraction,which play an crucial role in valuable information discovering.On the ground of analyzing and comparing,including supervised methods,unsupervised methods,self-supervise methods and open information extraction methods,this essay has built a Geologic Entity Relation Extraction Model,using statistical language models for relation extraction and bootstrapping models for relation extension.Finally,according to the above analysis,the experiment of incidence relation discovery and relation extension discovery were carried out.
literature;relation extraction;metallogenic prognosis;statistical language model;bootstrapping model
P208
A
1004-4051(2017)10-0167-06
2017-06-27責(zé)任編輯趙奎濤
國(guó)土資源部公益性行業(yè)科研專項(xiàng)項(xiàng)目資助(編號(hào):201511079);國(guó)家重點(diǎn)研發(fā)計(jì)劃“基于‘地質(zhì)云’平臺(tái)的深部找礦知識(shí)挖掘”資助(編號(hào):2016YFC0600510)
呂鵬飛(1978-),男,碩士研究生,高級(jí)工程師,主要從事地質(zhì)文獻(xiàn)數(shù)據(jù)分析與挖掘方面的研究工作,E-mail:23690271@qq.com。
朱月琴(1975-),女,博士,高級(jí)工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。