亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文句法結構的關系挖掘

        2014-09-29 10:31:56李付民
        計算機工程 2014年7期

        李付民,楊 靜,賀 樑

        (華東師范大學計算機科學技術系,上海 200241)

        1 概述

        關系挖掘是指從文本中找出多個實體和能夠表示這些實體之間關系的過程。根據(jù)所挖掘的關系類型的不同,關系挖掘可以分為2個主要類別:(1)針對特定關系類型(如夫妻、總部)進行的挖掘[1-2]。這類挖掘方法的好處是準確率和召回率高,但是由于在實際情況下總會存在一些關系類型是沒有包含在預定義的關系集合中的,因此該類方法不具有良好的拓展性和移植性。(2)開放的關系挖掘方法[3-4]。這類方法不對關系的具體類型作任何限制而僅僅定義關系的表現(xiàn)形式。例如:將關系關鍵詞定義為動詞,即可從句子中挖掘出以動詞表現(xiàn)出來的關系;當然也可以將關系關鍵詞定義為名詞,這樣就可以挖掘出以名詞為關鍵詞的關系。由于開放式關系挖掘方法中并沒有預定義關系種類,可以從不同類型的數(shù)據(jù)集中找到更多的關系類型和關系元組實例,因此既可以應用于封閉數(shù)據(jù)集[5],又可以應用于網(wǎng)絡環(huán)境中[3-4],具有良好的移植性。

        文獻[3]提出一種傳統(tǒng)的開放式關系挖掘方法,可以從文本中挖掘關系元組,并且這個挖掘過程中并不需要人的參與,但存在以下問題:(1)需要大量的訓練數(shù)據(jù)來得到挖掘機,并且對訓練集的依賴性很大;(2)在挖掘過程中,其將挖掘問題轉(zhuǎn)化為序列標記問題,而序列標記帶有一定的不確定性,當句子長度增大時錯誤率會快速上升;(3)存在一些無信息關系和不連續(xù)關系。其中,無信息關系是指在挖掘到的關系元組中的關系關鍵詞沒有包含一些重要的信息,“不連續(xù)”關系是指挖掘到的關系元組中的關鍵詞是由一些不連續(xù)的詞組成。為解決問題(1)和問題(2),文獻[6]將維基百科作為訓練集來得到挖掘機并且在挖掘過程中使用到了語法解析,其準確率和召回率在文獻[3]的基礎上取得了進一步的提升。但文獻[6]方法的缺點也非常明顯,其需要大批量的數(shù)據(jù)作為訓練集,與文獻[3]方法相比,該方法的挖掘速度明顯降低。為解決問題(3),文獻[4]對文獻[3]的挖掘方法進行了改進,其改進集中在以下3點:(1)定義了關系的詞性模板,這些詞性模板是由以動詞為核心的連續(xù)詞語組成的。該改進有效地避免了不連續(xù)關系,同時也減少了無信息關系;(2)規(guī)定了關系詞的位置,即關系詞必須出現(xiàn)在實體對的中間;(3)要求關系詞必須具有一定的通用型,即如果一個關系詞僅僅滿足很少的實體對,則說明這個關系詞太特殊化了,這種關系詞是不能表達實體間真正的關系的,所以在挖掘的過程中將會被丟棄。

        文獻[4]將關系關鍵詞定義為以動詞為核心的連續(xù)詞語,導致無法挖掘以名詞或其他詞性的詞作為關系的實體之間的關系。將關鍵詞定義為名詞也會遇到類似的問題。因此,把關系關鍵詞定義為簡單的詞性組合是不合適的,尤其是對于復雜的中文結構而言。筆者通過對中文語法的觀察和統(tǒng)計,發(fā)現(xiàn)中文中存在一些典型的句法結構,并且這些句法結構和實體關系之間存在映射,因此,本文提出一種基于中文句法結構的關系挖掘算法,直接利用句法結構進行中文文本的關系挖掘。

        2 基于中文句法結構的關系挖掘算法

        2.1 相關概念

        本文算法涉及的相關概念如下:

        (1)動態(tài)關系R:動態(tài)關系也可以稱之為事件關系,是指未預先定義具體的關系,而通過現(xiàn)實世界中的某個事件表現(xiàn)出來的實體關系。與之相對應的靜態(tài)關系,是指在挖掘之前就預定義的關系,本文挖掘的關系類型是一種動態(tài)關系。

        (2)實體集EC=(E1E2…En):在一個句子中出現(xiàn)的命名實體構成的集合。

        (3)關系關鍵詞集RKWC=(KW1KW2…KWm):在一個句子中出現(xiàn)的所有可以作為關系關鍵詞成分的詞語構成的集合。

        (4)實體關鍵詞映射矩陣AEK:這個矩陣中的元素Aij是實體集EC中實體Ei和關系關鍵詞集RKWC中關鍵詞在語法樹上的語法關系,如果不存在就用null表示。AEK是一個n×m的矩陣,其中,n表示實體集EC的大??;m表示關系關鍵詞集RKWC的大小。

        (5)關鍵詞映射矩陣AKK:這個矩陣中的元素Aij是關系關鍵詞集合中的關鍵詞KWi和KWj在語法樹上的語法關系,如果不存在就用null表示。AKK是一個m×m的矩陣,其中,m是關系關鍵詞集合的大小。

        (6)挖掘模板P=(ER1ER2… ERnRR1RR2…RRm):模板是由實體和關鍵詞及關鍵詞和關鍵詞在語法樹上的關系組成的,而這種關系通常以路徑或者圖的形式表現(xiàn)出來[7]。本文將這個路徑或圖表示成詞對的集合。在這個集合中,包含2種不同的元素:1)實體和關鍵詞及它們之間的語法關系構成的三元組:;2)關鍵詞之間的語法關系構成的三元組:,其中,M表示其在語法樹上的關系;E表示實體;KW表示關鍵詞。

        例如:“攝影師/n丁玉珍/nr把/p沖/v好/a的/u照片/n交給/v了/u孔玲/nr”,從這個句子里可以得到實體集EC=(丁玉珍,孔玲),關系關鍵詞集RKWC=(攝影師,把,沖,照片,交給),實體關鍵詞映射矩陣AEK和關鍵詞映射矩陣AKK:

        可以發(fā)現(xiàn)這個矩陣實際上是個稀疏矩陣,可便于在實驗中使用。其中,nsubj表示的是名詞性主語;dobj表示的是直接賓語;nn表示的是名詞修飾;ba表示的是把字結構[8]。

        2.2 方法流程

        本文提出的算法利用實體和關系關鍵詞在句法結構上的映射關系來挖掘關系實例。算法主要流程如圖1所示。該算法主要由3個部分構成:挖掘機訓練過程,關系挖掘過程和關系元組準確化過程。首先利用訓練集訓練得到一個單通道挖掘機;然后使用這個挖掘機對目標語料中蘊含的關系進行挖掘;最后對挖掘到的關系元組進行進一步的準確化。

        圖1 基于句法結構的關系挖掘流程

        2.2.1 挖掘機訓練過程

        這一部分主要是根據(jù)訓練數(shù)據(jù)集訓練單通道挖掘機。單通道挖掘是指對數(shù)據(jù)集中的每個句子只進行一次挖掘就完成了整個挖掘過程[3]。訓練集的句子都包含了一個關系元組(E1RKWC E2),其中,E1和E2是實體;RKWC是能夠表示實體間關系的關鍵詞集合。挖掘機訓練過程如下:首先對每個句子進行語法解析;然后根據(jù)這些關系元組中實體和關鍵詞在語法樹上的語法關系及關鍵詞和關鍵詞在語法樹上的語法關系得到用于關系挖掘過程的挖掘模板;最后得到的所有模板就構成單通道挖掘機。

        例如:“攝影師/n丁玉珍/nr把/p沖/v好/a的/u照片/n交給/v了/u孔玲/nr”,已知實體E1=“丁于珍”,實體E2=“孫玲”,關系關鍵詞集RKWC=(KW1=把,KW2=照片,KW3=交給),利用解析器可以得到圖2所示的句子結構。

        圖2 句子結構

        可以發(fā)現(xiàn),實體對和關系關鍵詞在結構上的映射關系,從而得到挖掘模板:

        將該模板保存在挖掘機里。由于從不同的結構形式中可以得到不同的挖掘模板,因此挖掘機可以方便地拓展。

        本文設計了一個基于漢語中類雙賓語和單賓語的單通道挖掘機。對于類雙賓語結構,將關系定義為:2個實體通過在一個事物上發(fā)生的動作而產(chǎn)生的聯(lián)系,這種關系表現(xiàn)形式為:動詞+名詞或者介詞+名詞。之所以稱為類雙賓語而不是雙賓語,是因為在本文算法中有些典型句式在漢語的句法結構里并不屬于嚴格意義上的雙賓語結構,但它也能表達出本文所定義的關系表現(xiàn)形式,即2個實體通過在一個事物上的動作或行為產(chǎn)生的聯(lián)系。例如:“約翰偷了瑪麗的蘋果”,這個句子在漢語中并不是雙賓語結構,但卻也能表達出實體“約翰”和“瑪麗”通過在物體“蘋果”上的動作“偷”發(fā)生了聯(lián)系,因此,他們之間是有關系的。對于單賓語結構,把關系定義為2個實體通過一個相互之間的行為產(chǎn)生的聯(lián)系。例如:“下崗的馬林接替戰(zhàn)績不佳的唐堯東”中,“馬林”和“唐堯東”通過一個“接替”行為而產(chǎn)生了聯(lián)系。

        由于雙賓語結構和單賓語結構在漢語研究中占有很重要的地位,因此很容易得到這些句式集合,表1給出了部分典型結構和實例。表中并沒有列舉所有的結構,但是只要發(fā)現(xiàn)了這種類型的結構都可以加入到表中,而訓練過程不需要變化。

        表1 REBSS系統(tǒng)中用到的主要句式結構

        2.2.2 關系挖掘過程

        本過程主要是利用前面訓練得到的“挖掘機”對文本進行關系挖掘。

        (1)文本預處理:這一過程中會去除文本中的一些噪音,并對文本進行分句,以形成后續(xù)過程中使用到的數(shù)據(jù)集。

        (2)分詞、詞性標注和命名實體識別:對句子進行分詞是為了形成句子的“詞序列”:W1W2… Wi… Wm-1Wm,其中,Wi代表了在句子的一個詞并且“詞序列”中的每個詞Wi的排列順序和句子中的順序是一致的。對句子進行命名實體識別的過程中,如果該句子中沒有實體或者實體的個數(shù)少于2個,則把該句子拋棄。此步驟完成后,可以得到每個句子的實體集EC和關系關鍵詞集RKWC。

        (3)語法解析:在這一部分主要是根據(jù)前面得到的每個句子的“詞序列”來進行語法解析,得到每個詞之間在語法上的關系,最終形成實體關鍵詞映射矩陣AEK和關鍵詞映射矩陣AKK。

        (4)關系挖掘:首先取出挖掘機里的一個挖掘模板P;然后把這個模板中的所有元素都映射到實體關鍵詞映射集合AEK和關鍵詞映射矩陣AKK,如果元素包含實體就映射到AEK,否則就映射到AKK中;最后,如果所有的元素都可以映射成功就表示這個映射過程成功完成,就把矩陣AEK和AKK中的實體和關系關鍵詞取出,形成關系元組;否則繼續(xù)從挖掘機中取下一個模板,直到取到最后一個模板。如果所有的模板都無法成功映射,就表示該句子中沒有挖掘到關系。

        2.2.3 關系元組準確化過程

        這一部分主要是對關系挖掘過程得到的關系元組進行進一步的準確化。所謂準確化是指從句子中再找到一些能夠更清楚明白地表達實體間關系的詞,主要包括形容詞、副詞,將其合并到關系關鍵詞中。本文把對關鍵詞的準確化分為2種:

        (1)對動詞關鍵詞的準確化,而對于這種情況可以作為準確成分的是這個動詞前后直接相連的動詞和副詞。

        (2)對名詞關鍵詞的準確化,而對于這種情況可以作為準確成分的是和這個名詞直接相連的名詞和形容詞。

        準確化算法的具體描述如下:

        3 實驗與結果分析

        3.1 實驗設置

        為證明本文提出方法的可行性,針對漢語中的類雙賓語結構和單賓語結構,設計一個單通道挖掘機——賓語結構挖掘機,并利用這個賓語結構挖掘機對預料庫中的句子進行關系挖掘。為說明本文提出方法既可以應用于網(wǎng)絡環(huán)境中也可以應用于封閉的環(huán)境中,實驗主要使用了3個數(shù)據(jù)集:(1)新浪新聞語料:從新浪新聞中搜集整理得到的新聞語料,其中包括體育、娛樂等不同的類型。(2)搜狗語料庫:從網(wǎng)上下載得到的語料,其中包括財經(jīng)、體育、教育等不同分類的文章。(3)1998年1月《人民日報》:1998年1月份《人民日報》報道的所有文章,所有文章都經(jīng)過人工標注。本文主要進行以下2個實驗:(1)利用賓語結構挖掘機對3個不同的語料庫進行初步的挖掘?qū)嶒灒涸谶@個過程中會把來自網(wǎng)絡的語料庫(新浪語料和搜狗語料)和封閉的語料庫(人民日報)都交給賓語結構挖掘機,進行單通道挖掘。挖掘完成后,可以得到初步的挖掘結果,并對結果進行評估。(2)對得到的初步的挖掘結果進行準確化實驗:在這個過程中,會把在每個語料庫上得到的所有的關系元組(包含判定為正確的和判定為錯誤的元組)作為準確化實驗的輸入部分,然后利用關系元組準確化算法進行實驗,并對這個準確化后的結果進行評估。

        3.2 實驗結果

        對實驗結果的評估標準仍然是采用最為常見也是最重要的標準:準確率P=C1C2,召回率R=C1C3,綜合評價指標F值:F=2 PR(P + R)。其中,C1表示挖掘到的關系元組中正確的個數(shù);C2表示挖掘到的關系元組的總數(shù);C3表示文本中的類雙賓語結構和單賓語結構所包含的關系元組個數(shù)。

        3.2.1 關系挖掘?qū)嶒?/p>

        利用賓語結構挖掘機對3個不同的語料庫進行初步的挖掘?qū)嶒?,結果如表2所示。從中可以發(fā)現(xiàn),本文算法在新浪網(wǎng)絡語料和搜狗語料庫上的性能稍微低于《人民日報》,這是由于對開放語料的“清洗”處理并不是完美的,因此其中存在一些噪音,而這些噪音導致了挖掘性能的差異。但是這種差異并不大,從這個方面也說明了提出的方法既可以應用于網(wǎng)絡環(huán)境中也可以應用于封閉的環(huán)境中。

        表2 關系挖掘?qū)嶒灲Y果 %

        對于一些結構復雜的句子有時并不能找到實體間的關系,這是因為句子結構的復雜性導致了語法解析器的解析正確性下降了,導致了這個句子中所蘊含的關系元組是無法被本文訓練的“單通道挖掘機”找到的。例如:“養(yǎng)路工/n邵永東/nr躲/v到/v路旁/s退休/vn工人/n朱允友/nr家里/s”對于這個句子找到的關系關鍵詞集是(退休,家),也就是實體“邵永東”和“朱允友”通過“退休”和“家”建立起了聯(lián)系。可是通過觀察這個句子可以發(fā)現(xiàn)實際上關系關鍵詞集應該是(躲到,家),也就是說“邵永東”通過“躲到”“朱允友”的“家”里而使他們之間建立起了聯(lián)系。之所以會出現(xiàn)這個問題就是因為沒能正確得到其句法結構的原因,而這個原因也是提出的方法的一個限制。一方面,未來如果語法解析的效果更好一些,這個問題可以得到一部分的解決;另一方面以后在挖掘方法上可以加入一些統(tǒng)計的方法,來改善這個問題。

        而對于一些句子能夠正確得到其結構,但是得到的關系關鍵詞卻不能清晰地表達出實體之間的關系。例如:“/w肯尼亞選舉委員會/nt宣布/v現(xiàn)任/b總統(tǒng)/n莫伊/nr在/p 1997年/t底/f舉行/v的/u大選/vn中/f獲勝/v”。從這個句子中可以得到關系元組(肯尼亞選舉委員會,宣布,莫伊),雖然這個關系可以被“挖掘機”找到,但是這個關系關鍵詞“宣布”卻沒有清晰地表達出實體間的關系,也即挖掘出了“無信息”的關系[8]。

        3.2.2 關系元組準確化實驗

        針對關系關鍵詞無法正確而清晰地表達實體間關系的情況,對挖掘得到的關系元組進一步準確化,具體見準確化算法。通過對關系元組的準確化可在原來結果的基礎上進一步提高性能,結果如表3所示。從中可以發(fā)現(xiàn)一個有趣的問題:在《人民日報》上的性能要稍低于新浪網(wǎng)絡語料和搜狗語料庫,這一點和表2中的結果恰好相反。通過觀察數(shù)據(jù)集,發(fā)現(xiàn)這是因為在新浪網(wǎng)絡語料和搜狗語料庫中的一些原來是錯誤的元組經(jīng)過準確化后可以得到正確的元組,而在《人民日報》中,這樣的元組所占的比例較少。其中,在新浪語料庫可以通過準確化得到的正確元組占元組總數(shù)的比例為15%,在搜狗語料庫中這樣的元組所占的比例為17%,而在《人民日報》中只占了7%。

        表3 關系元組準確化實驗結果 %

        從表3來看,準確化后的關系元組的準確率確實比之前要有所提高。例如:“/w脫/v下/v鐵道兵/n軍裝/n的/u石學海/nr調(diào)/v到/v大連電視臺/nt”。最初從這個句子中得到了關系元組(石學海,到,大連電視臺),但關系關鍵詞“到”卻沒有能清晰地表達出“石學?!焙汀按筮B電視臺”的關系,甚至使人無法理解“到”是什么含義。在進行準確化后,可以得到關鍵詞是“調(diào)到”,這個詞就使人們很容易理解了。然而在極少的一些情況下,準確化過程會把原來清晰的關系變得不清晰。例如:“被害人/n桂召金/nr因/p支氣管炎/n發(fā)作/vi找/v吳偉/nr1醫(yī)治/v”,最初可以從這個句子中得到關系元組(桂召金,找,吳偉),但在經(jīng)過準確化后得到的關系元組是(桂召金,發(fā)作找,吳偉),這個關系關鍵詞“發(fā)作找”反而就很難理解了。

        將本文算法的實驗結果與文獻[9-10]方法的實驗結果相比,可以看出,本文算法可以獲得比傳統(tǒng)方法更豐富的關系類型。

        4 結束語

        本文提出一種基于中文句法結構的關系挖掘算法,同時設計一個針對漢語中類雙賓語結構和單賓語結構的單通道挖掘機,利用其進行關系挖掘。本文算法無需大量訓練集,降低了對訓練集的依賴性,并且在挖掘過程中使用語法解析提高了準確率,同時也減少了無信息關系元組的出現(xiàn)。實驗結果表明,該算法具有良好的拓展性,能夠獲得較為豐富的關系類型。下一步工作將主要集中在以下2個方面:(1)由于現(xiàn)在的方法對挖掘到的關系元組沒有采取自動的有效性驗證,因此將來考慮采用一種有效性驗證方法來對關系元組的正確性進行自動驗證,例如可以采用基于冗余的驗證[11]。(2)利用漢語中其他典型句法結構來訓練單通道挖掘機,以增強其挖掘關系元組的能力。

        [1]Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-text Collections[C]//Proc.of the 5th ACM International Conference on Digital Libraries.Boston,USA:ACM Press,2000:85-94.

        [2]Brin S.Extracting Patterns and Relations from the World Wide Web[R].Palo Alto,USA:The Stanford University InfoLab,Technical Report:SIDL-WP-1999-0119,1998.

        [3]Banko M,Cafarella M J,Scderland S,et al.Open Information Extraction from the Web[C]//Proc.of the 20th International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2007:2670-2676.

        [4]Fader A,Soderland S,Etzioni O.Identifying Relations for Open Information Extraction[C]//Proc.of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2011:87-96.

        [5]Shinyama Y,Sekine S.Preemptive Information Extraction Using Unrestricted Relation Discovery[C]//Proc.of HLTNAACL’06.Stroudsburg,USA:Association for Computational Linguistics,2006:304-311.

        [6]de Marneffe M,MacCartney B,Manning C D.Generating Typed Dependency Parses from Phrase Structure Parsers[C]//Proc.of International Conference on Language Resources and Evaluation.Genoa,Italy:[s.n.],2006:449-454.

        [7]Takamatsu S,Sato I,Nakagawa H.Reducing Wrong Labels in Distant Supervision for Relation Extraction[C]//Proc.of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2012:721-729.

        [8]Chang P C,Tseng H,Jurafsky D,et al.Discriminative Reordering with Chinese Grammatical Relations Features[C]//Proc.of the 3rd Workshop on Syntax and Structure in Statistical Translation.Stroudsburg,USA:Association for Computational Linguistics,2009:51-59.

        [9]李維剛,劉 挺,李 生.基于網(wǎng)絡挖掘的實體關系元組自動獲取[J].電子學報,2007,35(11):2111-2116.

        [10]鄧 擘,鄭彥寧,傅繼彬.漢語實體關系模式的自動獲取研究[J].計算機科學,2010,37(2):183-185.

        [11]Downey D,Etzioni O,Soderland S.A Probabilistic Model of Redundancy in Information Extraction[C]//Proc.of International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2005:1034-1041.

        一区二区三区少妇熟女高潮| 无码国产精品一区二区高潮| 亚洲精品无码av片| avtt一区| 欧美日韩亚洲一区二区精品| 成年人视频在线播放麻豆| 久久久亚洲熟妇熟女av| 国内精品卡一卡二卡三| 久久久男人天堂| 视频精品亚洲一区二区 | 西西人体444www大胆无码视频 | 青青手机在线视频观看| 成人性生交大全免费看| 一区二区三区最新中文字幕| 日本丰满熟妇videossex8k| 日韩区在线| 国产精品一区二区三区黄片视频| 成年人视频在线观看麻豆| 男女18禁啪啪无遮挡激烈网站| 中文字幕有码无码人妻av蜜桃| 国产午夜精品一区二区| 国产乱子伦露脸在线| 美女视频很黄很a免费国产| 国产91久久精品成人看网站| 日本一区二区不卡精品| 国产99久久久国产精品免费看| 野外性史欧美k8播放| 亚洲国产精品久久久久久网站 | 色播久久人人爽人人爽人人片av| 欧美日韩一区二区三区自拍| 国产一级毛片卡| 亚洲无人区乱码中文字幕 | 亚洲天堂av在线网站| 午夜免费电影| av无码久久久久久不卡网站| 亚洲 国产 韩国 欧美 在线| 国产一区白浆在线观看| 欧美丰满熟妇bbbbbb| 五十路熟妇亲子交尾| 欧美日韩高清一本大道免费 | 女同性恋精品一区二区三区|