亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于平行語料庫的雙語協(xié)同中文關(guān)系抽取

        2017-06-27 08:10:42馮旭鵬劉利軍黃青松
        計算機(jī)應(yīng)用 2017年4期
        關(guān)鍵詞:語料實(shí)例語料庫

        郭 勃,馮旭鵬,劉利軍,黃青松,3

        1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500; 2.昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,昆明 650500;3.云南省計算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗室(昆明理工大學(xué)),昆明 650500)(*通信作者電子郵箱kmustailab@hotmail.com)

        基于平行語料庫的雙語協(xié)同中文關(guān)系抽取

        郭 勃1,馮旭鵬2,劉利軍1,黃青松1,3*

        1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500; 2.昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,昆明 650500;3.云南省計算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗室(昆明理工大學(xué)),昆明 650500)(*通信作者電子郵箱kmustailab@hotmail.com)

        針對在中文資源的關(guān)系抽取中,由于中文長句句式復(fù)雜,句法特征提取難度大、準(zhǔn)確度低等問題,提出了一種基于平行語料庫的雙語協(xié)同中文關(guān)系抽取方法。首先在中英雙語平行語料庫中的英文語料上利用英文成熟的句法分析工具,將得到依存句法特征用于英文關(guān)系抽取分類器的訓(xùn)練,然后與利用適合中文的n-gram特征在中文語料上訓(xùn)練的中文關(guān)系抽取分類器構(gòu)成雙語視圖,最后再依靠標(biāo)注映射后的平行語料庫,將彼此高可靠性的語料加入對方訓(xùn)練語料進(jìn)行雙語協(xié)同訓(xùn)練,最終得到一個性能更好的中文關(guān)系抽取分類模型。通過對中文測試語料進(jìn)行實(shí)驗,結(jié)果表明該方法提高了基于弱監(jiān)督方法的中文關(guān)系抽取性能,其F值提高了3.9個百分點(diǎn)。

        弱監(jiān)督學(xué)習(xí);關(guān)系抽取;n-gram;平行語料庫;雙語協(xié)同訓(xùn)練

        0 引言

        隨著網(wǎng)絡(luò)數(shù)據(jù)的飛速增長,如何使人們更方便更快捷地準(zhǔn)確獲取到需要的信息也變得更加重要。由于網(wǎng)絡(luò)上的信息大部分屬于非結(jié)構(gòu)化和半結(jié)構(gòu)化的信息,信息抽取就是從這些異構(gòu)數(shù)據(jù)源中獲取結(jié)構(gòu)化知識的技術(shù),這項技術(shù)被用在了構(gòu)建知識圖譜[1]、自動問答系統(tǒng)、語義精準(zhǔn)搜索等多個領(lǐng)域。關(guān)系抽取屬于信息抽取的一個子任務(wù),當(dāng)實(shí)體抽取完成后,得到了一系列離散的命名實(shí)體,如何將這些實(shí)體關(guān)聯(lián)起來,找出實(shí)體之間的語義關(guān)系就是關(guān)系抽取所要解決的問題。

        現(xiàn)有的關(guān)系抽取的方法可以分為基于模式匹配[2]的方法、基于詞典驅(qū)動的方法[3]和基于機(jī)器學(xué)習(xí)的方法[4-5]等,其中基于機(jī)器學(xué)習(xí)的方法是目前主流的關(guān)系抽取方法?;跈C(jī)器學(xué)習(xí)的方法又可以分為有監(jiān)督的方法、無監(jiān)督的方法和弱監(jiān)督的方法。有監(jiān)督的方法需要人工標(biāo)記大量的訓(xùn)練語料,費(fèi)事費(fèi)力且移植性差;而現(xiàn)階段無監(jiān)督的方法在準(zhǔn)確率和召回率都比較低。在這種情況下,人們提出了基于弱監(jiān)督的關(guān)系抽取方法[6],弱監(jiān)督的關(guān)系抽取方法在少量人工標(biāo)記語料的基礎(chǔ)上通過自舉(boostrapping)的學(xué)習(xí)方法,不斷自動擴(kuò)充訓(xùn)練語料,有效減少了人工參與,并且獲得了不錯的性能。

        利用機(jī)器學(xué)習(xí)的方法進(jìn)行關(guān)系抽取時,又可分為基于特征向量的方法[7-8]和基于核函數(shù)的方法[9]。核函數(shù)的方法在學(xué)習(xí)和訓(xùn)練的速度上都相對較慢[10],而基于特征向量的方法在各方面表現(xiàn)比較優(yōu)秀?;谔卣飨蛄康姆椒ㄖ刑卣黜椀倪x擇十分重要,首先特征項不僅需要能夠體現(xiàn)較多的語義信息,而且要能夠準(zhǔn)確區(qū)分不同的語義關(guān)系。特征項的好壞直接影響著關(guān)系抽取的性能高低。一般特征的選擇有詞法特征和語法特征。詞法特征為句子中的詞序列,單純基于詞法特征會導(dǎo)致數(shù)據(jù)的稀疏性,限制分類性能。語法特征從句子的依存關(guān)系路徑中獲取,Miller等[11]研究表明,語法特征可以較好地體現(xiàn)句子中的語義關(guān)系,將語法特征作為關(guān)系抽取的特征向量,對實(shí)體關(guān)系抽取的性能有很大幫助。陳立瑋等[12]指出中文由于結(jié)構(gòu)復(fù)雜,特別是在對中長句子的句法分析上,現(xiàn)有句法分析工具性能明顯下降。然而英文的句法分析工具經(jīng)過較長時間發(fā)展,已經(jīng)比較成熟,基本可以完成英語句子的句法分析。本文使用了協(xié)同訓(xùn)練的方法[13],在中文視圖的特征選擇上面,n-gram特征相對來說是一個較好的選擇,它不依賴句法分析工具,且不存在詞法特征的稀疏性問題,同時還體現(xiàn)了相鄰詞語之間的序列關(guān)系,但它在英文上與句法特征相比處于劣勢[12]。

        通過利用一種語言的優(yōu)勢去提升另一種語言的關(guān)系抽取性能是一個可行的辦法,Kim等[14]將英語豐富的語料作為源訓(xùn)練數(shù)據(jù)用來提升語料資源貧乏的韓語關(guān)系抽取性能上面。如今大量的弱監(jiān)督關(guān)系抽取主要集中在以英語為主的文本上面,現(xiàn)有的句法分析工具在中文長句的分析效果上可能會出現(xiàn)較大波動,對關(guān)系抽取模型的分類性能產(chǎn)生較大的影響。

        本文提出一種基于平行語料庫的雙語協(xié)同訓(xùn)練方法,在中英平行語料庫中,利用英文的句法分析工具對英文進(jìn)行句法分析,對英文和中文語料使用適合各自語言的不同特征,同時訓(xùn)練中文分類器和英文分類器,采用自舉的學(xué)習(xí)方法,在中文分類器和英文分類器中提取出可靠度較高的關(guān)系實(shí)例,將一種語言中可靠度較高的關(guān)系實(shí)例通過標(biāo)注映射的平行語料庫,找到平行語料庫中對應(yīng)的關(guān)系實(shí)例,加入到另一種語言的訓(xùn)練語料中,通過不斷的迭代,提升了訓(xùn)練語料的質(zhì)量,從而得到性能更佳的中文關(guān)系抽取分類模型。實(shí)驗結(jié)果表明,基于平行語料的雙語協(xié)同訓(xùn)練可以提升中文的關(guān)系抽取性能。

        1 弱監(jiān)督關(guān)系抽取框架

        1.1 自舉的弱監(jiān)督關(guān)系抽取方法

        弱監(jiān)督關(guān)系抽取的方法最早出現(xiàn)在對文獻(xiàn)中蛋白質(zhì)和基因的關(guān)系抽取中,后來人們對其進(jìn)行了大量的改進(jìn)和優(yōu)化[15]。基于自舉方式的弱監(jiān)督關(guān)系抽取以少量的種子集合為基礎(chǔ),種子集合為已標(biāo)注的實(shí)例集,將種子集作為訓(xùn)練語料,利用種子集合訓(xùn)練出一個分類器,然后對未標(biāo)注的大量可靠文本語料通過分類器進(jìn)行分類,將可信度較高的候選實(shí)例結(jié)果加入到種子集合中再進(jìn)行訓(xùn)練。這樣一方面解決了初始訓(xùn)練語料不足的問題,對訓(xùn)練語料進(jìn)行了優(yōu)化;另一方面減少了人工手工標(biāo)注的工作量。一般關(guān)系抽取使用的分類模型有最大熵模型和支持向量機(jī)(Support Vector Machine,SVM)。研究表明[16],支持向量機(jī)略優(yōu)于最大熵,所以本文使用支持向量機(jī)SVM作為分類器。SVM可以輸出某一關(guān)系實(shí)例在各個關(guān)系類別上的概率值,通過計算概率分布的熵值來判斷候選實(shí)例的可信度,熵值越小的候選實(shí)例其可信度越高。熵值的計算公式如下:

        (1)

        其中:K表示一共的關(guān)系類別個數(shù);Pi表示關(guān)系實(shí)例屬于第i種關(guān)系類別的概率值。

        1.2 弱監(jiān)督關(guān)系抽取的特征選取

        一個好的特征對于分類器的效果影響十分重要,常用的特征有詞法特征、句法特征還有n-gram特征。詞法特征由詞序列和詞性序列構(gòu)成,單獨(dú)使用詞法特征會導(dǎo)致數(shù)據(jù)稀疏性的問題,所以一般將詞法特征與其他特征相結(jié)合一起使用。句法特征一般從句子的句法依存路徑中獲取,基于英語的依存句法分析工具已比較成熟,可以準(zhǔn)確地得到句子的句法依存關(guān)系結(jié)果,而中文的依存句法分析工具在中長句上效果較差。n-gram特征利用設(shè)定窗口大小去獲取文本中連續(xù)的詞組序列,一定程度上體現(xiàn)了語法關(guān)系,它的優(yōu)點(diǎn)是不需要依賴具體的現(xiàn)存在的工具,并且不存在數(shù)據(jù)稀疏的問題,可用在中文句子語料上面。文獻(xiàn)[12]提出的一種新的n-gram特征,它是基于詞語和它的詞性標(biāo)注的n-gram特征。本文在英語訓(xùn)練語料上選擇可靠度較高分析工具的詞法特征加語法特征,中文訓(xùn)練語料上選擇比較適合中文句子的n-gram特征。詞法特征、句法特征和本文所用的基于詞語和詞性標(biāo)注的n-gram特征分別舉例如下:

        詞法特征舉例:〈PER〉比爾蓋茨,出生于西雅圖〈ORG〉,PER NR PU VV P ORG NS。

        句法特征舉例:〈PER〉 ->出生/VV<-于/P<-〈ORG〉。

        n-gram特征舉例(詞語和詞性標(biāo)注組合):〈PER〉 出生/VV 于/P 〈ORG〉。

        2 基于平行語料庫的雙語協(xié)同訓(xùn)練

        2.1 雙語協(xié)同訓(xùn)練

        協(xié)同訓(xùn)練是一種基于半監(jiān)督的學(xué)習(xí)框架,它也是一種基于boostrapping思想的半監(jiān)督學(xué)習(xí)框架。它使用兩種不同的獨(dú)立的特征下的視圖去訓(xùn)練兩個分類器,兩個分類器各自對自己的數(shù)據(jù)進(jìn)行分類,將各自分類結(jié)果中置信度最高的前n個數(shù)據(jù)加入到對方的訓(xùn)練語料中去。

        本文使用中英雙語平行語料庫,利用小規(guī)模的標(biāo)注的雙語語料分別選擇詞法特征加句法特征和n-gram特征,分別對其中的具有語義關(guān)系的英語語料和中文語料進(jìn)行訓(xùn)練,得到兩個不同的分類器,記為Me(英文分類器)和Mc(中文分類器)。再對未標(biāo)注的中英雙語平行語料進(jìn)行分類,得到新的英文和中文的帶標(biāo)簽的實(shí)例,通過標(biāo)注映射,找到平行語料庫中對應(yīng)的實(shí)例,分別加入到中文和英文分類器的訓(xùn)練語料中,然后再繼續(xù)進(jìn)行訓(xùn)練,不斷迭代進(jìn)行,直到所有實(shí)例迭代完成為止,最后得到了兩個協(xié)同訓(xùn)練后的中文分類器SVMc和英文分類器SVMe。具體算法過程如下:

        輸入:有標(biāo)注的英文訓(xùn)練數(shù)據(jù)集Le和中文訓(xùn)練數(shù)據(jù)集Lc,無標(biāo)注的英文數(shù)據(jù)集Ue和無標(biāo)注的中文數(shù)據(jù)集Uc。

        輸出:訓(xùn)練后的中文關(guān)系抽取模型SMVc和英文關(guān)系抽取模型SVMe。

        Step1 使用Le訓(xùn)練一個英文數(shù)據(jù)分類器Me,使用Lc訓(xùn)練一個中文分類器Mc。

        Step2 迭代循環(huán)t次:

        Step2.1 從Ue中取出部分?jǐn)?shù)據(jù)集記為Ue′,使用Me對Ue′中的數(shù)據(jù)進(jìn)行分類。

        Step2.2 將置信度較高的前n個實(shí)例記為Ee,在已經(jīng)標(biāo)注映射好的平行語料庫中找到它們對應(yīng)的實(shí)例記為Eec。

        Step2.3 將Ee和Eec分別加入到Le和Lc中。

        Step2.4 從Uc中取出部分?jǐn)?shù)據(jù)集記為Uc′,使用Mc對Uc′中的數(shù)據(jù)進(jìn)行分類。

        Step2.5 將置信度較高的前n個實(shí)例記為Ec,在已經(jīng)標(biāo)注映射好的平行語料庫中找到它們對應(yīng)的實(shí)例記為Ece。

        Step2.6 將Ec和Ece分別加入到Lc和Le中。

        Step2.7 從Ue′和Uc′中刪除已經(jīng)添加到訓(xùn)練集中的數(shù)據(jù),并且從Ue和Uc中再取出部分?jǐn)?shù)據(jù)集加入到Ue′和Uc′中。

        整個流程框架如圖1所示。

        圖1 協(xié)同訓(xùn)練框架圖

        2.2 標(biāo)注

        當(dāng)獲得中英文兩個分類器中得出的可信度較高的關(guān)系實(shí)例后,在加入到彼此的訓(xùn)練語料中之前,首先需要通過對平行語料庫對其進(jìn)行標(biāo)注映射處理,以找到英文句子中的關(guān)系實(shí)例與中文句子中的關(guān)系實(shí)例的對應(yīng)關(guān)系。標(biāo)注映射的第一步就是標(biāo)注。首先通過命名實(shí)體識別技術(shù)在平行雙語文本的英文句子中找出存在的一系列實(shí)體,每兩個實(shí)體組成一個實(shí)體對,一般稱為實(shí)例。然后對實(shí)例進(jìn)行標(biāo)注。接下來在每兩個實(shí)體之間探測它們存在的語義上的關(guān)系,然后對實(shí)體之間存在的語義關(guān)系進(jìn)行標(biāo)注。以上工作主要利用現(xiàn)有的工具幫助檢測并標(biāo)注出在平行雙語文本中英語句子中的實(shí)例和實(shí)例之間的關(guān)系。標(biāo)注的結(jié)果如圖2所示,圖2中為中英雙語平行語料庫中的一對句子的標(biāo)注映射結(jié)果,微軟公司和比爾蓋茨兩個實(shí)體構(gòu)成了一個實(shí)例,表現(xiàn)了人名和組織機(jī)構(gòu)名之間的創(chuàng)建關(guān)系。

        2.3 映射

        在完成中英平行語料庫中英文句子的標(biāo)注任務(wù)后,需要將標(biāo)注的內(nèi)容映射到相對應(yīng)的另一種語言(中文)中,本文是從英文到中文進(jìn)行映射。本文使用單詞對齊的方法完成從英文到中文的標(biāo)注映射的任務(wù),單詞對齊就是在雙語文本中找到詞匯級的對譯關(guān)系,這樣就可以找到英文句子中實(shí)例和實(shí)例間關(guān)系在中文句子中對應(yīng)的詞。單詞對齊的算法有很多,比如Brown等[17]提出的IBM模型,這些算法已經(jīng)被成功地運(yùn)用在機(jī)器翻譯等自然語言處理任務(wù)方面。本文使用的單詞對齊工具為GIZA++,該工具在中英文上都可以使用,并已廣泛應(yīng)用于機(jī)器翻譯等領(lǐng)域,其單詞對齊效果可以滿足大多數(shù)情況下的需求。經(jīng)過單詞對齊之后,識別出中英雙語文本中具有平移關(guān)系的每個詞,由此形成了一個二分圖,圖中的無向邊將英文句子中代表實(shí)體和關(guān)系的詞和中文中對應(yīng)的詞連接起來。本文首先完成實(shí)體之間的映射,再完成實(shí)體之間關(guān)系的映射。經(jīng)過上面的步驟,使可以將實(shí)體和實(shí)體關(guān)系從英文句子中映射到漢語句子中。如圖2所示,“billgates”和“Microsoft”映射到了它們在中文句子中對應(yīng)的實(shí)例比爾蓋茨和微軟公司。

        基于單詞對齊的實(shí)體和關(guān)系映射可能由于工具的原因產(chǎn)生一些錯誤的映射,進(jìn)一步將影響實(shí)驗的訓(xùn)練語料的質(zhì)量,因此需要制定一些啟發(fā)式的規(guī)則去提高實(shí)體映射的準(zhǔn)確度,盡量減少由錯誤映射得到的關(guān)系實(shí)例加入到訓(xùn)練語料中去。本文定制的啟發(fā)式規(guī)則如下:

        1)英文中每個實(shí)體指稱只對應(yīng)中文中一個實(shí)體指稱。

        2)對于英文中連續(xù)多個詞構(gòu)成的實(shí)體指稱在中文中也必須是連續(xù)多個詞構(gòu)成,中間不能有間隔。

        3)對齊實(shí)體的詞性必須相同。

        除以上的啟發(fā)式的方法外,本文還提出了一種基于翻譯工具的實(shí)體映射檢查策略。該策略如下:將在平行雙語語料中的英文句子中的實(shí)例通過翻譯工具進(jìn)行翻譯,得到多個近似的對應(yīng)的中文詞匯,然后在平行雙語語料中對應(yīng)的中文句子中匹配最大長度相似的詞匯,如果找到相同的詞匯且只有一處,那么將英文句子中的實(shí)例映射到中文中找到的相同或相似的那個實(shí)例。

        通過以上兩種方法,過濾了一些不合格的關(guān)系實(shí)例映射,使得標(biāo)注映射的準(zhǔn)確率得到了一定程度的提高。

        圖2 中英平行語句標(biāo)注映射圖

        3 實(shí)驗與分析

        3.1 實(shí)驗設(shè)置

        本文所使用的中英平行語料庫為哈爾濱工業(yè)大學(xué)信息檢索研究室的英漢雙語語料庫,它包括10萬對句子對齊的雙語句子對。本文選取其中的5萬對平行句子對作為正式語料。首先對其中的英文句子進(jìn)行命名實(shí)體識別、依存關(guān)系分析等預(yù)處理操作,完成對英文句子的標(biāo)注任務(wù);然后通過文中上述方法對語料庫進(jìn)行標(biāo)注映射,最終有24 127個對齊的實(shí)例。在其中選取含有語義關(guān)系與不含語義關(guān)系的5 600個實(shí)例作為最后的實(shí)驗語料集合。本實(shí)驗選取其中1/6作為測試集,在剩余的實(shí)例中選取1/20作為已經(jīng)標(biāo)注的數(shù)據(jù)集,剩下的作為未標(biāo)注的數(shù)據(jù)集。由于基礎(chǔ)的SVM分類器為2類分類器,所以本文選取改進(jìn)的SVMLIB作為本實(shí)驗的分類器。實(shí)驗最后結(jié)果取平均值。實(shí)驗結(jié)果的評價包括準(zhǔn)確率、召回率和F1指數(shù)。

        中文的句法分析工具使用Mate Parser[18],英文句子的預(yù)處理工具使用斯坦福大學(xué)的自然語言處理工具[19-20]。

        3.2 實(shí)驗結(jié)果和分析

        1)首先用不同的方法對中文測試語料進(jìn)行測試分析,選取的方法有未采取協(xié)同訓(xùn)練的弱監(jiān)督自舉SVM中文關(guān)系抽取,記為LLS;單語(中文)協(xié)同訓(xùn)練方法,記為LLCB;雙語(中英文)協(xié)同訓(xùn)練方法,記為DLCB。其中單語和雙語協(xié)同訓(xùn)練算法中每次選取實(shí)例數(shù)n為20,也就是SVMc和SVMe每次各加入20個實(shí)例。取最高性能為其實(shí)驗結(jié)果值。

        表1 不同算法性能比較 %

        從表1可以看出雙語協(xié)同訓(xùn)練要比未采取協(xié)同訓(xùn)練的關(guān)系抽取方法在性能上得到了提升,而雙語協(xié)同訓(xùn)練又在單語協(xié)同訓(xùn)練的基礎(chǔ)上進(jìn)一步提升了性能。

        2)雙語協(xié)同訓(xùn)練時英文的分類特征為從依存語法中獲得的語法特征,中文使用的是基于詞語與詞性的n-gram特征。下面將比較雙語協(xié)同訓(xùn)練時中英文特征的選擇對關(guān)系抽取結(jié)果的影響。中英文的特征選取分別為詞法加語法特征(lex+syn)、詞法加n-gram特征(lex+ng),結(jié)果如表2所示。

        表2 雙語協(xié)同訓(xùn)練不同特征選取性能比較 %

        從表2可以看出,中英雙語協(xié)同訓(xùn)練時的特征選取對抽取結(jié)果產(chǎn)生了影響,其中英文選取詞法加句法特征,中文選取詞法加n-gram特征取得了最好的效果,在英文上選取n-gram特征沒有取得更好的效果,反而有略微下降,主要還是因為在中文長難句的語法分析效果上沒有英文的好,而英文的語法分析工具已經(jīng)比較成熟。n-gram特征對中文的關(guān)系抽取提供了很好的補(bǔ)充,優(yōu)于傳統(tǒng)的語法特征??傮w來看協(xié)同訓(xùn)練提高了關(guān)系抽取的性能,以英文的句法特征為特征向量的分類器得到的實(shí)例很好地補(bǔ)充了中文關(guān)系抽取分類器的訓(xùn)練語料集。

        3)協(xié)同訓(xùn)練時,不同的迭代次數(shù)會對最終分類模型的性能造成不同的影響,接下來對不同迭代次數(shù)下協(xié)同訓(xùn)練的性能進(jìn)行比較。這次取n的值為100進(jìn)行迭代。如圖3所示。

        圖3 DLCB算法迭代次數(shù)對F1值的影響

        由圖3可以看出,隨著迭代次數(shù)的上升,一開始模型性能呈現(xiàn)出上升的趨勢,但是隨著迭代次數(shù)的繼續(xù)增加,其性能出現(xiàn)了下滑,據(jù)此可知,迭代次數(shù)在中間的一個合適值時,模型的性能達(dá)到了最優(yōu)的狀態(tài)。其原因還是因為隨著迭代次數(shù)的增加,由于標(biāo)注映射錯誤等產(chǎn)生的一些低質(zhì)量訓(xùn)練語料被加入訓(xùn)練語料的概率增加,降低了關(guān)系抽取模型的性能。

        3.3 算法性能分析

        雙語協(xié)同訓(xùn)練時,影響其性能的方面主要有訓(xùn)練語料的影響和協(xié)同訓(xùn)練策略的影響。除此之外,本文還計算了SVM分類算法用于此關(guān)系抽取方法的時間復(fù)雜度。

        由于本文采取的是簡單的詞對齊的方法對中英文語料庫進(jìn)行映射,雖然采取了啟發(fā)式的方法和基于翻譯工具的實(shí)體映射檢查策略,但不能避免地會存在錯誤映射的實(shí)例對,在協(xié)同訓(xùn)練中,一旦錯誤的映射被加入到可信的訓(xùn)練語料中去,這個錯誤將被繼續(xù)學(xué)習(xí)和加強(qiáng),最終對關(guān)系抽取分類器的性能造成極大的影響。在應(yīng)用級的大規(guī)模的語料中,很難人工檢查修正未正確映射的關(guān)系實(shí)體,因此需要對對齊率進(jìn)行評估,在側(cè)面將反映出協(xié)同訓(xùn)練最終得到中文關(guān)系抽取模型的好壞。本文隨機(jī)抽取1 000對經(jīng)過單詞對齊后的中英文,手動計算關(guān)系實(shí)例對齊率。一共進(jìn)行5次計算,最后計算平均值,作為整體的對其率。經(jīng)過人工對比,發(fā)現(xiàn)對其率達(dá)到了78.4%,在一定程度上適用于雙語協(xié)同訓(xùn)練。

        除了訓(xùn)練語料的影響,協(xié)同訓(xùn)練本身參數(shù)的設(shè)置也會對本文的關(guān)系抽取模型性能造成影響,本文在這里重點(diǎn)研究的參數(shù)為協(xié)同訓(xùn)練時特征的選取和迭代次數(shù)對其的影響。結(jié)果已經(jīng)在上面的實(shí)驗中進(jìn)行了測試。

        本文計算分析了利用SVM進(jìn)行自舉訓(xùn)練時的算法時間復(fù)雜度,其時間復(fù)雜度如下:O(n2*M2*d)。其中:M代表未標(biāo)注語料的大小;d為所取特征的維度,取所有詞中tf-idf最高的前10 000個詞作為分類特征,這里選取詞法特征作為實(shí)驗;n為所分種類數(shù)。M和n取不同值時算法執(zhí)行的時間如表3所示。

        表3 算法執(zhí)行時間分析

        通過對算法各個方面進(jìn)行的分析來看,由映射錯誤和SVM效率等問題,使得算法的性能遭受了一定的影響。

        4 結(jié)語

        本文提出了一種基于平行語料庫的雙語協(xié)同訓(xùn)練方法用于提升中文關(guān)系抽取的性能,針對中文關(guān)系抽取時依然句法分析工具,而長難句句法分析準(zhǔn)確性會大幅下降的問題,使用適合各自語言的特征在平行語料庫中的中英文同時進(jìn)行訓(xùn)練,將彼此可信度高的且標(biāo)注好的實(shí)例映射到彼此的訓(xùn)練語料中,提升了訓(xùn)練語料的質(zhì)量。實(shí)驗結(jié)果表明,選取英文的句法特征和中文的n-gram通過協(xié)同訓(xùn)練得到的中文分類器很好地改善了中文的關(guān)系抽取性能,優(yōu)于基于弱監(jiān)督的純中文自舉訓(xùn)練的方法,這種方法適用于多語言的關(guān)系抽取,具有較強(qiáng)的魯棒性。

        后續(xù)工作中:一方面將繼續(xù)對平行語料庫的標(biāo)注映射工作進(jìn)行優(yōu)化,使其更加準(zhǔn)確;另一方面,在現(xiàn)實(shí)應(yīng)用中,可以使用的雙語語料庫畢竟有限,且質(zhì)量不一定能滿足關(guān)系抽取的需求,因而尋找更加適合中文關(guān)系抽取的特征是今后深入研究的方向。

        )

        [1] 劉嶠, 李楊, 段宏.知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機(jī)研究與發(fā)展, 2016, 53(3):582-600.(LIUQ,LIY,DUANH.Knowledgegraphconstructiontechniques[J].JournalofComputerResearchandDevelopment, 2016, 53(3):582-600.)

        [2]APPELTDE,HOBBSJR,BEARJ,etal.SRIinternationalFASTUSsystem:MUC-6testresultsandanalysis[C]//MUC6 1995:Proceedingsofthe6thConferenceonMessageUnderstanding.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 1995:237-248.

        [3]AONEC,RAMOS-SANTAM.REES:alarge-scalerelationandeventextractionsystem[C]//ANLC2000:ProceedingsoftheSixthConferenceonAppliedNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000:76-83.

        [4]ZHANGY,ZHOUJF.AtrainablemethodforextractingChineseentitynamesandtheirrelations[C]//CLPW2000:ProceedingsoftheSecondWorkshoponChineseLanguageProcessing:HeldinConjunctionwiththe38thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000, 12: 66-72.

        [5]ZHANGZ.Weakly-supervisedrelationclassificationforinformationextraction[C]//CIKM2004:ProceedingsoftheThirteenthACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACM, 2004:581-588.

        [6]CRAVENM,KUMLIENJ.Constructingbiologicalknowledgebasesbyextractinginformationfromtextsources[C]//ProceedingsoftheSeventhInternationalConferenceonIntelligentSystemsforMolecularBiology.MenloPark,CA:AAAIPress, 1999:77-86.

        [7]ZHAOS,GRISHMANR.Extractingrelationswithintegratedinformationusingkernelmethods[C]//ACL2005:Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005: 419-426.

        [8]ZHOUG,SUJ,ZHANGJ,etal.Exploringvariousknowledgeinrelationextraction[C]//ACL2005:Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005:427-434.

        [9]ZELENCOD,AONEC,RICHARDELLAA.Kernelmethodsforrelationextraction[J].JournalofMachineLearningResearch, 2003, 3(6):1083-1106.

        [10]SHAWE-TAYLORJ,CRISTIANININ.Kernelmethodsforpatternanalysis[M].NewYork:CambridgeUniversityPress, 2004:25-45.

        [11]MILLERS,FOXH,RAMSHAWL,etal.Anoveluseofstatisticalparsingtoextractinformationfromtext[C]//NAACL2000:Proceedingsofthe1stNorthAmericanChapteroftheAssociationforComputationalLinguisticsConference.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000:226-233.

        [12] 陳立瑋, 馮巖松, 趙東巖.基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J]. 計算機(jī)研究與發(fā)展, 2013, 50(9):1825-1835.(CHENLW,FENGYS,ZHAODY.ExtractingrelationsfromtheWebviaweaklysupervisedlearning[J].JournalofComputerResearchandDevelopment, 2013, 50(9):1825-1835.)

        [13]BLUMA,MITCHELLT.Combininglabeledandunlabeleddatawithco-training[C]//COLT1998:ProceedingsoftheEleventhAnnualConferenceonComputationalLearningTheory.NewYork:ACM, 1998:92-100.

        [14]KIMS,JEONGM,LEEJ,etal.Across-lingualannotationprojectionapproachforrelationdetection[C]//COLING2010:Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2010:564-571.

        [15]RIEDELS,YAOL,MCCALLUMA.Modelingrelationsandtheirmentionswithoutlabeledtext[C]//ECMLPKDD2010:Proceedingsofthe2010EuropeanConferenceonMachineLearningandKnowledgeDiscoveryinDatabases,PartIII,LNCS6323.Berlin:Springer, 2010:148-163.

        [16]WANGT,LIY,BONTOHEVAK,etal.Automaticextractionofhierarchicalrelationsfromtext[C]//ESWC2006:Proceedingsofthe3rdEuropeanConferenceontheSemanticWeb:ResearchandApplications.Berlin:Springer, 2006: 215-229.

        [17]BROWNPF,PIETRAVJD,PIETRASAD,etal.Themathematicsofstatisticalmachinetranslation:parameterestimation[J].ComputationalLinguistics, 1993, 19(2):263-311.

        [18]BOHNETB.Topaccuracyandfastdependencyparsingisnotacontradiction[C]//COLING2010:Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics, 2010:89-97.

        [19]MAMEFFEM,MACCARTNEYB,MANNINGC.Generatingtypeddependencyparsesfromphrasestructureparses[EB/OL]. [2016- 03- 10].http://www.lrec-conf.org/proceedings/lrec2006/pdf/440_pdf.pdf.

        [20]FINKELJR,GRENAGERT,MANNINGC.Incorporatingnon-localinformationintoinformationextractionsystemsbyGibbssampling[C]//ACL2005Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005:363-370.

        ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(81360230, 81560296).

        GUO Bo, born in 1992, M. S. candidate. His research interests include machine learning, natural language processing.

        FENG Xupeng, born in 1986, M. S., experimentalist. His research interests include information retrieval.

        LIU Lijun, born in 1978,M. S., lecturer. His research interests include medical information service.

        HUANG Qingsong, born in 1962, professor. His research interests include intelligent information system, information retrieval.

        Bilingual collaborative Chinese relation extraction based on parallel corpus

        GUO Bo1, FENG Xupeng2, LIU Lijun1, HUANG Qingsong1,3*

        (1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming Yunnan 650500, China;2. Educational Technology and Network Center, Kunming University of Science and Technology, Kunming Yunnan 650500, China;3. Yunnan Provincial Key Laboratory of Computer Technology Applications (Kunming University of Science and Technology), Kunming Yunnan 650500, China)

        In the relation extraction of Chinese resources, the long Chinese sentence style is complex, the syntactic feature extraction is very difficult, and its accuracy is low. A bilingual cooperative relation extraction method based on a parallel corpus was proposed to resolve these above problems. In a Chinese and English bilingual parallel corpus, the English relation extraction classification was trained by dependency syntactic features which obtained by mature syntax analytic tools of English, the Chinese relation extraction classification was trained by n-gram feature which is suitable for Chinese, then they constituted bilingual view. Finally, based on the annotated and mapped parallel corpus, the training corpus with high reliability of both classifications were added to each other for bilingual collaborative training, and a Chinese relation extraction classification model with better performance was acquired. Experimental results on Chinese test corpus show that the proposed method improves the performance of Chinese relation extraction method based on weak supervision, itsFvalue is increased by 3.9 percentage points.

        weakly-supervised learning; relation extraction; n-gram; parallel corpus; bilingual collaborative training

        2016- 09- 26;

        2016- 12- 21。 基金項目:國家自然科學(xué)基金資助項目(81360230,81560296)。

        郭勃(1992—),男,山西晉城人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、自然語言處理; 馮旭鵬(1986—),男,河南鄭州人,實(shí)驗師,碩士,主要研究方向:信息檢索; 劉利軍(1978—),男,河南新鄉(xiāng)人,講師,碩士,主要研究方向:醫(yī)療信息服務(wù); 黃青松(1962—),男,湖南長沙人,教授,主要研究方向:智能信息系統(tǒng)、信息檢索。

        1001- 9081(2017)04- 1051- 05

        10.11772/j.issn.1001- 9081.2017.04.1051

        TP391.1

        A

        猜你喜歡
        語料實(shí)例語料庫
        《語料庫翻譯文體學(xué)》評介
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        完形填空Ⅱ
        完形填空Ⅰ
        語料庫語言學(xué)未來發(fā)展趨勢
        最新福利姬在线视频国产观看 | 精品久久中文字幕一区| 国产成人av无码精品| 久久久久久国产精品mv| 成人免费va视频| 久久色悠悠亚洲综合网| 国产剧情一区二区三区在线 | 亚洲乱码国产一区三区| 中文字幕国产精品中文字幕| 国产熟女露脸大叫高潮| 国产精品无码一区二区三区在| 东北寡妇特级毛片免费| 二区久久国产乱子伦免费精品| 美女射精视频在线观看| 日日麻批免费40分钟无码| a级毛片在线观看| 免费va国产高清不卡大片| 久久夜色精品国产噜噜噜亚洲av| 国精品人妻无码一区二区三区性色| 中文字幕亚洲无线码| 国产日产亚洲系列av| 亚洲乱码中文字幕视频| 欧美成人精品午夜免费影视| 另类一区二区三区| 日本免费a一区二区三区| 国产区女主播在线观看| 国产精品黄在线观看免费软件| 91网红福利精品区一区二| 全亚洲最大的私人影剧院在线看| 国产超碰女人任你爽| 毛片免费在线观看网址| 中文字幕亚洲精品高清| 亚洲人成网77777色在线播放| 精品欧洲av无码一区二区三区| 无码区a∨视频体验区30秒 | 4hu四虎永久在线观看| 调教在线播放黄| 国产视频一区2区三区| 强奷乱码中文字幕| 99国产小视频| 性感的小蜜桃在线观看|