亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        《同義詞詞林》在中文實體關系抽取中的作用

        2014-02-28 03:37:36劉丹丹錢龍華周國棟
        中文信息學報 2014年2期
        關鍵詞:小類多義實體

        劉丹丹,彭 成,錢龍華,周國棟

        (蘇州大學 自然語言處理實驗室,江蘇 蘇州 215006; 蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

        1 引言

        命名實體間語義關系抽取(簡稱實體關系抽取,或關系抽取)是信息抽取中的一個重要研究內容,其任務是從自然語言文本中提取出兩個命名實體之間所存在的語義關系,例如,短語“美國總統 克林頓 的 平壤 之行”中的兩個實體“克林頓”(PER)和“平壤”(GPE)之間存在的物理位置關系(PHYS.Located)。作為一項應用基礎性研究,實體關系抽取對自然語言處理的許多應用如內容理解、問題回答、自動文摘、機器翻譯、文本分類以及信息過濾等都具有重要的意義。

        無論是采用指導性的機器學習方法,還是采用無指導的聚類方法,關系抽取研究的關鍵問題都是如何有效的表達關系實例并計算關系實例之間的相似度?;谔卣飨蛄康姆椒╗1-5]將關系實例表示成高維特征空間中的一個向量,通過計算向量之間的相似度來表示實例之間的相似度,其特征包含詞匯、組塊、句法和語義等各種信息?;诤撕瘮档姆椒▌t將關系實例表示成離散結構,如實體對所在的成分句法樹[6-10]、依存樹[11]或依存路徑[12-13]等,它通過計算離散結構之間的相似度來表示實例之間的相似度。由于它能探索高維空間中的隱含結構化特征,因此在關系抽取及自然語言處理的其它任務中獲得了廣泛的應用。在中文實體關系抽取中,基于特征向量的方法有文獻[14-16]等。基于核函數的方法采用的離散結構有字符串[17-18]、句法樹[19-20]等。

        眾所周知,語義信息對實體間語義關系的抽取具有重要的作用。目前關系抽取中使用到的語義信息主要分為以下三類: 實體類型語義信息、實體詞匯的聚類信息和實體詞匯的語義信息。實體類型語義信息包括實體大類和實體小類信息,無論是從語義關系的定義,還是實驗結果來看,這類信息對關系抽取的性能具有很大的提升作用,因而幾乎所有的關系抽取系統都使用實體類型信息。不過,目前使用的實體類型信息都是基于手工標注的結果,實際識別出的實體類型,特別是小類信息,肯定含有噪音,從而使得其作用受到一定的影響。文獻[4-5]先采用聚類的方法得到實體詞匯的語義編碼,然后在基于特征向量的關系抽取中使用該語義編碼,實驗結果表明其對關系抽取的性能提高具有一定的促進作用。但由于特征匹配的限制,語義編碼必須截斷后才能使用。在中文關系抽取中,文獻[17]采用編輯距離核函數來計算關系實例的字符串之間的相似度,并考慮了詞匯之間在《同義詞詞林》中的語義相似度,在person-affiliation關系中取得了較好的結果。不過,他們沒有單獨比較詞匯語義相似度的貢獻,也沒有考慮對其它類型的關系抽取的影響。文獻[18]采用字符串核的方法進行ACE語料庫上的三個大類的中文關系抽取,并在子串比較的時候考慮其詞匯在《知網》中的詞義相似度, 實驗表明語義相似度能提高大部分關系類型的抽取性能。

        綜上所述,語義信息確實能夠提高關系抽取的性能, 但目前還沒有一個系統全面的研究來分析語義信息對中文關系抽取的有效性,如對哪些關系類型有效,有效程度如何,以及詞匯語義信息和實體類型信息之間的冗余度等。針對這些問題,本文以《同義詞詞林》為例,采用基于樹核函數的方法來研究語義信息在中文實體語義關系抽取中的作用,旨在發(fā)現語義信息對哪些關系類型影響最大。

        本文第2節(jié)介紹了《同義詞詞林》及其編碼方式;第3節(jié)討論《詞林》語義類別信息與結構化信息的結合;第4節(jié)給出了實驗設置及結果分析;最后第5節(jié)是總結部分。

        2 同義詞詞林

        《同義詞詞林》[21](以下簡稱《詞林》)是一部漢語分類詞典,其中每一條詞語都用一個編碼來表示其語義類別。本文所用的《詞林》為《詞林(擴展版)》,是哈爾濱工業(yè)大學信息檢索研究室在《同義詞詞林》的基礎上研制的。最終的詞表包含77 492條詞語,其中一詞多義的詞語為8 860個,共分為12個大類,94個中類,1 428個小類,小類下再以同義原則劃分詞群,最細的級別為原子詞群,這樣詞典中的詞語之間就體現了良好的層次關系。不同級別的分類結果可以為自然語言處理提供不同顆粒度的語義類別信息。

        《詞林》的12個大類分別用一位大寫英文字母A到L來表示,中類編號在大寫字母后面加一位小寫英文字母表示,小類編號再加兩位十進制整數表示,詞群編號再加一位大寫英文字母表示,原子詞群編號再加兩位十進制整數表示,最后一位的標記有3種,其中“=”代表“相等”、“同義”; “#”代表“不等”、“同類”,屬于相關詞語; “@”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞,也沒有相關詞。根據編碼特點,本文沒有使用第八位編碼。具體的標記如表1所示。如詞語“公園”的語義編碼為“Bn20A01=”,大類(B)表示“物”,中類(Bn)表示“建筑物”,小類(Bn20)表示“園林”,原子詞群(Bn20A01)表示“園林 公園 花園 莊園 園 苑”,詞群(Bn20A)并沒有賦予專門的名稱。

        表1 《詞林》詞語編碼表

        3 《詞林》語義信息與結構化信息的結合

        在分析《詞林》語義信息對基于樹核函數的中文關系抽取的影響之前,首先需要考慮兩個問題: 一是應該加入哪些詞匯的語義信息;二是詞匯的語義信息如何與句法樹中的結構化信息相結合。

        在表示關系實例結構化信息的句法樹中,除兩個實體名稱外,還包含其它的詞匯信息,如動詞、形容詞和副詞等。根據文獻[5]的研究,加入實體名稱的聚類語義信息有利于提高關系抽取的性能,而其他詞匯的語義信息則沒有效果。鑒于此,本文只考慮關系實例中的兩個實體詞匯在《詞林》中的語義類別信息。

        3.1 實體詞匯的《詞林》語義類別與結構化信息的結合

        對實體而言,其語義信息和句法樹中的結構化信息相結合的方法有兩種: 一是直接將語義類別信息加入到句法樹中;二是通過復合核函數的方法將基于結構化信息的樹核函數和基于語義類別信息的核函數結合起來。在ACE RDC 2004 英文語料庫上的實驗表明[9],由于后者能調整兩種核函數的貢獻,因此性能比前者略有提高。但本文的重點在于探索語義信息對關系抽取的作用,為避免復合系數的調整問題,我們采用與文獻[20]相似的方法,將語義信息掛在句法樹的根結點下面,從而構成合一句法和語義關系樹。

        例如,在關系實例“臺北 大安森林公園”中,實體“臺北”對應的《詞林》“原子詞群”編碼為Cb25A11,“詞群”編碼為Cb25A,“小類”編碼為Cb25,“中類”編碼為Cb,“大類”編碼為C。如果考慮《詞林》“詞群”級別的語義信息,就將其對應的語義類別編碼“Cb25A”掛在句法樹的根結點下,如圖1所示。其中句法樹結構采用最短路徑包含樹(SPT,Shortest Path-enclosed Tree),而SC1、SC2分別表示其子結點為實體E1和實體E2的詞匯所對應的語義編碼,“Bn20A”為“大安森林公園”的中心詞“公園”的詞群編碼。

        圖1 加入實體《詞林》詞群語義類別后的句法樹

        3.2 實體詞匯的一詞多義信息與結構化信息的結合

        一詞多義是自然語言中的普遍現象,它對自然語言處理的很多任務都有影響。在ACE 2005中文語料庫上的統計表明,在《詞林》中具有一詞多義的實體詞匯占其總數的1/5還多,因而實體詞匯的“一詞多義”現象對關系抽取具有一定的影響。

        在關系實例中,不同的“一詞多義”的實體詞匯(簡稱為多義實體)所具有的詞義數是不同的,統計表明詞義數為2和3的多義實體占所有多義實體的80%左右,而詞義數7以上的多義實體則非常之少。因此,在考察“一詞多義”對關系抽取影響的實驗時,我們僅考慮詞義數為2-6的《詞林》語義信息。例如,當詞義數為2時,圖1中的實體E1 “臺北”在《詞林》中具有2個詞義,其詞群編碼分別“Cb25A”、“Di03B”。把這兩個編碼都掛在具有相同標識(即SC1)的父節(jié)點下面,即表示實體1的詞匯具有兩個含義,這樣在計算兩棵樹的相似度時,只要其中任何一個語義編碼匹配,相似度就能得到提高。

        3.3 實體詞匯的《詞林》語義信息的獲取

        為了將實體詞匯的語義信息加入到句法樹中,在生成了關系實例的SPT樹之后,需從《詞林》中抽取出語義類別信息,并將它插入到句法樹中,其處理流程如下:

        ① 從句法樹中找出實體E1和E2所對應的詞匯LEX1和LEX2;

        ② 在《詞林》中查找LEX1和LEX2的語義類別編碼;

        ③ 如果某一詞匯的語義類別編碼不存在,則將該詞匯進行分詞,取分詞后最右邊的詞匯,再在《詞林》中查找相應的語義類別編碼。設得到的語義類別分別為CODE1,CODE2;

        ④ 按照《詞林》的不同語義級別對CODE1,CODE2進行截段,得到最終的編碼分別為C1,C2;

        ⑤ 將C1,C2分別掛在句法樹根結點下的SC1,SC2結點下面。

        需要說明的是,第3步中的分詞非常必要,因為很多實體詞匯無法在《詞林》中找到相應的語義編碼。據統計,這一類實體詞匯的數量超過實體總數的1/4。其主要原因是,很多實體的名稱都是較少出現的專用名詞,而語義辭典是不收錄頻度較少的專用名詞的,但其中心詞則是普通名詞,通常可以找到其語義類別。例如,在圖1的實例中,“大安森林公園”沒有收錄在《詞林》中,但分詞后的中心詞“公園”卻可以找到語義編碼。另外,在分詞時,對于人名則不作處理,因為人名雖然不能在《詞林》中找到語義編碼,但對其進行分詞卻也沒有意義。

        最后,當要處理多義實體的一詞多義時,則需要在執(zhí)行第2步時從《詞林》中同時找出多個含義所對應的語義編碼,同時加入到句法樹中。

        4 實驗設置與結果分析

        本節(jié)首先給出實驗設置,包括所使用的語料庫、分詞工具和分類器及性能評估指標,然后給出實驗結果,并對其進行分析。

        4.1 實驗設置

        本文采用ACE 2005中文語料庫作為中文語義關系抽取的實驗數據。該語料庫定義了中文實體之間的6個關系大類,18個關系小類,它包含633個文件,其中廣播新聞類298個,新聞專線類238個,微博和其它97個。采用句法分析器進行句法分析,在去除個別句法分析器不能正確處理的句子后,最終得到關系正例9 147個,關系負例97 540個。

        本文的分詞工具采用中國科學院計算技術研究所研制的基于多層HMM模型的漢語詞法分析系統ICTCLAS[22]。分類器采用支持卷積樹核函數的SVMLight TK[23]工具包,由于該工具包是一個二元分類器,我們采用一對多的方法將它轉換為多元分類器。特別地,相似度計算采用SST(SubSet Tree)核,衰減系數為0.4。為了充分利用語料庫資源,減少語料庫變化對實驗結論的影響,本文實驗采用五倍交叉驗證策略,最后取5次平均值作為最終的性能。評估標準采用常用的準確率(P),召回率(R)和F1指標(F1)。

        4.2 實驗結果與分析

        (1) 《詞林》不同級別的語義信息對中文關系抽取的影響

        圖2比較了《詞林》的不同級別(即“大類”、“中類”、“小類”、“詞群”、“原子詞群”)的語義信息對大類和小類關系抽取性能(即F1值)的影響,其中基準系統是指不加入任何語義信息時SPT樹所取得的性能,每一次實驗分別加入一個級別的語義類別信息,橫坐標表示《詞林》語義信息的不同級別,并且從左到右粒度不斷變細,縱坐標則為關系的抽取性能,性能最高的F1值用粗體顯示。

        從圖2可以看出,分別加入《詞林》的“小類”/“詞群”級別的語義信息后大類/小類關系抽取的性能最佳,分別比基準系統的F1值提高了4.8/5.9個百分點,這說明《詞林》語義信息能顯著提高中文關系抽取的性能。

        該圖同時也表明,無論是大類關系抽取,還是小類關系抽取,隨著加入《詞林》的語義信息的粒度的細化,F1值都是先升高后降低,且在“小類”/“詞群”級別時,性能達到最大值,這說明過于細化或泛化的語義信息都對關系抽取不利。

        圖2 《詞林》不同級別的語義信息對中文關系抽取的性能影響

        由于加入《詞林》的“小類”或“詞群”語義信息,對大類和小類的F1值差別都不大(相差0.2或0.1),因此在后續(xù)實驗中選取“小類”或“詞群”級別的語義原則上都可以。除非特別說明,本文的后續(xù)實驗都選擇 “詞群”級別的語義信息加入到句法樹中。

        (2) 《詞林》語義信息對中文關系抽取具體類別的影響

        由前面的實驗可以知道,在基準系統的基礎上,加入“小類”或“詞群”語義信息,關系抽取的性能最高。表2和表3分別列出了加入“詞群”語義信息后的性能及其同基準系統之間在各個大類和小類類別上的性能差異,其中P/R/F1為在5個數據集上的平均值,△P/△R/△F分別為在5個數據集上的P/R/F1的平均變化值,#表示該關系類別的實例數,%為該類別的實例數占總數的百分比,~F為F1值的加權平均(即△F*%/100),它表明了某個類別上F1值的變化對總體性能變化的貢獻度。每一個性能指標的最大值和最小值分別用加粗的雙底劃線和單底劃線標出。

        從表3中可以看出,與大類抽取不同的是,加入“詞群”語義信息后,并非所有小類的性能都提高,而是呈現出不同的趨勢,從△F值來看:

        ? F1值增加幅度在3點以上的小類有10個,如Membership(10.0), Business/Subsidiary(8.5)和CRRE(7.9)等。這是由于這些關系中的專用名詞或其中心詞在《詞林》中具有相同的詞群編碼,因此語義信息的加入增加了樹結構的相似性。例如,在“共產黨 領袖”、“塞爾維亞民主黨 提名 的 候選人”等短語中都存在著Membership關系,由于詞匯的稀疏性問題,在基準系統中都被誤識別為Employment關系,而加入實體E1的詞匯語義編碼(Di07A)后,相似度得到提高;

        ? Near小類幾乎沒有增加,Artifact小類沒有變化,而Founder和Ownership小類則顯著降低。這是由于某些詞匯的分詞錯誤導致了錯誤的語義編碼,造成了關系的誤識別。例如,關系實例“雅虎 創(chuàng)辦人”為Founder關系,但實體 “雅虎”分詞后的中心詞“虎”明顯改變了實體的語義類別,從而導致該關系實例被錯誤識別。

        表2 “詞群”語義信息對關系抽取大類類別的性能影響

        表3 “詞群”語義信息對關系抽取小類類別的性能影響

        續(xù)表

        將表2和表3綜合起來考慮,可以發(fā)現:

        ? 由于GEN-AFF大類中的兩個小類均有大幅度提高,且所占比例較高(約20%),因而導致該大類的性能貢獻度~F最大;

        ? ORG-AFF大類中的各個小類表現差別迥異,因而雖然該大類所占比例較高,但總體性能貢獻值卻小于PART-WHOLE 和GEN-AFF兩大類。

        綜上所述,《詞林》語義信息對所有大類關系抽取的F1值都有不同程度的提高,尤其對ART和GEN-AFF兩大類的影響最大;而對大部分小類關系抽取的性能也有不同程度的提高,如Membership, Subsidiary, Business和CRRE等提高幅度較大,而對Founder和Ownership等部分小類則明顯降低。

        (3) 《詞林》中實體詞匯的一詞多義現象對關系抽取性能的影響

        圖3比較了《詞林》中實體詞匯的一詞多義對大類和小類關系抽取性能(即F1值)的影響,每一次實驗都是在前面實驗的基礎上再加入一個額外的語義信息,橫坐標表示詞義數從1變化到6,縱坐標則表示抽取性能的F1值。同樣,最高性能用粗體表示。

        圖3 《詞林》中的實體詞匯的一詞多義對中文關系抽取的性能影響

        由圖3可以看出,加入一詞多義信息并不能改善關系抽取的性能,反而隨著多義詞詞義數的不斷增加,F1值逐漸下降。通過分析,發(fā)現其原因是由于關系實例中的實體詞匯在ACE新聞類語料庫中的語義通常都是較為常見的一種,考慮一詞多義(即加入該實體不常用的語義)后,反而增加了噪音信息,并且樹的結構更為龐大,從而降低了關系抽取的性能。

        (4) 《詞林》語義信息與實體類型信息的冗余度

        實體本身也有大類和小類等類別信息,它們和實體詞匯的語義信息之間是否存在冗余呢?我們首先從總體性能上分析了《詞林》語義信息和實體類型信息的性能影響,然后從具體關系類別上進行比較。

        1. 從總體性能上比較《詞林》語義信息與實體類型信息的影響

        表4比較了在基準系統的基礎上,加入不同組合的《詞林》詞群語義信息和實體類型信息(實體大類和小類)后中文關系抽取的總體性能,其中大類和小類關系抽取的最高性能用粗體表示。

        表4 《詞林》語義信息和實體類型信息的性能比較

        從表4可以看出,同基準系統相比,加入實體大類、實體小類和《詞林》語義等所有信息后,無論是大類抽取,還是小類抽取都取得了最好的性能,F1值分別為66.8/64.8,且P值和R值同時顯著提高,這說明這些語義信息對中文關系抽取都有一定的作用。此外,該表還表示:

        ? 單獨加入實體大類、實體小類或詞林詞群等信息之一,實體小類取得了最好的性能提高。這說明實體小類信息能更準確地刻畫實體的本質,更好地區(qū)分關系的類型,而《詞林》詞群語義信息盡管類別更細,但它是針對通用領域的,不一定最適合新聞領域的關系抽??;

        ? “實體小類+詞林詞群”的大類F1值比“詞林詞群”的大類F1值高出5.4點,而比“實體小類”的大類F1值只高出0.6點,這說明就關系抽取而言,實體小類覆蓋了詞林詞群中的大部分語義信息,反之則不然。同理,實體大類也覆蓋了詞林詞群中的大部分語義信息,因為“實體大類+詞林詞群”的大類F1值比“詞林詞群”的大類F1值高出5.5點,而比“實體大類”的大類F1值只高出1.3點。

        ? 最后很重要的一點是,在“基準系統”的基礎上加入“詞林詞群”,大類抽取的F1值提高了4.6點,小類抽取的F1值提高了5.9點,而在“實體大類+實體小類”的基礎上,再加入“詞林詞群”, 大類抽取的F1值只提高了0.4點,小類抽取的F1值也只提高了1.1點??梢钥闯鰧嶓w類型的加入嚴重削弱了語義信息對抽取性能的提高幅度,那么這是否意味著語義信息對關系抽取來說意義就不大了呢?答案是否定的。其一,我們現在加入實體類型時,假設它是完全正確的。在實際的命名實體識別系統中,總會有錯誤產生,尤其是對于實體小類,因而實際應用中的實體類型是有噪音的,它對性能的提高不可能有預期的那么大,而《詞林》語義信息則是從現存的語義辭典《同義詞詞林》中提取的,它不存在這個問題。其二,語義信息對不同關系類型的抽取性能表現出多樣性,這就是下面的分析所要說明的問題。

        2. 從具體關系類型的性能上比較“詞群”語義和實體類型的影響

        為了比較《詞林》語義信息和實體類型信息的冗余性對具體關系類型抽取的影響,表5列出了各個小類關系的F1值、△F值。其中“詞林詞群-BL”和“實體類型-BL”分別表示在基準系統的基礎上加入詞林詞群或實體類型(實體大類+實體小類)后的F1值和△F值,“(類型+詞群)-類型”表示在實體類型的基礎上加入詞林詞群后的F1值和△F值,小類關系按此△F值降序排列。從表5中可以看出:

        表5 實體類型信息與詞林語義在小類關系上的F1值及其變化

        續(xù)表

        ? 在表格中雙劃線以上的小類關系,如Business, Lasting-Personal和 Sports-Affiliation等,在實體類型的基礎上再加入《詞林》語義信息時,其性能提高幅度(△F值)都在1點以上。尤其是三個小類關系(用底劃線表示),Business、Lasting-Personal和 Student-Alum,單獨加入實體類型并不能明顯提高性能(0.9/-10.3/-1.4),甚至降低,但在加入實體類型后,《詞林》語義信息顯示了它更強勁的性能提升作用。這說明對于這些小類關系而言,實體類型信息和《詞林》語義信息可以相互補充,并且只有這樣才能更好地抽取這些小類關系;

        ? 在表格中雙劃線以下的小類關系(除占比例較少的Founder和Artifact小類關系之外),如Org-Location,Geographical,Located等,實體類型的加入,嚴重削弱了《詞林》語義信息對抽取性能的提升作用。即單獨加入實體類型就已經取得了非常顯著的性能提升,再加入《詞林》語義信息不會明顯提高其性能,特別是對Geographical/Located/UOIM等小類,《詞林》語義信息的加入反而損害了它們的抽取性能,這說明對這些小類關系而言,實體類型信息已包含了大部分的《詞林》語義信息內涵,兩者冗余度較高。

        綜上所述,雖然從總體性能上看,在已知實體類型的前提下,加入《詞林》語義信息的效果不明顯,但是,如果是對某些特定語義關系的抽取,如Business,Lasting-Personal和 Student-Alum以及Sports-Affiliation,Investor-Shareholder和CRRE等,加入《詞林》語義信息還是非常有用的。

        5 總結與展望

        本文利用了現有的中文語義資源《同義詞詞林》,探討了《詞林》語義對中文關系抽取的影響,通過實驗我們發(fā)現,《詞林》詞群級別的語義信息能顯著提高中文關系抽取的性能,但考慮一詞多義卻不能提高抽取性能。另外,《詞林》詞群語義和實體類型信息存在著一定程度的冗余,因此在已知實體類型的前提下加入《詞林》詞群語義時關系抽取總體性能提高較少,但是對某些特定語義關系的抽取,如Business,Lasting-Personal等,性能卻有明顯的提升,這說明只有《詞林》語義信息和實體類型信息相互補充,相輔相成,才能更好地提升中文語義關系抽取的性能。

        下一步的研究工作我們將從以下幾個方面展開,一是通過將詞匯語義相似度嵌入到樹核函數中的方法來考慮語義信息對關系抽取的影響,并和本文的方法進行比較;二是考慮實體信息自動標注的情況下,實體類型和詞匯語義信息對關系抽取的影響;三是將中文抽取方面的研究工作推廣到英文關系抽取中,考察WordNet對關系抽取的影響。

        [1] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C]//Proceedings of the ACL. Morristown, NJ, USA, 2004: 178-181.

        [2] Zhou GuoDong, Su Jian, Zhang Jie, et al. Exploring various knowledge in relation extraction[C]//Proceedings of the ACL, 2005:427-434.

        [3] Zhou G D, Qian L H, Fan J X. Tree kernel-based semantic relation extraction with rich syntactic and semantic information[C]//Proceedings of the Information Sciences, 2010:1313-1325.

        [4] Chan Y S, Roth D. Exploiting Background Knowledge for Relation Extraction[C]//Proceedings of the COLING, 2010:152-160.

        [5] Sun A, Grishman R, Sekine S. Semi-supervised Relation Extraction with Large-scale Word Clustering[C]//Proceedings of the ACL, 2011:521-529.

        [6] Zhang M, Zhang J, Su J, et al. A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features[C]//Proceedings of the COLING-ACL. Sydney, Australia, 2006:825-832.

        [7] Zhou G D, Zhang M, Ji D H, et al. Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information[C]//Proceedings of the EMNLP/CoNLL. Prague,Czech, 2007:728-736.

        [8] Zhou G D, Zhu Q M. Kernel-based semantic relation detection and classification via enriched parse tree structure[J]. Journal of Computer Science and Technology. 2011. 26(1):45-56.

        [9] Qian L H, Zhou G D, Kong F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]//Proceedings of the COLING. Manchester, 2008:697-704.

        [10] Qian L H, Zhou G D, Zhu Q M. Employing Constituent Dependency Information for Tree Kernel-based Semantic Relation Extraction between Named Entities[C]//Proceedings of the ACM Transaction on Asian Language Information Processing. 2011. 10(3): Article 15(24pages).

        [11] Culotta A, Sorensen J. Dependency tree kernels for relation extraction[C]//Proceedings of the ACL. Barcelona, Spain, 2004:423-429.

        [12] Bunescu R C, Raymond J M. A Shortest Path Dependency Kernel for Relation Extraction[C]//Proceedings of the EMNLP. Vancover, B.C, 2005:724-731.

        [13] Nguyen T T, Moschitti A, Riccardi G. Convolution Kernels on Constituent, Dependency and Sequential Structures for Relation Extraction[C]//Proceedings of the EMNLP, 2009: 1378-1387.

        [14] 車萬翔, 劉挺, 李生. 實體關系自動抽取[J]. 中文信息學報, 2005,19(2): 1-6.

        [15] 董靜, 孫樂, 馮元勇, 黃瑞紅. 中文實體關系抽取中的特征選擇研究[J]. 中文信息學報, 2007,21(4): 80-85, 91.

        [16] Li W J, Zhang P, Wei F R, et al. A Novel Feature-based Approach to Chinese Entity Relation Extraction[C]//Proceedings of the ACL. Columbus, Ohio, USA, 2008: 89-92.

        [17] Che W X, Jiang J M, Su Z, et al. Improved-Edit-Distance Kernel for Chinese Relation Extraction[C]//Proceedings of the IJCNLP. 2005: 132-137.

        [18] 劉克彬, 李芳, 劉磊, 韓穎. 基于核函數中文關系自動抽取系統的實現[J]. 計算機研究與發(fā)展, 2007,44(8): 1406-1411.

        [19] 黃瑞紅, 孫樂, 馮元勇, 黃云平. 基于核方法的中文實體關系抽取研究[J]. 中文信息學報, 2008, 22(5): 102-108.

        [20] 虞歡歡, 錢龍華, 周國棟, 朱巧明. 基于合一句法和實體語義樹的中文語義關系抽取[J]. 中文信息學報, 2010,24(5): 17-23.

        [21] 梅家駒, 竺一鳴, 高蘊琦, 殷鴻翔.同義詞詞林(第二版)[M].上海:上海辭書出版社, 1996.

        [22] Zhang H P, Yu H K, Xiong D Y, et al. HHMM-based Chinese Lexical Analyzer ICTCLAS[C]//Proceedings of the 2nd SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, 2003:184-187.

        [23] Moschitti A. A Study on Convolution Kernels for Shallow Semantic Parsing[C]//Proceedings of the ACL. Barcelona, Spain, 2004:335.

        劉丹丹(1987—),碩士研究生,主要研究領域為信息抽取。

        E-mail: liudandan219@163.com

        彭成(1987—),碩士研究生,主要研究領域為信息抽取。

        E-mail: 719864778@qq.com

        錢龍華(1966—),副教授,碩士生導師,主要研究領域為自然語言處理。

        E-mail: qianlonghua@suda.edu.cn

        猜你喜歡
        小類多義實體
        前海自貿區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        浙江配電網物資標準化研究與應用
        物流技術(2017年4期)2017-06-05 15:13:46
        兩會進行時:緊扣實體經濟“釘釘子”
        振興實體經濟地方如何“釘釘子”
        維吾爾語動詞“t∫iqmap”多義范疇的語義延伸機制
        語言與翻譯(2015年2期)2015-07-18 11:09:55
        一個所謂多義句式的本來面目
        多車道自由流技術在多義路徑識別領域的應用
        俄語動詞隱喻的語義解讀*——兼動詞多義的分析
        外語學刊(2011年5期)2011-01-22 05:54:09
        小類:年輕人要多努力
        大學(2008年10期)2008-10-31 12:51:10
        av无码精品一区二区三区四区 | 国产三级三级精品久久| 国产洗浴会所三级av| 一本久久精品久久综合| 国产欧美在线观看不卡| 中文字幕乱码熟妇五十中出 | 狠狠人妻久久久久久综合| 精品亚洲午夜久久久久| 亚洲一区二区三区在线中文| 全程国语对白资源在线观看| 国产综合开心激情五月| 日韩内射美女片在线观看网站 | 亚洲中文字幕无码久久2020| 中字无码av电影在线观看网站| 丰满少妇人妻无码超清| 久久精品国产亚洲av沈先生| 亚洲视频在线免费不卡| 乱色欧美激惰| 亚洲精品字幕| 日韩国产欧美视频| а的天堂网最新版在线| 日韩精品免费观看在线| 精品国产一区二区三区av天堂| 国产av国片精品jk制服| 亚洲国产美女精品久久久| 四虎4545www国产精品| 欧美亚洲h在线一区二区| 少妇一区二区三区精选| 最新国产熟女资源自拍| 免费超爽大片黄| 亚洲永久无码7777kkk| 亚洲国产99精品国自产拍| 日韩成人精品一区二区三区| 国产精品伦理久久一区| 日日碰狠狠添天天爽超碰97久久| 男人进去女人爽免费视频| 国产精品乱码在线观看| 精品久久杨幂国产杨幂| 视频在线播放观看免费| 黄片小视频免费观看完整版| 尤物在线精品视频|