陳 鵬,郭劍毅,2,余正濤,2,線(xiàn)巖團(tuán),2,嚴(yán) 馨,2,魏斯超
(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650051; 2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650051)
中文領(lǐng)域?qū)嶓w關(guān)系抽取是指在多樣化的中文領(lǐng)域文本中找出實(shí)體對(duì)之間的關(guān)系。作為自然語(yǔ)言處理的基礎(chǔ),中文領(lǐng)域?qū)嶓w關(guān)系抽取為中文領(lǐng)域信息檢索、自動(dòng)問(wèn)答系統(tǒng)、機(jī)器翻譯、本體構(gòu)建等提供重要技術(shù)支持。目前主要利用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)中文領(lǐng)域?qū)嶓w關(guān)系抽取。按照是否可以利用核函數(shù),機(jī)器學(xué)習(xí)方法主要可以分為支持核函數(shù)的方法及不支持核函數(shù)的方法[1-2],不支持核函數(shù)的方法主要選取適當(dāng)?shù)奶卣鳎Y(jié)合機(jī)器學(xué)習(xí)算法構(gòu)造分類(lèi)模型進(jìn)行關(guān)系抽取,文獻(xiàn)[1-2]分別使用最大熵及條件隨機(jī)場(chǎng)構(gòu)造分類(lèi)模型,但是這類(lèi)方法在訓(xùn)練實(shí)例較少的情況下,就可能會(huì)產(chǎn)生維數(shù)災(zāi)難,并且這類(lèi)方法的輸入模型是固定的,致使訓(xùn)練產(chǎn)生的分類(lèi)模型不具有很強(qiáng)的通用性。反觀(guān)核函數(shù)的引入可以使輸入空間的維數(shù)與原空間的維數(shù)無(wú)關(guān),大大減小了計(jì)算量,并且核函數(shù)的種類(lèi)多樣化可以解決不支持核函數(shù)方法輸入模型固定的問(wèn)題,所以支持核函數(shù)的機(jī)器學(xué)習(xí)算法成為實(shí)現(xiàn)中文領(lǐng)域關(guān)系抽取的主流方法。按照高維矩陣構(gòu)造方式來(lái)分,支持核函數(shù)的方法主要包括特征向量方法[3],卷積核函數(shù)方法[4-5]及兩種方法復(fù)合的多核融合方法[6]。卷積核函數(shù)方法是將兩個(gè)實(shí)體所在的句子結(jié)構(gòu)化表示,例如,字符串、句法樹(shù)等,通過(guò)計(jì)算每個(gè)實(shí)例中相同的子結(jié)構(gòu)數(shù)目構(gòu)造高維矩陣,但是受制于構(gòu)成高維矩陣時(shí)計(jì)算復(fù)雜度巨大的問(wèn)題,卷積核函數(shù)方法及包含卷積核函數(shù)的多核融合方法往往難以應(yīng)用于實(shí)際的中文領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)中,而特征向量方法可以通過(guò)抽取不同信息作為特征,快速構(gòu)建特征矩陣,并由不同的核函數(shù)將特征矩陣映射到高維矩陣,從而避免卷積核函數(shù)計(jì)算復(fù)雜度巨大的問(wèn)題,因?yàn)槭艿綇V泛關(guān)注。需要注意的是,在基于特征向量方法的過(guò)程中主要分為兩個(gè)部分: 選取特征形成特征矩陣及選取核函數(shù)映射特征矩陣得到高維矩陣,由于在通過(guò)機(jī)器學(xué)習(xí)方法訓(xùn)練獲取分類(lèi)模型的過(guò)程中, 高維矩陣是唯一用到的信息,所以核函數(shù)的選擇對(duì)中文領(lǐng)域?qū)嶓w關(guān)系抽取性能起到至關(guān)重要的作用。由于不同核函數(shù)對(duì)不同中文關(guān)系抽取在效果上存在差異性,即對(duì)于某些特征,使用部分核函數(shù)能夠增加中文領(lǐng)域?qū)嶓w關(guān)系抽取性能,但是部分核函數(shù)起到相反作用,所以在中文領(lǐng)域?qū)嶓w關(guān)系抽取中,使用單一的核函數(shù)不具有通用性。
針對(duì)在中文領(lǐng)域?qū)嶓w關(guān)系抽取中,使用單一的核函數(shù)不具有通用性的問(wèn)題,本文提出一種將多種單一核函數(shù)凸組合作為核函數(shù),并且在實(shí)體上下文的詞、詞性等詞法信息基礎(chǔ)上,加入短語(yǔ)句法信息、依存句法信息共同作為特征的中文領(lǐng)域?qū)嶓w關(guān)系抽取方法。在中文旅游領(lǐng)域中,對(duì)預(yù)處理后的語(yǔ)料提取實(shí)體上下文的詞、短語(yǔ)句法信息及依存句法信息作為特征,形成特征矩陣,并將特征矩陣映射到徑向基核函數(shù)、Sigmoid核函數(shù)及多項(xiàng)式核函數(shù)組成的不同凸組合中,形成不同的高維矩陣,再利用支持向核函數(shù)的機(jī)器學(xué)習(xí)方法訓(xùn)練獲得分類(lèi)器模型,利用測(cè)試語(yǔ)料枚舉尋找效果最優(yōu)的分類(lèi)模型,最終用這個(gè)分類(lèi)模型的凸組合核函數(shù)實(shí)現(xiàn)中文旅游領(lǐng)域?qū)嶓w關(guān)系抽取。
實(shí)體關(guān)系抽取領(lǐng)域主要分為四個(gè)部分: 語(yǔ)料預(yù)處理、提取特征形成特征矩陣、核函數(shù)映射形成高維矩陣、學(xué)習(xí)得到不同分類(lèi)模型并尋找最優(yōu)分類(lèi)模型。
圖1 實(shí)體關(guān)系抽取原理圖
2.1 預(yù)處理
預(yù)處理包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、句子切分、關(guān)系候選生成及標(biāo)注候選實(shí)例。
首先,本文調(diào)用中國(guó)科學(xué)院的ICTCLAS工具對(duì)輸入文本進(jìn)行分詞及詞性標(biāo)注。其次,人工對(duì)已經(jīng)完成分詞及詞性標(biāo)注的語(yǔ)料進(jìn)行命名實(shí)體標(biāo)注,并根據(jù)條件隨機(jī)場(chǎng)規(guī)則訓(xùn)練命名實(shí)體識(shí)別模型[8],從而實(shí)現(xiàn)自動(dòng)命名實(shí)體識(shí)別。其中實(shí)體的類(lèi)別需要預(yù)先定義,本文使用文獻(xiàn) [1]對(duì)旅游領(lǐng)域?qū)嶓w類(lèi)別的定義,具體為: 景點(diǎn)、地點(diǎn)、小吃、特產(chǎn)、酒店、數(shù)字表達(dá)式、日期、節(jié)日。之后,依據(jù)標(biāo)點(diǎn)符號(hào)及上下文特點(diǎn),將已標(biāo)注語(yǔ)料切分成獨(dú)立的句子。最后,枚舉找出每個(gè)句子中所有可能的實(shí)體對(duì)組合,每個(gè)組合成為一個(gè)候選實(shí)例,并根據(jù)實(shí)例是否有關(guān)系人工標(biāo)注實(shí)例。通過(guò)以上步驟,預(yù)處理完畢。需要注意,實(shí)體關(guān)系類(lèi)型也需要預(yù)先定義,本文參考文獻(xiàn)[1]對(duì)中文旅游領(lǐng)域關(guān)系的定義,如表1所示。例如,對(duì)于句子“1921年,朱德出任云南陸軍憲兵司令,繼任警察廳長(zhǎng)?!鳖A(yù)處理之后的結(jié)果為:
句子1: [1921年]t,[朱德]pn出任[云南]dd陸軍憲兵司令,繼任警察廳長(zhǎng)。
候選實(shí)例1: 實(shí)體1: [1921年]t 實(shí)體2: [朱德]pn
候選實(shí)例2: 實(shí)體1: [1921年]t實(shí)體2: [云南]dd
候選實(shí)例3: 實(shí)體1: [朱德]pn實(shí)體2: [云南]dd
表1 旅游領(lǐng)域?qū)嶓w關(guān)系
2.2 提取特征形成特征矩陣
本文特征選擇主要參照文獻(xiàn)[2-3,8-10]中的方法,其中文獻(xiàn)[8-10]并不是在中文領(lǐng)域?qū)嶓w關(guān)系中提出,而是在英文的新聞?lì)I(lǐng)域及醫(yī)學(xué)領(lǐng)域提出的特征,在基本的實(shí)體信息,詞匯局部上下文信息及包含嵌套信息基礎(chǔ)上,文獻(xiàn)[8]增加短語(yǔ)塊信息作為特征,文獻(xiàn)[9]增加依存信息作為特征。本文在中文旅游領(lǐng)域?qū)⒍陶Z(yǔ)句法信息及依存信息加入特征集中,期待能夠增加關(guān)系抽取性能。特征選擇完畢后,即可根據(jù)特征形成特征矩陣。
2.2.1 詞法信息
(1) 實(shí)體信息
實(shí)體信息是基本的詞匯信息,包括第一個(gè)實(shí)體大類(lèi)、第一個(gè)實(shí)體小類(lèi)、第一個(gè)實(shí)體詞性、第二個(gè)實(shí)體大類(lèi)、第二個(gè)實(shí)體小類(lèi)及第二個(gè)實(shí)體詞性。
(2) 詞匯局部上下文信息
文獻(xiàn)[3]驗(yàn)證了詞匯特征窗口不宜大,以防止噪聲影響過(guò)大。一般選擇左右窗口為2。本文選擇2-3-2的模式,即選擇實(shí)體一左邊兩個(gè)詞,實(shí)體二右邊兩個(gè)詞及實(shí)體間三個(gè)詞作為特征。
(3) 包含信息
包含信息主要反映了實(shí)體對(duì)間的詞匯信息及包含情況。本文選擇實(shí)體對(duì)間詞匯的數(shù)目、實(shí)體的數(shù)目及實(shí)體是否是包含關(guān)系作為嵌套信息。
2.2.2 短語(yǔ)句法信息
短語(yǔ)句法樹(shù)反映句子的語(yǔ)法結(jié)構(gòu),可以表達(dá)長(zhǎng)距離的語(yǔ)義信息。句子“朱德出任云南陸軍憲兵司令,繼任警察廳長(zhǎng)?!钡淖钚⊥耆浞?shù)及如圖2所示。
圖2 最小完全短語(yǔ)句法樹(shù)實(shí)例表示
最小完全句法樹(shù)是指兩個(gè)實(shí)體的最近公共根節(jié)點(diǎn)作為根節(jié)點(diǎn)的結(jié)構(gòu)樹(shù),由于最小完全句法樹(shù)包含一定上下文語(yǔ)義信息,也去處了一定的噪聲干擾,所以本文利用最小完全句法樹(shù)進(jìn)行特征提取。由于兩個(gè)實(shí)體在句法樹(shù)中的路徑過(guò)于具體,十分容易造成數(shù)據(jù)稀疏的問(wèn)題,為了避免這個(gè)問(wèn)題,本文選擇兩個(gè)實(shí)體路徑中節(jié)點(diǎn)的數(shù)目、兩個(gè)實(shí)體的根節(jié)點(diǎn)類(lèi)型作為特征。由于句法樹(shù)的結(jié)構(gòu)信息十分具體,為了解決數(shù)據(jù)稀疏帶來(lái)的低召回率的問(wèn)題,本文采取細(xì)化句法樹(shù)結(jié)構(gòu)信息的方針,具體為:
句法樹(shù)特征1: 第一個(gè)實(shí)體到根節(jié)點(diǎn)的路徑;
句法樹(shù)特征2: 第二個(gè)實(shí)體到根節(jié)點(diǎn)的路徑;
句法樹(shù)特征3: 兩個(gè)實(shí)體的公共根節(jié)點(diǎn)類(lèi)別;
句法樹(shù)特征4: 第一個(gè)實(shí)體到根節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)目;
句法樹(shù)特征5: 第二個(gè)實(shí)體到根節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)目。
2.2.3 依存信息
圖3 依存樹(shù)實(shí)例表示
依存樹(shù)可以揭示句子中的長(zhǎng)距離依存關(guān)系, 并且能避免非結(jié)構(gòu)化特征中出現(xiàn)的噪音, 可以為關(guān)系抽取提供更為有效的信息。對(duì)于句子“朱德出任云南陸軍憲兵司令,繼任警察廳長(zhǎng)?!逼湟来鏄?shù)如圖3所示。同樣由于依存樹(shù)的結(jié)構(gòu)信息分布十分具體,為了解決數(shù)據(jù)稀疏帶來(lái)的低召回率的問(wèn)題,本文采取細(xì)化依存句法信息的方針,具體為:
依存特征1: 第一個(gè)實(shí)體到根節(jié)點(diǎn)的路徑;
依存特征2: 第二個(gè)實(shí)體到根節(jié)點(diǎn)的路徑;
依存特征3: 第一個(gè)實(shí)體到根節(jié)點(diǎn)間的依存類(lèi)別;
依存特征4: 第二個(gè)實(shí)體到根節(jié)點(diǎn)間的依存類(lèi)別;
依存特征5: 兩個(gè)實(shí)體間是否有直接的依存關(guān)系。
2.3 凸組合核函數(shù)及獲取高維矩陣
在得到特征矩陣后,將特征矩陣通過(guò)核函數(shù)映射得到高維矩陣,通過(guò)支持向量機(jī)訓(xùn)練獲取分類(lèi)模型,最終利用這個(gè)分類(lèi)模型進(jìn)行中文領(lǐng)域?qū)嶓w關(guān)系抽取。
2.3.1 核函數(shù)在獲取高維矩陣中的作用
對(duì)于經(jīng)過(guò)特征提取的特征矩陣K=(X1,X2,…Xm)T,其中Xi(i=1,2,…,m)為每個(gè)實(shí)例提取特征后的向量,將特征矩陣K映射到核函數(shù)k后得到的高維矩陣如式(1)所示。
可以看到,在高維矩陣的每一個(gè)元素都是由特征矩陣的某兩條向量及核函數(shù)唯一決定的,核函數(shù)起到了至關(guān)重要的作用??傊?,尋找某中文領(lǐng)域最優(yōu)核函數(shù)對(duì)提高關(guān)系抽取性能十分有意義的。
2.3.2 凸組合核函數(shù)及獲取高維矩陣
由于不同核函數(shù)對(duì)不同中文關(guān)系抽取在效果上存在差異性,了讓核函數(shù)對(duì)由不同的信息表示的特征均有良好的適應(yīng)性,本文將不同單一核函數(shù)進(jìn)行凸組合,以期待最優(yōu)凸組合核函數(shù)具有良好的適應(yīng)性。按照核函數(shù)表達(dá)式不同,核函數(shù)可以分為平移不變核函數(shù)及內(nèi)積核函數(shù),其表達(dá)式分別為k(x,y)=f(x-z)及k(x,y)=f(
為了融合這兩核函數(shù)在關(guān)系抽取中的特性,本文選擇這兩種核函數(shù)中常用的徑向基核函數(shù),Sigmoid核函數(shù),多項(xiàng)式核函數(shù),分別如式(2)(3)(4)所示。其中徑向基核函數(shù)屬于平移不變核函數(shù),Sigmoid核函數(shù)及多項(xiàng)式核函數(shù)均為內(nèi)積核函數(shù)。
2.4 尋找最優(yōu)分類(lèi)模型
通過(guò)2.3.2得到了由核函數(shù)不同的凸組合映射的高維矩陣,直接觀(guān)察高維矩陣并不能看出由哪一個(gè)高維矩陣訓(xùn)練得到的分類(lèi)模型具有更好的實(shí)體關(guān)系抽取效果,即哪一個(gè)凸組合核函數(shù)有更好的適應(yīng)能力。為了得到最優(yōu)的凸組合核函數(shù),首先訓(xùn)練每一個(gè)高維矩陣,得到相應(yīng)的訓(xùn)練模型,然后再用測(cè)試語(yǔ)料測(cè)試出最優(yōu)實(shí)體關(guān)系抽取性能的訓(xùn)練模型,這個(gè)訓(xùn)練模型對(duì)應(yīng)的核函數(shù)即為最優(yōu)凸組合核函數(shù)。
本文使用的語(yǔ)料為人工從互聯(lián)網(wǎng)及文獻(xiàn)資料中獲取的中文旅游文本共600余篇。由于在實(shí)體關(guān)系抽取領(lǐng)域可以使用核函數(shù)的各種機(jī)器學(xué)習(xí)算法中,支持向量機(jī)(SVM)有最好的表現(xiàn)[11],故本文采用SVM作為機(jī)器學(xué)習(xí)算法。本文選用臺(tái)灣大學(xué)林智仁等人開(kāi)發(fā)的LIBSVM*http://www.csie.ntu.edu.tw/~cjlin/libsvm作為SVM工具包。利用Stanford Parser*http:/ /nlp.stanford.edu/software/lexparser.shtml進(jìn)行短語(yǔ)句法及依存句法分析,在短語(yǔ)句法分析中,選用概率上下文無(wú)關(guān)語(yǔ)法,依存信息的生成使用CCprocessed依存表達(dá)形式。在訓(xùn)練中使用10倍交叉驗(yàn)證以最大化利用數(shù)據(jù)。實(shí)驗(yàn)評(píng)測(cè)采用自然語(yǔ)言處理的通用標(biāo)準(zhǔn): 準(zhǔn)確率、召回率、F值,F(xiàn)值評(píng)測(cè)系統(tǒng)的最終性能。
3.1 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證本文方法的有效性,并與其他同類(lèi)方法進(jìn)行比較,本文設(shè)計(jì)了3項(xiàng)任務(wù)。
任務(wù)1,研究在實(shí)體上下文的詞、詞性等詞法信息基礎(chǔ)上,加入短語(yǔ)句法信息、依存句法信息共同作為特征對(duì)中文領(lǐng)域?qū)嶓w關(guān)系抽取性能的影響。任務(wù)1將分別依次加入不同的特征,尋找最佳的特征組合,任務(wù)1中暫時(shí)選擇式(5)中參數(shù)α1=1,α2=0,α3=0作為凸組合核函數(shù)的權(quán)重參數(shù)。
任務(wù)2,對(duì)比三種單一核函數(shù)組成的凸組合核函數(shù)與單獨(dú)的核函數(shù)及他們的兩兩組合的凸組合核函數(shù)的關(guān)系抽取性能,驗(yàn)證單一核函數(shù)在中文旅游領(lǐng)域關(guān)系抽取的差異性,并驗(yàn)證多種單一核函數(shù)凸組合能有效解決這個(gè)問(wèn)題。實(shí)驗(yàn)中設(shè)置式(5)中凸組合的系數(shù)的上下限均為0至1,步長(zhǎng)為0.1,共11種選擇。采用枚舉的方式找到最好的那一組系數(shù),對(duì)于n種單一核函數(shù),找到他們最優(yōu)的凸組合需要計(jì)算11×(n-1)次。
任務(wù)3,驗(yàn)證本文提出系統(tǒng)的有效性,在使用文本的語(yǔ)料下,用本文提出的方法與同類(lèi)方法進(jìn)行比較。
3.2 實(shí)驗(yàn)結(jié)果及分析
3.2.1 不同特征在關(guān)系抽取中的表現(xiàn)
由表2可以看出,只選擇詞法信息作為特征的中文旅游領(lǐng)域?qū)嶓w關(guān)系抽取性能較差。加入短語(yǔ)句法信息及依存句法信息后,抽取性能都有提高,特別是召回率增加比較明顯,說(shuō)明加入短語(yǔ)句法信息及依存句法信息作為特征是提高中文領(lǐng)域?qū)嶓w關(guān)系抽取性能的有效手段。
表2 不同特征下的抽取性能指標(biāo)
3.2.2 三種單一核函數(shù)及凸組合核函數(shù)的關(guān)系抽取性能對(duì)比
如表3所示,在單一核函數(shù)的中文旅游領(lǐng)域?qū)嶓w關(guān)系抽取性能中,利用多項(xiàng)式核函數(shù)由最高的準(zhǔn)確率及F值,徑向基核函數(shù)由最高的召回率,而Sigmoid核函數(shù)的抽取性能較差,這也驗(yàn)證了單一核函數(shù)對(duì)于相同的特征矩陣抽取性能存在差異性。在兩兩組合的凸組合核函數(shù)中,利用徑向基與多項(xiàng)式核函數(shù)組成的凸組合核函數(shù)由最好的性能,說(shuō)明凸組合的基礎(chǔ)核函數(shù)性能對(duì)凸組合核函數(shù)的性能有正相關(guān)的影響。三種單一核函數(shù)構(gòu)成的凸組合核函數(shù)由最佳的抽取性能,并且兩種單一核函數(shù)的組成的凸組合核函數(shù)抽取性能都優(yōu)于單一核函數(shù)的抽取性能,說(shuō)明多種單一核函數(shù)融合的凸組合核函數(shù)能解決單一核函數(shù)不具有通用性的問(wèn)題。
表3 單一核函數(shù)與凸組合核函數(shù)的抽取性能指標(biāo)
3.2.3 與其他方法的比較
表4顯示,利用最大熵方法進(jìn)行中文旅游領(lǐng)域關(guān)系抽取,得到了最高的準(zhǔn)確率。利用最短路徑樹(shù)[12]的卷積樹(shù)核函數(shù)方法[13]進(jìn)行關(guān)系抽取取得了最好的召回率。本文提出的最優(yōu)凸組合核函數(shù)方法
表4 其他同類(lèi)方法比較
有不錯(cuò)的召回率及準(zhǔn)確率, 且取得了最好F值, 這充分證明本文提出的最優(yōu)凸組合方法的有效性。
本文在實(shí)體上下文的詞、詞性等詞法信息基礎(chǔ)上,加入短語(yǔ)句法信息、依存句法信息作為特征,通過(guò)徑向基核函數(shù),Sigmoid核函數(shù)及多項(xiàng)式核函數(shù)的不同凸組合將特征矩陣映射到不同高維矩陣,并以支持向量機(jī)進(jìn)行訓(xùn)練得到不同分類(lèi)器,通過(guò)枚舉尋找性能最優(yōu)的分類(lèi)器,最終利用這個(gè)分類(lèi)器進(jìn)行中文領(lǐng)域?qū)嶓w關(guān)系抽取。在旅游領(lǐng)域中,本文提出的最優(yōu)凸組合核函數(shù)抽取系統(tǒng)取得了62.9的F值。下一步工作中,我們將嘗試挖掘其他有效信息作為特征,以及嘗試尋找核函數(shù)與語(yǔ)料的深層次關(guān)系,試圖進(jìn)一步提高中文領(lǐng)域?qū)嶓w關(guān)系抽取性能。
[1] Chunya Lei, Jianyi Guo, Zhentao Yu, et al.The Field of Automatic Entity Relation Extraction based on Binary Classifier and Reasoning[C]//Proceedings of Third International Symposium on Information Processing.Qingdao,China,2010:327-2-331.
[2] 董靜,孫樂(lè),馮元勇,等.中文實(shí)體關(guān)系抽取中的特征選擇研究[J].中文信息學(xué)報(bào),2007,21(4): 80-85.
[3] 車(chē)萬(wàn)翔,劉挺,李生.實(shí)體關(guān)系自動(dòng)抽取[J].中文信息學(xué)報(bào),2005,19(2):1-6.
[4] Peng Cheng, Gu Jinghang, Qian Longhua. Research on Tree Kernel-Based Personal Relation Extraction[J]. Communications in Computer and Information Science,2012,333:225-236.
[5] Liu Dandan, Zhao Zhiwei, Hu yanan, et al. Incorporating Lexical Semantic Similarity to Tree Kernel-based Chinese Relatin Extraction[J]. Lecture Notes in Computer Science, 2013, 7717: 11-21.
[6] 黃瑞紅,孫樂(lè),馮元勇,等.基于核方法的中文實(shí)體關(guān)系抽取研究[J].中文信息學(xué)報(bào),2008,22(5): 102-108.
[7] 郭劍毅,薛征山,余正濤.基于層疊條件隨機(jī)場(chǎng)的旅游領(lǐng)域命名實(shí)體識(shí)別[J].中文信息學(xué)報(bào), 2009,23(5): 47-52.
[8] 奚斌, 錢(qián)龍華, 周?chē)?guó)棟, 等. 語(yǔ)言學(xué)組合特征在語(yǔ)義關(guān)系抽取中的應(yīng)用[J].中文信息學(xué)報(bào),2008,22(3):44-49,63.
[9] 劉兵,錢(qián)龍華,徐華,等.依存信息在蛋白質(zhì)關(guān)系抽取中的作用[J].中文信息報(bào),2011,25(2):21-26.
[10] 李麗雙,劉洋,黃德根. 基于組合核的蛋白質(zhì)交互關(guān)系抽取[J].中文信息學(xué)報(bào),2013,27(1):86-92.
[11] Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction[J].Journal of Machine Learning Research,2003,3(6): 1083-1106.
[12] Zhang Ming, Zhang Jie, Su Jian, et al. A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features[C]//Proceedings of COLING-ACL’2006.Sydney, Australia, 2006: 825-832.
[13] Collins M.,Duffy N. Covolution kernels for natural language[C]//Proceedings of NIPS’2001. Cambridge, MA 2001: 625-632.