亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的卷積神經(jīng)網(wǎng)絡(luò)關(guān)系分類方法研究*

        2018-05-09 08:49:40肖衛(wèi)東
        計算機與生活 2018年5期
        關(guān)鍵詞:分類特征方法

        李 博,趙 翔,王 帥,葛 斌,肖衛(wèi)東

        1.國防科學(xué)技術(shù)大學(xué) 信息系統(tǒng)與管理學(xué)院,長沙 410072

        2.地球空間信息技術(shù)協(xié)同創(chuàng)新中心,武漢 430079

        1 引言

        近年來,大規(guī)模知識庫在自然語言處理、網(wǎng)頁搜索和自動問答等方面得到廣泛應(yīng)用,典型的大規(guī)模知識庫包括Freebase、DBpedia和YAGO等,這些知識庫的核心是大量形如“(Mark Zuckerberg,founder of,F(xiàn)acebook)”的事實關(guān)系元組。目前這些知識庫還遠不能準確描述真實世界中的海量知識。為進一步豐富現(xiàn)有知識庫,新近的研究希望通過機器學(xué)習(xí)的自動化方法來提升知識庫的體量,尤其是增加事實關(guān)系的數(shù)量。這個過程稱作關(guān)系抽取,即從無格式文本中識別并生成實體之間的語義關(guān)系。例如,輸入文本“Financial stress1)粗體表示語句中已事先標(biāo)注的實體。is one of the main causes of divorce.”,其中已標(biāo)注實體e1=“stress”和e2=“divorce”,關(guān)系分類任務(wù)將自動識別實體e1和e2之間存在Cause-Effect關(guān)系,并表示為Cause-Effect(e1,e2)。

        當(dāng)前,實現(xiàn)關(guān)系抽取的主流方法是進行關(guān)系分類。在上述例子中,兩實體對應(yīng)的謂語和目標(biāo)關(guān)系聯(lián)系緊密,易于識別和區(qū)分;但在實際中,描述同一種關(guān)系的表達方式往往各式各樣,這些在詞義句法,甚至語境上的不同給正確關(guān)系分類帶來了巨大的困難和挑戰(zhàn)。一個符合直覺的想法是,不僅利用每個詞的意思,而且考慮單個詞(word)與句字(sentence)句法相結(jié)合。因此,已有研究提出了許多基于核(kernel)的方法,利用自然語言處理工具提取特征,包括 POS(part-of-speech)標(biāo)簽、NER(named entity recognition)標(biāo)簽、依賴分析樹和組成分析等。

        隨著深度學(xué)習(xí)技術(shù)的發(fā)展,有研究主張不手動設(shè)計特征或者利用外部知識,而是直接使用深層神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)和表示特征。代表性工作包括基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)以及其他結(jié)合神經(jīng)網(wǎng)絡(luò)的方法[1-2]。其中,基于CNN的方法結(jié)構(gòu)簡單且效果突出,僅使用包含一個卷積層、池化層和softmax層的網(wǎng)絡(luò)就能取得與基于RNN和LSTM(long short-term memory)等復(fù)雜模型相當(dāng)?shù)男Ч?。但是,深入研究發(fā)現(xiàn),基于CNN的方法仍存在如下問題:

        (1)經(jīng)常無法發(fā)現(xiàn)與關(guān)系緊密相關(guān)的詞。譬如,“We poured the milk,which is made in China,into the mixture.”中既包含“made”又包含“into”,其中“made”與Product-Producer關(guān)系緊密相關(guān),“pour”和“into”與Entity-Destination關(guān)系聯(lián)系緊密;CNN傾向于抽取出“made”的高層特征而將“milk”和“mixture”分類為Product-Producer關(guān)系,但其實兩者之間為Entity-Destination關(guān)系。換言之,將實體間的詞輸入神經(jīng)網(wǎng)絡(luò),當(dāng)出現(xiàn)從句(clauses)等實體間距較大的樣本時,CNN不能正確抽取特征或抽取的特征和實體無關(guān)聯(lián)。

        (2)同一句子中實體對按照不同的先后順序輸入神經(jīng)網(wǎng)絡(luò),其分類結(jié)果可能不同。例如,在“Financial stress is one of the main causes of divorce.”中,將實體“stress”當(dāng)作e1,實體“divorce”當(dāng)作e2,得到結(jié)果為Cause-Effect;將“stress”當(dāng)作e2,“divorce”當(dāng)作e1,理應(yīng)得到結(jié)果Effect-Cause。但CNN實際分類過程中存在兩種結(jié)果不對應(yīng)的情況。

        本文試圖通過解決上述問題給出一種更好的基于CNN的關(guān)系分類方法。針對問題(1),提出利用最短依賴路徑對不同詞進行選擇性注意的機制;針對問題(2),重新定義該問題并提出正向?qū)嵗头聪驅(qū)嵗母拍睿C合兩者分類的結(jié)果以實現(xiàn)最終分類。本文的主要貢獻包括:

        (1)在經(jīng)典CNN編碼器中添加了選擇性注意力層,利用最短依賴路徑幫助CNN找到和實體關(guān)系聯(lián)系緊密的關(guān)鍵詞并提取特征,提高了處理大間距實體對的效果。

        (2)設(shè)計了一種新的編碼方式來融入依賴結(jié)構(gòu)信息,使CNN編碼器能夠捕獲短距離依賴結(jié)構(gòu)信息。

        (3)提出了一種正向和反向?qū)嵗Y(jié)合的方法,并且將該方法與帶有選擇性注意的CNN編碼器配合,在SemEval 2010任務(wù)8上取得了當(dāng)前最優(yōu)的F1值。

        本文組織結(jié)構(gòu)如下:第2章介紹關(guān)系分類的研究現(xiàn)狀,尤其是基于神經(jīng)網(wǎng)絡(luò)的方法;第3章介紹模型設(shè)計,從改進的CNN句子編碼器和正反實例結(jié)合兩方面進行細致闡述;第4章是模型有效性實驗和比較分析;最后總結(jié)全文,并討論下一步工作方向。

        2 研究現(xiàn)狀

        關(guān)系分類是一個經(jīng)典的信息抽取問題,其本質(zhì)是一個有監(jiān)督多分類問題,可將現(xiàn)有研究分為如下三類:

        (1)基于特征的方法。抽取大量語言學(xué)(詞義和語法)特征,組合特征形成特征向量并利用各種分類器(例如最大熵模型和支持向量機等)進行分類[3-5]?;谔卣鞯姆椒ㄔ谔幚硖囟I(lǐng)域數(shù)據(jù)或小數(shù)據(jù)量時效果較好,但其特征集的選擇依靠經(jīng)驗和專家知識,需要花費大量時間去設(shè)計和完善。

        (2)基于核的方法。通過計算兩實體在高維稀疏空間上的內(nèi)積獲取結(jié)構(gòu)化特征。Zelenko等人設(shè)計的樹核利用共同子樹的加權(quán)和來計算兩個淺層分析樹的結(jié)構(gòu)共性[6]。Culotta和Sorensen將該樹核遷移到依賴樹上并添加了額外語法分析信息[7]。Zhou等人則提出了內(nèi)容感知卷積樹核,不僅使用語法解析樹,還添加了文本內(nèi)容信息[8]。該類方法的分類性能很大程度上依賴于基礎(chǔ)自然語言處理工具,而基礎(chǔ)工具的錯誤可能會造成最終分類性能的下降;而對于沒有完善的基礎(chǔ)處理工具的語言,此時該方法不再適用。另外該類方法需要獲取語法分析結(jié)果,前期數(shù)據(jù)預(yù)處理過程耗費時間。

        (3)基于神經(jīng)網(wǎng)絡(luò)的方法。通過對每個詞進行編碼,克服了傳統(tǒng)方法的稀疏問題,且能夠自動學(xué)習(xí)特征。在CNN上,Zeng等人提出了一個用softmax層分類的深度卷積神經(jīng)網(wǎng)絡(luò)[1],提取詞匯和句子級別特征;Santos等人提出了排序CNN模型(classification by ranking CNN,CR-CNN),使用排序?qū)舆M行分類[2];肜博輝等人提出利用多通道卷積神經(jīng)網(wǎng)絡(luò)來獲取更豐富的語義信息[9]。在遞歸神經(jīng)網(wǎng)絡(luò)上,Socher等人提出的遞歸矩陣-矢量模型嘗試利用句法樹來獲取語句組成成分的語義[10];Hashimoto等人提出使用RNN在語義樹上提取特征進行分類[11];此外,還有一系列的改進方法,如 Bi-LSTM-RNN[12]和 ATT-BLSTM[13]。Vu等人使用CNN和RNN兩個網(wǎng)絡(luò)進行訓(xùn)練,然后利用投票等方法整合分類結(jié)果[14]。相比其他兩類方法,基于神經(jīng)網(wǎng)絡(luò)的方法不需要人工定義特征,利用神經(jīng)網(wǎng)絡(luò)自動抽取特征,遷移性較好,且其關(guān)系分類的效果較好。而相比其他神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),CNN的結(jié)構(gòu)簡單,效果突出,但存在沒有綜合考慮詞義和句義的結(jié)合,處理大間距分類問題能力差等缺陷;并且現(xiàn)有的研究都忽視了同一句子中實體對按照不同的先后順序輸入神經(jīng)網(wǎng)絡(luò),其分類結(jié)果不一致的問題。本文結(jié)合原始詞序列和依賴樹來解決大間距分類問題,并結(jié)合兩個順序輸入實體綜合訓(xùn)練進行關(guān)系分類,以簡單模型取得良好效果。

        3 模型與方法

        對于每個句子S,其中包含標(biāo)注實體e1和e2,關(guān)系分類的任務(wù)是從一系列候選關(guān)系集R={r1,r2,…,rm}中識別出實體e1和e2的語義關(guān)系ri。所提模型包含兩部分,即在正向和反向?qū)嵗Y(jié)合的關(guān)系分類框架下,使用帶選擇性注意力的基于CNN的句子編碼器。

        (1)SA-CNN句子編碼器。輸入一個句子和兩個目標(biāo)實體,采用一個帶選擇性注意力的CNN構(gòu)建低維實數(shù)向量來表示句子。

        (2)正向和反向?qū)嵗Y(jié)合。當(dāng)?shù)玫骄渥拥恼驅(qū)嵗硎竞头聪驅(qū)嵗硎竞?,同時結(jié)合正反實例來選擇最合適的關(guān)系分類結(jié)果。

        Fig.1 Structure of SA-CNN sentence encoder圖1 SA-CNN句子編碼器結(jié)構(gòu)

        3.1 SA-CNN句子編碼器

        設(shè)計的句子編碼器結(jié)構(gòu)如圖1所示,稱為SA-CNN(selective attention-convolution neural network)。

        首先,嵌入(embedding)層將句子中的詞轉(zhuǎn)換為低維實數(shù)向量,之上的卷積(convolution)層獲取每個詞的高層特征;接著,通過最短依賴路徑找出與兩實體語義聯(lián)系最緊密的詞,由權(quán)重矩陣表示;然后,通過選擇性注意力(selective attention)層提高編碼器對關(guān)鍵詞注意力;最后,經(jīng)由池化(pooling)和非線性層構(gòu)建出句子向量表示,編碼后的向量記作s。

        3.1.1 輸入表示和卷積層

        SA-CNN的輸入是原始句子文本。CNN只能處理定長輸入,因此在輸入之前將原始句子填充為長度一致的詞序列。這里設(shè)置目標(biāo)長度為數(shù)據(jù)集最長句子長度n,填充詞為“NaN”。

        在輸入表示層,每個詞通過詞向量矩陣轉(zhuǎn)換為低維向量。為標(biāo)識實體位置,給每個詞添加位置特征向量;為提高系統(tǒng)對句子依賴結(jié)構(gòu)的理解,還給每個詞添加依賴方向向量和依賴特征向量。

        (1)詞編碼。已知一個句子x其包含n個詞,表示為x=[x1,x2,…,xn],其中xi表示在該序列中第i個詞,n為預(yù)先設(shè)定的填充截取長度。每個詞xi通過查找詞向量表W獲得其對應(yīng)詞向量表示ei,即ei=Wxi。實驗操作中使用預(yù)訓(xùn)練的詞向量數(shù)據(jù)。

        (2)位置編碼。實體在句子中的位置影響實體間的關(guān)系。不添加位置特征向量時,CNN將無法識別句中哪個詞為實體,導(dǎo)致分類效果差。位置特征向量可以幫助CNN知道每個詞到兩個關(guān)系實體的距離。受文獻[1]啟發(fā),利用每個詞與實體的距離生成位置特征向量。例如,在句子“Financial stress is one of the main causes of divorce.”中,詞“main”與實體“stress”距離為5,與實體“divorce”距離為-3。具體地,使用每個詞xi與兩個實體在句子中的距離i-i1和i-i2對應(yīng)在位置特征編碼表D中的向量作為位置編碼,記作。位置特征編碼表使用隨機值初始化。

        (3)依賴編碼?;谝蕾嚪治鰳涞囊蕾嚲幋a包括依賴方向向量和依賴特征向量。依賴分析樹是對句子結(jié)構(gòu)分析后根據(jù)詞之間相互依賴關(guān)系構(gòu)成的樹,是句義理解的基本工具。如圖2所示,在依賴分析樹中,每一節(jié)點(除根節(jié)點)與上級節(jié)點之間存在依賴關(guān)系,依賴關(guān)系不僅包含其上級節(jié)點還包括依賴標(biāo)簽。具體地,使用詞與上層節(jié)點的距離生成依賴方向向量,利用詞之間依賴關(guān)系的標(biāo)簽生成依賴特征向量。

        Fig.2 Classification framework of combining forward and backward instances圖2 正向和反向?qū)嵗Y(jié)合的關(guān)系分類框架

        借鑒位置編碼的方式,利用每個詞與上一詞的距離dip對應(yīng)在依賴方向編碼表P中的實數(shù)向量作為pi,利用依賴標(biāo)簽對應(yīng)在依賴特征編碼表F中的向量作為fi。依賴方向編碼表和依賴特征編碼表使用隨機值初始化。

        至此,將每個詞的詞編碼、位置編碼和依賴編碼串聯(lián)在一起作為該詞的編碼表示。對于填充詞,設(shè)置唯一向量進行標(biāo)識。具體地,對每一個詞,串聯(lián)詞向量ei,與兩實體的位置向量di1和di2,依賴方向向量pi和依賴特征向量fi得到該單詞的表示向量,即:

        而句子的編碼表示則為:

        在卷積層,關(guān)系分類的最大挑戰(zhàn)源自語義表述多樣性,重要信息在句中的位置不是固定的。因此,考慮在模型中采用一個卷積層來融合所有局部特征,卷積層通過一個大小為w的滑窗來抽取局部特征。當(dāng)滑窗在邊界附近可能越界,可在句子兩邊填充零向量來保證卷積后維數(shù)不變。

        具體地,卷積核為矩陣f=[f1,f2,…,fw],則在卷積之后得到特征序列s=[s1,s2,…,sn],其中:

        其中,b為偏置項,g是一個非線性函數(shù)。使用不同的卷積核和窗口大小可獲取不同的特征。

        3.1.2 選擇性注意力層

        經(jīng)典CNN在卷積過程中對所有詞進行無差別特征抽取,然而通過研究發(fā)現(xiàn),每個詞對實體關(guān)系的貢獻度是不同的,有區(qū)別地對待可能提升分類效果。已有研究[15]表明,實體間的最短依賴路徑直接影響關(guān)系分類結(jié)果。因此,考慮使用最短依賴路徑生成權(quán)重矩陣,并通過權(quán)重矩陣實現(xiàn)對關(guān)鍵詞進行選擇性關(guān)注。

        兩實體之間的最短依賴路徑定義為該句的依賴分析樹中兩實體的最短路徑,表示了兩實體的最短依賴關(guān)系;最短依賴路徑上的詞為關(guān)鍵詞。例如,“A thief,who intends to go to the city,broke the ignition with screwdriver.”,在依賴分析樹中“thief”和“screw-driver”的最短依賴路徑為“thief-nsubj-broke-nmodscrewdriver”。最短依賴路徑上詞對關(guān)系分類影響最大,“thief”和“screwdriver”之間為 Instrument-Agency關(guān)系,而關(guān)鍵路徑上的“broke”也和該關(guān)系聯(lián)系緊密。該句中還包含“go”,該詞和Entity-Destination關(guān)系聯(lián)系緊密。若不考慮關(guān)鍵詞對關(guān)系分類的影響,很可能會判斷為Entity-Destination關(guān)系,造成錯誤分類。

        具體地,對關(guān)鍵詞和非關(guān)鍵詞分別進行加權(quán)。由于決定實體間關(guān)系的詞序列不僅是一個詞,將處于關(guān)鍵詞附近的詞也進行選擇性注意。設(shè)置關(guān)鍵詞權(quán)重系數(shù)α(α>1)及距離衰減系數(shù)β(0<β<1),對于每一單詞其權(quán)重為qi,由該單詞到最短依賴路徑上單詞的最短距離dq決定,即:

        則選擇性注意權(quán)重矩陣為:

        因此,經(jīng)過該層后的特征矩陣為:

        3.1.3 池化和非線性層

        在池化層,使用max函數(shù)獲取最重要特征,則對于每一卷積核其卷積分數(shù)為:

        每一卷積核得到的池化分數(shù)串聯(lián)形成,表示該句子的特征向量z=[p1,p2,…,pm],其中m為卷積核數(shù)量。

        最后,給特征向量加上非線性函數(shù)作為輸出,該輸出即為輸入句子的編碼表示。

        3.2 正向和反向?qū)嵗Y(jié)合

        已知句子的編碼表示,通過一個多層感知器配合一個softmax層即得到關(guān)系分類。然而,研究發(fā)現(xiàn),這種分類能導(dǎo)致不同的結(jié)果。例如,“Financial stress is one of the main causes of divorce.”中,“stress”與“divorce”有Cause-Effect關(guān)系,而“divorce”與“stress”有Effect-Cause關(guān)系2)由于關(guān)系具有方向性,Cause-Effect關(guān)系和Effect-Cause關(guān)系非同一類關(guān)系。。在SA-CNN句子編碼器中,兩種順序情況下實體的位置編碼不同,進而造成句子編碼不同,但其實兩種順序情況都是表示“stress”與“divorce”間存在Cause-Effect關(guān)系。

        為此,考慮結(jié)合這兩種情況來判斷實體關(guān)系。首先給出兩個定義。

        定義1(正向?qū)嵗┙o定一個已標(biāo)注兩個實體的句子,根據(jù)句中詞的前后線性順序,把對應(yīng)詞在前出現(xiàn)的實體作為e1,另一個實體作為e2的實例,稱作正向?qū)嵗?/p>

        定義2(反向?qū)嵗┙o定一個已標(biāo)注兩個實體的句子,根據(jù)句中詞的前后線性順序,把對應(yīng)詞在后出現(xiàn)的實體作為e1,另一個實體作為e2的實例,稱作反向?qū)嵗?/p>

        譬如,在前述例子中,以“stress”作為e1、“divorce”作為e2的為正向?qū)嵗?,正向?qū)嵗蠧ause-Effect關(guān)系;以“divorce”作為e1、“stress”作為e2的為反向?qū)嵗聪驅(qū)嵗蠩ffect-Cause關(guān)系。研究發(fā)現(xiàn),正向?qū)嵗恼Z義關(guān)系和反向?qū)嵗恼Z義關(guān)系是相互對應(yīng)的。一個優(yōu)秀的分類系統(tǒng)應(yīng)確保正向?qū)嵗头聪驅(qū)嵗诸惤Y(jié)果亦相互對應(yīng),鑒于此,設(shè)計了正向和反向?qū)嵗Y(jié)合的關(guān)系分類框架,如圖2所示。

        首先,對于任一句子,其正向?qū)嵗木幋a特征向量為,反向?qū)嵗木幋a特征向量為zi-,正向?qū)嵗P(guān)系為,反向?qū)嵗P(guān)系為ri-。由于存在正向?qū)嵗头聪驅(qū)嵗粚?yīng)的情況,設(shè)置其有ω概率正向?qū)嵗_,有1-ω概率反向?qū)嵗_。然后,利用交叉熵設(shè)計目標(biāo)函數(shù)為:

        其中,n為句子數(shù)量;θ和θ′分別為正向?qū)嵗头聪驅(qū)嵗P椭兴袇?shù)。

        為解決上述優(yōu)化問題,使用隨機梯度下降法來最小化目標(biāo)函數(shù)。具體地,從訓(xùn)練集中隨機選擇mini-batch個樣本進行訓(xùn)練直到收斂;在測試時,正向?qū)嵗诸惛怕氏蛄繛镃+=[c1,c2,…,cr],反向?qū)嵗诸惛怕氏蛄繛镃-=[c1,c2,…,cr],ci表示該句子中實體e1與e2之間存在關(guān)系ri的概率。因此,分類的結(jié)果是:

        最終,通過最大值反函數(shù)i=argmax(C)獲取對應(yīng)的分類結(jié)果ri。

        4 實驗與分析

        實驗旨在證明:(1)引入依賴分析樹能夠提高基于CNN的方法在處理大間距關(guān)系分類上的效果;(2)正向?qū)嵗头聪驅(qū)嵗Y(jié)合的分類框架可以改進關(guān)系分類效果。首先介紹實驗數(shù)據(jù)集、評價指標(biāo)和設(shè)定的超參數(shù);然后分別測試SA-CNN句子編碼器和正向反向?qū)嵗Y(jié)合框架的性能和有效性;最后與其他典型方法進行橫向?qū)Ρ仍u測。

        4.1 數(shù)據(jù)集

        本文采用了廣泛用于關(guān)系分類評測的SemEval 2010任務(wù)8作為實驗數(shù)據(jù)集,共包括標(biāo)注好實體位置及實體間關(guān)系的10 717個樣本,其中8 000個樣本為訓(xùn)練集,2 717個樣本為測試集,詳細分布信息如表1所示。該數(shù)據(jù)集標(biāo)注關(guān)系包括9種語義關(guān)系及Other關(guān)系(表示實體間不存在語義關(guān)系),9種語義關(guān)系分別是Cause-Effect、Component-Whole、Content-Container、Entity-Destination、Entity-Origin、Product-Producer、Member-Collection、Message-Topic和 Instrument-Agency。每個樣本僅包含一個句子,且句中已標(biāo)注兩個實體及其關(guān)系。在該任務(wù)中,不僅需要預(yù)測實體間的關(guān)系,還需預(yù)測關(guān)系的方向。因此,實際關(guān)系分類系統(tǒng)中共有2×9+1=19種關(guān)系。在評價分類結(jié)果時,使用9種語義關(guān)系的macro-F1值作為評價指標(biāo)。

        Table 1 Dataset statistics of SemEval 2010 task 8表1 SemEval 2010任務(wù)8數(shù)據(jù)集分布

        4.2 基礎(chǔ)配置及超參數(shù)

        詞向量編碼使用預(yù)訓(xùn)練詞向量進行初始化,而詞向量使用了開源word2vec工具(https://code.google.com/p/word2vec/)對英文維基百科進行訓(xùn)練。對于CNN,采用4折交叉驗證方法來調(diào)節(jié)網(wǎng)絡(luò)參數(shù),并使用了early stop策略,監(jiān)控值為驗證集loss值。使用tanh函數(shù)作為非線性函數(shù),卷積時設(shè)置4個滑動窗口,窗口大小分別為2、3、4和5,卷積核數(shù)目為256,權(quán)重衰減L2的超參數(shù)設(shè)置為0.4,關(guān)鍵詞權(quán)重系數(shù)α為1.2,距離衰減系數(shù)β為0.9。詞向量和位置特征向量分別設(shè)為300維和40維,依賴方向向量和依賴特征向量均為30維。此外,其他參數(shù)與文獻[16]中一致,例如dropout設(shè)為0.5,mini-batch設(shè)為50等。

        4.3 實驗結(jié)果及分析

        該組實驗以文獻[16]中的方法作為基準,實驗得到該方法的F1值為82.1%,與原論文中結(jié)果相當(dāng)。

        4.3.1 評價SA-CNN句子編碼

        該組實驗中不使用正向?qū)嵗头聪驅(qū)嵗Y(jié)合框架。實驗結(jié)果如表2所示,只在詞編碼過程添加依賴編碼,F(xiàn)1值為82.6%;添加了選擇性注意力層后,F(xiàn)1值提升到84.1%。

        Table 2 Experiment results of SA-CNN sentence encoder表2 SA-CNN句子編碼實驗結(jié)果

        由實驗結(jié)果可見,增加依賴編碼提高了系統(tǒng)分類效果。其原因在于,卷積過程中,基準CNN只能抽取基于詞序列的高層特征,而改進的模型還能抽取基于依賴關(guān)系的高層特征。另一方面,盡管該種依賴編碼的方式已經(jīng)將全部依賴樹信息編碼為句子表示,但分類效果提升并不顯著。通過分析發(fā)現(xiàn),當(dāng)依賴關(guān)系兩詞位置較近時(處于CNN滑窗之內(nèi)),CNN能夠抽取該詞組內(nèi)部的依賴結(jié)構(gòu),而當(dāng)依賴關(guān)系較遠,CNN很難抽取其依賴結(jié)構(gòu)。另外,增加選擇性注意層能提高分類效果的原因在于,它提高了大間距實體上的分類效果。CNN可能會將有極強關(guān)系信號但不是描述兩個實體間關(guān)系的詞抽出作為特征,例如從句中包含“cause”使得CNN很容易判斷其為Cause-Effect關(guān)系,因而導(dǎo)致關(guān)系分類不準確。而改進的模型在抽取特征時,考慮了每一個詞與實體的依賴關(guān)系,從而減少了此類錯誤。

        為進一步證明設(shè)計的句子編碼器能更有效地處理大間距實體樣本,對比分析了不同距離樣本的F1值。首先關(guān)注數(shù)據(jù)集的實體距離(兩個實體之間包含詞數(shù)量)分布,結(jié)果如圖3所示3由于實體距離大于15的樣本較少,本文將距離大于15的樣本全部統(tǒng)計為15。)。分別測試了基準系統(tǒng)和基于SA-CNN編碼器的分類系統(tǒng)在不同實體距離數(shù)據(jù)上的F1值。如圖4所示:(1)當(dāng)實體距離超過5時,隨著距離增大,基準系統(tǒng)分類準確率顯著降低;在距離為14時,F(xiàn)1值為0.83,但此時樣本數(shù)量僅有9個,分類準確率偶然性較大,不具有代表性。(2)改進的系統(tǒng)相比基準系統(tǒng)顯著提高了大間距實體樣本的F1值,特別是當(dāng)距離處于6至12之間時。(3)當(dāng)實體間距過長時,雖然改進的系統(tǒng)效果減弱,但仍略優(yōu)于基準系統(tǒng)。其原因在于當(dāng)句子較長時,句法分析的準確率下降,造成最短依賴路徑分析不準確,進而使得效果減弱。

        Fig.3 Distance distribution of entities圖3 實體距離分布

        Fig.4 Comparison of classification effect圖4 分類效果對比

        該組實驗說明,SA-CNN句子編碼器在處理實體間距較大的樣本時,能抽取出更代表兩者關(guān)系的特征來進行句子表示,從而證明了SA-CNN編碼器模型的有效性。

        4.3.2 正向反向?qū)嵗Y(jié)合實驗

        在該組實驗中不使用依賴特征和選擇性注意層,實驗結(jié)果如表3所示。注意到,在基準系統(tǒng)上添加正向反向?qū)嵗Y(jié)合框架使得F1值提高了1.4%。

        Table 3 Experiment results of combining forward and backward instances表3 正向反向?qū)嵗Y(jié)合對比實驗結(jié)果

        分析原因,主要包括:(1)使用結(jié)合反向?qū)嵗姆椒梢员苊庹驅(qū)嵗头聪驅(qū)嵗诸惤Y(jié)果不一致的錯誤分類,使得訓(xùn)練出的模型更具有魯棒性。如前文所述,基準系統(tǒng)分類時,可能出現(xiàn)實體“stress”和實體“divorce”有Cause-Effect關(guān)系,但實體“divorce”和實體“stress”有Component-Whole關(guān)系的情況。這種正向?qū)嵗头聪驅(qū)嵗诸惤Y(jié)果不對應(yīng),也即對一個樣本的兩種表示分類結(jié)果不同,表明其模型不穩(wěn)健。(2)由于每一樣本都包含反向?qū)嵗?xùn)練集由原始的8 000樣本擴大到了16 000樣本。因此,結(jié)合正向?qū)嵗头聪驅(qū)嵗姆诸惪蚣苁且粋€簡單卻行之有效的改進方案。

        4.3.3 與其他方法的對比

        將所提兩種改進結(jié)合,形成本文的方法SA-CNN+FBI(selective attention-convolution neural network+forward and backward instances),并與其他關(guān)系分類方法進行橫向比較。下列典型方法參與了對比實驗。

        (1)SVM[4]:該方法通過人工定義和其他工具抽取大量新的特征,通過支持向量機訓(xùn)練來進行分類。

        (2)CNN[1]:該方法使用CNN學(xué)習(xí)句子中詞的詞向量表示,將詞表示串聯(lián)形成句子表示。為了輸入實體位置信息,使用了一個特殊的位置向量來表示每一單詞距離實體的距離,并且將該位置向量和詞向量結(jié)合構(gòu)成單詞特征向量,然后通過CNN學(xué)習(xí)每個句子的特征表示,最后輸入softmax分類器。

        (3)CR-CNN[2]:該方法關(guān)注于人工定義的Other關(guān)系對實驗的影響,通過重新定義排序損失函數(shù),在CNN后使用排序?qū)犹鎿Qsoftmax層,提高分類效果。

        (4)depLCNN+NS[17]:該方法在反向監(jiān)督的框架下,使用實體間的最短依賴路徑作為輸入,通過CNN學(xué)習(xí)其編碼表示,然后輸入softmax分類器進行分類。

        (5)MV-RNN[10]:該方法為了獲取長短語的編碼表示,通過RNN由每個詞的向量表示構(gòu)成詞塊編碼表示和句子編碼表示,然后通過分類器進行分類。

        (6)Bi-LSTM-RNN[12]:該方法依據(jù)兩個實體將句子分為5部分作為序列特征,通過雙向LSTM和RNN進行關(guān)系分類。

        (7)ATT-BLSTM[13]:該方法在雙向LSTM上添加注意力層,提高分類系統(tǒng)對關(guān)鍵部分詞的注意力。

        在結(jié)合正向和反向?qū)嵗P(guān)系分類框架下,使用帶有選擇性注意的卷積神經(jīng)網(wǎng)絡(luò),并且添加依賴方向向量和依賴特征向量,SA-CNN+FBI在SemEval 2010任務(wù)8數(shù)據(jù)集上F1值為85.8%。如表4所示,SA-CNN+FBI的結(jié)果達到了當(dāng)前的最優(yōu)效果;與SA-CNN+FBI結(jié)果最接近的是depLCNN+NS方法,因為它不僅考慮了關(guān)系的方向性,并且還添加了WordNet特征。同時還注意到,經(jīng)典CNN以十分簡單的網(wǎng)絡(luò)結(jié)果就取得了良好的初始分類效果,這也是SA-CNN+FBI選擇CNN作為基礎(chǔ)開展改進研究的原因。

        5 結(jié)束語

        本文針對現(xiàn)有基于CNN的關(guān)系分類方法難以處理包含大間距實體樣本的問題,提出了利用實體間的最短依賴路徑構(gòu)建選擇性注意權(quán)重,對關(guān)鍵詞進行選擇性注意的SA-CNN句子編碼器。在此基礎(chǔ)上,針對現(xiàn)有方法難于解決句中正反實例分類結(jié)果不一致的問題,設(shè)計了一種將正向?qū)嵗c反向?qū)嵗Y(jié)合進行關(guān)系分類的框架。在公開數(shù)據(jù)集上,對比驗證了所提模型SA-CNN+FBI的效果,其在SemEval 2010任務(wù)8數(shù)據(jù)集上獲得了當(dāng)前最優(yōu)結(jié)果。實驗證明,SACNN+FBI在維持模型結(jié)構(gòu)簡單性的同時,不需要提供額外的人工特征即可取得優(yōu)秀的性能。注意到,這種依賴樹與輸入詞序列相結(jié)合的方法,其實質(zhì)是利用CNN捕捉句子的詞義和句義兩方面的特征,因而能提高模型對句子的理解能力。在下一步工作中,將探索該模型在其他自然語言處理任務(wù)中的應(yīng)用,例如情感分類和文本分類等。

        [1]Zeng Daojian,Liu Kang,Lai Siwei,et al.Relation classification via convolutional deep neural network[C]//Proceedings of the 25th International Conference on Computational Linguistics,Dublin,Aug 23-29,2014.Stroudsburg:ACL,2014:2335-2344.

        [2]Santos C N,Xiang Bing,Zhou Bowen.Classifying relations by ranking with convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing,Beijing,Jul 26-31,2015.Stroudsburg:ACL,2015:626-634.

        [3]Kambhatla N.Combining lexical,syntactic,and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions,Barcelona,Jul 21-26,2004.Stroudsburg:ACL,2004:22.

        [4]Rink B,Harabagiu S.UTD:classifying semantic relations by combining lexical and semantic resources[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Jul 15-16,2010.Stroudsburg:ACL,2010:256-259.

        [5]Gan Lixin,Wan Changxuan,Liu Dexi,et al.Chinese named entity relation extraction based on syntactic and semantic features[J].Journal of Computer Research and Development,2016,53(2):284-302.

        [6]Zelenko D,Aone C,Richardella A.Kernel methods for relation extraction[J].Journal of Machine Learning Research,2003,3:1083-1106.

        [7]Culotta A,Sorensen J S.Dependency tree kernels for relation extraction[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics,Barcelona,Jul 21-26,2004.Stroudsburg:ACL,2004:423-429.

        [8]Zhou Guodong,Zhang Min,Ji Donghong,et al.Tree kernelbased relation extraction with context-sensitive structured parse tree information[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Jun 28-30,2007.Stroudsburg:ACL,2007:728-736.

        [9]Rong Bohui,Fu Kun,Huang Yu,et al.Relation extraction based on multi-channel convolutional neural network[J].Application Research of Computers,2017,34(3):689-692.

        [10]Socher R,Huval B,Manning C D,et al.Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Jeju Island,Jul 12-14,2012.Stroudsburg:ACL,2012:1201-1211.

        [11]Hashimoto K,Miwa M,Tsuruoka Y,et al.Simple customization of recursive neural networks for semantic relation classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,Oct 18-21,2013.Stroudsburg:ACL,2013:1372-1376.

        [12]Li Fei,Zhang Meishan,Fu Guohong,et al.A Bi-LSTMRNN model for relation classification using low-cost sequence features[J/OL].arXiv:1608.07720v1,2016.

        [13]Zhou Peng,Shi Wei,Tian Jun,et al.Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,Berlin,Aug 7-12,2016.Stroudsburg:ACL,2016:207-212.

        [14]Vu N T,Adel H,Gupta P,et al.Combining recurrent and convolutional neural networks for relation classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,San Diego,Jun 12-17,2016.Stroudsburg:ACL,2016:534-539.

        [15]Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing,Doha,Oct 25-29,2014.Stroudsburg:ACL,2014:1746-1751.

        [16]Nguyen T H,Grishman R.Relation extraction:perspective from convolutional neural networks[C]//Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing,Denver,Jun 5,2015.Stroudsburg:ACL,2015:39-48.

        [17]Xu Kun,Feng Yansong,Huang Songfang,et al.Semantic relation classification via convolutional neural networks with simple negative sampling[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,Lisbon,Sep 17-21,2015.Stroudsburg:ACL,2015:536-540.

        附中文參考文獻:

        [5]甘麗新,萬常選,劉德喜,等.基于句法語義特征的中文實體關(guān)系抽取[J].計算機研究與發(fā)展,2016,53(2):284-302.

        [9]肜博輝,付琨,黃宇,等.基于多通道卷積神經(jīng)網(wǎng)的實體關(guān)系抽取[J].計算機應(yīng)用研究,2017,34(3):689-692.

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        日本大片在线看黄a∨免费| av超碰在线免费观看| 亚洲嫩草影院久久精品| 久久综合九色综合久久久| 亚洲乱码中文在线观看| 桃花影院理论片在线| 久久国产精品国产精品日韩区 | 求网址日韩精品在线你懂的| 久久久噜噜噜噜久久熟女m| 99久久免费视频色老| 正在播放东北夫妻内射| 无码免费人妻超级碰碰碰碰| 中文字幕你懂的一区二区| 蜜桃视频免费进入观看| 色多多a级毛片免费看| 亚洲Va中文字幕久久无码一区 | 丁香五月缴情在线| 午夜免费福利小电影| 日本巨大的奶头在线观看 | 欧美黑人乱大交| 国产黄片一区视频在线观看| 国产剧情av麻豆香蕉精品 | 中国猛少妇色xxxxx| 国内精品91久久久久| 一区二区二区三区亚洲| 国产成人精品a视频| 国产无码夜夜一区二区| 精品亚洲一区二区视频| 国产精品女同一区二区免费站| 国产精品免费看久久久8| 亚洲av日韩片在线观看| 亚洲第一大av在线综合| av色综合久久天堂av色综合在| 又爽又黄禁片视频1000免费 | 麻豆国产人妻欲求不满| 久久综合给合久久97色| 国产一区二区三区在线综合视频| 男人添女人下部高潮全视频| 亚洲天天综合色制服丝袜在线| 白白色发布在线观看视频| 久久久久久亚洲av无码蜜芽|