亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合CNN的自然語言因果關(guān)系抽取方法

        2021-10-15 12:48:50
        關(guān)鍵詞:特征模型

        蘭 飛 張 宇

        1(重慶電子工程職業(yè)學(xué)院 重慶 401331) 2(中國科學(xué)院重慶綠色智能技術(shù)研究院 重慶 400714)

        0 引 言

        因果關(guān)系抽取是指文本實(shí)體間因果關(guān)系的自動(dòng)檢測,從自然語言中有效地提取因果關(guān)系對于信息檢索、問題問答、事件推理和預(yù)測等應(yīng)用變得越來越重要[1-2]。建立因果網(wǎng)絡(luò)可以歸納以前未知的知識,并將其應(yīng)用于生物學(xué)、生物醫(yī)學(xué)、金融和環(huán)境科學(xué)等各個(gè)領(lǐng)域[3-4]。關(guān)系提取主要分為基于規(guī)則和基于機(jī)器學(xué)習(xí)這兩類方法[5-6]?;谝?guī)則的方法需要大量的手工工作來構(gòu)建手工模式,且由于自然語言中因果關(guān)系表達(dá)的復(fù)雜性,其準(zhǔn)確性和召回率較低。基于特征的方法從大量的標(biāo)記數(shù)據(jù)中自動(dòng)推斷因果關(guān)系,其依賴于所設(shè)計(jì)特征的質(zhì)量和外部自然語言處理工具包的準(zhǔn)確率,因此設(shè)計(jì)耗時(shí)且容易造成錯(cuò)誤積累,影響最終的分類性能[7]。

        隨著深度學(xué)習(xí)的盛行,研究人員開始構(gòu)建沒有復(fù)雜特征工程的模型,并最小化對NLP工具包的依賴。具有預(yù)訓(xùn)練詞嵌入的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是用于關(guān)系提取的最先進(jìn)的深度學(xué)習(xí)模型之一[8-9]。預(yù)訓(xùn)練的詞嵌入將詞的語義和句法信息編碼為固定長度的向量,CNN能夠從句子中提取有意義的n-gram特征。與基于規(guī)則的方法和基于豐富特征的方法相比,具有單詞嵌入的CNN模型能夠更有效地提取復(fù)雜的因果關(guān)系,但這些模型依賴于大量應(yīng)該涵蓋自然語言中的所有因果關(guān)系表達(dá)式的訓(xùn)練數(shù)據(jù)[10],這是不切實(shí)際的,因?yàn)樽匀徽Z言中詞和句子具有多樣性和歧義性的特征,并且深度學(xué)習(xí)模型存在大量的自由參數(shù)[11],這些模型容易過擬合且有偏差的訓(xùn)練數(shù)據(jù),從而影響深度學(xué)習(xí)模型的性能。

        文獻(xiàn)[12]綜合卷積神經(jīng)網(wǎng)絡(luò)抽取局部特征的優(yōu)勢和循環(huán)網(wǎng)絡(luò)在時(shí)序依賴中建模能力,提出了卷積循環(huán)神經(jīng)網(wǎng)絡(luò)。該模型融合了局部和整體信息,比單獨(dú)建模局部特征和序列關(guān)系的模型在關(guān)系抽取上更有效。文獻(xiàn)[13]提出了基于無監(jiān)督上下文建模的分布式文檔嵌入,該模型能夠從文本中捕獲詞語義、n-gram特征和需要較少的訓(xùn)練數(shù)據(jù),得到包含語義相似的n-gram特征的文檔在向量空間中具有更緊密的嵌入。文獻(xiàn)[14]提出了基于n-gram特征的文檔向量的嵌入方法,該方法允許以固定長度、連續(xù)和密集特征向量表示文檔。但以這種方式學(xué)習(xí)的嵌套不適合直接用于因果關(guān)系提取,因?yàn)榫哂姓Z義相似n-gram特征句子可能涉及因果關(guān)系,也可能不涉及因果關(guān)系。

        本文基于上面的研究,提出用于自然語言因果關(guān)系抽取的高效的混合卷積神經(jīng)網(wǎng)絡(luò)MCNN,該模型以互補(bǔ)的方式結(jié)合人類的先驗(yàn)知識和在數(shù)據(jù)中學(xué)習(xí)到的信息從自然語言中抽取因果關(guān)系。面向知識的通道將因果關(guān)系的語言知識整合到詞匯知識庫以捕獲因果關(guān)系的重要語言線索;面向數(shù)據(jù)的通道基于傳統(tǒng)的CNN從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)因果關(guān)系的其他重要特征,基于詞過濾選擇和聚類技術(shù)來去除冗余特征,通過減少模型的自由參數(shù)來解決由于缺乏訓(xùn)練數(shù)據(jù)而導(dǎo)致的過擬合問題,最后在三個(gè)因果關(guān)系抽取數(shù)據(jù)集上對模型進(jìn)行驗(yàn)證。

        1 基于MCNN的因果關(guān)系抽取

        本文設(shè)計(jì)的MCNN包含二個(gè)傳統(tǒng)的CNN通道:面向知識通道和面向數(shù)據(jù)通信,這兩個(gè)通道相輔相成,從不同的角度提取因果關(guān)系的有用特征,總體結(jié)構(gòu)如圖1所示。它基于詞匯知識庫自動(dòng)構(gòu)建CNN的卷積過濾器,使模型能夠有效且準(zhǔn)確地從自然語言文本中提取重要的因果關(guān)系線索,從而緩解深度學(xué)習(xí)模型的過擬合問題。

        圖1 MCNN的總體設(shè)計(jì)結(jié)構(gòu)

        1.1 面向知識的通道

        面向知識的通道用來有效地從句中提取因果關(guān)系的關(guān)鍵字和提示短語,該通道基于詞匯知識庫中因果關(guān)系的語言知識自動(dòng)生成的卷積過濾器。與傳統(tǒng)CNN中的卷積過濾器相比,詞過濾器能夠更精確地反映因果關(guān)系的語言線索,它的權(quán)重是詞的嵌入,這些單詞通過預(yù)先訓(xùn)練可以直接使用而無需任何額外的訓(xùn)練,因此,可以顯著減少模型的自由參數(shù),緩解訓(xùn)練數(shù)據(jù)量較小時(shí)的過擬合問題。

        1.1.1句子表示

        MCNN的輸入是標(biāo)有兩個(gè)目標(biāo)實(shí)體e1和e2的句子,用于因果關(guān)系識別。關(guān)鍵字和提示語出現(xiàn)在距離兩個(gè)目標(biāo)實(shí)體較遠(yuǎn)的地方,可能無法提供信息和影響分類結(jié)果。為了消除噪聲并有效地從句中提取語言線索,MCNN僅使用兩個(gè)目標(biāo)實(shí)體間的單詞作為面向知識通道的輸入。為了捕獲詞的語法和語義信息,查找使用大型語料庫預(yù)先訓(xùn)練的單詞嵌入表Wwrd∈Re×|V|,每個(gè)詞由向量w∈Re表示,其中e是單詞嵌入向量的維數(shù),|V|是詞匯量。由于CNN僅適用于固定長度的輸入,所以句子中單詞標(biāo)記的數(shù)量固定為n1,這是e1和e2間的最大詞數(shù)。使用具有零嵌入向量的特殊填充字符填充具有少于n1個(gè)標(biāo)記的句子。因此,輸入序列xk={x1,x2,…,xn1}表示為實(shí)值向量序列embk=[w1,w2,…,wn1]。

        1.1.2自動(dòng)生成字過濾器庫

        這個(gè)過程基于人類對因果關(guān)系的先驗(yàn)知識自動(dòng)生成CNN的卷積濾波器以進(jìn)行因果關(guān)系抽取,而無須使用大量數(shù)據(jù)來訓(xùn)練模型。這種方式構(gòu)造的詞過濾器具有表示因果關(guān)系的關(guān)鍵字和提示短語的物理均值,比從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的傳統(tǒng)卷積過濾器更精確。此外,這些過濾器的權(quán)重是靜態(tài)值,而不是模型中的自由參數(shù),模型中的自由參數(shù)數(shù)量顯著減少,從而緩解訓(xùn)練數(shù)據(jù)量較小時(shí)的過擬合問題。

        1.1.3卷積和池化運(yùn)算

        為了捕獲句中因果關(guān)系的重要語言線索,將生成的詞過濾器與句中的n-gram特征進(jìn)行卷積以生成相似性分?jǐn)?shù)序列。與基于規(guī)則的方法相比,MCNN能夠捕獲除詞過濾器庫中的單詞以外的語義相似的因果詞。具體而言,詞過濾器f=[f1,f2,…,fk]T與輸入矩陣embk=[w1,w2,…,wn1]進(jìn)行卷積,其中k∈[1,2,3]為卷積窗口大小,也表示句子中的k-gram特征。本文改進(jìn)了CNN的傳統(tǒng)卷積運(yùn)算以使每個(gè)詞過濾器生成一個(gè)特征映射m=[m1,m2,…,mn1-k+1],其中mi表示詞過濾器f和wkgram=[wi,wi+1,…,wi+k-1]T間的相似度,改進(jìn)的卷積運(yùn)算如下所示:

        (1)

        式中:b為偏差項(xiàng)。與將非線性函數(shù)應(yīng)用于卷積結(jié)果的傳統(tǒng)CNN不同,本文將卷積結(jié)果除以窗口大小k。通過將fj和wi+j-1(詞嵌入)限制為單位向量,mi表示f和wkgram間的余弦相似度。在特征圖中產(chǎn)生余弦相似度是為了使所有卷積窗口大小的比例相等,從而實(shí)現(xiàn)不同長度的詞過濾器具有相同的重要性。

        采用最大池化來進(jìn)一步聚合每個(gè)濾波器的卷積結(jié)果,并從特征映射中提取最重要或最相關(guān)的特征。每個(gè)特征映射的最大池化操作如下:

        p=max{m}=max{m1,m2,…,mn1-k+1}

        (2)

        從特征映射中獲取最大值的原因是最大余弦相似度表明句子中存在因果關(guān)鍵字或提示短語的強(qiáng)線索。

        1.1.4詞過濾器選擇和聚類

        為了提高模型性能,本文使用詞過濾器和聚類技術(shù)進(jìn)行降維。詞過濾器選擇先刪除由沒有提供足夠的類可分離性的詞過濾器產(chǎn)生的非辨別性特征,基于訓(xùn)練數(shù)據(jù)及其標(biāo)簽,使用方差分析(Analysis of Variance,ANOVA)F值評估每個(gè)特征的可分離性,以衡量類均值間的差異程度。若F值很小,類別均值幾乎相近,則該特征對分類沒有幫助;若F值較大,至少有一個(gè)類別的均值與其他類別不同,則該特征能夠?yàn)榉诸惼魈峁┯杏玫男畔⒁詤^(qū)分該類別與其他類別。通過取類間均方比(Mean Square Between Classes,MSB)與類內(nèi)均方比(Mean Square Within Classes,MSW)來計(jì)算在最大池化層后生成的每個(gè)特征的F值比率:

        (3)

        式中:SS為平方和;df為自由度;c為類別數(shù)量;N為所有樣本數(shù)量;ni為類別i的樣本數(shù)量;GM(總體均值)為所有樣本的均值;Mi為類別i的均值;xij為類別i中的第j個(gè)樣本。

        在計(jì)算每個(gè)特征的F值后,基于自由度為(c-1)和(N-c)的F值的F分布進(jìn)行假設(shè)檢驗(yàn)。零假設(shè)H0設(shè)所有類均值相等,顯著性水平為α=50%,并且能夠從F分布中找到臨界F值Fα。若F>Fα,則可以拒絕H0并保留相應(yīng)的濾波器,因?yàn)樗軌蛱峁╊惥档目煞蛛x性;若F≤Fα,則刪除相應(yīng)的濾波器。

        詞過濾器的聚類除去非分離特征后,仍然存在許多會產(chǎn)生相同或接近的值的冗余特征,這將增加模型的維數(shù)和損害分類性能。這些冗余特征由具有相近單詞嵌入的語義相似的單詞過濾器產(chǎn)生,本文根據(jù)詞過濾器的語義相似度對其進(jìn)行聚類,以解決特征冗余問題。

        對bi-gram詞過濾器,將兩個(gè)詞嵌入連接起來以形成單個(gè)向量表示,然后執(zhí)行K-均值聚類算法,分別找到uni-gram和bi-gram詞過濾器的聚類?;谶@些聚類,對CNN的最大池化層后的特征執(zhí)行進(jìn)一步的池化操作。對于與第i個(gè)聚類中的詞過濾器相對應(yīng)的特征{pi1,pi2,…,pin},用式(4)執(zhí)行最大池化或平均池化。

        (4)

        最大池操作保留了句子中最重要的語言線索,而平均池操作考慮所有詞過濾器。由于池化操作將一個(gè)簇內(nèi)的特征聚合成單個(gè)特征,所以降低了特征向量的維數(shù)。面向知識的通道的特征向量維度由用戶設(shè)置的uni-gram和bi-gram詞過濾器的聚類數(shù)量確定。

        1.2 面向數(shù)據(jù)的通道

        面向數(shù)據(jù)的通道用來從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)因果關(guān)系的重要特征,它通過使用更長的卷積窗口來捕獲整個(gè)句子中更長的相關(guān)性。卷積濾波器根據(jù)訓(xùn)練數(shù)據(jù)來調(diào)整其權(quán)重,給予模型足夠的能力來學(xué)習(xí)較長的相關(guān)性和面向知識通道所忽略的重要信息。因此,面向數(shù)據(jù)通道和面向知識通道相輔相成,使得MCNN能夠有效地從句中提取因果關(guān)系。

        1.2.1句子表示

        為了保留除e1和e2之間的單詞以外的詞信息,面向數(shù)據(jù)通道的輸入包含該句子中的所有單詞,句子中的最大字?jǐn)?shù)(n2)可以非常大,但CNN不能捕獲詞在句中的位置信息,并且詞出現(xiàn)在距離e1和e2較遠(yuǎn)的地方,可能沒有信息性。

        1.2.2卷積和池化運(yùn)算

        卷積濾波器f=[f1,f2,…,fk]T被隨機(jī)初始化并通過反向傳播進(jìn)行訓(xùn)練,其中fi∈Re+2d,k為卷積窗口大小。為了捕獲句中更長的相關(guān)性,使用更寬的窗口大小(k=3,4),將輸入語句的表示簡化為embD={x1,x2,…,xn},該通道中的卷積運(yùn)算如下:

        (5)

        式中:tanh是雙曲正切函數(shù),b為偏差項(xiàng)。得到的特征映射m=[m1,m2,…,mn-k+1]被傳遞到與面向知識通道中相同的最大池化層,以提取最重要的特征。濾波器的數(shù)量r是用戶選擇的超參數(shù),它確定面向數(shù)據(jù)通道的輸出維數(shù)。

        1.3 規(guī)則化和分類

        最終的特征向量p∈Rh+r由面向知識的通道輸出和面向數(shù)據(jù)的通道輸出組成,代表MCNN提取的輸入語句的高級特征。在將特征向量傳遞給分類器以做出因果關(guān)系的最終判斷之前,應(yīng)用dropout正則化則,防止出現(xiàn)過擬合問題。

        pd=p°b

        (6)

        式中:°表示逐元素乘法,并且b∈Rh+r是以概率為ρ的伯努利分布隨機(jī)生成的向量。然后特征向量pd作為分類器的輸入以預(yù)測類別標(biāo)簽。分類器由標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的全連通層和預(yù)測類概率的softmax層組成。

        本文通過最小化分類交叉熵?fù)p失函數(shù)來訓(xùn)練模型。用于訓(xùn)練的自由參數(shù)包括位置嵌入矩陣、面向數(shù)據(jù)通道的濾波器權(quán)重、完全連接的層權(quán)重和softmax層權(quán)重的分類器權(quán)重。用帶有自適應(yīng)學(xué)習(xí)率調(diào)整更新規(guī)則的小批量隨機(jī)梯度下降進(jìn)行訓(xùn)練。

        2 實(shí)驗(yàn)與結(jié)果分析

        為了評估本文MCNN模型在因果關(guān)系抽取中的有效性,采用關(guān)系抽取數(shù)據(jù)集SemEval-2010 task 8與Causal-TimeBank和Event StoryLine進(jìn)行實(shí)驗(yàn)。將測試結(jié)果與使用位置嵌入和訓(xùn)練單詞嵌入的具有單個(gè)窗口大小(k=3)的濾波器方法(簡稱SingleCNN)和具有多個(gè)窗口大小(k=2,3,4,5)的濾波器和微調(diào)預(yù)先訓(xùn)練的單詞嵌入方法(簡稱MultiCNN)[12]進(jìn)行分析比較。

        實(shí)驗(yàn)的所有模型采用的是預(yù)訓(xùn)練的基于依賴關(guān)系的詞嵌入,詞嵌入是維度為e=300維的在訓(xùn)練期間保持靜態(tài)的單位向量;位置嵌入的維度為d=20,dropout正則化概率ρ=0.4,訓(xùn)練的最小批量為20個(gè),softmax層之前的隱藏層的維數(shù)是特征向量維數(shù)的一半。對于未在詞嵌入中的詞,初始化為具有與詞嵌入量相同維數(shù)的隨機(jī)單位向量。

        2.1 面向數(shù)據(jù)的通道效果

        為了研究面向數(shù)據(jù)通道的影響并找出其最優(yōu)濾波器數(shù),本文對范圍從0到100的濾波器數(shù)量進(jìn)行網(wǎng)格搜索,使用根據(jù)10倍交叉驗(yàn)證計(jì)算得出的宏平均F1分?jǐn)?shù)進(jìn)行評估,三個(gè)數(shù)據(jù)集的網(wǎng)絡(luò)搜索結(jié)果如圖2所示。

        從圖2可以看出面向數(shù)據(jù)通道中每個(gè)窗口大小的最佳濾波器數(shù)量在25到30之間。進(jìn)一步增加濾波器數(shù)量將導(dǎo)致F1得分下降,且模型性能不穩(wěn)定。這是因?yàn)?,?dāng)自由參數(shù)的數(shù)量很大且訓(xùn)練數(shù)據(jù)有限時(shí),該模型容易過擬合。與通常使用數(shù)百個(gè)卷積濾波器的傳統(tǒng)CNN相比,所設(shè)計(jì)的MCNN的面向數(shù)據(jù)通道中所需的濾波器數(shù)量顯著減少。

        2.2 面向知識通道效果與維度縮減

        表1給出了在數(shù)據(jù)集SemEval、CausalTB和EventSL上提取因果關(guān)系的人工模型的宏觀平均F1得分。可以看出與SingleCNN和MultiCNN相比,本文MCNN能夠更有效地提取因果關(guān)系,這是因?yàn)镸CNN基于詞匯知識庫自動(dòng)構(gòu)建詞過濾器,比隨機(jī)初始化的卷積過濾器對因果關(guān)系的關(guān)鍵詞和提示短語具有更精確的表示和更廣泛的覆蓋率。面向知識通道和面向數(shù)據(jù)通道的有效結(jié)合使模型能夠捕獲因果關(guān)系的重要特征。表2給出了SemEval-2010 task 8數(shù)據(jù)集的關(guān)系類型,例1中在數(shù)據(jù)集SemEval-2010 task 8上關(guān)系實(shí)例,MultiCNN判定為Other類別,而本文的模型則正確標(biāo)識為Cause-Effect類,可以看出不同算法對于例1處理結(jié)果的差異。

        表2 SemEval-2010 task 8數(shù)據(jù)集的關(guān)系類型

        例1:The tsunami generated by earthquake killed hundreds of thousands of people.

        <譯>:地震引發(fā)的海嘯使數(shù)十萬人喪生。

        實(shí)體1 earthquake

        實(shí)體2 tsunami

        關(guān)系 Cause-Effect

        為了研究MCNN在緩解過度擬合中的有效性,在訓(xùn)練集上訓(xùn)練MCNN和MultiCNN,并在訓(xùn)練集和驗(yàn)證集上測試模型,測試模型的學(xué)習(xí)曲線由圖3到圖5給出。

        圖3 SemEval-2010 task 8數(shù)據(jù)集上的學(xué)習(xí)曲線

        可以看出訓(xùn)練集和驗(yàn)證集上的宏觀平均F1得分隨訓(xùn)練次數(shù)的增加而增加,兩個(gè)模型的訓(xùn)練集得分最終都可以達(dá)到100%,訓(xùn)練得分和驗(yàn)證得分間的差距實(shí)際上是由于訓(xùn)練數(shù)據(jù)上的模型過度擬合造成的。本文MCNN在驗(yàn)證集上比MultiCNN獲得了更高的得分,這表明MCNN能夠緩解過擬合問題。MCNN的訓(xùn)練速度比MultiCNN更快,這是因?yàn)镸ultiCNN需要從頭開始訓(xùn)練所有參數(shù),而MCNN只需要訓(xùn)練面向數(shù)據(jù)的通道,面向知識的通道由于已經(jīng)包含許多有用信息可以在訓(xùn)練前提取因果關(guān)系。

        3 結(jié) 語

        為了能夠有效地抽取自然語言因果關(guān)系和解決訓(xùn)練數(shù)據(jù)量較小時(shí)的過擬合問題,本文提出了一種高效的混合卷積神經(jīng)網(wǎng)絡(luò)(MCNN),它包含面向知識通道和面向數(shù)據(jù)通道兩個(gè)傳統(tǒng)CNN通道。面向知識的通道基于詞知識庫自動(dòng)生成卷積過濾器,以捕獲因果關(guān)系的語言線索;面向數(shù)據(jù)的通道從數(shù)據(jù)中學(xué)習(xí)因果關(guān)系的其他重要特征,通過減少模型的自有參數(shù)來解決由于缺乏訓(xùn)練數(shù)據(jù)而導(dǎo)致的過擬合問題。實(shí)驗(yàn)表明,與SingleCNN和MultiCNN相比,本文MCNN在因果關(guān)系提取方面性能更好。未來的工作是研究如何自動(dòng)選擇用于因果關(guān)系識別的目標(biāo)實(shí)體以及如何更有效地提取復(fù)雜的因果關(guān)系。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久久久久国产精品无码超碰动画| 国产无人区码一码二码三mba| av免费网站不卡观看| 国产精品美女久久久久久2018 | 国产av无码专区亚洲av果冻传媒| 视频一区中文字幕亚洲| 视频一区欧美| 久久精品成人无码观看不卡| 国产三a级三级日产三级野外| 精品在线视频免费在线观看视频| 久草国产视频| 免费a级毛片无码a∨男男| 欧美巨鞭大战丰满少妇| 网红尤物泛滥白浆正在播放| 亚洲嫩草影院久久精品| 99亚洲精品久久久99| 少妇愉情理伦片高潮日本| 国产精品对白一区二区三区| 中文字幕精品亚洲一区二区三区| 亚洲人妻无缓冲av不卡| 久久人人玩人妻潮喷内射人人| 亚洲中文字幕无码av永久| 国产精品亚洲一区二区三区在线看| 国产精品女同久久久久久| 99热在线精品播放| 亚洲欧美激情在线一区| 国产国语亲子伦亲子| 日本久久精品福利视频| 亚洲综合一区二区三区蜜臀av| 一本久到久久亚洲综合| 妓院一钑片免看黄大片| 妺妺窝人体色www看美女| 午夜视频在线观看一区二区小| 日本一区二区三区一级片| 欧美国产伦久久久久久久| 美女裸体无遮挡免费视频的网站 | 少妇内射高潮福利炮| 成l人在线观看线路1| 亚洲第一狼人天堂网亚洲av| 国产精品亚洲一区二区三区16| 国产一区二区一级黄色片|