亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN并融合注意力機(jī)制的充盈態(tài)三分句關(guān)系識別方法*

        2022-01-15 06:24:30苑林飛孫凱麗肖創(chuàng)業(yè)
        關(guān)鍵詞:復(fù)句注意力語義

        苑林飛 李 源 胡 泉 孫凱麗 肖創(chuàng)業(yè)

        (1.華中師范大學(xué)計(jì)算機(jī)學(xué)院 武漢 430079)(2.華中師范大學(xué)人工智能教育學(xué)部 武漢 430079)

        1 引言

        復(fù)句在漢語句法中占有重要地位,漢語句子中近三分之二是復(fù)句。復(fù)句是由連續(xù)的兩個(gè)或者更多個(gè)分句組成的語言整體,它表達(dá)了一個(gè)完整的語言意圖,其特點(diǎn)是前后銜接、語義連貫、各分句間具有一定的信息交互功能。無論從形式還是從意義的角度出發(fā),復(fù)句都不是孤立存在的,而是各分句互相關(guān)聯(lián)、相互作用,共同構(gòu)成語義連貫的句子結(jié)構(gòu),因此復(fù)句邏輯語義關(guān)系的分析依賴于漢語復(fù)句的關(guān)系類型識別。

        句子可以根據(jù)分句的數(shù)量分為簡單句和復(fù)句。復(fù)句是包含兩個(gè)或兩個(gè)以上分句的句子,含有兩個(gè)分句的復(fù)句為二分句,含有三個(gè)分句的復(fù)句為三分句。邢福義[1]提出復(fù)句三分系統(tǒng),根據(jù)分句之間的邏輯關(guān)系,可以分為因果、并列、轉(zhuǎn)折三大類。根據(jù)復(fù)句中是否含有關(guān)系標(biāo)記,可以劃分為有標(biāo)復(fù)句和無標(biāo)復(fù)句。在有標(biāo)復(fù)句的基礎(chǔ)上,吳鋒文[2]根據(jù)關(guān)系標(biāo)記標(biāo)示復(fù)句邏輯關(guān)系能力的強(qiáng)弱,將復(fù)句進(jìn)一步劃分為充盈態(tài)有標(biāo)復(fù)句和非充盈態(tài)有標(biāo)復(fù)句。

        目前,只有少數(shù)研究專注于漢語復(fù)句關(guān)系的識別,并且沒有學(xué)者研究深度學(xué)習(xí)下的充盈態(tài)有標(biāo)三分句的關(guān)系類型識別,為此本文的主要研究對象為充盈態(tài)有標(biāo)三分復(fù)句。在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加注意力機(jī)制,使得復(fù)句中每個(gè)詞語擁有不同的權(quán)重,從而讓神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的過程中重點(diǎn)關(guān)注某些詞語,深度挖掘復(fù)句中隱藏的信息,獲取句間的語義關(guān)聯(lián)特征。在漢語復(fù)句語料庫(CCCS)和漢語篇章樹庫(CDTB)上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法比以往的方法有明顯的性能提升。

        2 相關(guān)工作

        2.1 前人工作

        基于傳統(tǒng)的語言學(xué)方法,胡金柱等[3]指出關(guān)系詞語對標(biāo)明復(fù)句關(guān)系有重要作用,結(jié)合詞性標(biāo)記和關(guān)系詞搭配理論,提出了一種關(guān)系詞提取算法——正向選擇算法。但是并非復(fù)句中出現(xiàn)的關(guān)系標(biāo)記都是關(guān)系詞,為了能夠更好地識別真正的關(guān)系詞,胡金柱等[4]提出了對一種典型的關(guān)系標(biāo)記——位置相鄰的關(guān)系標(biāo)記進(jìn)行自動標(biāo)記的算法。羅進(jìn)軍[5]提出應(yīng)從有標(biāo)復(fù)句語表序列提取、表里關(guān)聯(lián)模態(tài)構(gòu)建、有標(biāo)復(fù)句語表序列聚類三個(gè)方面來實(shí)現(xiàn)有標(biāo)復(fù)句層次關(guān)系的自動識別。吳鋒文[6]探討了分句主語指稱一致性和謂語語義相關(guān)性對分句語義關(guān)聯(lián)的影響,分析復(fù)句的句法語義特點(diǎn),提取了若干條層次關(guān)系的判定規(guī)則,奠定了復(fù)句層次關(guān)系識別的基礎(chǔ)。楊進(jìn)才等[7]以二句式非充盈態(tài)有標(biāo)復(fù)句為研究對象,結(jié)合漢語復(fù)句的句法理論、關(guān)系標(biāo)記搭配理論,進(jìn)行了二句式非充盈態(tài)有標(biāo)復(fù)句關(guān)系類別的自動標(biāo)識。

        在深度學(xué)習(xí)領(lǐng)域,Kim[8]在卷積神經(jīng)網(wǎng)絡(luò)的輸入層使用預(yù)訓(xùn)練好的詞向量,借助卷積和池化過程對句子的隱藏信息進(jìn)行提取,通過實(shí)驗(yàn)證明了卷積神經(jīng)網(wǎng)絡(luò)對文本特征提取效果良好。在楊進(jìn)才等[9]提出了在卷積神經(jīng)網(wǎng)絡(luò)中融合關(guān)系詞特征的FCNN模型,自動分析并學(xué)習(xí)兩個(gè)分句之間語法語義等特征,減少了對語言學(xué)知識和語言規(guī)則的依賴。

        2.2 本文提出目的

        充盈態(tài)有標(biāo)三分句的識別可以通過以下方法實(shí)現(xiàn):首先建立關(guān)系標(biāo)記數(shù)據(jù)庫,保存關(guān)系標(biāo)記的組合到關(guān)系類別的映射,待數(shù)據(jù)庫完成之后,提取復(fù)句中的關(guān)系標(biāo)記,然后查詢數(shù)據(jù)庫中的這些關(guān)系標(biāo)記所對應(yīng)的關(guān)系類別。但是這樣做需要掌握大量語言學(xué)知識,并對相關(guān)概念有深入的理解,然后才能發(fā)現(xiàn)規(guī)律;不但耗時(shí)耗力,而且會出現(xiàn)遺漏的情況,因?yàn)闊o法窮盡所有關(guān)系標(biāo)記的組合。最后還需要往數(shù)據(jù)庫中錄入數(shù)據(jù),增加很多的工作量,降低復(fù)句識別的效率。隨著近年來網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)量的爆炸性增長,以及計(jì)算機(jī)運(yùn)算能力的增強(qiáng),尤其是GPU并行計(jì)算能力的大幅度提升,深度學(xué)習(xí)技術(shù)在沉寂一段時(shí)間后再次綻放光彩,在很多領(lǐng)域都有很好的應(yīng)用效果。為此本文提出了一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)算法(attention-based CNN)來對復(fù)句進(jìn)行關(guān)系類型識別,避免人工錄入數(shù)據(jù),降低工程難度。

        3 基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)

        3.1 輸入層

        在模型的初始階段,對漢語復(fù)句語料庫和漢語篇章樹庫中的復(fù)句使用基于依存句法的漢語復(fù)句分句劃分算法[10]獲得的三分句后,使用LTP平臺[11]提供的API,獲得每個(gè)分句的詞序列,其中k∈{1,2,3},s是固定的詞序列長度。然后使用Glove模型預(yù)訓(xùn)練得到的詞向量,將詞序列變?yōu)楸磉_(dá)特征矩陣R(k)∈Rs×d,其中d是詞向量的維度。

        3.2 注意力層

        在進(jìn)行卷積運(yùn)算時(shí),在原有的表達(dá)特征矩陣上添加一層注意力特征矩陣。加入注意力機(jī)制的目的是給目標(biāo)分句中與另外兩個(gè)分句中詞語語義關(guān)聯(lián)度高的詞語賦予更高的權(quán)重,使卷積神經(jīng)網(wǎng)絡(luò)更關(guān)注這些詞語。每一個(gè)分句的注意力特征矩陣都是單獨(dú)計(jì)算,圖1展示了三分復(fù)句中的第一個(gè)分句的注意力特征矩陣計(jì)算過程。Attention-based CNN中句子的表達(dá)特征矩陣與基礎(chǔ)CNN中的相同,每行代表句子中相應(yīng)詞語的詞向量。將目標(biāo)分句中的詞語與圖右側(cè)其余兩個(gè)分句中的詞語進(jìn)行匹配,得到注意力矩陣A,這樣使得矩陣A中的第i行表示目標(biāo)分句中第i個(gè)詞語相對于另外兩個(gè)分句中各個(gè)詞語的注意力分布情況,A中第j列的值表示另外兩個(gè)分句中第j個(gè)詞語對目標(biāo)分句中各個(gè)詞語的注意力。因?yàn)榫仃嘇的行向量是目標(biāo)分句中每個(gè)詞語的新特征向量,所以可以將矩陣A視為目標(biāo)分句的新特征矩陣,因此將這個(gè)新的特征矩陣與初始的表達(dá)特征矩陣結(jié)合起來同時(shí)當(dāng)作卷積運(yùn)算的輸入是有意義的,可以通過將矩陣A轉(zhuǎn)換為圖2中與目標(biāo)分句的表達(dá)特征矩陣規(guī)模相同的灰色矩陣的方法來實(shí)現(xiàn)這一點(diǎn)。重復(fù)以上步驟三次之后,每個(gè)分句都有兩個(gè)特征矩陣。

        圖1 基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)框架模型

        圖2 注意力矩陣計(jì)算示意圖

        Λ(k)∈R2s×d表示第{1,2,3}/{k}個(gè)分句的表達(dá)特征矩陣的拼接,例如Λ(1)代表第兩個(gè)分句的表達(dá)特征矩陣P(2)和第3個(gè)分句的表達(dá)特征矩陣P(2)的拼接,如式(1)所示。

        通過以下方法定義注意力矩陣A(k)∈Rs×2s(k∈{1,2,3}):

        match-score函數(shù)很多種實(shí)現(xiàn)方式。通過實(shí)驗(yàn)發(fā)現(xiàn)1/(1+|x-y|)(|·|表示歐式距離)的效果最好。

        在得到注意力矩陣A(k)后,可以通過以下方式得到分句k注意力特征矩陣Q(k):

        其中W(k)為隨機(jī)生成的可訓(xùn)練矩陣。

        3.3 卷積層

        通過注意力層得到了每個(gè)分句的注意力特征矩陣,將三個(gè)分句的表達(dá)特征矩陣Q(1)、Q(2)、Q(3)拼接在一起得到復(fù)句的表達(dá)特征矩陣Q∈R3s×d:

        同理得到復(fù)句的表達(dá)特征矩陣P∈R3s×d。將P和Q一同輸入到卷積層,此時(shí)卷積層的輸入通道數(shù)為2。卷積核的大小為w,則由復(fù)句的部分表達(dá)特征向量pi-w+1,…,pi的和注意力特征向量qi-w+1,…,qi組成的拼接ci∈R2×w×d(0s時(shí),ci被設(shè)置為0向量。在此基礎(chǔ)上,使用卷積核w∈R2×w×d,得到更高層次的特征表達(dá):

        其中f為ReLU函數(shù),b為偏置參數(shù)。

        3.4 池化層

        池化層使用1-Max方法:在使用卷積核計(jì)算得到的特征中遍歷尋找最重要的特征。然后將這些通過不同的卷積核得到的顯著特征拼接起來的得到一個(gè)最終的深層次的語義特征。

        3.5 全連接層

        得到復(fù)句的語義特征向量后,輸入全連接層,并使用Softmax函數(shù)計(jì)算每個(gè)類別的概率,最后選擇概率最大分類當(dāng)作最終結(jié)果。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文實(shí)驗(yàn)使用的數(shù)據(jù)集為漢語復(fù)句語料庫和漢語篇章樹庫[12]。在這兩個(gè)語料庫上使用基于依存句法的漢語復(fù)句分句劃分算法,篩選語料庫中的三分句,然后在此基礎(chǔ)上人工篩選充盈態(tài)有標(biāo)復(fù)句并標(biāo)記復(fù)句所屬的種類。經(jīng)過篩選后的復(fù)句組成充盈態(tài)有標(biāo)三分句語料庫(Corpus of Chinese Saturated Compound Sentence,CCSCS)共有16786條復(fù)句,數(shù)據(jù)分布如表1所示。

        表1 數(shù)據(jù)分布統(tǒng)計(jì)表

        4.2 實(shí)驗(yàn)參數(shù)

        對復(fù)句進(jìn)行詞嵌入時(shí),使用在中文維基百科語料庫上預(yù)訓(xùn)練好的詞向量,其維度為100。另外,本文將每個(gè)分句的詞序列長度設(shè)置為固定值16,若分句長度不足16,則模型在預(yù)處理階段該分句進(jìn)行擴(kuò)充操作。

        為了避免出現(xiàn)過擬合現(xiàn)象,在卷積神經(jīng)網(wǎng)絡(luò)中使用了dropout機(jī)制,其值設(shè)置為0.5。同時(shí)實(shí)驗(yàn)中的目標(biāo)函數(shù)中加入L2正則化項(xiàng),用來提高模型的性能,并使用反向傳播算法以及隨機(jī)梯度下降優(yōu)化算法對神經(jīng)網(wǎng)絡(luò)中的參數(shù)進(jìn)行修正。其他參數(shù)隨機(jī)初始化。

        4.3 實(shí)驗(yàn)結(jié)果與分析

        將本文提出的方法與其他六種復(fù)句關(guān)系類別識別方法比較,以此評估模型的性能。第一種,基于統(tǒng)計(jì)學(xué)理論的關(guān)系詞判定算法[14];第二種,Huang HH等[15]提出決策樹算法(C5.0);第三種,TextCNN[8],根據(jù)Kim等的論文提出的卷積神經(jīng)網(wǎng)絡(luò)模型,基礎(chǔ)的文本處理卷積神經(jīng)網(wǎng)絡(luò)。第四種,TextRNN,基于RNN的文本分類模型;第五種,F(xiàn)ast-Text,F(xiàn)acebook于2016年開源的一個(gè)詞向量計(jì)算和文本分類工具;第六種,BiLSTM[13],LSTM的改進(jìn)版,解決了LSTM無法編碼從后往前的信息,可以更好地捕捉雙向語義依賴。

        表2展示了基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)與以上基準(zhǔn)模型的性能比較,其中attention-based CNN(1)、(2)、(3)的區(qū)別是match-score函數(shù)不同。

        由以上數(shù)據(jù)可以看出,本文提出的模型的效果不但顯著高于基于傳統(tǒng)的機(jī)器學(xué)習(xí)統(tǒng)計(jì)算法,而且無需人工添加各種規(guī)則,省去了學(xué)習(xí)語言學(xué)相關(guān)知識的成本。同時(shí)相較于已有的深度學(xué)習(xí)模型,效果也有明顯改善。

        分析實(shí)驗(yàn)結(jié)果,在傳統(tǒng)方法中,模型僅利用了句子的語法特征而未考慮到句子的語義信息以及分句間的關(guān)聯(lián)性。而深度神經(jīng)網(wǎng)絡(luò)通過使用高維稠密的詞向量表示句子,詞向量本身蘊(yùn)含了豐富的語義信息,這為模型的學(xué)習(xí)提供了有用的信息。CNN模型將很多類型不同的復(fù)句判定為相同的類型,因?yàn)槠錄]有針對特定的詞語提取更多的有效的特征信息,所以模型無法準(zhǔn)確識別。基于注意力機(jī)制的卷積神經(jīng)網(wǎng)相較于基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)效果提升了5%,說明注意力機(jī)制能使得模型在訓(xùn)練過程中更加關(guān)注特定的詞語,從而更好地識別復(fù)句的關(guān)系類型,驗(yàn)證了注意力機(jī)制在漢語復(fù)句分類任務(wù)中的有效性。

        漢語復(fù)句分類的任務(wù),不僅是要判斷復(fù)句之間的邏輯關(guān)系,還要判斷每一個(gè)分句中各個(gè)詞語對于整個(gè)復(fù)句的影響大小。為了解決這個(gè)問題,提取復(fù)句中隱藏的重要信息,本文提出的帶有注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)復(fù)句中蘊(yùn)含的信息,為每個(gè)詞語分配不同的注意力值,自動識別句與句之間邏輯關(guān)系。為了直觀地顯示復(fù)句中每個(gè)詞語的注意力分布情況,現(xiàn)將例句“①即使路上會遇到很多困難,②只要我們堅(jiān)持到底,③就必將走向終點(diǎn)”中每個(gè)詞語的注意力權(quán)重輸出,如圖3所示。

        在圖3中,注意力權(quán)重越大,顏色越深,反之越淺。最上面的一行代表分句①的注意力矩陣,由圖可知,關(guān)系標(biāo)記“即使”的注意力權(quán)重最大,說明這個(gè)詞對卷積的結(jié)果影響較大。下方的矩陣每一列代表分句①中的一個(gè)詞語,每一行代表分句②和分句③中的詞語。矩陣中元素顏色的深淺代表當(dāng)前元素所在行對應(yīng)的詞語和所在列對應(yīng)的詞語的相關(guān)度詞,例如分句①中的“困難”和分句②和分句③中的“堅(jiān)持”的相關(guān)度很大,從語義上來說這種相關(guān)度是合理的。

        5 結(jié)語

        本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加了注意力機(jī)制,賦予復(fù)句中詞語不同的權(quán)重,使得神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的過程中重點(diǎn)關(guān)注某些詞語,深度挖掘復(fù)句中隱藏的信息。通過實(shí)驗(yàn)結(jié)果表明,本文提出的方法對比以往的方法有明顯的提升。

        在未來的工作中,將對漢語復(fù)句更細(xì)顆粒度的關(guān)系劃分進(jìn)行研究,例如,在已經(jīng)將句子識別為并列類復(fù)句的基礎(chǔ)上,看其屬于并列、連貫、遞進(jìn)、選擇中的哪一類。

        猜你喜歡
        復(fù)句注意力語義
        連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
        讓注意力“飛”回來
        漢語復(fù)句學(xué)說的源流
        韓國語復(fù)句結(jié)構(gòu)的二分說
        語言與語義
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        復(fù)句內(nèi)部不應(yīng)當(dāng)用句號
        国产在线h视频| 99久久久久国产| 久久久久99精品成人片试看| 国产欧美日韩综合在线一区二区| 蜜臀av一区二区三区人妻在线| 中文字幕丰满人妻有码专区| 一卡二卡国产av熟女| 日本免费在线一区二区三区| 亚洲素人av在线观看| 亚洲中文乱码在线观看| 一区二区三区午夜视频在线 | 插上翅膀插上科学的翅膀飞| 国产区精品一区二区不卡中文| 亚洲国产精品久久人人爱| 97精品国产手机| 中国一级毛片在线观看| 亚洲一区二区自拍偷拍| 蜜桃av观看亚洲一区二区| 99热婷婷一区二区三区| 中文字幕一区在线直播| 丰满熟妇人妻av无码区 | 国产三级黄色大片在线免费看| 午夜天堂一区人妻| 久久国产精品-国产精品| 一本色综合亚洲精品蜜桃冫| 婷婷四房播播| 色综合久久久久综合999| 一区二区三区国产精品| 日本女同视频一区二区三区| 无遮挡很爽很污很黄的女同| 97人伦色伦成人免费视频| 亚洲av电影天堂男人的天堂| 女同啪啪免费网站www| 日本一本草久国产欧美日韩| 少妇特殊按摩高潮对白| 少妇一区二区三区久久| 亚洲av无码国产精品色午夜字幕| 老师脱了内裤让我进去| 亚洲网站免费看| 亚洲一区二区三区精品久久| 脱了老师内裤猛烈进入|