亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-FHAN模型融合語(yǔ)句特征的漢語(yǔ)復(fù)句關(guān)系自動(dòng)識(shí)別①

        2022-09-20 04:11:30楊進(jìn)才曹煜欣蔡旭勛
        關(guān)鍵詞:復(fù)句句法語(yǔ)句

        楊進(jìn)才, 曹煜欣, 胡 泉, 蔡旭勛

        1(華中師范大學(xué) 計(jì)算機(jī)學(xué)院, 武漢 430079)

        2(華中師范大學(xué) 人工智能教育學(xué)部, 武漢 430079)

        中文信息處理進(jìn)程分為字處理、詞處理、句處理、篇章處理4個(gè)階段[1], 目前, 字處理和詞處理方面的研究均取得了巨大的進(jìn)展, 對(duì)句以及篇章的研究正在繼續(xù)向前推進(jìn).

        復(fù)句是由兩個(gè)或兩個(gè)以上的分句組成的句子[2], 漢語(yǔ)文本中復(fù)句占多數(shù). 復(fù)句連接單句和篇章, 在篇章視野大范圍內(nèi)進(jìn)行復(fù)句關(guān)系識(shí)別有助于加深對(duì)篇章句間語(yǔ)義關(guān)系的理解[3,4]. 因而可以廣泛應(yīng)用到機(jī)器翻譯[5]、篇章分析[6]、自動(dòng)問(wèn)答[7]和信息抽取[8]等領(lǐng)域中.

        復(fù)句的語(yǔ)義表達(dá)復(fù)雜, 復(fù)句的分類(lèi)問(wèn)題作為復(fù)句理論研究與應(yīng)用研究的重要內(nèi)容, 一直是漢語(yǔ)言學(xué)界關(guān)注的熱點(diǎn), 同時(shí)也是自然語(yǔ)言處理的難點(diǎn). 目前, 在語(yǔ)言界最有影響的是《現(xiàn)代漢語(yǔ)》教材的分類(lèi)和邢福義[2]在《漢語(yǔ)復(fù)句研究》(2001)中提出的復(fù)句三分系統(tǒng). 三分系統(tǒng)將復(fù)句劃分為因果、轉(zhuǎn)折、并列大類(lèi), 又將這3大類(lèi)依次劃分為因果、假設(shè)、推斷、條件、目的, 并列、連貫、遞進(jìn)、選擇, 轉(zhuǎn)折、讓步、假轉(zhuǎn)12個(gè)二級(jí)類(lèi). 本文采用三分系統(tǒng)的12個(gè)二級(jí)類(lèi)作為分類(lèi)標(biāo)準(zhǔn).

        關(guān)系詞(關(guān)系標(biāo)記)用來(lái)連接復(fù)句的各個(gè)分句, 擁有關(guān)系詞標(biāo)志的復(fù)句被界定為有標(biāo)復(fù)句[9]. 在有標(biāo)復(fù)句中, 由于關(guān)系詞的積極指向作用, 使得識(shí)別有標(biāo)復(fù)句關(guān)系類(lèi)別的準(zhǔn)確率要高于無(wú)標(biāo)復(fù)句[10,11]. 但在有標(biāo)復(fù)句關(guān)系識(shí)別中存在如下困難: (1)搭配使用的關(guān)系詞部分缺省, 余下的關(guān)系詞可對(duì)應(yīng)多種類(lèi)別; (2)存在一部分跨類(lèi)別的關(guān)系詞.

        例1. 你不說(shuō), 我們<也>查得出你姓甚名誰(shuí)!(吳強(qiáng)《紅日》)

        例2. 條件不同, 面臨的任務(wù)<也>不同. (《鄧小平文選》)

        在例1與例2中, 關(guān)系詞均為“也”, 但對(duì)應(yīng)的關(guān)系分別為讓步與因果.

        1 相關(guān)工作

        從中文信息處理角度對(duì)復(fù)句類(lèi)別自動(dòng)識(shí)別的方法包括: 利用規(guī)則、結(jié)合規(guī)則和機(jī)器學(xué)習(xí)、利用深度學(xué)習(xí)的方法3類(lèi). 李艷翠等[12]以有標(biāo)的清華漢語(yǔ)樹(shù)庫(kù)作為研究對(duì)象, 抽取顯式和隱式的自動(dòng)句法樹(shù)的規(guī)則特征, 判定復(fù)句關(guān)系類(lèi)別; 楊進(jìn)才等[13]把已知的復(fù)句句法、關(guān)系詞搭配等知識(shí)結(jié)合在一起, 以非充盈態(tài)二句式有標(biāo)復(fù)句為研究對(duì)象, 鑒定復(fù)句所屬關(guān)系類(lèi)別; 楊進(jìn)才等[14]探索復(fù)句字面及內(nèi)部語(yǔ)法等特征, 并總結(jié)特征形成規(guī)則, 判斷復(fù)句所屬的關(guān)系類(lèi)別. 隨著深度學(xué)習(xí)方法研究的不斷發(fā)展, 因其可以自動(dòng)獲取特征, 所以被應(yīng)用在復(fù)句類(lèi)別識(shí)別的研究中. 孫凱麗等[15]將Bi-LSTM模型學(xué)習(xí)到的句內(nèi)注意力多路特征與CNN建模得到的復(fù)句局部特征結(jié)合, 使用Inatt-MCNN模型對(duì)復(fù)句進(jìn)行因果、并列、轉(zhuǎn)折3大關(guān)系類(lèi)別識(shí)別. 孫凱麗等[16]使用CNN和Bi-LSTM相結(jié)合的BCCNN網(wǎng)絡(luò)和詞聚類(lèi)算法來(lái)捕獲單詞間的相似特征, 從而輔助計(jì)算機(jī)識(shí)別復(fù)句的關(guān)系類(lèi)別.

        深度學(xué)習(xí)不需要人工操作, 能夠自己獨(dú)立研究復(fù)句語(yǔ)料中的特征. 然而, 在深度學(xué)習(xí)過(guò)程中融入已有的、顯然的、人們主動(dòng)選擇的外部知識(shí), 對(duì)模型而言依然具有吸引力[17]. Qin等[18]以詞性為句子特征, 聯(lián)合詞向量一起傳輸?shù)紺NN中, 來(lái)判斷無(wú)標(biāo)復(fù)句所屬關(guān)系類(lèi)別; 楊進(jìn)才等[19]在CNN模型中融合關(guān)系詞特征, 對(duì)非充盈態(tài)復(fù)句進(jìn)行3類(lèi)識(shí)別; 楊進(jìn)才等[20]在Transformer網(wǎng)絡(luò)中拼接關(guān)系詞、詞性的特征, 完成因果、假設(shè)、推斷、條件、目的的因果類(lèi)復(fù)句識(shí)別任務(wù).

        復(fù)句作為中文中出現(xiàn)頻率最高的句子形態(tài), 語(yǔ)言學(xué)界對(duì)復(fù)句的研究積累了豐富的知識(shí). 前述的關(guān)系類(lèi)別識(shí)別的利用規(guī)則、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法用到了這些語(yǔ)句特征, 本文探討在深度學(xué)習(xí)模型中充分融入多種語(yǔ)句特征, 進(jìn)行復(fù)句關(guān)系類(lèi)別的識(shí)別.

        2 復(fù)句文本特征表示

        2.1 詞向量表示

        復(fù)句主要組成部分為詞, 計(jì)算機(jī)將詞處理成稠密的詞向量表示[21], 詞向量的表示效果影響著復(fù)句關(guān)系識(shí)別的準(zhǔn)確率. 目前主流的詞向量模型分為兩類(lèi): 一類(lèi)是以Word2Vec[22]為代表的詞向量模型, 它分為連續(xù)詞袋模型(CBOW)和Skip-gram模型, 另一類(lèi)是最新的BERT詞向量模型[23].

        Word2Vec詞向量模型利用輸入的單詞及其上下文信息, 在映射層中將信息整合, 由輸出層輸出對(duì)單詞分析的結(jié)果. 但Word2Vec得到的詞向量與對(duì)應(yīng)的單詞之間屬于靜態(tài)文本表示, 這種表示方式在解決一詞多義問(wèn)題上表現(xiàn)局限, 因而在某些任務(wù)中不能很好地動(dòng)態(tài)優(yōu)化. BERT模型在中文處理方面有很大的優(yōu)勢(shì),它利用雙向Transformer語(yǔ)言模型[24]進(jìn)行預(yù)訓(xùn)練, 在不同單詞間添加注意力機(jī)制將單詞聯(lián)合起來(lái), 為解決中長(zhǎng)期依賴(lài)問(wèn)題提供了思路. 掩碼語(yǔ)言模型和下一句預(yù)測(cè)是BERT的兩種任務(wù). 這兩項(xiàng)任務(wù)使BERT不僅具備對(duì)目標(biāo)句上下文進(jìn)行預(yù)測(cè)的能力, 同時(shí)能夠捕獲句子間的深層語(yǔ)義關(guān)聯(lián). 因而, BERT文本表示比Word2Vec表達(dá)的語(yǔ)義更豐富, 內(nèi)容更全面. 將例2輸入BERT預(yù)訓(xùn)練模型, 獲得的輸入表示如圖1所示. 句子開(kāi)頭和結(jié)束分別使用[CLS]和[SEP]標(biāo)志表示, 復(fù)句映射的向量由詞向量, 詞在整個(gè)復(fù)句中的位置向量, 詞在子句中的位置向量3部分組成.

        圖1 例2的BERT詞向量組成

        2.2 復(fù)句語(yǔ)句特征

        2.2.1 候選關(guān)系詞及類(lèi)別特征

        候選關(guān)系詞(準(zhǔn)關(guān)系詞)是可以充當(dāng)關(guān)系詞的詞,當(dāng)候選關(guān)系詞在一條復(fù)句中能夠?qū)⒏鞣志渎?lián)系起來(lái)時(shí),該候選關(guān)系詞是關(guān)系詞. 候選關(guān)系詞的所屬類(lèi)別對(duì)識(shí)別復(fù)句的關(guān)系類(lèi)別有著積極的指示作用. 因此, 候選關(guān)系詞及其所屬類(lèi)別是至關(guān)重要的語(yǔ)句特征.

        例3. 法不僅有階級(jí)性的一面, 而且有社會(huì)性的一面. (《人民日?qǐng)?bào)》1981年01月27日)

        “不僅”“一面”“而且”“一面”, “一面”是復(fù)句存在的部分, 屬于句中的方位名詞, 它不是句子的關(guān)系詞. 例3的兩個(gè)分句由“不僅”“而且”連接, “不僅”“而且”屬于遞進(jìn)關(guān)系類(lèi)別. 例3是表示遞進(jìn)的復(fù)句.

        2.2.2 詞性特征

        復(fù)句的各個(gè)單詞均有與之相對(duì)應(yīng)的詞性, 詞性反映了單詞所具有的語(yǔ)法功能, 也約束了該詞在復(fù)句中所充當(dāng)?shù)慕巧? 對(duì)例句3詞性標(biāo)注, 結(jié)果如圖2所示.

        圖2 例3的詞性標(biāo)注圖

        例句3中“一面/一面”的詞性都為nd (方向名詞),它們屬于復(fù)句的組成部分, 代表了句中的方位, 因此不是復(fù)句的關(guān)系詞.

        2.2.3 句法依存關(guān)系特征

        法國(guó)語(yǔ)言學(xué)家特斯尼耶爾將句子中的詞的關(guān)聯(lián)構(gòu)成句子的句法依存關(guān)系. 句法依存關(guān)系能夠辨析復(fù)句中主、謂、賓、定、狀、補(bǔ)的組成結(jié)構(gòu), 從復(fù)句的構(gòu)成單元出發(fā), 分析各個(gè)單元之間的相互關(guān)聯(lián), 加深對(duì)復(fù)句句法關(guān)系的理解. 5條公理[25]規(guī)定了句法依存關(guān)系,復(fù)句中有且僅有一個(gè)獨(dú)立核心成分, 其他單詞都與支配詞有句法依存關(guān)系. 復(fù)句核心詞的句法依存特征為HED (核心關(guān)系), 再依次抽取復(fù)句中其他單詞與支配詞之間的句法依存關(guān)系, 構(gòu)成本文的句法依存關(guān)系特征. 將復(fù)句根據(jù)句法依存關(guān)系轉(zhuǎn)換為相應(yīng)的句法依存圖, 例3分析結(jié)果如圖3所示.

        圖3 例3的句法依存分析圖

        候選關(guān)系詞依次為“不僅”“一面”“而且”“一面”, 與它們的支配詞之間的句法依存關(guān)系分別為“ADV (狀中關(guān)系)”“VOB (動(dòng)賓關(guān)系)”“ADV”“VOB”. 關(guān)系詞與其支配詞之間出現(xiàn)頻率相對(duì)較高的句法依存關(guān)系是狀中關(guān)系, 而VOB關(guān)系常見(jiàn)于動(dòng)名詞之間的句法依存連接.從句法依存角度分析, 例3中的關(guān)系詞為“不僅”“而且”, 它是一條表示遞進(jìn)關(guān)系的復(fù)句.

        2.2.4 語(yǔ)義依存關(guān)系特征

        語(yǔ)義依存和句法依存形似, 它們都是一種框架, 用以直觀描述語(yǔ)言?xún)?nèi)部結(jié)構(gòu). 而不同的是, 語(yǔ)義依存采用單詞的語(yǔ)義結(jié)構(gòu)特征來(lái)闡述復(fù)句中單詞彼此之間的關(guān)系, 它著重分析實(shí)詞在句中的語(yǔ)義關(guān)聯(lián)以及邏輯關(guān)聯(lián).語(yǔ)義依存不會(huì)隨著語(yǔ)句結(jié)構(gòu)變化而變化, 它能夠超越句子表層的句法結(jié)構(gòu), 更進(jìn)一步得到句子的語(yǔ)義信息.通過(guò)分析句子的語(yǔ)義依存關(guān)系, 能夠明晰詞匯在復(fù)句中所承擔(dān)的語(yǔ)義角色. 語(yǔ)義依存關(guān)系中, 復(fù)句有且僅有一個(gè)核心詞匯, 其他詞匯與支配詞間均有語(yǔ)義依存關(guān)系. 核心詞的語(yǔ)義依存關(guān)系特征為Root (根節(jié)點(diǎn)), 依次抽取復(fù)句中其他單詞與其支配詞之間的語(yǔ)義依存關(guān)系,構(gòu)成本文的語(yǔ)義依存關(guān)系特征. 將語(yǔ)義依存關(guān)系轉(zhuǎn)換成相應(yīng)的語(yǔ)義依存圖, 例3分析結(jié)果如圖4所示.

        圖4 例3的語(yǔ)義依存分析圖

        由圖4知, 候選關(guān)系詞依次為“不僅”“一面”“而且”“一面”, 與它們的支配詞之間的語(yǔ)義依存關(guān)系分別為“mRELA (關(guān)系標(biāo)記)”“LINK (系事關(guān)系)”“mRELA”“LINK”. 關(guān)系標(biāo)記是關(guān)系詞與其支配詞之間多見(jiàn)的語(yǔ)義依存關(guān)系, 而系事關(guān)系表示的是與事件相關(guān)聯(lián)的客體, 表示“一面”在例3中是方位名詞, 不是句子的關(guān)系詞. 因此, 例3句由“不僅”“而且”連接, 表示遞進(jìn)關(guān)系.

        2.3 融合語(yǔ)句特征的文本表示

        將單詞的文本表示分別與候選關(guān)系詞 (candidate relational words, CRW)、詞性 (part of speech, POS)、句法依存關(guān)系 (grammar dependency relation, GDR)、語(yǔ)義依存關(guān)系 (semantic dependency relation, SDR)排列組合得到的語(yǔ)句特征拼接作為復(fù)句的文本特征表示.具體表示如下, 對(duì)于一個(gè)長(zhǎng)為L(zhǎng)的, 含有n個(gè)單詞的句子, 第i個(gè)單詞文本表示為Wi(i=1,…, n), 其候選關(guān)系詞特征為CRWi, 詞性為POSi, 句法依存關(guān)系為GDRi,語(yǔ)義依存關(guān)系記為SDRi.

        候選關(guān)系詞特征表示如式(1)所示, flag為候選關(guān)系詞是否為關(guān)系詞的標(biāo)志, relation是候選關(guān)系詞所屬類(lèi)別的關(guān)系矩陣; 融合上述多個(gè)特征的第i個(gè)單詞的詞向量VecWi表示如式(2)所示:

        在例3中, “不僅”的詞向量為[0.3145324], 候選關(guān)系詞標(biāo)志為1, 候選關(guān)系詞屬于遞進(jìn)關(guān)系, relation是遞進(jìn)關(guān)系的特征矩陣, 詞性為“c”, 句法依存關(guān)系是“ADV”,語(yǔ)義依存關(guān)系為“mRELA”. “不僅”融合多個(gè)特征的文本特征表示為[0.3145324, 1, 遞進(jìn), 5, 4, 7].

        3 基于語(yǔ)句特征的BERT-FHAN模型

        為了研究語(yǔ)句特征對(duì)復(fù)句關(guān)系識(shí)別的影響, 本文利用BERT預(yù)訓(xùn)練模型動(dòng)態(tài)表示復(fù)句文本, 并在HAN神經(jīng)網(wǎng)絡(luò)中融入外部語(yǔ)言學(xué)知識(shí), 得到FHAN模型. 進(jìn)而構(gòu)建BERT-FHAN模型, 該模型結(jié)構(gòu)如圖5所示.

        圖5 BERT-FHAN模型結(jié)構(gòu)圖

        3.1 詞嵌入層

        詞嵌入層用機(jī)器能夠識(shí)別的數(shù)字向量表示文本,使用第2.3節(jié)提出的融合復(fù)句語(yǔ)句特征的文本表示方法, 獲得每個(gè)單詞的特征文本表示VecW1, VecW2, …,VecWn. 將它們依次輸入單詞注意力機(jī)制層, 幫助機(jī)器捕獲語(yǔ)義知識(shí).

        3.2 單詞注意力機(jī)制

        使用雙向GRU來(lái)獲取單詞的進(jìn)一步表示, GRU通過(guò)重置門(mén)、更新門(mén)模擬語(yǔ)言模型, 綜合單詞的上下文信息獲取到每個(gè)單詞的隱藏狀態(tài).復(fù)句中第i個(gè)子句的第j個(gè)單詞單詞的前向隱藏狀態(tài)后向隱藏狀態(tài)其計(jì)算公式為:

        通過(guò)單詞的前后向隱藏狀態(tài)得到單詞的編碼表示信息hij:

        在復(fù)句關(guān)系識(shí)別過(guò)程中, 不是所有單詞對(duì)任務(wù)都有影響, 因而引入注意力機(jī)制來(lái)提取對(duì)復(fù)句語(yǔ)義表示起作用的單詞的隱藏表示uij:

        計(jì)算與單詞隱藏表示ujt的相似性, 來(lái)判斷單詞的重要性, 通過(guò)Softmax得到單詞的權(quán)重αij:

        seni為uij和αij加權(quán)和, 它蘊(yùn)含了分句i的信息:

        3.3 句子注意力機(jī)制

        GRU獲取復(fù)句中第i個(gè)子句的前、后隱藏狀態(tài)

        通過(guò)子句的前后向隱藏狀態(tài)得到子句的編碼表示信息hi:

        通過(guò)注意力機(jī)制來(lái)獲取對(duì)復(fù)句語(yǔ)義表示起作用的子句隱藏表示信息ui, 將子句信息匯總得到復(fù)句的表示信息:

        通過(guò)計(jì)算與子句隱藏表示ui的相似性, 來(lái)判斷子句的重要性, 通過(guò)Softmax得到子句權(quán)重 αi, 最后獲得復(fù)句的信息表示com_sen:

        3.4 輸出層

        復(fù)句信息表示com_sen蘊(yùn)含了復(fù)句L的所有信息,通過(guò)Softmax激活函數(shù)得到復(fù)句類(lèi)別的分類(lèi)結(jié)果result:

        4 實(shí)驗(yàn)與分析

        4.1 數(shù)據(jù)集

        漢語(yǔ)復(fù)句語(yǔ)料庫(kù)(the corpus of Chinese compound sentence, CCCS)[26]是目前針對(duì)有標(biāo)復(fù)句研究的規(guī)模最大的語(yǔ)料庫(kù), 它共收錄了65萬(wàn)余條有標(biāo)復(fù)句, 數(shù)據(jù)主要源自《人民日?qǐng)?bào)》與《長(zhǎng)江日?qǐng)?bào)》. 我們?cè)贑CCS語(yǔ)料庫(kù)中添加隨機(jī)因子并排序后, 從中選擇了60 000條復(fù)句, 構(gòu)成一個(gè)新的用于標(biāo)注關(guān)系類(lèi)別的語(yǔ)料庫(kù), 簡(jiǎn)記為CCCSRA (the corpus of Chinese compound sentence with relation annotation). 在CCCSRA語(yǔ)料庫(kù)中, 各個(gè)類(lèi)別的數(shù)據(jù)分布如表1所示. 將CCCSRA按照14:3:3的比例劃分訓(xùn)練、測(cè)試、驗(yàn)證集.

        表1 CCCSRA語(yǔ)料庫(kù)數(shù)據(jù)分布表

        4.2 實(shí)驗(yàn)參數(shù)

        本文使用的是BERT預(yù)訓(xùn)練的768維詞向量, 訓(xùn)練過(guò)程中為了使模型不產(chǎn)生過(guò)擬合的情況, 采用了dropout策略[27], 在神經(jīng)網(wǎng)絡(luò)中取舍. 同時(shí), 實(shí)驗(yàn)借助L2正則項(xiàng)來(lái)提高模型的實(shí)際應(yīng)用能力. 模型單詞級(jí)、句子級(jí)注意力層的GRU的值設(shè)置為300. 詳細(xì)的參數(shù)如表2所示.

        表2 模型參數(shù)設(shè)置

        4.3 對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證BERT-FHAN模型的性能, 我們?cè)贑CCSRA數(shù)據(jù)集上設(shè)置了幾個(gè)基線(xiàn)模型: ① TextCNN模型[28],通過(guò)卷積層網(wǎng)絡(luò)來(lái)捕獲句子的文本特征, 依靠固定的filter窗口抽取特征進(jìn)行分類(lèi); ② 帶自注意力機(jī)制的Bi-LSTM模型[29], 通過(guò)雙向LSTM提取每個(gè)詞語(yǔ)上下文特征, 結(jié)合attention對(duì)每個(gè)詞語(yǔ)加權(quán)求和, 使用Softmax激活函數(shù)進(jìn)行輸出; ③ Transformer模型, 使用encoder模型, 通過(guò)位置編碼獲取單詞相對(duì)位置信息, 使用ReLU激活函數(shù)進(jìn)行輸出; ④ Inatt-MCNN[30], 對(duì)復(fù)句語(yǔ)義編碼, 添加注意力機(jī)制, 之后通過(guò)CNN獲得局部特征信息, 通過(guò)Softmax得到輸出結(jié)果; ⑤ HAN模型[31], 通過(guò)多層注意力機(jī)制獲得豐富的復(fù)句文本知識(shí)表示, 使用Softmax激活函數(shù)輸出類(lèi)別; ⑥ 結(jié)合BERT模型獲取復(fù)句的動(dòng)態(tài)詞向量表示, 與HAN模型結(jié)合, 得到BERTHAN模型.

        4.4 實(shí)驗(yàn)結(jié)果分析

        本文使用準(zhǔn)確率(Accuracy), 召回率(Recall), 精確率(Precision), F1值作為評(píng)估標(biāo)準(zhǔn). 從圖6可以看出,基線(xiàn)模型的準(zhǔn)確率在80%以上, 這證明了實(shí)驗(yàn)中使用的深度學(xué)習(xí)模型均能夠有效識(shí)別復(fù)句的關(guān)系類(lèi)別. 其中, BERT-HAN模型的性能優(yōu)于其他模型, 4項(xiàng)指標(biāo)的值最高.

        圖6 基線(xiàn)模型的實(shí)驗(yàn)結(jié)果

        為了進(jìn)一步研究句子特征和不同的文本表示對(duì)漢語(yǔ)復(fù)句關(guān)系識(shí)別的影響, 我們分別在HAN和BERTHAN模型中融入CRW、POS、GDR、SDR排列組合的15種組合特征, 得到FHAN和BERT-FHAN模型.FHAN和BERT-FHAN模型的實(shí)驗(yàn)準(zhǔn)確率如圖7所示. 在BERT-FHAN模型上的實(shí)驗(yàn)結(jié)果如表3所示.

        表3 BERT-FHAN融合不同語(yǔ)句特征的實(shí)驗(yàn)結(jié)果 (%)

        從圖7可知, 無(wú)論是Word2Vec還是BERT詞向量表示方法, 融合不同語(yǔ)句特征, 模型訓(xùn)練后的準(zhǔn)確率都在90%以上. BERT文本表示方法的準(zhǔn)確率在Word2-Vec基礎(chǔ)上有所提升. 這是因?yàn)锽ERT模型得到的詞向量是動(dòng)態(tài)的, 可以隨復(fù)句的上下文而變化, 提升了機(jī)器識(shí)別復(fù)句語(yǔ)義關(guān)系的能力.

        圖7 FHAN和BERT-FHAN的實(shí)驗(yàn)準(zhǔn)確率

        從表3的實(shí)驗(yàn)結(jié)果可知, 融合了語(yǔ)句特征的實(shí)驗(yàn)結(jié)果與無(wú)語(yǔ)句特征的結(jié)果相比均有所提升. 當(dāng)添加單個(gè)語(yǔ)句特征時(shí), 實(shí)驗(yàn)準(zhǔn)確度最高的是POS (詞性), 其次是SDR (語(yǔ)義依存關(guān)系), 然后是GDR (句法依存關(guān)系),最后是CRW (候選關(guān)系詞). 在所有特征組合中, “CRW+POS”組合特征的效果最好, 其準(zhǔn)確度可達(dá)96.97%. 其次是融合“CRW+POS+SDR”組合特征, 它的準(zhǔn)確率為96.88%. 組合多個(gè)句子特征的模型通常比單句特征模型結(jié)果更好, 這是因?yàn)槿诤蠁蝹€(gè)特征時(shí), 復(fù)句的復(fù)雜語(yǔ)義會(huì)在現(xiàn)有單個(gè)特征基礎(chǔ)上產(chǎn)生一些歧義特征. 而多個(gè)語(yǔ)句特征的組合可以有效地消除這些歧義, 從而更好地發(fā)現(xiàn)復(fù)句中的語(yǔ)義關(guān)聯(lián), 準(zhǔn)確地識(shí)別復(fù)句之間的關(guān)系.

        “CRW+POS+GDR+SDR”組合特征融合了所有語(yǔ)句特征, 但它的準(zhǔn)確率與最佳組合特征相比降低了0.6%.這是因?yàn)椴煌Z(yǔ)句特征相互干擾, 阻礙特征獨(dú)立表達(dá),影響模型自動(dòng)獲取復(fù)句的內(nèi)部特征; 除此之外, BERT動(dòng)態(tài)文本表示與外部特征以及模型都能捕獲句子的語(yǔ)義關(guān)聯(lián), 三者內(nèi)部共同作用, 結(jié)果卻適得其反. 在BERTFHAN模型的實(shí)驗(yàn)中, 以上所有特征組合的F1值的變化幅度很小, 表明此方法穩(wěn)定性較強(qiáng), 拋開(kāi)少數(shù)的誤差情況, BERT-FHAN模型能夠正確判別復(fù)句關(guān)系.

        在復(fù)句關(guān)系識(shí)別中, 一些關(guān)系詞對(duì)應(yīng)關(guān)系多種類(lèi)別會(huì)給復(fù)句關(guān)系識(shí)別帶來(lái)一定的困難. 經(jīng)統(tǒng)計(jì), CCCSRA語(yǔ)料庫(kù)中有10 722條復(fù)句的關(guān)系詞對(duì)應(yīng)多種關(guān)系類(lèi)別, 占比為17%. 由實(shí)驗(yàn)結(jié)果知, 融合不同語(yǔ)句特征的BERT-FHAN模型準(zhǔn)確率均在95%以上, 證實(shí)了本文模型對(duì)含有一對(duì)多關(guān)系詞的復(fù)句進(jìn)行類(lèi)別識(shí)別的有效性. 為進(jìn)一步驗(yàn)證模型在復(fù)句類(lèi)別識(shí)別中的兩個(gè)困難問(wèn)題上的適用性, 在融合“CRW+POS”特征的模型上,統(tǒng)計(jì)出測(cè)試集中含有跨類(lèi)別關(guān)系詞的復(fù)句總數(shù)及模型識(shí)別的正確率, 結(jié)果如表4所示. 模型在這些含有跨復(fù)句類(lèi)別的關(guān)系詞的復(fù)句上, 識(shí)別的正確率均超過(guò)87.5%, 統(tǒng)計(jì)結(jié)果表明文方法可適用在含有一對(duì)多關(guān)系詞的復(fù)句關(guān)系識(shí)別任務(wù)上. 同時(shí)將測(cè)試集部分結(jié)果輸出, 如表5所示. 語(yǔ)料中用縮寫(xiě)標(biāo)注復(fù)句的關(guān)系類(lèi)別,模型將測(cè)試集結(jié)果輸出, 數(shù)值按照三分系統(tǒng)二級(jí)類(lèi)的順序依次輸出, 0表示因果句, 1表示假設(shè)句, 2表示推斷句, 依次類(lèi)推. 由表4輸出結(jié)果可知, 本文使用的模型能夠正確輸出測(cè)試集中含有這些關(guān)系詞的有標(biāo)復(fù)句的關(guān)系類(lèi)別, 證明了本文方法的有效性.

        表4 測(cè)試集中跨類(lèi)別關(guān)系詞統(tǒng)計(jì)情況

        表5 測(cè)試集部分一對(duì)多關(guān)系詞結(jié)果

        5 總結(jié)

        本文提出BERT-FHAN模型, 進(jìn)行復(fù)句關(guān)系類(lèi)別識(shí)別. 實(shí)驗(yàn)結(jié)果表明, BERT-FHAN模型在復(fù)句關(guān)系識(shí)別任務(wù)上相對(duì)于多個(gè)深度學(xué)習(xí)模型, 表現(xiàn)較好. 融入15種不同語(yǔ)句特征組合時(shí), 實(shí)驗(yàn)結(jié)果較基線(xiàn)模型均有所提升, 其中, 融合候選關(guān)系詞、詞性語(yǔ)句特征得到的準(zhǔn)確率最高. 充分證明了方法的有效性與適用性. 同時(shí),發(fā)掘出對(duì)關(guān)系類(lèi)別有顯著影響的語(yǔ)句特征, 彌補(bǔ)了深度學(xué)習(xí)模型對(duì)特征利用的不可解釋的不足.

        在今后的工作中, 我們將進(jìn)一步挖掘復(fù)句語(yǔ)句特征,研究在深度學(xué)習(xí)模型中更有效利用語(yǔ)言學(xué)研究的成果.目前, 無(wú)標(biāo)復(fù)句關(guān)系識(shí)別的正確率還很低, 我們將探索借助有標(biāo)復(fù)句關(guān)系識(shí)別來(lái)進(jìn)行無(wú)標(biāo)復(fù)句關(guān)系識(shí)別的方法.

        猜你喜歡
        復(fù)句句法語(yǔ)句
        連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成
        句法與句意(外一篇)
        漢語(yǔ)復(fù)句學(xué)說(shuō)的源流
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        韓國(guó)語(yǔ)復(fù)句結(jié)構(gòu)的二分說(shuō)
        重點(diǎn):語(yǔ)句銜接
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        精彩語(yǔ)句
        復(fù)句內(nèi)部不應(yīng)當(dāng)用句號(hào)
        日韩一区中文字幕在线| 色一情一区二| 国产成人户外露出视频在线| 亚洲国产综合性感三级自拍 | 无码成人一区二区| 在线播放国产一区二区三区| 国产呦系列视频网站在线观看| 国产精品国产传播国产三级| 国产高清av在线播放| 成av人片一区二区三区久久| 国产av一区二区三区区别| 水蜜桃在线观看一区二区国产| 国产精品无码一区二区三区在| 无码人妻精品一区二区三区下载| 久久久国产精品免费无卡顿| 国产久久久自拍视频在线观看| 在线精品亚洲一区二区动态图| 丰满人妻在公车被猛烈进入电影| 日本加勒比东京热日韩| 成人免费毛片立即播放| 国产精品国产三级国产av品爱网 | 婷婷色精品一区二区激情 | 国产在线精品欧美日韩电影| a午夜国产一级黄片| 一区二区午夜视频在线观看| 少妇性俱乐部纵欲狂欢电影| 欧洲熟妇乱xxxxx大屁股7| 强d乱码中文字幕熟女1000部| 国产91久久麻豆黄片| 久久久精品人妻无码专区不卡| 天堂中文资源在线地址| 91麻豆精品久久久影院| 日本动漫瀑乳h动漫啪啪免费| 亚洲国产区男人本色| 久久久亚洲精品一区二区| 漂亮人妻被强了完整版| 男女下面进入的视频| 国产思思久99久精品| 国产女优一区在线观看| 欧美性猛交xxxx富婆| 无码一区二区三区在线在看|