亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多通道CNN 與BiGRU 的字詞級文本錯(cuò)誤檢測模型

        2022-09-15 06:58:58郭可翔王衡軍白祉旭
        計(jì)算機(jī)工程 2022年9期
        關(guān)鍵詞:特征文本實(shí)驗(yàn)

        郭可翔,王衡軍,白祉旭

        (1.信息工程大學(xué) 密碼工程學(xué)院,鄭州 450001;2.中國人民解放軍96714 部隊(duì),福建 永安 366001)

        0 概述

        隨著社會(huì)信息化水平的不斷提升,無紙化辦公成為新趨勢,然而電子文本數(shù)量急劇增多,不可避免地會(huì)出現(xiàn)各種各樣的文本錯(cuò)誤,機(jī)關(guān)公文、學(xué)術(shù)論文、法律文書等重要文本錯(cuò)誤將影響各類文書的權(quán)威性和公信力。因此,如何有效減少文本錯(cuò)誤,確保文本正確性和可靠性成為當(dāng)前的研究熱點(diǎn)。

        文本校對是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的重要分支,是文本撰寫工作中不可或缺的關(guān)鍵環(huán)節(jié),主要利用NLP 技術(shù),按照一定的規(guī)則和要求,識別并糾正文本中所包含的錯(cuò)誤。文本校對一般由檢錯(cuò)和糾錯(cuò)兩部分組成,正確糾錯(cuò)離不開檢錯(cuò),精準(zhǔn)高效的檢錯(cuò)是校對工作的基礎(chǔ)。通常地,文本檢錯(cuò)的輸入為可能包含錯(cuò)誤的待檢錯(cuò)句子,輸出為T(正確文本)或F(含字詞錯(cuò)誤文本)二類檢測結(jié)果。

        與英文文本相比,中文文本不存在非字錯(cuò)誤,常見錯(cuò)誤可分為字詞錯(cuò)誤、語法錯(cuò)誤和語義錯(cuò)誤3 類。詞是自然語言中能夠獨(dú)立運(yùn)用的最小單位,也是自然語言處理的基本單位。字詞錯(cuò)誤在文本中出現(xiàn)頻率相對較高,對文本檢錯(cuò)而言,字詞錯(cuò)誤檢測十分重要。字詞錯(cuò)誤包括多字、缺字、別字、易位等錯(cuò)誤。

        傳統(tǒng)的文本檢錯(cuò)采用人工逐字逐句校對的方式,不僅考驗(yàn)審校者的語言學(xué)知識水平,而且費(fèi)時(shí)費(fèi)力、效率不高。國內(nèi)對中文文本自動(dòng)檢錯(cuò)的研究始于20 世紀(jì)90 年代初且發(fā)展迅速,主要采用基于規(guī)則、基于統(tǒng)計(jì)和基于傳統(tǒng)機(jī)器學(xué)習(xí)等方法。近年來,深度學(xué)習(xí)技術(shù)因強(qiáng)大的特征學(xué)習(xí)能力被廣泛應(yīng)用于自然語言處理領(lǐng)域,尤其長短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[1]在中文分詞、命名實(shí)體識別[2-3]、語法分析[4]等應(yīng)用上取得較好成果,因此已有一些學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用于中文文本校對任務(wù)。

        本文以中文文本字詞錯(cuò)誤為檢測對象,提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)的中文文本字詞錯(cuò)誤檢測模型,主要包括詞向量層、多通道CNN 層、BiGRU 層和Softmax 輸出層。

        1 相關(guān)工作

        1.1 傳統(tǒng)的文本檢錯(cuò)方法

        傳統(tǒng)的文本檢錯(cuò)方法包括基于規(guī)則的檢錯(cuò)方法、基于統(tǒng)計(jì)的檢錯(cuò)方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢錯(cuò)方法。

        基于規(guī)則的檢錯(cuò)方法[5-6]主要利用語言學(xué)規(guī)則來偵測文本錯(cuò)誤,規(guī)則越豐富,檢錯(cuò)效果越好。該方法通俗易懂、可解釋性強(qiáng)、精確度高,但文本錯(cuò)誤千變?nèi)f化、層出不窮,規(guī)則難以覆蓋所有錯(cuò)誤類型,限制了檢錯(cuò)的效果。

        基于統(tǒng)計(jì)的檢錯(cuò)方法[7-9]主要利用統(tǒng)計(jì)規(guī)律來檢測文本錯(cuò)誤,很大程度上依賴訓(xùn)練語料的規(guī)模和質(zhì)量,規(guī)模越大,質(zhì)量越高,檢錯(cuò)效果越好,但容易出現(xiàn)數(shù)據(jù)稀疏問題,需要使用各種平滑技術(shù)來解決,且準(zhǔn)確率有待提升。

        基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢錯(cuò)方法主要利用大規(guī)模人工標(biāo)注的語料樣本建立數(shù)學(xué)模型,通過調(diào)試模型的參數(shù)使其達(dá)到最優(yōu),其性能好壞取決于數(shù)學(xué)模型本身、訓(xùn)練樣本規(guī)模的大小和模型參數(shù)的調(diào)試情況[10]。CHENG 等[11]提出一種基于條件隨機(jī)場(Conditional Random Field,CRF)的文本亂序錯(cuò)誤診斷方法。WU 等[12]基于CRF 模型訓(xùn)練一個(gè)線性標(biāo)記器,構(gòu)建中文語法錯(cuò)誤診斷系統(tǒng)。CHEN 等[13]利用統(tǒng)計(jì)的方法在大規(guī)模語料庫上收集搭配信息,并將搭配特征集成到CRF 模型中,得到了更精確的文本檢錯(cuò)模型。卓利艷[14]提出一種基于CRF 和n-gram散串技術(shù)的聯(lián)合檢錯(cuò)方法,該方法首先標(biāo)注數(shù)據(jù)、訓(xùn)練模型,利用訓(xùn)練好的CRF 檢錯(cuò)模型判斷錯(cuò)誤位置及錯(cuò)誤類型,然后在分詞的基礎(chǔ)上得到散串,利用n-gram 模型確認(rèn)錯(cuò)誤位置。傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理結(jié)構(gòu)復(fù)雜的數(shù)據(jù)泛化問題時(shí)性能較差,且只能人工提取到淺層特征。

        1.2 基于深度學(xué)習(xí)的文本檢錯(cuò)方法

        目前,運(yùn)用深度學(xué)習(xí)技術(shù)處理中文文本檢錯(cuò)問題的研究仍處于起步階段。但神經(jīng)網(wǎng)絡(luò)能通過訓(xùn)練模型參數(shù)實(shí)現(xiàn)特征自學(xué)習(xí),學(xué)習(xí)到文本抽象的語義特征,使模型具有良好的泛化能力,因此基于深度學(xué)習(xí)的中文文本檢錯(cuò)方法具有廣泛的研究前景。為提高文本檢錯(cuò)準(zhǔn)確率:ZHENG 等[15]提出一種CRF 和LSTM 相結(jié)合的模型,將CRF 的輸出作為LSTM 輸入層的離散特征;YANG 等[16]在LSTM 的輸出層后接一個(gè)CRF 層,確保預(yù)測標(biāo)注序列的合法性,提高了句子標(biāo)注的準(zhǔn)確性;龔永罡等[17]在Seq2Seq 模型的基礎(chǔ)上,加入BiLSTM 單元和注意力機(jī)制,有效提升了檢錯(cuò)水平。針對表達(dá)冗余、詞匯誤用和內(nèi)容缺失等問題:葉俊民等[18]提出一種基于層次化修正框架的文本檢錯(cuò)糾錯(cuò)模型,利用基于預(yù)訓(xùn)練模型獲得的文本語義表示來識別錯(cuò)誤的位置,根據(jù)層次化修正框架計(jì)算精化的修正操作并修正錯(cuò)誤;王辰成等[19]將語法檢錯(cuò)糾錯(cuò)任務(wù)轉(zhuǎn)換成翻譯任務(wù),提出一種基于Transformer和多頭注意力機(jī)制的糾錯(cuò)模型,利用殘差網(wǎng)絡(luò)動(dòng)態(tài)連接不同神經(jīng)模塊的輸出,使模型能更好地捕獲語義信息;段建勇等[20]改進(jìn)了Transformer模型,在自注意力中加入高斯分布偏置項(xiàng),加強(qiáng)了模型對局部信息的關(guān)注及對錯(cuò)誤字詞與前后文關(guān)系的提取,同時(shí)采用ON_LSTM 結(jié)構(gòu),提升了模型獲取語法錯(cuò)誤結(jié)構(gòu)信息的能力;曹陽等[21]基于Transformer 網(wǎng)絡(luò)提出一種中文單字詞錯(cuò)誤偵測方法,利用原始語料、漢字混淆集自動(dòng)構(gòu)建單字詞錯(cuò)誤訓(xùn)練語料并使用不同大小的移動(dòng)窗口診斷單字詞錯(cuò)誤。

        2 基礎(chǔ)模型

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        CNN 在機(jī)器視覺、圖像處理領(lǐng)域取得了巨大成功,近年來也被廣泛應(yīng)用于NLP 領(lǐng)域且表現(xiàn)出色。CNN主要由輸入層、卷積層、池化層、全連接層和輸出層等組成,其中卷積層和池化層是核心部分,結(jié)構(gòu)如圖1所示。

        圖1 CNN 卷積層和池化層結(jié)構(gòu)Fig.1 Structure of CNN convolutional layer and pooling layer

        在NLP 任務(wù)中,CNN 的輸入層主要為文本的詞向量表示,如式(1)所示:

        其中:Α為矩陣表示符;n為句子中詞向量的個(gè)數(shù);m為詞向量的維度。

        卷積層主要作用是基于卷積核對輸入向量進(jìn)行卷積操作,提取局部特征f,利用其稀疏連接和權(quán)值共享的特性,降低輸入數(shù)據(jù)的維度,防止出現(xiàn)過擬合。卷積操作如式(2)所示:

        其中:x為詞向量矩陣;W為權(quán)重矩陣,即卷積核矩陣;b為偏置量;φC為卷積核激活函數(shù)ReLU;*為卷積操作。以圖2 為例,卷積操作如式(3)~式(6)所示:

        圖2 卷積操作Fig.2 Convolution operation

        池化層主要作用是進(jìn)行下采樣,篩選出卷積操作后最重要的特征,減小特征規(guī)模,提高特征魯棒性。常見的池化策略有最大池化(max pooling)和全局平均池化(global average pooling)。池化后的輸出作為全連接層的輸入,全連接層相當(dāng)于前饋神經(jīng)網(wǎng)絡(luò)的隱藏層,通常在CNN 的尾部進(jìn)行重新擬合,減少特征信息的損失。輸出層主要用于輸出結(jié)果。

        考慮到CNN 強(qiáng)大的局部特征提取能力,本文以CNN 模型為基礎(chǔ),研究字詞級文本錯(cuò)誤檢測模型。在文本檢錯(cuò)任務(wù)中,CNN 模型可以提取句子中類似n-gram 的關(guān)鍵局部信息。

        2.2 門控循環(huán)單元

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是深度學(xué)習(xí)技術(shù)在自然語言處理任務(wù)中的重要應(yīng)用,t時(shí)刻隱藏層狀態(tài)的計(jì)算依賴于t時(shí)刻的輸入和t-1 時(shí)刻隱藏層的輸出狀態(tài),因此具有一定的記憶功能,能夠提取到上下文的文本特征,處理序列識別建模問題時(shí)優(yōu)勢明顯。然而,RNN 在反向傳播前面時(shí)刻的參數(shù)計(jì)算過程中,隨著參數(shù)W初始化為小于1的值,容易出現(xiàn)梯度消散的問題,從而導(dǎo)致訓(xùn)練的停滯。通常,RNN 只能記憶5~10 個(gè)時(shí)間步的信息,難以捕獲序列中長時(shí)間和長距離的依賴關(guān)系。

        在RNN 模型的基礎(chǔ)上,HOCHREITER 等[1]提出長短時(shí)記憶網(wǎng)絡(luò),通過使用輸入門、輸出門和遺忘門3 個(gè)門結(jié)構(gòu),LSTM 在記憶重要上下文信息的同時(shí),遺忘無用的信息,在一定程度上解決了RNN 長期記憶和反向傳播中梯度消散等問題。然而,LSTM 訓(xùn)練時(shí)間較長、參數(shù)較多且計(jì)算復(fù)雜。CHO 等[22]提出門控循環(huán)單元(Gated Recurrent Unit,GRU),GRU 是長短時(shí)記憶網(wǎng)絡(luò)模型的一種變體模型,結(jié)構(gòu)如圖3所示。

        圖3 GRU 結(jié)構(gòu)Fig.3 Structure of GRU

        對于任意時(shí)刻t,假定此刻GRU 的隱藏層的輸入為xt、輸出為ht,GRU 的計(jì)算過程如式(7)~式(10)所示:

        其中:rt、ut和分別表示t時(shí)刻的重置門、更新門和候選隱藏層的狀態(tài);ht-1表示t-1 時(shí)刻的隱藏層的輸出;Wr、Wu、Wh、br、bu、bh分別表示重置門的權(quán)重矩陣、更新門的權(quán)重矩陣、候選隱藏層的權(quán)重矩陣、重置門的偏置量、更新門的偏置量、候選隱藏層的偏置量;φ和σ分別為tanh 和Sigmoid 激活函數(shù);[]表示向量拼接操作;?為哈達(dá)瑪積,表示向量元素相乘操作。

        GRU 利用2 個(gè)門單元(重置門、更新門)代替LSTM 中的3 個(gè)門單元(輸入門、輸出門和遺忘門),實(shí)現(xiàn)對上下文信息的有效篩選與過濾。由式(7)、式(9)可知,重置門主要負(fù)責(zé)確定t-1 時(shí)刻隱藏單元的狀態(tài)ht-1在t時(shí)刻候選狀態(tài)中被重置的程度,重置門的值越大,則被重置的程度越高。由式(8)、式(10)可知,更新門主要負(fù)責(zé)確定t-1 時(shí)刻隱藏單元的狀態(tài)ht-1、t時(shí)刻候選狀態(tài)對當(dāng)前狀態(tài)ht的影響程度,更新門的值越大,則前一時(shí)刻隱藏層狀態(tài)被遺忘的程度越高,當(dāng)前候選狀態(tài)被記憶的程度也越高。

        GRU 具備了LSTM 的優(yōu)點(diǎn)且只有兩個(gè)門單元,模型結(jié)構(gòu)更簡單、參數(shù)更少、收斂性更好,很大程度上縮短了模型訓(xùn)練時(shí)間,提高了訓(xùn)練效率。在經(jīng)典的GRU 模型中,狀態(tài)是根據(jù)序列由前向后單向傳輸?shù)?,忽略了后序狀態(tài)對前序狀態(tài)的影響。BiGRU 是GRU 的一個(gè)變體模型,既能提取前文特征,又能捕捉后文信息,彌補(bǔ)了單向GRU 的不足,提升了模型的效果,結(jié)構(gòu)如圖4 所示。在圖4 中,xi(i=1,2,…)表示當(dāng)前的輸入,表示經(jīng)過GRU 輸出的正向隱藏狀態(tài),表示經(jīng)過GRU 輸出的反向隱藏狀態(tài),hi表示正向和反向拼接后的隱藏狀態(tài)。

        圖4 BiGRU 結(jié)構(gòu)Fig.4 Structure of BiGRU

        在通常情況下,中文文本中的字詞錯(cuò)誤與上下文均有關(guān)。因此,綜合考慮硬件的計(jì)算能力、時(shí)間成本以及對上下文特征提取的需求,本文以BiGRU 模型為基礎(chǔ),研究字詞級文本錯(cuò)誤檢測模型。在文本檢錯(cuò)任務(wù)中,BiGRU 模型可以捕獲變長且雙向的n-gram 信息。

        3 基于多通道CNN 與BiGRU 的文本錯(cuò)誤檢測模型

        本文提出一種基于多通道CNN 與BiGRU 結(jié)構(gòu)的字詞級文本錯(cuò)誤檢測模型,既能充分發(fā)揮CNN 提取待檢錯(cuò)文本局部特征的優(yōu)勢,又能利用BiGRU 深入學(xué)習(xí)待檢錯(cuò)文本的上下文語義信息及長時(shí)依賴關(guān)系。該模型主要由詞向量層、多通道CNN 層、BiGRU 層和Softmax 輸出層等組成,整體結(jié)構(gòu)如圖5所示。采取無監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型,利用帶標(biāo)簽類的語料訓(xùn)練基于多通道CNN 與BiGRU 的字詞錯(cuò)誤檢測模型,使其自動(dòng)學(xué)習(xí)模型中的各參數(shù),采用訓(xùn)練得到的檢錯(cuò)模型對待檢錯(cuò)語句進(jìn)行分類,判斷是否存在字詞錯(cuò)誤并輸出結(jié)果。

        圖5 基于多通道CNN 與BiGRU 的字詞級文本錯(cuò)誤檢測模型結(jié)構(gòu)Fig.5 Structure of the word-level text error detection model based on multi-channel CNN and BiGRU

        3.1 詞向量層

        詞向量層主要是將輸入的待檢錯(cuò)文本向量化。詞向量是詞匯的分布式表示,關(guān)鍵在于將詞匯轉(zhuǎn)化為相對低維的連續(xù)的稠密實(shí)數(shù)向量,在深度學(xué)習(xí)技術(shù)應(yīng)用于NLP 領(lǐng)域扮演著重要的角色。詞向量之間的距離表征了詞語間的相似性,距離越近,則相似程度越高。

        給定一個(gè)含詞量為n的句子X=x1,x2,…,xn,xi(i=1,2,…,n)為句子中的第i個(gè)詞語,經(jīng)過詞向量層的映射后,則句子X可表示為由n個(gè)詞向量拼接而成的二維矩陣,如式(11)所示:

        其中:ei表示句子中xi對應(yīng)的詞向量。

        3.2 多通道CNN 層

        多通道CNN 層主要利用多通道卷積神經(jīng)網(wǎng)絡(luò)有效提取文本的局部特征,輸入為預(yù)訓(xùn)練好的詞向量。選擇不同大小的卷積核對輸入的詞向量進(jìn)行卷積操作,可以提取到廣度不同的上下文信息,即不同粒度的特征信息[23],從而達(dá)到提取文本局部特征的目的。

        使用不同尺寸的卷積核進(jìn)行卷積操作,從而得到文本的局部特征,如圖6 所示。令第i個(gè)通道所使用的卷積核為k,如式(12)所示:

        圖6 多通道卷積操作Fig.6 Multi-channel convolution operation

        經(jīng)該卷積核k卷積操作后的特征fij的計(jì)算如式(13)所示:

        其中:Xi:i+n-1∈Αn×m表示n個(gè)詞向量組成的卷積核動(dòng)態(tài)處理窗口。當(dāng)窗口從X1:h動(dòng)態(tài)移動(dòng)至Xn-h+1:n時(shí),{X1:h,X2:h+1,…,Xn-h+1:n}所對應(yīng)的第i個(gè)通道得到的特征序列如式(14)所示:

        多通道CNN 提取到的局部特征進(jìn)行最大池化操作后生成固定維度的特征序列,再將多個(gè)固定維度的特征序列拼接形成融合特征序列f,令通道個(gè)數(shù)為u,則f可表示如下:

        3.3 BiGRU 層

        BiGRU 層主要利用雙向門控循環(huán)單元挖掘文本的上下文信息、解決長時(shí)依賴問題,輸入為多通道CNN 層經(jīng)卷積操作提取的特征序列的融合。權(quán)值共享的BiGRU 將粒度不同的特征信息映射到相同的向量空間內(nèi)。

        對于給定的n維輸入(x1,x2,…,xn),t時(shí)刻BiGRU的隱藏層輸出為ht,計(jì)算過程如式(16)~式(18)所示:

        當(dāng)BiGRU 模型參數(shù)過多、訓(xùn)練樣本較少時(shí),容易產(chǎn)生過擬合現(xiàn)象。為防止訓(xùn)練過度,BiGRU 層采用dropout 機(jī)制,隨機(jī)丟棄一些隱藏層節(jié)點(diǎn)使其暫時(shí)不參與模型訓(xùn)練,迫使BiGRU 網(wǎng)絡(luò)在訓(xùn)練過程中學(xué)習(xí)魯棒性更強(qiáng)的特征,提升模型的泛化能力。

        3.4 Softmax 輸出層

        Softmax 輸出層主要利用Softmax 函數(shù)對BiGRU層的輸出進(jìn)行歸一化處理,提升模型的精度和收斂速度,最終得到文本檢錯(cuò)結(jié)果,如式(19)所示:

        其中:WS為Softmax 層的權(quán)重矩陣;bS為Softmax 層的偏置量。采用最小化交叉熵?fù)p失函數(shù)(crossentropy loss function)的方式來求解和評估模型,同時(shí)引入L2 正則項(xiàng),使模型參數(shù)更少、結(jié)構(gòu)更簡單,防止過擬合,損失函數(shù)的計(jì)算如式(20)所示:

        其中:i為待檢錯(cuò)文本的句子索引;j為待檢錯(cuò)文本類別的索引T(正確文本)或F(含字詞錯(cuò)誤文本);M為訓(xùn)練數(shù)據(jù)集的大?。籒為檢測結(jié)果的類別數(shù)量;yi為待檢錯(cuò)文本實(shí)際所屬的類別,為待檢錯(cuò)文本經(jīng)模型預(yù)測的類別;λ||ω||2為L2 正則化項(xiàng),λ為正則化參數(shù),ω為模型參數(shù)。

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境、數(shù)據(jù)集與評價(jià)指標(biāo)

        實(shí)驗(yàn)環(huán)境為:CPU 為Intel Core i7-7800X,GPU 為GeForce RTX 2080Ti,內(nèi)存為DDR4 16 GB,操作系統(tǒng)為Windows10(64 位),深度學(xué)習(xí)框架為tensorflow1.14。

        實(shí)驗(yàn)在公開數(shù)據(jù)集SIGHAN2014、SIGHAN2015上進(jìn)行,采用SIGHAN2014、SIGHAN2015 中文拼寫檢查任務(wù)的訓(xùn)練集作為實(shí)驗(yàn)訓(xùn)練語料,SIGHAN2014 中文拼寫檢查任務(wù)的測試集作為實(shí)驗(yàn)測試語料。訓(xùn)練語料包括9 701 個(gè)段落(共計(jì)8 325 個(gè)字詞錯(cuò)誤),其中SIGHAN2014 訓(xùn)練集中有6 527 個(gè)段落(共計(jì)5 224 個(gè)字詞錯(cuò)誤),SIGHAN2015 訓(xùn)練集中有3 174 個(gè)段落(共計(jì)3 101 個(gè)字詞錯(cuò)誤)。測試語料包括1 062 個(gè)段落,段落文本的平均長度為50,其中50%文本中無字詞錯(cuò)誤,50%文本中至少含有1 個(gè)字詞錯(cuò)誤(共計(jì)792 個(gè)字詞錯(cuò)誤)。如果句子中包含至少1 個(gè)字詞錯(cuò)誤,則該句子為含字詞錯(cuò)誤文本且被標(biāo)記為F,否則為正確文本且被標(biāo)記為T。

        實(shí)驗(yàn)采用檢錯(cuò)的準(zhǔn)確率(P)、召回率(R)、調(diào)和平均值(F1)作為文本檢錯(cuò)模型性能好壞的評價(jià)指標(biāo),其中F1值為P和R的調(diào)和平均值,計(jì)算如式(21)所示:

        4.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理與參數(shù)設(shè)置

        在實(shí)驗(yàn)開始前需要對實(shí)驗(yàn)語料進(jìn)行數(shù)據(jù)預(yù)處理。在NLP 任務(wù)中,預(yù)訓(xùn)練詞向量的效果影響著文本校對、機(jī)器翻譯、文本分類等NLP 下游任務(wù)模型性能的好壞。本文使用Word2vec 詞向量工具[24],基于大規(guī)模中文維基百科語料訓(xùn)練skip-gram 模型??紤]到詞的數(shù)量,將中文文本詞向量的維度設(shè)置為300。在訓(xùn)練詞向量的過程中,詞出現(xiàn)次數(shù)的閾值設(shè)置為5。若一個(gè)詞出現(xiàn)次數(shù)大于5,則將該詞添加于詞向量詞典;反之舍棄。對于未登錄詞,隨機(jī)初始化其向量表示。考慮到實(shí)驗(yàn)語料中文本的平均長度為50,將句子長度的閾值設(shè)置為50。當(dāng)句子長度小于50 時(shí),進(jìn)行補(bǔ)零操作;反之進(jìn)行截?cái)嗖僮?。對于?shí)驗(yàn)語料中待檢錯(cuò)文本,需要先使用jieba 分詞工具進(jìn)行中文分詞。

        目前,深度神經(jīng)網(wǎng)絡(luò)模型中使用較多、效果較好的優(yōu)化算法是Adam[25],其引入動(dòng)量和自適應(yīng)性學(xué)習(xí)率使得網(wǎng)絡(luò)更快收斂。因此,本文實(shí)驗(yàn)采用Adam 作為模型的優(yōu)化器。

        本文多通道CNN 所用的卷積核寬度分別為3、4、5,尺寸分別為3×300、4×300、5×300,數(shù)量均為128;BiGRU 隱藏層數(shù)分別1、2、3、4,隱藏層節(jié)點(diǎn)數(shù)為128;同時(shí)采用L2 正則化和dropout 策略來避免過擬合現(xiàn)象的發(fā)生。經(jīng)過多次實(shí)驗(yàn)優(yōu)化參數(shù),本文模型的實(shí)驗(yàn)超參數(shù)設(shè)置如表1 所示。

        表1 實(shí)驗(yàn)超參數(shù)設(shè)置Table 1 Setting of experimental hyperparameters

        4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        本文共設(shè)計(jì)4 個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)1、實(shí)驗(yàn)2、實(shí)驗(yàn)3 利用控制變量法針對影響基于多通道CNN 與BiGRU 字詞錯(cuò)誤檢測模型(簡稱為CNN-BiGRU 模型)性能的多個(gè)重要參數(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,使模型性能達(dá)到最優(yōu)。在實(shí)驗(yàn)1、實(shí)驗(yàn)2、實(shí)驗(yàn)3 的基礎(chǔ)上,設(shè)計(jì)實(shí)驗(yàn)4,將性能最優(yōu)的CNN-BiGRU 模型與基于RNN、LSTM、GRU、BiGRU的文本檢錯(cuò)模型進(jìn)行比較,從而驗(yàn)證CNN-BiGRU 模型的有效性和優(yōu)越性。

        實(shí)驗(yàn)1驗(yàn)證卷積核通道數(shù)和寬度對CNN-BiGRU模型性能的影響。在BiGRU 隱藏層數(shù)為3、dropout 丟棄率為0.2 的情況下,分別選取單通道卷積核寬度為3、4、5 和多通道卷積核寬度為(3,4,5)進(jìn)行實(shí)驗(yàn),結(jié)果如表2 所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

        表2 CNN-BiGRU模型在不同卷積核寬度下的測試結(jié)果Table 2 Test results of CNN-BiGRU model with different convolutional kernel widths

        由表2 可以得出,利用不同通道數(shù)和寬度的卷積核對文本進(jìn)行卷積操作,均能有效挖掘文本的局部特征。多通道CNN-BiGRU 模型效果優(yōu)于單通道CNN-BiGRU 模型效果。在單通道CNN-BiGRU 模型中,隨著卷積核寬度的增大,模型性能越來越好。

        實(shí)驗(yàn)2驗(yàn)證BiGRU 隱藏層數(shù)對CNN-BiGRU 模型性能的影響。在dropout 丟棄率為0.2 的情況下,分別選取BiGRU 隱藏層數(shù)為1、2、3、4 進(jìn)行實(shí)驗(yàn),結(jié)果如表3 所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

        表3 CNN-BiGRU 模型在不同BiGRU 隱藏層數(shù)下的測試結(jié)果Table 3 Test results of CNN-BiGRU model with different BiGRU hidden layers %

        由表3 可以得出,隨著BiGRU 隱藏層數(shù)的增加,CNN-BiGRU 模型的網(wǎng)絡(luò)不斷加深,表現(xiàn)越來越優(yōu),說明適當(dāng)?shù)卦黾与[藏層數(shù)能夠豐富網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)學(xué)習(xí)能力,從而改善檢錯(cuò)模型效果。當(dāng)隱藏層數(shù)為3 時(shí),CNN-BiGRU 模型的精度達(dá)到最高。但隨著隱藏層數(shù)的繼續(xù)增加,模型參數(shù)會(huì)大幅增多,模型復(fù)雜度也急劇加大,模型性能有所下降,由此說明隱藏層數(shù)也不宜過多,否則容易出現(xiàn)過擬合。

        實(shí)驗(yàn)3驗(yàn)證dropout 機(jī)制的有效性及dropout丟棄率對CNN-BiGRU 模型性能的影響。在BiGRU隱藏層數(shù)為3 的情況下,分別選取dropout 丟棄率為0.0、0.2、0.5 進(jìn)行實(shí)驗(yàn),測試在每一輪迭代后檢錯(cuò)F1值的變化情況,結(jié)果如圖7 所示。

        圖7 CNN-BiGRU 模型在不同丟棄率下的迭代后檢錯(cuò)F1值Fig.7 Error detection F1 value of CNN-BiGRU model after iteration with different drop rates

        由圖7 可以得出,dropout 機(jī)制對于防止過擬合、提升檢錯(cuò)模型的性能起著重要作用。在丟棄率為0.0 即不采用dropout 機(jī)制的情況下,前幾輪迭代中CNN-BiGRU 模型性能較好,但當(dāng)?shù)啍?shù)逐漸增大,檢錯(cuò)F1值趨于穩(wěn)定時(shí),丟棄率為0.2 的模型性能優(yōu)于不采用dropout 機(jī)制的模型性能。在丟棄率選取為0.5 的情況下,CNN-BiGRU 模型性能較差,因此,采用dropout 機(jī)制時(shí)丟棄率不宜選取過大,否則容易丟棄重要特征導(dǎo)致模型性能下降。

        實(shí)驗(yàn)4驗(yàn)證CNN-BiGRU 模型的有效性。在BiGRU 隱藏層數(shù)為3、dropout 丟棄率為0.2 的情況下,對基于RNN、LSTM、GRU、BiGRU、CNN-BiGRU 的文本檢錯(cuò)模型進(jìn)行實(shí)驗(yàn),結(jié)果如表4 所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

        表4 不同文本檢錯(cuò)模型的測試結(jié)果Table 4 Test results of different text error detection models %

        從表4 實(shí)驗(yàn)結(jié)果可以看出:

        1)基于RNN、LSTM、GRU 的文本檢錯(cuò)模型均能提取文本序列間的長時(shí)依賴關(guān)系,基于LSTM、GRU的文本檢錯(cuò)模型效果相當(dāng),明顯優(yōu)于基于RNN 的文本檢錯(cuò)模型,但基于GRU 的文本檢錯(cuò)模型結(jié)構(gòu)簡單,更具優(yōu)勢。

        2)相較于GRU 的文本檢錯(cuò)模型,基于BiGRU 的文本檢錯(cuò)模型能夠充分提取上下文特征信息,彌補(bǔ)了單向GRU 的不足,檢錯(cuò)F1值提升了0.77 個(gè)百分點(diǎn)。

        3)相較于BiGRU,本文基于多通道CNN 與BiGRU 的文本檢錯(cuò)模型能夠?qū)W習(xí)文本序列間的局部特征信息,檢錯(cuò)F1值提升了1.65 個(gè)百分點(diǎn)。

        目前公開的字詞錯(cuò)誤檢測的語料較少,實(shí)驗(yàn)主要依賴于SIGHAN2014、SIGHAN2015 中文拼寫檢查任務(wù)中的訓(xùn)練集,且訓(xùn)練語料規(guī)模不大。然而,字詞錯(cuò)誤檢測模型對訓(xùn)練語料的規(guī)模要求較高,制約了基于多通道CNN 與BiGRU 的字詞級文本錯(cuò)誤檢測模型在測試語料中預(yù)測準(zhǔn)確率、召回率的進(jìn)一步提升。例如,“那一天我會(huì)穿牛仔褲和紅色的外套;頭上會(huì)帶著藍(lán)色的帽子?!焙汀拔乙蚕朐囋嚳茨且患业脑侥喜耍痪W(wǎng)路上說很多人喜歡那一家餐廳?!本鶠楹凶衷~錯(cuò)誤的文本,其中,“帶著”應(yīng)改為“戴著”,“網(wǎng)路”應(yīng)改為“網(wǎng)絡(luò)”,該文本應(yīng)被標(biāo)記為“F”卻被錯(cuò)誤標(biāo)記為“T”。

        5 結(jié)束語

        本文提出一種融合多通道CNN 與BiGRU 的中文文本字詞錯(cuò)誤檢測模型,在多通道CNN 層深入挖掘文本局部特征,在BiGRU 層充分提取文本上下文信息,同時(shí)采用L2 正則化和dropout 策略防止模型過擬合。在SIGHAN2014 和SIGHAN2015 中文拼寫檢查任務(wù)數(shù)據(jù)集上,設(shè)計(jì)字詞錯(cuò)誤檢測實(shí)驗(yàn)分析并對比模型性能。實(shí)驗(yàn)結(jié)果表明,該模型有效解決了字詞級文本錯(cuò)誤檢測的問題。后續(xù)將使用結(jié)構(gòu)更簡單的最小門單元代替門控循環(huán)單元,并引入注意力機(jī)制完善字詞級錯(cuò)誤檢測模型,使其檢錯(cuò)F1值得到進(jìn)一步提升。

        猜你喜歡
        特征文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        欧美熟妇另类久久久久久多毛 | 美日韩毛片| 国产精品亚洲美女av网站| 国产一区二区三区十八区| 免费无码不卡视频在线观看| 精品国产一区二区三区av 性色| 久久精品国产亚洲婷婷| 中文字幕一区二区三区亚洲| 国产精品激情自拍视频| a级毛片成人网站免费看| 国产成人美女AV| 青青草视频在线观看9| 国产大屁股喷水视频在线观看| 四川老熟妇乱子xx性bbw| 亚洲另在线日韩综合色| 91中文在线九色视频| 精品无码国产自产在线观看水浒传| 无码人妻丰满熟妇区五十路百度| 岛国熟女一区二区三区| 亚洲熟妇av一区二区三区hd| 日韩夜夜高潮夜夜爽无码 | 亚洲精品国产精品乱码在线观看| 欧美国产精品久久久乱码| 巨臀中文字幕一区二区| 视频一区精品中文字幕| 国产色系视频在线观看| 中文字幕亚洲乱码熟女一区二区| 视频女同久久久一区二区三区| 国产精品成人av大片| 国产日产精品一区二区三区四区的特点| a毛片全部免费播放| 激情视频在线观看免费播放| 在线观看一级黄片天堂| 麻豆精品传媒一二三区| 日韩在线观看网址| 一区二区三区四区亚洲免费| 国产美女精品一区二区三区| 国产成人精品三级麻豆| 中文字幕一区二区三区亚洲| 免费乱理伦片在线观看| 少妇高潮喷水久久久影院|