亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多頭注意力與字詞融合的中文命名實(shí)體識(shí)別

        2022-04-08 03:41:32趙丹丹黃德根孟佳娜
        關(guān)鍵詞:機(jī)制特征融合

        趙丹丹,黃德根,孟佳娜,谷 豐,張 攀

        1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024

        2.大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116600

        命名實(shí)體識(shí)別(named entity recognition,NER)是自然語(yǔ)言處理(nature language processing,NLP)的基礎(chǔ)任務(wù)。NER對(duì)許多領(lǐng)域都有非常重要的影響,比如實(shí)體鏈接、關(guān)系抽取、智能問(wèn)答等[1]。NER的目的是確定文本中實(shí)體的邊界,并將實(shí)體劃分為不同類(lèi)型,如人名、地名和機(jī)構(gòu)名等。以句子“任正非創(chuàng)建了華為”為例,NER的任務(wù)是識(shí)別出“任正非”是一個(gè)“人名”的命名實(shí)體,而“華為”是一個(gè)“公司名”的命名實(shí)體。目前實(shí)體識(shí)別工作相對(duì)成熟,對(duì)于上述語(yǔ)境簡(jiǎn)單的文本中進(jìn)行NER任務(wù)可以取得較好的識(shí)別效果。但是,在上面的例句中,“華為”是作為公司名出現(xiàn)還是品牌名出現(xiàn),就是中文的一詞多義給命名實(shí)體的類(lèi)型確定造成的困難,需要根據(jù)上下文的語(yǔ)義信息來(lái)判斷。另外,中文的分詞歧義對(duì)于實(shí)體邊界的確定也有很大影響。如典型的“南京市長(zhǎng)江大橋”的例子[2],實(shí)體邊界劃分錯(cuò)誤也會(huì)影響中文NER的結(jié)果。研究發(fā)現(xiàn),NER中實(shí)體邊界的劃分與單個(gè)漢字和漢語(yǔ)分詞都密切相關(guān)。以往的工作或者采用漢字作為特征輸入,或者利用詞語(yǔ)作為特征輸入,沒(méi)能充分考慮字和詞的共同特征。即便有的工作開(kāi)始采用字詞融合的方式作為特征輸入,也僅僅是當(dāng)前單詞的特征與構(gòu)成單詞的字的特征相融合,依然不能很好地解決類(lèi)似“南京市長(zhǎng)江大橋”可能出現(xiàn)多種分詞的問(wèn)題。因?yàn)樵趥鹘y(tǒng)的字詞結(jié)合方法中,如果單詞邊界的劃分錯(cuò)誤,那么詞向量與詞內(nèi)字向量結(jié)合,其信息的參考價(jià)值往往是在錯(cuò)誤增強(qiáng)。本文提出的方案則是采用字向量與該字附近可能成詞的詞向量相融合以增強(qiáng)原有字向量的語(yǔ)義表達(dá),以此來(lái)提高字向量的表達(dá)能力,同時(shí)降低分詞錯(cuò)誤的影響。

        對(duì)已有用深度學(xué)習(xí)進(jìn)行NER任務(wù)總結(jié)發(fā)現(xiàn),其進(jìn)行特征提取因關(guān)注文本的全部特征,分散了對(duì)重要特征的注意力,導(dǎo)致多層嵌套實(shí)體識(shí)別效果較差。例如在句子“中國(guó)駐美國(guó)大使館提醒留學(xué)生戴好口罩”中提到的“中國(guó)駐美國(guó)大使館”就是一個(gè)嵌套實(shí)體。其中“美國(guó)”和“中國(guó)”是地名,“中國(guó)駐美國(guó)大使館”是機(jī)構(gòu)名。通常的命名實(shí)體識(shí)別模型大多只能識(shí)別出其中的地名,而忽視了整體的組織機(jī)構(gòu)名。造成這種結(jié)果是因?yàn)閮H使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM)在計(jì)算過(guò)程中雖然能夠提取到整個(gè)句子的語(yǔ)義信息,但無(wú)法將文本中的重要特征進(jìn)行重點(diǎn)關(guān)注。已有方法開(kāi)始將注意力機(jī)制應(yīng)用到NER任務(wù)中,這樣可以使得模型關(guān)注重要的特征信息。在已有研究的基礎(chǔ)上進(jìn)行改進(jìn),提出利用多頭注意力機(jī)制對(duì)BiLSTM的輸出調(diào)整不同權(quán)重,捕獲語(yǔ)義相互關(guān)聯(lián)信息的多重特征,使各個(gè)字之間成詞的緊密程度、各個(gè)詞之間聯(lián)系的相關(guān)性得以有效體現(xiàn)。

        針對(duì)上述NER任務(wù)的難點(diǎn),本文提出了多頭注意力與字詞融合的命名實(shí)體識(shí)別模型,簡(jiǎn)記為CWA-CNER模型。該方法貢獻(xiàn)在于:(1)將字向量和詞向量結(jié)合送入BiLSTM提取上下文語(yǔ)義信息,兼顧字特征與該字附近可能成詞的詞特征,使命名實(shí)體識(shí)別實(shí)體邊界劃分錯(cuò)誤影響降低,同時(shí)又可以獲得相對(duì)豐富的中文詞語(yǔ)的語(yǔ)義特征;(2)利用多頭注意力機(jī)制對(duì)BiLSTM模型輸出調(diào)整不同權(quán)重,捕獲語(yǔ)義相互關(guān)聯(lián)信息的多重特征,使各個(gè)字之間成詞的緊密程度、各個(gè)詞之間聯(lián)系的相關(guān)性得以有效體現(xiàn),對(duì)中文命名實(shí)體識(shí)別任務(wù)的分類(lèi)標(biāo)注提供重要依據(jù)。

        1 相關(guān)工作

        早期的命名實(shí)體識(shí)別方法主要使用手寫(xiě)規(guī)則和詞典的方法[3]。這類(lèi)方法大多依賴語(yǔ)言學(xué)家手工構(gòu)造規(guī)則模板,其中最具代表性的是文獻(xiàn)[4]提出的可以借助機(jī)器自動(dòng)地發(fā)現(xiàn)和生成規(guī)則的DL-CoTrain方法,這種方法根據(jù)預(yù)定義種子規(guī)則集,再根據(jù)數(shù)據(jù)集進(jìn)行監(jiān)督訓(xùn)練得到更多規(guī)則。這種方法表現(xiàn)優(yōu)秀,但可移植性較弱。隨著機(jī)器學(xué)習(xí)的興起,將統(tǒng)計(jì)方法和概率知識(shí)相融合,使用手寫(xiě)特征將訓(xùn)練樣本表示為特征向量,利用機(jī)器學(xué)習(xí)算法將句子中的每個(gè)單詞進(jìn)行標(biāo)簽分類(lèi),如文獻(xiàn)[5]最早提出了利用隱馬爾可夫模型進(jìn)行命名實(shí)體識(shí)別的系統(tǒng),用于識(shí)別名稱(chēng)、日期、時(shí)間表達(dá)式和數(shù)字表達(dá)式。一般來(lái)說(shuō),使用隱馬爾可夫模型速度較快,最大熵模型[6]和支持向量機(jī)模型[7]準(zhǔn)確率較高。給定帶標(biāo)簽的樣本,最大熵原理可用于估計(jì)概率分布將實(shí)體類(lèi)型分配至給定句子的上下文。但最大熵模型時(shí)間復(fù)雜度高,易導(dǎo)致訓(xùn)練代價(jià)高,并且需要明確的歸一化計(jì)算,造成計(jì)算開(kāi)銷(xiāo)難以承受。

        文獻(xiàn)[8]提出了一種基于多通道神經(jīng)網(wǎng)絡(luò)(multiple channel neural network,MCNN)的新能源汽車(chē)實(shí)體識(shí)別模型,該模型融合了字詞特征和片段特征,不再將實(shí)體識(shí)別當(dāng)作傳統(tǒng)的序列標(biāo)注任務(wù),利用半馬爾科夫條件隨機(jī)場(chǎng)(semi-Markov CRF,SCRF)針對(duì)片段特征建模,對(duì)輸入的句子切分片段并對(duì)片段整體分配標(biāo)記,同時(shí)完成實(shí)體邊界的識(shí)別和實(shí)體分類(lèi)?;诮y(tǒng)計(jì)的方法對(duì)特征選取的要求較高,需要從文本中選擇影響處理任務(wù)的各種特征,主要做法是通過(guò)對(duì)訓(xùn)練語(yǔ)料所包含的語(yǔ)言信息進(jìn)行統(tǒng)計(jì)和分析。但傳統(tǒng)機(jī)器學(xué)習(xí)的模型依賴人工設(shè)置特征,對(duì)語(yǔ)料庫(kù)依賴較大,并且通用的大規(guī)模語(yǔ)料庫(kù)較少,難以解決全新領(lǐng)域的中文命名實(shí)體識(shí)別。

        近年來(lái),深度學(xué)習(xí)不僅在計(jì)算機(jī)視覺(jué)、圖像處理等方面取得了巨大的成功,而且在自然語(yǔ)言處理領(lǐng)域也取得了很大的進(jìn)步?;谏疃葘W(xué)習(xí)的NER模型已經(jīng)成為主流[9-11]。文獻(xiàn)[12]提出一種基于CNN-BiLSTM-CRF的網(wǎng)絡(luò)模型,該模型不使用任何人工特征,通過(guò)神經(jīng)網(wǎng)絡(luò)充分對(duì)文本的局部信息特征進(jìn)行抽象化抽取和表示,并學(xué)習(xí)和利用文本的上下文信息,實(shí)現(xiàn)對(duì)景點(diǎn)實(shí)體的識(shí)別。文獻(xiàn)[13]對(duì)Transformer模型進(jìn)行訓(xùn)練優(yōu)化,以提取文本特征;利用條件隨機(jī)場(chǎng)對(duì)提取到的文本特征進(jìn)行分類(lèi)識(shí)別。文獻(xiàn)[14]提出了一種融合字詞BiLSTM模型的命名實(shí)體識(shí)別方法。首先分別用BiLSTM-CRF訓(xùn)練得到基于字的模型Char-NER和基于詞的模型Word-NER,然后將兩個(gè)模型得到的分值向量進(jìn)行運(yùn)算和拼接,將拼接后的向量作為特征送入SVM進(jìn)行訓(xùn)練,使用SVM對(duì)Char-NER和Word-NER進(jìn)行模型融合。受此啟發(fā),本文采用字詞融合的方式作為模型的輸入。

        文獻(xiàn)[15]提出了TENER(transformer encoder for NER)模型,設(shè)計(jì)了帶有方向與相對(duì)位置信息的Atteniton機(jī)制。文獻(xiàn)[16]通過(guò)迭代的膨脹卷積神經(jīng)網(wǎng)絡(luò)(IDCNN)充分利用GPU的并行性大大降低了使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的時(shí)間代價(jià)。然后,采用層次化注意力機(jī)制捕獲重要的局部特征和全局上下文中的重要語(yǔ)義信息。文獻(xiàn)[17]將文本序列向量化表示,在詞向量的基礎(chǔ)上通過(guò)多頭注意力機(jī)制學(xué)習(xí)單詞的權(quán)重分布,再通過(guò)膠囊網(wǎng)絡(luò)和BiLSTM分別提取局部空間信息和上下文時(shí)序信息的特征表示,平均融合后由sigmoid分類(lèi)器進(jìn)行分類(lèi)。本文受此啟發(fā),為了使模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息,采用多頭注意力機(jī)制。

        在中文命名實(shí)體識(shí)別中,深度學(xué)習(xí)模型可以靈活運(yùn)用字、詞、句子的上下文特征,在實(shí)體抽取方面效果優(yōu)于以前的方法。本次研究首先利用Word2Vec訓(xùn)練的字向量和多個(gè)詞向量拼接后送入BiLSTM提取上下文語(yǔ)義信息,兼顧字特征與該字附近可能成詞的詞特征,使分詞錯(cuò)誤對(duì)識(shí)別實(shí)體邊界造成的影響降低,同時(shí)又可以獲得相對(duì)豐富的中文詞語(yǔ)的語(yǔ)義特征;之后利用多頭注意力機(jī)制對(duì)BiLSTM模型輸出調(diào)整不同權(quán)重,捕獲語(yǔ)義相互關(guān)聯(lián)信息的多重特征,使各個(gè)字之間成詞的緊密程度、各個(gè)詞之間聯(lián)系的相關(guān)性得以有效體現(xiàn),為中文命名實(shí)體識(shí)別任務(wù)的分類(lèi)標(biāo)注提供重要依據(jù)。

        2 多頭注意力與字詞融合的CNER模型

        2.1 模型介紹

        本文建立了一個(gè)多頭注意力與字詞融合的中文命名實(shí)體識(shí)別模型,模型總體結(jié)構(gòu)如圖1所示。

        圖1 模型總體結(jié)構(gòu)圖Fig.1 Frame structure of CWA-CNER

        模型由字向量和詞向量融合的嵌入層、BiLSTM層、Multi-head Attention層和CRF標(biāo)簽解碼層構(gòu)成。首先利用Word2Vec將文本分別映射成字向量和詞向量,再將訓(xùn)練好的字向量和詞向量融合,做為神經(jīng)網(wǎng)絡(luò)的輸入。通過(guò)嵌入層將文本信息輸入BiLSTM層進(jìn)行特征提取后,接下來(lái)將包含文本中的上下文隱層輸出與多頭注意力機(jī)制進(jìn)行融合,利用多頭注意力機(jī)制解析字之間的結(jié)構(gòu)及聯(lián)系,將BiLSTM提取的隱含特征利用多頭注意力機(jī)制進(jìn)行權(quán)重調(diào)節(jié)。最后,利用CRF解碼器計(jì)算最優(yōu)標(biāo)簽序列,提升模型的準(zhǔn)確率。

        2.2 字符向量、詞向量融合

        數(shù)據(jù)預(yù)處理時(shí),One-hot編碼導(dǎo)致數(shù)據(jù)稀疏性高,維度高,在數(shù)據(jù)龐大的深度學(xué)習(xí)中容易造成維度災(zāi)難;并且任意詞向量孤立,不能體現(xiàn)詞與詞之間的關(guān)系。而Word2Vec不需要大量的人工標(biāo)記樣本,能夠降低維度,通過(guò)計(jì)算向量之間的距離來(lái)體現(xiàn)詞與詞之間的關(guān)系。

        詞向量雖然語(yǔ)義豐富,但由于受中文分詞的限制,有些分詞錯(cuò)誤會(huì)影響CNER的結(jié)果。因此前序很多研究采用字嵌入來(lái)進(jìn)行CNER。但是單個(gè)漢字所能表達(dá)的語(yǔ)義與豐富的中文詞匯語(yǔ)義距離還是相差很遠(yuǎn)的。如何既利用漢語(yǔ)分詞的結(jié)果,又最大程度地克服不同分詞結(jié)果對(duì)NER的影響,本文提出的方案是采用字向量與該字所能成詞的詞向量相融合以增強(qiáng)原有詞向量的語(yǔ)義表達(dá)。字向量和其所在各個(gè)詞的詞向量進(jìn)行融合表示如圖2所示。

        圖2 模型輸入向量的形成Fig.2 Input vector formation of CWA-CNER

        根據(jù)分詞的粒度不同,將字所在詞的所有詞向量相加后取平均,然后與字向量拼接得到模型輸入。

        例如對(duì)于圖2的文本“使”,設(shè)訓(xùn)練好的字向量為c6,“大使”的詞向量為w61,“大使館”的詞向量為w62,“中國(guó)駐美國(guó)大使館”的詞向量為w63,則“使”字的融合向量e6表示如公式(1):

        對(duì)于輸入的整體文本來(lái)說(shuō),計(jì)算所有字的融合向量原則上應(yīng)將該字在句中所有可能成詞的詞向量疊加取平均。為簡(jiǎn)化處理,本文采用中國(guó)科學(xué)院計(jì)算技術(shù)研究的ICTCLAS分詞、大連理工大學(xué)的NiHao分詞、基于Python的jieba分詞3種分詞方法對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行分詞處理,取每個(gè)字在3種分詞環(huán)境下的一個(gè)分詞結(jié)果,然后取3個(gè)詞的詞向量相加取平均,再將結(jié)果與字向量拼接,一般的表示如公式(2):

        其中c i表示該字所對(duì)應(yīng)的字向量,w i1、w i2、w i3分別表示句子中第i個(gè)字在3種分詞環(huán)境下組成詞語(yǔ)的詞向量,⊕表示向量拼接。e i表示句子中的第i個(gè)字融合后的特征表示。最后將拼接得到的各特征向量送入模型進(jìn)行訓(xùn)練。

        2.3 BiLSTM特征提取

        RNN是一種非線性自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)模型,它可以學(xué)習(xí)得到輸入的深度結(jié)構(gòu)化信息。傳統(tǒng)的RNN能有效的利用句子的結(jié)構(gòu)信息,但是它存在梯度爆炸和梯度消失等問(wèn)題。BiLSTM是一種改進(jìn)的RNN模型,它引入了門(mén)控機(jī)制,通過(guò)其特殊的門(mén)結(jié)構(gòu)使得模型可以有選擇地保存上文信息,對(duì)長(zhǎng)距離信息進(jìn)行有效利用,克服了傳統(tǒng)RNN由于序列過(guò)長(zhǎng)而產(chǎn)生的梯度彌散問(wèn)題。BiLSTM對(duì)每個(gè)句子分別采用順序和逆序計(jì)算,可以有效利用上下文信息,并且不會(huì)產(chǎn)生梯度爆炸問(wèn)題。因此,BiLSTM逐漸成為解決序列標(biāo)注任務(wù)的標(biāo)準(zhǔn)解法。LSTM單元結(jié)構(gòu)如圖3所示。

        圖3 LSTM單元結(jié)構(gòu)Fig.3 Structure of LSTM unit

        遺忘門(mén):圖3中表示一個(gè)LSTM門(mén)控單元,x t表示前一時(shí)刻隱藏層的輸入狀態(tài),遺忘門(mén)的作用是決定從單元狀態(tài)中丟棄哪些信息,使用sigmoid作為激活函數(shù),單元狀態(tài)中每個(gè)元素輸出0到1之間的值:

        輸入門(mén):輸入門(mén)可以確定要添加到單元狀態(tài)的信息,主要可以分為兩步:一個(gè)sigmoid層,決定要更新的值;另一個(gè)是tanh層,它創(chuàng)建要添加到單元狀態(tài)的新值:

        更新細(xì)胞狀態(tài):有了輸入門(mén)的激活函數(shù)i t,以及遺忘門(mén)的激活函數(shù)f t以及代表狀態(tài)候選值,就可以計(jì)算記憶單元在時(shí)間t的最新?tīng)顟B(tài):

        其中,符號(hào)⊙代表向量元素乘法。

        輸出門(mén):輸出門(mén)的作用是基于細(xì)胞狀態(tài)保存的內(nèi)容來(lái)進(jìn)行決定,以此將處理好的值進(jìn)行輸出。選擇性的輸出細(xì)胞狀態(tài)保存的內(nèi)容,使用sigmoid激活函數(shù)確定輸出的內(nèi)容,使用tanh激活函數(shù)對(duì)細(xì)胞狀態(tài)計(jì)算后,通過(guò)向量元素相乘得到需要輸出的值:

        為了能夠有效利用上下文信息,采用雙向LSTM結(jié)構(gòu)(如圖4),對(duì)每條文本分別采用正向和反向輸入,通過(guò)計(jì)算 得到兩個(gè)不同的中間層表示,然后將兩個(gè)向量進(jìn)行拼接并作為隱含層的輸出:

        圖4 雙向LSTM結(jié)構(gòu)Fig.4 Structure of bidirectional LSTM

        其中,和表示位置i的前向和后向LSTM表示;⊕表示連接操作。

        2.4 多頭注意力機(jī)制的權(quán)重分配

        雖然BiLSTM在計(jì)算過(guò)程中可以將上下文信息都計(jì)算在內(nèi),但無(wú)法突出上下文中關(guān)鍵信息的重要性。注意力機(jī)制模仿人的認(rèn)知方式,從眾多信息中選擇對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,然后對(duì)需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域投入更多的注意力。在BiLSTM神經(jīng)網(wǎng)絡(luò)提取文本的全局特征之后,運(yùn)用注意力機(jī)制,選擇性地對(duì)文本中關(guān)鍵的內(nèi)容賦予更高的權(quán)重,利用上下文的語(yǔ)義關(guān)聯(lián)信息可以有效彌補(bǔ)深度神經(jīng)網(wǎng)絡(luò)獲取局部特征方面的不足。

        文本局部特征可以表示文本中部分內(nèi)容之間的關(guān)聯(lián)特征。例如在句子“張?jiān)评妆环劢z戲稱(chēng)為太平歌詞的老藝術(shù)家”中,“張?jiān)评住边@個(gè)命名實(shí)體中各個(gè)字之間的關(guān)聯(lián)更加密切,權(quán)重較大;而句子中其他字關(guān)聯(lián)較弱,則權(quán)重較?。煌瑫r(shí)“老藝術(shù)家”對(duì)確定“張?jiān)评住边@個(gè)實(shí)體是人名這一實(shí)體類(lèi)別又有積極作用。又如句子“我站在南京市長(zhǎng)江大橋的盡頭”中,“站”和“在”兩個(gè)字對(duì)“南京市長(zhǎng)江大橋”這一地名實(shí)體的判斷具有更強(qiáng)的影響,所以將為他們分配的更高的權(quán)重。

        模型中加入注意力機(jī)制,可以使模型中更側(cè)重于樣本中的重要特征,減少對(duì)非重要特征的關(guān)注,優(yōu)化資源分配。多頭注意力機(jī)制在命名實(shí)體識(shí)別任務(wù)中可以學(xué)習(xí)詞之間的依賴關(guān)系,更加準(zhǔn)確的捕獲句子之間的語(yǔ)義信息。通過(guò)權(quán)重分配,獲取詞與詞之間的相關(guān)度,提升模型識(shí)別率。利用該機(jī)制進(jìn)行特征提取首先把字向量和詞向量融合后的字符表示序列輸入BiLSTM網(wǎng)絡(luò)提取全局特征,然后,通過(guò)多頭注意力機(jī)制給全局特征中不同的特征向量賦予不同的權(quán)重,以提取局部特征,最后,生成包括全局特征和局部特征的聯(lián)合特征向量序列。

        通過(guò)BiLSTM的特征提取,得到輸出值h t,包含了神經(jīng)網(wǎng)絡(luò)編碼后的信息,通過(guò)對(duì)當(dāng)前單詞的隱藏層狀態(tài)多頭注意力權(quán)重進(jìn)行訓(xùn)練,將Q(Query)和K(Key)進(jìn)行相似度計(jì)算得到權(quán)重,如下:

        矩陣的維度由d k表示,softmax函數(shù)可以將Q、K點(diǎn)積運(yùn)算后進(jìn)行歸一化處理,與V(Value)相乘后得到多頭注意力權(quán)重求和結(jié)果。

        式中,W O為進(jìn)行線性轉(zhuǎn)換的參數(shù)矩陣,head j(j=1,2,…,h)為單頭注意力單元,h為拼接數(shù)量。每個(gè)節(jié)點(diǎn)多頭注意力值拼接變換得到最終的多頭注意力值h attni。

        多頭注意力機(jī)制具有速度快,可解釋性強(qiáng)的優(yōu)點(diǎn),文本的豐富性使多頭注意力機(jī)制在解析復(fù)雜的文本內(nèi)容時(shí)起到好的提升效果。

        2.5 基于條件隨機(jī)場(chǎng)的標(biāo)簽預(yù)測(cè)

        條件隨機(jī)場(chǎng)是一種特征靈活、全局最優(yōu)的標(biāo)注框架。CRF可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到約束條件,從而保證預(yù)測(cè)標(biāo)簽的有效性。CRF給從神經(jīng)網(wǎng)絡(luò)模型輸出的每個(gè)標(biāo)簽的得分進(jìn)行篩選,具有最高得分的標(biāo)簽為訓(xùn)練得出的最好結(jié)果。CRF損失函數(shù)包含了真實(shí)路徑得分和所有可能路徑的總得分,在預(yù)測(cè)正確的情況下,真實(shí)路徑在所有可能路徑中得分最高。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境設(shè)置

        為了驗(yàn)證模型的有效性,本文實(shí)驗(yàn)所用的數(shù)據(jù)集為1998年《人民日?qǐng)?bào)》、2014年《人民日?qǐng)?bào)》和Boson數(shù)據(jù)集。不同的數(shù)據(jù)集可能采用不同的標(biāo)注方法,常見(jiàn)的有IOB標(biāo)記法、BIOES標(biāo)記法和Markup標(biāo)記法。本文數(shù)據(jù)集采用的是IOB標(biāo)記法?!癇-XXX”表示命名實(shí)體的開(kāi)始,“I-XXX”表示命名實(shí)體的內(nèi)部,“O”表示非實(shí)體字符。

        語(yǔ)料規(guī)模如表1所示,實(shí)體類(lèi)別包括人名、地名、組織機(jī)構(gòu)名和時(shí)間。2014年的《人民日?qǐng)?bào)》語(yǔ)料因數(shù)據(jù)集較大,隨機(jī)抽取了其中的20 000條進(jìn)行實(shí)驗(yàn)。

        表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental datasets

        具體實(shí)驗(yàn)環(huán)境設(shè)置如表2所示。

        表2 實(shí)驗(yàn)環(huán)境設(shè)置Table 2 Experimental setting

        3.2 實(shí)驗(yàn)參數(shù)確定

        實(shí)驗(yàn)中利用word2vec訓(xùn)練字向量,詞向量使用維基百科訓(xùn)練生成。實(shí)驗(yàn)中基于字的識(shí)別模型和基于詞的識(shí)別模型超參數(shù)設(shè)置相同,如表3所示。

        表3 實(shí)驗(yàn)中主要的超參數(shù)設(shè)置Table 3 Main parameters setting of experiments

        為使模型達(dá)到最優(yōu)的性能,首先在1998年《人民日?qǐng)?bào)》語(yǔ)料上對(duì)實(shí)驗(yàn)過(guò)程中幾個(gè)主要參數(shù)調(diào)節(jié)過(guò)程分析如下。

        3.2.1 vector_dim參數(shù)設(shè)置

        模型采用100維和300維字詞向量分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表4。實(shí)驗(yàn)結(jié)果中300維的輸入向量比100維輸入向量精確率下降,召回率上升,總體F1值反而比100維向量輸入低了0.13%。

        表4 輸入向量維度對(duì)模型性能的影響Table 4 Effect of input vector_dim on model performance%

        從實(shí)驗(yàn)結(jié)果分析認(rèn)為,用300維向量進(jìn)行實(shí)驗(yàn),模型出現(xiàn)了過(guò)擬合。但向量維度增加,總體上承載信息量要比100維的高,所以召回率有所提升。不過(guò),在總體實(shí)驗(yàn)精度沒(méi)有提升的情況下,實(shí)驗(yàn)時(shí)間復(fù)雜度增加,得不償失。所以,考慮到運(yùn)算復(fù)雜度,模型選擇100維向量作為字詞的輸入。

        3.2.2 多頭注意力頭數(shù)設(shè)置

        將注意機(jī)制融合到深度網(wǎng)絡(luò)中,可以提高對(duì)輸入信息子集的處理能力。注意力機(jī)制是根據(jù)各個(gè)詞語(yǔ)對(duì)目標(biāo)詞語(yǔ)的重要程度,把關(guān)聯(lián)性更大的特征賦予更重要的權(quán)重,一定程度上可以彌補(bǔ)了深度學(xué)習(xí)的不足。

        本文在此基礎(chǔ)上為了使模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息,捕獲語(yǔ)義相互關(guān)聯(lián)信息的多重特征及句子內(nèi)部結(jié)構(gòu)特征,采用多頭注意力機(jī)制。圖5驗(yàn)證了注意力機(jī)制的頭數(shù)對(duì)實(shí)驗(yàn)的影響。其中8頭時(shí)效果最優(yōu);當(dāng)頭數(shù)為1時(shí),不能夠充分考慮不同的表示子空間的相關(guān)信息;當(dāng)頭數(shù)增多為12頭時(shí),注意力機(jī)制會(huì)關(guān)注更多的特征信息,此時(shí)會(huì)帶來(lái)一定的冗余信息,所以會(huì)導(dǎo)致模型效果不增反降。

        圖5 多頭注意力頭數(shù)對(duì)模型性能的影響Fig.5 Effect of multi-heads attention mechanism number on model performance

        3.2.3 rnn_units參數(shù)設(shè)置

        rnn_units代表的是LSTM網(wǎng)絡(luò)隱藏層中的單元數(shù)量,具體參數(shù)實(shí)驗(yàn)結(jié)果如圖6所示。因?yàn)槊總€(gè)LSTM單元有3個(gè)門(mén),對(duì)應(yīng)了3個(gè)sigmoid,1個(gè)tanh,4個(gè)激活函數(shù),即為4個(gè)神經(jīng)元層中每一層有rnn_units個(gè)單元。LSTM輸出單元lstm_dim與隱藏層單元rnn_units數(shù)量等于。當(dāng)LSTM隱藏單元數(shù)逐漸增多,模型參數(shù)逐漸增多,可以學(xué)習(xí)更多的知識(shí)。但是模型參數(shù)過(guò)多時(shí),首先是計(jì)算效率下降,同時(shí)模型還會(huì)出現(xiàn)過(guò)擬合,效果不增反降。本文模型在rnn_units取100時(shí)性能達(dá)到最優(yōu)。

        圖6 rnn_units對(duì)模型性能的影響Fig.6 Effect of rnn_units on model performance

        3.2.4 batch_size參數(shù)設(shè)置

        設(shè)置batch_size的目的是讓模型在訓(xùn)練過(guò)程中每次選擇批量的數(shù)據(jù)來(lái)進(jìn)行處理。設(shè)置batch_size的優(yōu)點(diǎn)是可以充分利用計(jì)算機(jī)的并行運(yùn)算結(jié)構(gòu),提高數(shù)據(jù)處理速度;考慮一定數(shù)量的樣本數(shù)據(jù),可以比較準(zhǔn)確地代表梯度下降方向;跑完一次全數(shù)據(jù)集所需的迭代次數(shù)減少,對(duì)于相同數(shù)據(jù)量的處理速度進(jìn)一步加快。

        沒(méi)有batch_size,梯度準(zhǔn)確,只適用于小樣本數(shù)據(jù)庫(kù);batch_size等于1時(shí),梯度變來(lái)變?nèi)?,非常不?zhǔn)確,網(wǎng)絡(luò)很難收斂。batch_size增大,梯度變準(zhǔn)確,batch_size增大到一定值,梯度已經(jīng)非常準(zhǔn)確,再增加batch_size也沒(méi)有用。

        batch_size的大小不能無(wú)限增大,如果取過(guò)大的batch_size,會(huì)導(dǎo)致每個(gè)epoch迭代的次數(shù)減小,要想取得更好的訓(xùn)練效果,需要更多的epoch,會(huì)增大總體運(yùn)算量和運(yùn)算時(shí)間;此外,每次處理大量數(shù)據(jù)時(shí),雖然可以發(fā)揮計(jì)算機(jī)并行計(jì)算的優(yōu)勢(shì),但是也要充分考慮計(jì)算機(jī)內(nèi)存大小的限制。如圖7所示batch_size為32時(shí),模型最優(yōu)。

        圖7 batch_size對(duì)模型性能的影響Fig.7 Effect of batch_size on model performance

        3.2.5 dropout參數(shù)設(shè)置

        為進(jìn)一步防止過(guò)擬合,探討dropout對(duì)模型性能的影響,將dropout值分別設(shè)置為0.1~0.9,得出實(shí)驗(yàn)結(jié)果曲線如圖8所示。

        圖8 dropout對(duì)模型性能的影響Fig.8 Effect of dropout on model performance

        dropout是在前向傳播的時(shí)候,讓某些神經(jīng)元以一定的概率值停止工作,這樣可以使模型的泛化性更強(qiáng)。這樣模型可以有效降低對(duì)某些局部特征的依賴性。該模型在dropout為0.5時(shí)模型性能達(dá)到最優(yōu),此時(shí)神經(jīng)元有50%的概率被保留下來(lái),50%的概率被失活,此時(shí)隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多,可以在很好的學(xué)習(xí)特征信息的同時(shí),又能夠防止過(guò)擬合。

        3.3 實(shí)驗(yàn)結(jié)果對(duì)比

        為了驗(yàn)證模型的有效性,對(duì)模型框架不同部分在Boson、1998年《人民日?qǐng)?bào)》和2014年《人民日?qǐng)?bào)》3個(gè)數(shù)據(jù)集上進(jìn)行效果對(duì)比,以字向量+BiLSTM+CRF為基礎(chǔ)模型(Baseline),在此基礎(chǔ)上將單純的字向量替換為字詞融合向量形成中間模型1,再在Baseline基礎(chǔ)上加入Attention機(jī)制,形成中間模型2,最終模型為將baseline模型的字向量替換為字詞融合向量,并加入多頭注意力機(jī)制形成本文提出的模型(CWA-CNER),實(shí)驗(yàn)結(jié)果如表5所示。

        表5 消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experimental results %

        實(shí)驗(yàn)結(jié)果表明,在所有的數(shù)據(jù)集上,加入字詞融合的向量輸入,中間模型1的識(shí)別效果較基礎(chǔ)模型在三個(gè)數(shù)據(jù)集上都有所提升,說(shuō)明漢字成詞信息的融入對(duì)CNER是有價(jià)值的。相比較而言,在Boson數(shù)據(jù)集上提升的程度略小,分析認(rèn)為主要是由于Boson數(shù)據(jù)集相對(duì)較小,在深度學(xué)習(xí)模型上運(yùn)行的效果不夠明顯。在Baseline基礎(chǔ)上加入了多頭注意力機(jī)制的中間模型2也較基礎(chǔ)模型識(shí)別效果有所提高,證明了多頭注意力機(jī)制的作用。同時(shí),中間模型2的F1值均比中間模型1的效果略好,某種程度上表明多頭注意力機(jī)制比字詞融合的作用更大。

        在融合了字詞向量的基礎(chǔ)上,同時(shí)加入多頭注意力機(jī)制,本文提出模型的實(shí)驗(yàn)F1值效果最好。主要原因可以歸結(jié)為模型既考慮到了輸入信息字詞特征的多方融合,又讓多頭注意力機(jī)制學(xué)習(xí)到了字之間的依賴及聯(lián)系程度,進(jìn)而提升了命名實(shí)體識(shí)別的效果。

        為進(jìn)一步證明本文提出模型的先進(jìn)性,在1998年的《人民日?qǐng)?bào)》語(yǔ)料上,與其他模型的識(shí)別結(jié)果進(jìn)行對(duì)比,如表6所示。

        表6 在1998年《人民日?qǐng)?bào)》語(yǔ)料上與其他模型對(duì)比Table 6 Comparison with other models on corpus of People’s Daily 1998

        由表6,本文與文獻(xiàn)[18]和文獻(xiàn)[19]提出方法的結(jié)果進(jìn)行了對(duì)比,前者的工作是利用CNN對(duì)字(符)進(jìn)行卷積,取得詞特性再與字表示融合作為BiLSTM的輸入進(jìn)行NER,結(jié)果與本文提出的字詞融合模型的結(jié)果接近。但相比簡(jiǎn)單的向量拼接,采用CNN模型進(jìn)行獲得單詞的局部特征要略顯復(fù)雜,并且他的CNN需要局限于分詞結(jié)果范圍內(nèi),對(duì)錯(cuò)誤分詞的影響很難通過(guò)后續(xù)與字向量拼接克服。模型總結(jié)果與本文提出方法的距離應(yīng)該產(chǎn)生自多頭注意力機(jī)制,進(jìn)一步反映了注意力機(jī)制的效用。后者提出的模型使用字嵌入作為模型輸入,除了加入注意力機(jī)制外,還融合了順序遺忘編碼(fixed-size oradinally forgetting encoding,F(xiàn)OFE)但實(shí)驗(yàn)結(jié)果比本文提出的模型低0.84個(gè)百分點(diǎn),可見(jiàn)本文提出的字詞融合機(jī)制對(duì)中文命名實(shí)體識(shí)別更有效。同時(shí),結(jié)果也表明本文采用的多頭注意力機(jī)制在命名實(shí)體識(shí)別任務(wù)上優(yōu)于自注意力機(jī)制模型。

        3.4 實(shí)驗(yàn)性能及效果可視化

        按照消融實(shí)驗(yàn)在數(shù)據(jù)集上運(yùn)行不同模型的順序,將模型運(yùn)行時(shí)間記錄如表7所示。

        表7 模型運(yùn)行時(shí)間Table 7 Model running time

        隨著模型復(fù)雜度的增加,運(yùn)行時(shí)間也相應(yīng)增加。但本文提出的模型總計(jì)運(yùn)行時(shí)間基本在可以接受的范圍內(nèi)。

        為了能夠更加清楚明顯地看出本文模型實(shí)驗(yàn)效果,將實(shí)體類(lèi)別和相對(duì)應(yīng)的F1值進(jìn)行可視化,如圖9所示,縱坐標(biāo)表示實(shí)驗(yàn)的文本數(shù)據(jù),橫坐標(biāo)表示實(shí)體類(lèi)型,分別為“人名”“地名”“組織機(jī)構(gòu)名”“非實(shí)體”。可以看出本模型對(duì)中文命名實(shí)體識(shí)別準(zhǔn)確率較高,“人名”和“地名”的準(zhǔn)確率較高,相比較而言,“組織機(jī)構(gòu)名”準(zhǔn)確率處于中等水平,但都能準(zhǔn)確識(shí)別大部分實(shí)體,并且能夠取得較好的結(jié)果。

        圖9 中文實(shí)體識(shí)別效果圖Fig.9 CNER effect vision diagram

        本文使用多頭注意力機(jī)制和字詞融合來(lái)解決命名實(shí)體識(shí)別問(wèn)題有以下優(yōu)點(diǎn):通過(guò)字詞向量融合,增加了語(yǔ)義信息的完整度,有效避免錯(cuò)誤信息的干擾和有效信息的遺漏;同時(shí)多頭注意力機(jī)制來(lái)解析詞語(yǔ)之間的結(jié)構(gòu)和聯(lián)系。將多頭注意力機(jī)制和字詞融合思想與經(jīng)典的BiLSTM-CRF模型相結(jié)合,進(jìn)一步提升了CNER的實(shí)驗(yàn)結(jié)果。

        4 結(jié)束語(yǔ)

        本文構(gòu)建了基于多頭注意力機(jī)制和字詞向量融合的CNER模型,首先對(duì)語(yǔ)料集進(jìn)行了預(yù)處理并采用了多種分詞方法來(lái)進(jìn)行分詞并訓(xùn)練詞向量。利用word2vec提取句子中的字向量,并將字向量和該字所能成詞的三個(gè)詞向量融合后輸入到BiLSTM神經(jīng)網(wǎng)絡(luò)中獲取句子語(yǔ)義特征;然后利用多頭注意力機(jī)制來(lái)捕獲整個(gè)句子各個(gè)字之間聯(lián)系的關(guān)鍵信息;最后再通過(guò)CRF解碼,得到整個(gè)句子命名實(shí)體標(biāo)注的最優(yōu)序列。

        本文研究以字、詞向量結(jié)合作為輸入層,在深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型中加入多頭注意力機(jī)制進(jìn)行中文命名實(shí)體識(shí)別,取得了較好的實(shí)驗(yàn)效果,證明了模型的有效性。漢字本身的意義和其成詞的多種可能讓字詞融合機(jī)制變得十分必要,多頭自注意力機(jī)制可以有效判斷文本之間的聯(lián)系,并在句子級(jí)別和詞語(yǔ)級(jí)別尋找更多關(guān)鍵信息,對(duì)于實(shí)體識(shí)別任務(wù)具有顯著優(yōu)勢(shì)。未來(lái)工作考慮將該模型思想遷移到對(duì)除基本命名實(shí)體以外的其他類(lèi)型實(shí)體的識(shí)別研究,以便為實(shí)體和關(guān)系聯(lián)合抽取做準(zhǔn)備。

        猜你喜歡
        機(jī)制特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        抓住特征巧觀察
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        18禁免费无码无遮挡不卡网站 | 在线a免费观看| 亚洲无线码一区在线观看| 亚洲一二三四五中文字幕| 蜜桃视频一区二区在线观看| 国产精品老熟女露脸视频| 中文人妻无码一区二区三区信息 | 人禽杂交18禁网站免费| 欧美金发尤物大战黑人| 免费看奶头视频的网站 | 亚洲人成人影院在线观看 | 中文字幕亚洲精品综合| 午夜天堂av天堂久久久| 国产精品18久久久久久麻辣| 久久国产精品视频影院| 人妻丰满熟妇一二三区| 久久久亚洲欧洲日产国码二区| 国产精品久久毛片av大全日韩| 亚洲VA欧美VA国产VA综合| 国产一区二区三区在线av| 日本一卡二卡3卡四卡免费观影2022| 亚洲 欧美精品suv| 精品无码一区二区三区小说| 男女性行为免费视频网站| 夜夜躁狠狠躁日日躁2022| 色综合久久久久久久久五月| 在线亚洲精品国产成人二区| 国产精品日韩经典中文字幕| 亚洲av天天做在线观看| 亚洲AV成人无码久久精品四虎 | 桃花影院理论片在线| 欧美成人www免费全部网站| 亚洲香蕉久久一区二区| 亚洲av综合色区无码专区桃色| 欧美巨大性爽| 久久噜噜噜| 精品日本免费观看一区二区三区| 欧美激情乱人伦| 久久午夜伦鲁片免费无码| 校花高潮一区日韩| 成人一区二区人妻少妇|