亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合attention機(jī)制的BI-LSTM-CRF中文分詞模型

        2018-11-17 01:03:00黃丹丹郭玉翠
        軟件 2018年10期
        關(guān)鍵詞:機(jī)制文本實(shí)驗(yàn)

        黃丹丹,郭玉翠

        ?

        融合attention機(jī)制的BI-LSTM-CRF中文分詞模型

        黃丹丹,郭玉翠

        (北京郵電大學(xué)理學(xué)院 北京 100876)

        中文的詞語(yǔ)不同于英文單詞,沒(méi)有空格作為自然分界符,因此,為了使機(jī)器能夠識(shí)別中文的詞語(yǔ)需要進(jìn)行分詞操作。深度學(xué)習(xí)在中文分詞任務(wù)上的研究與應(yīng)用已經(jīng)有了一些突破性成果,本文在已有工作的基礎(chǔ)上,提出融合 Bi-LSTM-CRF模型與attention機(jī)制的方法,并且引入去噪機(jī)制對(duì)字向量表示進(jìn)行過(guò)濾,此外為改進(jìn)單向LSTM對(duì)后文依賴(lài)性不足的缺點(diǎn)引入了貢獻(xiàn)率對(duì)BI-LSTM的輸出權(quán)重矩陣進(jìn)行調(diào)節(jié),以提升分詞效果。使用改進(jìn)后的模型對(duì)一些公開(kāi)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的attention-BI-LSTM-CRF模型以及訓(xùn)練方法可以有效地解決中文自然語(yǔ)言處理中的分詞、詞性標(biāo)注等問(wèn)題,并較以前的模型有更優(yōu)秀的性能。

        中文分詞;BI-LSTM;CRF;attention機(jī)制;貢獻(xiàn)因子;去噪機(jī)制;Dropout

        0 引言

        隨著人工智能在越來(lái)越多領(lǐng)域的突破,基于深度學(xué)習(xí)的自然語(yǔ)言處理這一重要領(lǐng)域已經(jīng)引起了眾多研究者的關(guān)注。分詞、詞性標(biāo)注作為中文自然語(yǔ)言處理中最重要的基礎(chǔ)工作之一,已經(jīng)取得了一些成果。本文在已有結(jié)果的基礎(chǔ)上深入研究深度學(xué)習(xí)在中文分詞中的應(yīng)用。分詞是指將未加工的自然語(yǔ)言文本分割成單詞的順序。在英語(yǔ)中,單詞之間以空格作為的自然分隔符,但在中文中漢字之間沒(méi)有明顯區(qū)分。因此需要將中文文本序列進(jìn)行分割,使之轉(zhuǎn)變成單詞序列,以便后續(xù)的中文信息處理。

        從機(jī)器學(xué)習(xí)角度來(lái)看,分詞任務(wù)可轉(zhuǎn)化成序列標(biāo)注任務(wù)(或者分類(lèi)任務(wù))。序列標(biāo)注任務(wù)指將觀察序列中的每個(gè)元素在固定標(biāo)簽集合中為之賦予一個(gè)指定標(biāo)簽的過(guò)程(分類(lèi)的過(guò)程)。目前,常用的解決序列標(biāo)記任務(wù)的模型有隱馬爾可夫模型[1]、條件隨機(jī)場(chǎng)模型[2,3]和最大熵模型[4]。然而,這些傳統(tǒng)的模型需要使用大量的語(yǔ)言學(xué)知識(shí)來(lái)手工構(gòu)造特征,因此不具有廣泛的適用性。深度學(xué)習(xí)有效利用無(wú)監(jiān)督數(shù)據(jù),避免繁瑣的人工特征提取,從而具有良好的泛化能力。它通過(guò)對(duì)數(shù)據(jù)的多層次建模從而得到數(shù)據(jù)特征的層次結(jié)構(gòu)以及數(shù)據(jù)的分布式表示。

        深度學(xué)習(xí)用來(lái)解決自然語(yǔ)言處理領(lǐng)域的一些難題。語(yǔ)言的高維特性導(dǎo)致了傳統(tǒng)的自然語(yǔ)言處理系統(tǒng)需要復(fù)雜的語(yǔ)言知識(shí)以便手動(dòng)構(gòu)造分類(lèi)器所能使用的特征。深度學(xué)習(xí)的方法有以下優(yōu)點(diǎn):(1)通過(guò)構(gòu)建模型,可以自動(dòng)學(xué)習(xí)自然語(yǔ)言處理領(lǐng)域中解決問(wèn)題所需要的特征。Collobert等[5]就是利用該特性,拋棄傳統(tǒng)的手工提取特征方式,解決了英文序列標(biāo)注問(wèn)題。(2)在自然語(yǔ)言處理領(lǐng)域,獲得標(biāo)記數(shù)據(jù)相對(duì)于獲得大量的無(wú)標(biāo)記數(shù)據(jù)成本較大,深入學(xué)習(xí)可以使用大量的無(wú)標(biāo)記數(shù)據(jù)來(lái)獲取特征。(3)自然語(yǔ)言處理領(lǐng)域中的許多問(wèn)題是密切相關(guān)的,如分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等。傳統(tǒng)的方法往往單獨(dú)解決這些問(wèn)題,而忽略了它們之間的關(guān)系。使用深度學(xué)習(xí),您可以在特征提取級(jí)別構(gòu)建統(tǒng)一模型以同時(shí)處理這些問(wèn)題,并使用多任務(wù)學(xué)習(xí)方法在模型中建模其相關(guān)性以獲得更好的性能。Zheng等[6]利用SENNA系統(tǒng)將神經(jīng)網(wǎng)絡(luò)運(yùn)用到中文分詞任務(wù)上,并提出一個(gè)感知器算法加速整個(gè)訓(xùn)練過(guò)程。Chen等[7,8]在GRNN模型基礎(chǔ)上提出了LSTM(long short-term memory)模型進(jìn)行中文分詞任務(wù),取得了很好的效果。之后,Yao等人[9]在LSTM 模型的基礎(chǔ)上提出了BI-LSTM模型,更進(jìn)一步提高了中文分詞的準(zhǔn)確度。

        本文在適合于中文自然語(yǔ)言處理的雙向長(zhǎng)短期記憶條件隨機(jī)場(chǎng)模型(BI-LISTM-CRF)基礎(chǔ)上,進(jìn)行了以下改進(jìn):(1)提出一種去噪機(jī)制,對(duì)字向量表示進(jìn)行調(diào)整,使得固定窗口內(nèi)的字嵌入以一定概率出現(xiàn),不再依賴(lài)于左右聯(lián)合字嵌入的共同作用;(2)引入了貢獻(xiàn)因子對(duì)前傳LSTM層和后傳LSTM 層的權(quán)重矩陣進(jìn)行調(diào)節(jié)以改進(jìn)單向LSTM對(duì)后文依賴(lài)性不足的缺點(diǎn);(3)在BI-LSTM-CRF中文分詞模型中融合attention機(jī)制,通過(guò)注意機(jī)制計(jì)算Bi-LSTM模型的輸入和輸出之間的相關(guān)性的重要性,并根據(jù)重要性程度獲得文本的整體特征。利用改進(jìn)的attention-BI-LSTM-CRF模型,在MSRA corpus、PKU corpus和人民日?qǐng)?bào)2014公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,使用本文改進(jìn)的模型以及訓(xùn)練方法可以有效地進(jìn)行中文自然語(yǔ)言處理中的分詞問(wèn)題,并提高了精度。

        1 模型建立

        本文采用圖1所示的attention-BI-LSTM-CRF中文分詞模型來(lái)進(jìn)行中文分詞處理。自底向上: (1)將待分詞的文本序列進(jìn)行文本向量化,將文本中的每一個(gè)字映射成一個(gè)固定長(zhǎng)度的短向量,以作為當(dāng)前字的特征向量表示;(2)基于去噪機(jī)制對(duì)輸入的信息進(jìn)行過(guò)濾調(diào)整;(3)利用 BI-LSTM 獲取每個(gè)詞長(zhǎng)距離的上下文特征;(4)引入attention模型對(duì)BI-LSTM層的輸入與輸出之間的相關(guān)性進(jìn)行重要度計(jì)算,根據(jù)重要度獲取文本整體特征; (5)最后CRF層考慮單詞標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)注序列。

        圖1 Attention-BILSTM-CRF中文分詞模型

        1.1 LSTM和BI-LSTM

        圖2 RNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        RNN理論上可以學(xué)習(xí)長(zhǎng)期的依賴(lài)關(guān)系,但在實(shí)際情況中并不是如此,它們更傾向于最近的輸入序列。這是由于傳統(tǒng)的RNN在進(jìn)行幾次鏈?zhǔn)椒▌t求導(dǎo)后梯度會(huì)指數(shù)級(jí)縮小,導(dǎo)致傳播幾層后出現(xiàn)梯度消失,無(wú)法處理“長(zhǎng)期依賴(lài)”問(wèn)題。因此,出現(xiàn)了一種RNN的變體即LSTM。LSTM的設(shè)計(jì)旨在通過(guò)整合一個(gè)存儲(chǔ)單元來(lái)解決這個(gè)問(wèn)題,并被證明可以捕獲遠(yuǎn)距離依賴(lài)。他們使用幾個(gè)門(mén)來(lái)控制輸入給存儲(chǔ)單元的比例,以及從以前的狀態(tài)中忘記的比例[12]。

        LSTM的結(jié)構(gòu)與RNN一致,唯一的不同在于其中間的神經(jīng)網(wǎng)絡(luò)模塊A。該模塊結(jié)構(gòu)如圖3所示。

        圖3 LSTM神經(jīng)網(wǎng)絡(luò)模塊結(jié)構(gòu)

        圖4 BILSTM+CRF模型

        1.2 標(biāo)簽得分計(jì)算

        中文分詞問(wèn)題可以轉(zhuǎn)換為字符序列的字符標(biāo)簽分類(lèi)問(wèn)題。1.1節(jié)中BI-LSTM神經(jīng)網(wǎng)絡(luò)的中文分詞模型的輸出即為字符序列中每一個(gè)字符的標(biāo)簽得分。文中采用BMES標(biāo)注方法對(duì)分詞語(yǔ)料庫(kù)文本進(jìn)行標(biāo)注,即每個(gè)字符用{B,M,E,S}來(lái)分別表示字符在詞中的開(kāi)始位置、中間位置、結(jié)束位置以及單個(gè)字為一個(gè)獨(dú)立詞。比如文本序列‘我們都是共產(chǎn)主義接班人’用{B,M,E,S}來(lái)分割后為‘我/B 們/E 都/B 是/E 共/B 產(chǎn)/M 主/M 義/E接/B 班/M 人/E’。

        1.3 CRF標(biāo)注模型

        一個(gè)簡(jiǎn)單但效果顯著的有效標(biāo)注模型叫條件隨機(jī)場(chǎng)(CRF)[13]。它根據(jù)給定的觀察序列來(lái)推測(cè)出對(duì)應(yīng)的狀態(tài)序列,屬于一種條件概率模型。CRF由Lafferty 等人于2001年提出,它解決了隱馬爾可夫模型的輸出獨(dú)立性假設(shè)問(wèn)題,也解決了最大熵模型在每一個(gè)節(jié)點(diǎn)歸一化導(dǎo)致只能找到局部最優(yōu)解和標(biāo)記偏見(jiàn)問(wèn)題,因此是比較好的命名實(shí)體識(shí)別模型。CRF的序列標(biāo)注思想和BI-LSTM模型利用前后上下文特征的思想上有相向之處,在文獻(xiàn)[13]和文獻(xiàn)[9]中分別證明了該類(lèi)模型性能相較于只考慮單方面影響的模型性能有更好的表現(xiàn)。

        CRF的工作原理如下:

        在所有可能的標(biāo)簽序列上產(chǎn)生序列y的概率為:

        訓(xùn)練期間,目標(biāo)函數(shù)是最大化正確標(biāo)簽序列的對(duì)數(shù)概率:

        其中Y代表句子X(jué)的所有可能的標(biāo)簽序列。從上述公式可以看出,CRF是學(xué)習(xí)一個(gè)從觀察序列到標(biāo)記序列的概率函數(shù)映射關(guān)系。我們鼓勵(lì)我們的網(wǎng)絡(luò)生成一個(gè)有效的輸出標(biāo)簽序列。在預(yù)測(cè)過(guò)程(解碼)中,模型使用動(dòng)態(tài)規(guī)劃的Viterbi算法來(lái)獲得最大分?jǐn)?shù)的輸出序列:

        1.4 引入attention機(jī)制

        深度學(xué)習(xí)中的attention機(jī)制模擬人腦的注意力特點(diǎn)。Attention機(jī)制可以理解為總是將注意力放在更重要的信息上。Bahdanau等在論文[14]中第一次提出把a(bǔ)ttention機(jī)制應(yīng)用到了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯上。

        其中:

        在attention層之后用一個(gè)tanh層用來(lái)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)輸出的標(biāo)簽得分:

        Attention-BI-LSTM-CRF模型在BI-LSTM網(wǎng)絡(luò)與CRF標(biāo)簽判別層中間添加attention層。我們將字嵌入序列作為輸入提供給BI-LSTM,通過(guò)BI-LSTM層結(jié)合了上下文的特征,輸出返回每個(gè)字的上下文的表示,并結(jié)合attention機(jī)制將更有效的信息輸入向CRF層,使用CRF來(lái)考慮相鄰標(biāo)簽,從而得出每個(gè)字的最終預(yù)測(cè)結(jié)果。

        2 輸入字嵌入

        本節(jié)介紹輸入字嵌入,用特征向量表示序列文本作為BI-LSTM層的輸入:(1)將原始序列文本進(jìn)行向量化,用一個(gè)固定長(zhǎng)度的向量表示每一個(gè)字;(2)由于固定窗口大小帶來(lái)的上下文不確定性,引入去噪機(jī)制對(duì)特征向量進(jìn)行調(diào)整;(3)最后使用dropout技巧防止訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題。

        2.1 文本向量化

        為了使機(jī)器能夠理解自然語(yǔ)言首先需要將自然語(yǔ)言符號(hào)數(shù)學(xué)化,即文本向量化。在深度學(xué)習(xí)中,將文本向量化的方式使采用分布式表示方法[15](又稱(chēng)字嵌入)。該方法將詞用一種低維實(shí)數(shù)向量表示,這樣的表示既能夠使得上下文的詞之間的彼此聯(lián)系,又可以避免向量維度過(guò)大帶來(lái)的不必要的復(fù)雜度。

        具體地,在中文分詞任務(wù)中,我們建立一個(gè)大小為d×N的漢字字典矩陣D,其中d為字向量維度,N為字典大小。該字典包括我們可以處理的所有漢字以及其他字符(如數(shù)字、標(biāo)點(diǎn)、未登錄字等)的替代符號(hào)。因此,我們用字典找到對(duì)應(yīng)的字向量來(lái)代替每個(gè)字。研究表明,將大規(guī)模無(wú)監(jiān)督學(xué)習(xí)得到的字向量作為輸入矩陣的初始值要比隨機(jī)初始化得 來(lái)的字向量性能上表現(xiàn)更優(yōu)[16]。本文實(shí)驗(yàn)中使用word2vec作為第一層,把輸入數(shù)據(jù)預(yù)先處理成字嵌入向量。

        2.2 輸入去噪

        本文對(duì)當(dāng)前字設(shè)置了特征窗口,即利用固定上下文窗口內(nèi)的字表示當(dāng)前字。但是固定窗口內(nèi)的字不一定每次都出現(xiàn)在一起,有的可能只出現(xiàn)少數(shù)次。因此,加入一個(gè)去噪層對(duì)固定窗口內(nèi)的信息進(jìn)行調(diào)整,使得固定窗口內(nèi)的字嵌入以一定概率出現(xiàn),不再依賴(lài)于固定窗口內(nèi)左右詞的字向量的共同作用。

        首先,句中每個(gè)字的字向量表示作為去噪機(jī)制的輸入。然后該機(jī)制對(duì)輸入信息進(jìn)行調(diào)整,之后BI- LSTM獲取每個(gè)詞長(zhǎng)距離的上下文特征并由attention機(jī)制對(duì)BI-LSTM層的輸入與輸出之間的相關(guān)性進(jìn)行重要度計(jì)算獲取文本整體特征,最后CRF層考慮單詞標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)注序列。

        2.3 Dropout技巧

        為了防止模型訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題,本文采用了Dropout[17]技術(shù)。其主要思想是在模型訓(xùn)練過(guò)程中,隨機(jī)移除一定比例p(Dropout比率)的神經(jīng)元以及其對(duì)應(yīng)的輸入輸出權(quán)重。我們將輸入attention- BI-LSTM-CRF模型的字嵌入向量使用Dropout方法以降低錯(cuò)誤率,提升系統(tǒng)性能。

        3 實(shí)驗(yàn)

        為了說(shuō)明改進(jìn)的模型的有效性,我們選擇常用的MSRA corpus、PKU corpus和人民日?qǐng)?bào)2014作對(duì)比實(shí)驗(yàn)。其中MSRA和PKU corpus是由國(guó)際中文分詞評(píng)測(cè)Bakeoff提供的封閉語(yǔ)料,包括簡(jiǎn)體中文和繁體中文。

        實(shí)驗(yàn)過(guò)程中為了公正的評(píng)估模型的分詞性能,我們采用了分詞常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率(P),召回率(R),綜合指標(biāo)值(F1)。

        3.1 貢獻(xiàn)因子與去噪機(jī)制測(cè)試

        為驗(yàn)證本文提出的貢獻(xiàn)因子和去噪機(jī)制是否會(huì)影響到實(shí)驗(yàn)效果,我們選取1層BI-LSTM分詞模型,句子長(zhǎng)度為80,在MSRA數(shù)據(jù)集上進(jìn)行測(cè)試,測(cè)試結(jié)果如表1所示。

        表1 貢獻(xiàn)因子和去噪機(jī)制在MSRA 測(cè)試集上測(cè)試結(jié)果(F1值)

        Tab.1 Contribution factor and denoising mechanism test results on the MSRA test set (F1 value)

        表2<40時(shí)不同取值的貢獻(xiàn)因子測(cè)試結(jié)果

        Tab.2 Contributing factor test results with different values when t<40

        3.2 超參數(shù)配置

        對(duì)于本文改進(jìn)的attention-BI-LSTM-CRF模型,我們使用反向傳播算法來(lái)訓(xùn)練我們的網(wǎng)絡(luò),設(shè)定初始學(xué)習(xí)率為0.01。本實(shí)驗(yàn)采用word2vec方法對(duì)字向量進(jìn)行訓(xùn)練預(yù)處理。文中使用PKU數(shù)據(jù)集,基于BMES詞位標(biāo)注方法,以BI-LSTM為模型,我們?cè)O(shè)定字嵌入向量長(zhǎng)度為 100,dropout 大小為 0.3。實(shí)驗(yàn)研究過(guò)程中,我們發(fā)現(xiàn)不斷增大的隱藏層單元數(shù)當(dāng)達(dá)到一定值以后,對(duì)測(cè)試結(jié)果影響趨于穩(wěn)定。本文中改進(jìn)的模型最終選取隱藏層的單元數(shù)為120。

        表3 超參數(shù)設(shè)置

        Tab.3 Hyperparameter setting

        3.3 實(shí)驗(yàn)對(duì)比與分析

        我們測(cè)試BI-LSTM、BI-LSTM-CRF、和本文改進(jìn)的attention-BI-LSTM-CRF這三個(gè)不同的模型分別在 PKU,MSRA和人民日?qǐng)?bào)2014語(yǔ)料庫(kù)上分詞性能的表現(xiàn)。如表4所示,本文提出的attention-BI- LSTM-CRF模型相比較BI-LSTM和BI-LSTM-CRF 模型性能分別提升為0.6%、1.0%和0.6%,分詞效果更好。

        表5為本文訓(xùn)練的attention-BI-LSTM-CRF模型與前人在分詞領(lǐng)域研究結(jié)果對(duì)比。其中Bakeoff-best 為2005年Bakeoff 測(cè)評(píng)最好結(jié)果;Chen-2015[7]他們?cè)谖谋鞠蛄炕^(guò)程中加入了雙字符嵌入向量,最佳水平如表5所示;Yao-2016在文獻(xiàn)[9]中疊加了 3層BI-LSTM 模型。本文中融合了attention機(jī)制與過(guò)濾機(jī)制以及引入了貢獻(xiàn)因子也取得了不錯(cuò)的分詞效果,證明了 attention-BI-LSTM-CRF分詞模型的優(yōu)越性。

        表4 不同模型在PKU、MSRA、人民日?qǐng)?bào)2014測(cè)試集上的實(shí)驗(yàn)對(duì)比結(jié)果

        Tab.4 Experimental comparison results of different models on PKU, MSRA, People's Daily 2014 test set

        表5 在PKU、MSRA測(cè)試集上與前人模型的實(shí)驗(yàn)結(jié)果對(duì)比

        Tab.5 Comparison of experimental results with predecessor models on PKU and MSRA test sets

        4 結(jié)語(yǔ)

        文中針對(duì)自然語(yǔ)言處理中的中文分詞任務(wù),在BI-LSTM-CRF模型的基礎(chǔ)上提出一種改進(jìn)的attention- BI-LSTM-CRF中文分詞模型。該模型融合attention機(jī)制方法,以計(jì)算BI-LSTM模型的輸入和輸出之間相關(guān)性的重要性,從而更好的獲得文本的整體特征。利用一種去噪機(jī)制,使得固定窗口內(nèi)的字嵌入以一定概率出現(xiàn),減少了左右聯(lián)合字嵌入的聯(lián)合作用。并且引入了貢獻(xiàn)因子以改進(jìn)單向LSTM對(duì)后文依賴(lài)性不足的缺點(diǎn)。實(shí)驗(yàn)表明, 在中文分詞任務(wù)中,相比較BI-LSTM模型和BI-LSTM-CRF模型,本文改進(jìn)的attention-BI-LSTM-CRF模型在選取的測(cè)試集上分詞表現(xiàn)更加出色。

        [1] 李月倫, 常寶寶. 基于最大間隔馬爾可夫網(wǎng)模型的漢語(yǔ)分詞方法[J]. 中文信息學(xué)報(bào), 2010, 24(1): 8-14.

        [2] Peng F, Feng F, Mccallum A. Chinese segmentation and new word detection using conditional random fields[C]. Proceedings of Coling, 2004: 562-568.

        [3] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]. Proc of the Fourth SIGHAN Workshop on Chinese Language Processing, 2005: 168-171.

        [4] Nianwen Xue. Chinese word segmentation as char- acter tagging[J]. Computational Linguistics and Chi- nese Language Processing, 2003, 8(1): 29-48.

        [5] Collobert R, Weston J, Bottou L. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.

        [6] Zheng X, Chen H, Xu T. Deep learning for Chinese word segmentation and POS tagging[C]. Confer- ence on Empirical Methods in Natural Language Processing, 2013: 647-657.

        [7] Chen X, Qiu X, Zhu C, et al. Gated recursive neu- ral network for Chinese word segmentation[C]. Proc of Annual Meeting of the Association for Computational Linguistics, 2015: 1744-1753.

        [8] Chen X, Qiu X, Zhu C, et al. Long short-term memory neural networks for Chinese word seg- mentation[C]. Conference on Empirical Methods in Natural Language Processing, 2015: 1197-1206.

        [9] Yushi Yao, Zheng Huang. Bi-directional LSTM recurrent neural network for Chinese word segmen- tation[C]. InternationalConference on Neural In-formation Processing, 2016: 345-353.

        [10] Y. Bengio; P. Simard; P. Frasconi, Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 2002, 5(2): 157-166.

        [11] 張玉環(huán), 錢(qián)江. 基于兩種 LSTM 結(jié)構(gòu)的文本情感分析[J]. 軟件, 2018, 39(1): 116-120.

        [12] S Hochreiter, J Schmidhuber, LSTM can solve hard long time lag problems. International Conference on Neural Information, 1996, 9: 473-479.

        [13] Lafferty J D, Mccallum A, Pereira F C N. Conditional random fields: probabilistic models for seg- menting and labeling sequence data[C]. Proc of ICML, 2002, 3(2): 282-289.

        [14] Neural Machine Translation by Jointly Learning to Align and Translate. D Bahdanau, K Cho, Y Bengio - arXiv preprint arXiv: 1409. 0473, 2014.

        [15] Hinton G E. Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society. 1986: 1-12.

        [16] Mulder W D, Bethard SMoens M F. A Survey on the application of recurrent neural networks to statistical language modelingJ. Computer Speech &Language, 2014, 30(1): 61-98.

        [17] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

        BI-LSTM-CRF Chinese Word Segmentation Model with Attention Mechanism

        HUANG Dan-dan, GUO Yu-cui

        (School of Science, Beijing University of Posts and Telecommunications, Beijing 100876, China)

        In English words, spaces are used as natural delimiters between words, and there are no such clear delimiters between Chinese words. Therefore, deep learning models and methods that obtain good results in English natural language processing cannot be directly applied. Deep learning has achieved breakthrough results in the field of natural language processing in English. Based on the existing work, this paper proposes a method to integrate the Bi-LSTM-CRF model and the attention mechanism, and introduces a denoising mechanism to filter the word vector representation.In addition, the contribution rateof the unidirectional LSTM is reduced. The output weight matrix of the BI-LSTM is adjusted to improve the word segmentation effect. We conducted experiments using the public data set in the above model. Experimental results show that the improved attention-BI-LSTM-CRF model and training method can effectively solve the problem of word segmentation and part of speech tagging in Chinese natural language processing, and can obtain good performance.

        Chinese segmentation; BI-LSTM; CRF; Attention mechanism; Contribution factor; Denoising mechanism; Dropout

        TP391

        A

        10.3969/j.issn.1003-6970.2018.10.050

        黃丹丹(1991-),女,研究生,主要研究方向:自然語(yǔ)言處理;郭玉翠(1962-),女,教授,主要研究方向:數(shù)學(xué)與信息安全。

        黃丹丹,郭玉翠. 融合attention機(jī)制的BI-LSTM-CRF中文分詞模型[J]. 軟件,2018,39(10):260-266

        猜你喜歡
        機(jī)制文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        国产女人好紧好爽| 黑人一区二区三区在线| 国产女主播大秀在线观看| 国产精华液一区二区三区| 40岁大乳的熟妇在线观看| 国产a级网站| 成年男人午夜视频在线看| 亚洲av网一区二区三区| av无码人妻中文字幕| 精品人无码一区二区三区 | 国产精品自在线拍国产| 国产成人精品亚洲午夜| 国产精品国产三级国产专区51区| 蜜桃a人妻精品一区二区三区| 国产精品久线在线观看| 久久福利青草精品免费| 免费在线观看蜜桃视频| 精品久久中文字幕系列| 99久久超碰中文字幕伊人| 国自产偷精品不卡在线| 免费美女黄网站久久久| 亚洲美女毛片在线视频| 国产午夜毛片v一区二区三区| 久久香蕉国产精品一区二区三| 手机在线中文字幕国产| 国产亚洲午夜精品久久久| 亚洲成av人片在www| 亚洲成人日韩| 亚洲av性色精品国产| 黑人巨大精品欧美| 国产精品白浆在线观看无码专区| 国产主播无套内射一区| sm免费人成虐漫画网站| 在线精品无码字幕无码av | 熟女人妻丰满熟妇啪啪| 亚洲成在人线天堂网站| 国产精品无码av无码| 高潮毛片无遮挡高清免费| 超碰性爱| av免费播放网站在线| 夜夜未满十八勿进的爽爽影院|