李雅昆,潘 晴,Everett X.WANG
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣州510006)
(*通信作者電子郵箱12936434@qq.com)
隨著互聯(lián)網(wǎng)和計(jì)算機(jī)硬件的發(fā)展,智能家居控制、自動問答和語音助手等自然語言處理應(yīng)用得到越來越多的關(guān)注。而中文不同于西方語系之處,即詞與詞之間沒有固定的間隔,使得中文分詞成為自然語言處理的基礎(chǔ)。另一方面,口語對話沒有標(biāo)點(diǎn)符號,不能區(qū)分語句邊界及規(guī)范語言結(jié)構(gòu),因此標(biāo)點(diǎn)預(yù)測也是極其重要的自然語言處理任務(wù)。目前中文分詞和標(biāo)點(diǎn)預(yù)測都是作為獨(dú)立的自然語言處理任務(wù)存在的,先中文分詞再標(biāo)點(diǎn)預(yù)測的級聯(lián)的方案不僅顯得過于復(fù)雜,而且分詞的效果會直接影響到標(biāo)點(diǎn)預(yù)測的性能,因此找到一個(gè)能并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測的方法具有現(xiàn)實(shí)的意義。
由字構(gòu)詞的中文分詞方法首次由Xue等[1]提出,使用LL、RR、MM、LR作為標(biāo)記,分別代表一個(gè)詞的開始、結(jié)束、中間字、單個(gè)字。隨著SIGHAN國際中文分詞評測Bakeoff的進(jìn)行,序列標(biāo)注的中文分詞方法逐漸成為主流。該方法能夠很好解決機(jī)械分詞的切分歧義問題,又能避免全切分方法因切分過多造成的分詞效率下降問題[2-5]。用于中文分詞的常用標(biāo)注集有三種:二詞位、四詞位和六詞位,各詞位標(biāo)注的定義如表1所示。二詞位標(biāo)注大多用于基于字標(biāo)注的條件隨機(jī)場分詞系統(tǒng),Zhao等[6]首次使用了六詞位標(biāo)注法,已有的采用深度學(xué)習(xí)的文章均采用四詞位標(biāo)注法[7]。
序列標(biāo)注用到的模型有Leonard E.Baum提出的隱馬爾可夫模型,它的缺點(diǎn)是由于其輸出獨(dú)立性假設(shè),無法考慮上下文的特征。最大熵模型[8]也可用于中文分詞,此模型的應(yīng)用克服了隱馬爾可夫的缺點(diǎn),但是對于訓(xùn)練預(yù)料中未出現(xiàn)的情況全部忽略,而且只能找到局部最優(yōu)解。使用鏈?zhǔn)綏l件隨機(jī)場(conditional random field)來進(jìn)行中文分詞,可以克服隱馬爾可夫模型和最大熵的上述缺點(diǎn)[9-10]。但是序列標(biāo)注的方法不管是隱馬爾可夫、最大熵還是條件隨機(jī)場都局限于特征的設(shè)計(jì),特征數(shù)量比較大,容易在訓(xùn)練時(shí)產(chǎn)生過擬合現(xiàn)象。而深度學(xué)習(xí)利用BP(Back Propagation)算法不斷調(diào)整由簡單但非線性結(jié)構(gòu)組成的網(wǎng)絡(luò)權(quán)值,從而找到原始數(shù)據(jù)更加抽象的表達(dá),這些特征是在網(wǎng)絡(luò)模型迭代中從原始數(shù)據(jù)中“學(xué)到”的,不需要人工進(jìn)行設(shè)計(jì),自學(xué)習(xí)是關(guān)鍵所在。深度學(xué)習(xí)的優(yōu)秀泛化能力、可以避免繁瑣人工特征抽取的優(yōu)勢使其成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)。最早是Zheng等[11]將深度學(xué)習(xí)應(yīng)用到中文分詞中,還把神經(jīng)網(wǎng)絡(luò)中的極大似然訓(xùn)練方法替換成他提出的perceptron-tyle訓(xùn)練方法實(shí)現(xiàn)了中文分詞和詞性標(biāo)注任務(wù)。Pei等[12]在其基礎(chǔ)上加入了標(biāo)簽嵌入層和張量變換層,提出了MMTNN模型用于中文分詞。
表1 三類詞位標(biāo)注集的定義Tab.1 Definition of three kinds of tag sets
由于LSTM模型具有解決梯度消失問題的優(yōu)點(diǎn)[13-14],Chen等[15]使用LSTM來實(shí)現(xiàn)中文分詞。后續(xù)有學(xué)者在2015對流行的LSTM變體進(jìn)行了研究對比,得出的結(jié)論是他們基本上是一樣的[16]。單向的LSTM只能記住過去的上下文信息。因此有學(xué)者在2016年提出了使用雙向LSTM神經(jīng)網(wǎng)絡(luò)來進(jìn)行中文分詞[17],這樣就可以獲得當(dāng)前詞前后兩面的上下文信息,從而提高分詞準(zhǔn)確率。一層LSTM疊加在另一層上可以形成多層的LSTM網(wǎng)絡(luò)結(jié)構(gòu)。雖然深層次的網(wǎng)絡(luò)可以學(xué)習(xí)到更加抽象的信息,但隨著疊加層數(shù)的增多,會出現(xiàn)網(wǎng)絡(luò)難以訓(xùn)練和過擬合現(xiàn)象,因此多數(shù)情況下選用2層的LSTM網(wǎng)絡(luò)結(jié)構(gòu)[18-19]。
此外,序列標(biāo)注的思想也可以推廣應(yīng)用到詞性標(biāo)注、實(shí)體命名識別和標(biāo)點(diǎn)符號預(yù)測等NLP任務(wù)中。類似于中文分詞,標(biāo)點(diǎn)預(yù)測也可以被看作是序列標(biāo)注問題,預(yù)測過程是對文本序列的每個(gè)字符進(jìn)行標(biāo)注,以確定語句邊界處的標(biāo)點(diǎn)符號。Jing等[20]用此方法結(jié)合最大熵模型進(jìn)行了標(biāo)點(diǎn)符號預(yù)測。Shriberg等[21]結(jié)合條件隨機(jī)場模型用于語音識別中句子邊界的檢測。利用序列標(biāo)注的思想便可實(shí)現(xiàn)多個(gè)預(yù)測任務(wù)的聯(lián)合標(biāo)注,因?yàn)槁?lián)合標(biāo)注的每個(gè)標(biāo)簽包含了多種預(yù)測任務(wù)的信息,因此可以實(shí)現(xiàn)多個(gè)預(yù)測任務(wù)的并行執(zhí)行。Zhang等[22]用單層感知器并行執(zhí)行中文分詞和詞性標(biāo)注;Zheng等[11]曾用多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了并行執(zhí)行中文分詞和詞性標(biāo)注;Wang等[23]用一個(gè)模型進(jìn)行了中文分詞和非正式詞匯的識別;Wu等[24]提出了可以同時(shí)進(jìn)行中文分詞和標(biāo)點(diǎn)預(yù)測的聯(lián)合任務(wù)框架用以處理社交網(wǎng)絡(luò)數(shù)據(jù);除了并行執(zhí)行兩項(xiàng)任務(wù),還有學(xué)者用一個(gè)模型同時(shí)進(jìn)行了中文分詞、詞性標(biāo)注和句法分析[25]。受此啟發(fā),本文構(gòu)建包含了中文分詞標(biāo)注和常用標(biāo)點(diǎn)標(biāo)注的聯(lián)合標(biāo)注集,并提出了一種改進(jìn)型多層BLSTM網(wǎng)絡(luò),進(jìn)而基于該神經(jīng)網(wǎng)絡(luò)和聯(lián)合標(biāo)注集并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的序列標(biāo)注通用模型如圖1[19]所示,該模型由輸入窗口、字符向量表示查找表、RNN層和softmax推理層(標(biāo)簽預(yù)測層)四部分組成。其中,輸入窗口中的C1~Cn表示輸入的文本字符,輸入的文本字符通過字符向量表示查找表轉(zhuǎn)換成能夠被RNN神經(jīng)網(wǎng)絡(luò)處理的信號向量(該過程也稱文本向量化,文本的向量化有兩種策略,一種是在訓(xùn)練之前進(jìn)行隨機(jī)初始化,在訓(xùn)練過程中隨著網(wǎng)絡(luò)權(quán)值進(jìn)行更新;另一種是用預(yù)訓(xùn)練的字向量進(jìn)行初始化。其中預(yù)訓(xùn)練字向量的過程是隨著語言模型的訓(xùn)練產(chǎn)生的,常用的語言模型包括Google在2013年開源的word2vec模型和LSTM模型,而用LSTM構(gòu)建語言模型預(yù)訓(xùn)練的字符向量對分詞結(jié)果有不同程度的提升[18])。而RNN的輸出經(jīng)過全連接的標(biāo)簽預(yù)測層獲得最終的分類結(jié)果,如圖1中softmax層輸出的Y1~Yn所示。當(dāng)所選標(biāo)注集為中文分詞標(biāo)注集時(shí),此序列標(biāo)注通用模型便可實(shí)現(xiàn)中文分詞。以下將分別對中文分詞標(biāo)注集和由經(jīng)典多層BLSTM網(wǎng)絡(luò)組成的RNN層作詳細(xì)介紹。
圖1 基于RNN的中文分詞模型Fig.1 Chinese segmentation model based on RNN
用于中文分詞序列標(biāo)注的標(biāo)注集如表2所示。1~4分別表示一個(gè)詞語的開始字、中間字、結(jié)束字和單字。
表2 中文分詞標(biāo)注集Tab.2 Tag set of Chinese cegmentation
LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊形式,由基本的LSTM單元組成[26]。將基本LSTM單元在時(shí)間軸上展開便能形成單層LSTM網(wǎng)絡(luò),將單層的LSTM網(wǎng)絡(luò)逐層疊加,由此形成多層的LSTM網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)典的LSTM網(wǎng)絡(luò)結(jié)構(gòu)由正向多層LSTM網(wǎng)絡(luò)結(jié)構(gòu)和反向多層LSTM網(wǎng)絡(luò)結(jié)構(gòu)組成,如圖2所示。其中正向多層LSTM網(wǎng)絡(luò)結(jié)構(gòu)的輸入信息為正序輸入,反向多層LSTM網(wǎng)絡(luò)結(jié)構(gòu)的輸入信息為反序輸入,最后將正向多層LSTM網(wǎng)絡(luò)結(jié)構(gòu)的輸出向量與反向多層LSTM網(wǎng)絡(luò)結(jié)構(gòu)的輸出的向量進(jìn)行合并。合并之后的向量便含有來自上下文的信息。
序列標(biāo)注通用模型可以應(yīng)用于各種序列標(biāo)注問題,每種標(biāo)注任務(wù)都對應(yīng)不同的標(biāo)注集,即預(yù)測任務(wù)的功能取決于選擇的標(biāo)注集,因此,構(gòu)建聯(lián)合標(biāo)注集是實(shí)現(xiàn)并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測的關(guān)鍵。本文在中文分詞四詞位標(biāo)注集的基礎(chǔ)上整合了常用的標(biāo)點(diǎn)符號標(biāo)注,以此構(gòu)建了聯(lián)合標(biāo)注集。另外,本文還對經(jīng)典的多層BLSTM網(wǎng)絡(luò)作了改進(jìn)。以下對聯(lián)合標(biāo)注集和改進(jìn)的多層BLSTM網(wǎng)絡(luò)作詳細(xì)介紹。
圖2 經(jīng)典多層BLSTMFig.2 Classic multilayer BLSTM
聯(lián)合標(biāo)注集如表3所示。每個(gè)標(biāo)簽(標(biāo)記)既包含了中文分詞信息又包含了標(biāo)點(diǎn)預(yù)測信息。對于標(biāo)點(diǎn)符號,其只可能出現(xiàn)在一個(gè)詞結(jié)束的地方,即出現(xiàn)在單字后面或者一個(gè)詞的結(jié)尾處,具體的標(biāo)簽如圖3的“單字”欄和“結(jié)束”欄所示。對于開始字和中間字,其后一定不會出現(xiàn)標(biāo)點(diǎn)符號,所以分別用標(biāo)簽1和2標(biāo)記即可。用此聯(lián)合標(biāo)注集應(yīng)用于序列標(biāo)注通用模型,便可實(shí)現(xiàn)并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測。
表3 聯(lián)合標(biāo)注集(并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測)Tab.3 Joint tag set(performing Chinese segmentaion and punctuation prediction jointly)
利用上述聯(lián)合標(biāo)注集(21標(biāo)簽)標(biāo)注過的數(shù)據(jù)進(jìn)行模型訓(xùn)練。測試時(shí),可以分別對中文分詞和標(biāo)點(diǎn)預(yù)測的結(jié)果進(jìn)行統(tǒng)計(jì)。對于中文分詞,標(biāo)簽1表示詞的開始,標(biāo)簽2表示中間字,標(biāo)簽3~11均表示詞語的結(jié)束,標(biāo)簽12~20均表示單個(gè)字構(gòu)成的詞;對于標(biāo)點(diǎn)預(yù)測,標(biāo)簽1、2、11和20表示無標(biāo)點(diǎn)符號,標(biāo)簽3和12表示逗號,標(biāo)簽4和13表示句號,標(biāo)簽5和14表示問號,標(biāo)簽6和15表示感嘆號,標(biāo)簽7和16表示頓號,標(biāo)簽8和17表示冒號,標(biāo)簽9和18表示段落標(biāo)記(#)。
改進(jìn)的多層BLSTM的結(jié)構(gòu)如圖3所示,每層次都包含一層正向的LSTM網(wǎng)絡(luò)和一層反向的LSTM網(wǎng)絡(luò),并將雙向LSTM網(wǎng)絡(luò)的輸出向量通過加法器進(jìn)行信息融合,并傳遞到下一層BLSTM,使得每一層的BLSTM網(wǎng)絡(luò)都可以同時(shí)獲得前后兩個(gè)方向的信息,并且隨著模型中層次的增加,雙向輸出向量能夠得到更加深入的融合。不同于改進(jìn)的網(wǎng)絡(luò),雖然傳統(tǒng)的多層BLSTM網(wǎng)絡(luò)最后輸出的信息也是經(jīng)過多層網(wǎng)絡(luò)抽象得到的,但中間層并無融合雙向網(wǎng)絡(luò)的信息,因此在抽象信息的過程中并無獲得足夠的上下文信息,改進(jìn)的網(wǎng)絡(luò)很好地解決了這個(gè)問題。本文在提高測試準(zhǔn)確率的基礎(chǔ)上,希望能盡可能地降低系統(tǒng)計(jì)算的復(fù)雜度,因此采用兩層次的BLSTM網(wǎng)絡(luò)。
圖3 改進(jìn)的多層BLSTMFig.3 Improved multilayer BLSTM
實(shí)驗(yàn)選擇了常用的PKU數(shù)據(jù)集作為對比。PKU數(shù)據(jù)集[27]由第二屆國際中文分詞Bakeoff提供,針對PKU數(shù)據(jù)集中的文本樣本長度不一的情況,實(shí)驗(yàn)之前作了相應(yīng)的預(yù)處理:
1)在標(biāo)點(diǎn)符號處將長度大于預(yù)定長度的樣本分成多個(gè),以便使待處理處理的樣本長度小于預(yù)定長度,并用空格補(bǔ)齊長度小于預(yù)定長度的樣本;
2)濾除含有待預(yù)測標(biāo)點(diǎn)之外標(biāo)點(diǎn)的樣本。
本文進(jìn)行的實(shí)驗(yàn)用到了Google所開源的tensorflow,所用語言為python。源代碼已經(jīng)上傳到個(gè)人github賬戶[28]。工作站主要參數(shù):CPU為Intel Core i7 6800k,GPU為Nvidia Titan xp;操作系統(tǒng)為Ubuntu。
本實(shí)驗(yàn)同時(shí)采用召回率(R)、準(zhǔn)確率(P)和綜合指標(biāo)(F)作為對預(yù)測結(jié)果的評價(jià)指標(biāo)。指標(biāo)F的計(jì)算如式(1)所示:
實(shí)驗(yàn)中的超參數(shù)設(shè)定如表4所示,并對一些重要參數(shù)進(jìn)行說明。
表4 實(shí)驗(yàn)超參數(shù)設(shè)定Tab.4 Experiment hyperparameters setting
綜合考慮到隨著字向量維數(shù)的增大會增加訓(xùn)練時(shí)間,實(shí)驗(yàn)中的字向量維數(shù)設(shè)定為200;LSTM網(wǎng)絡(luò)長度的增加雖然能提取更多的上下文信息,但受限于中間隱層的維度,故將LSTM網(wǎng)絡(luò)定長設(shè)定為100;為了防止實(shí)驗(yàn)中出現(xiàn)過擬合現(xiàn)象,采取了dropout方法,keep_prob作為進(jìn)行dropout時(shí)所屏蔽的神經(jīng)元比例,設(shè)定為0.5;訓(xùn)練過程中迭代次數(shù)為50,初始的學(xué)習(xí)率是1.0,迭代到max_epoch為16后學(xué)習(xí)率開始以0.9的速率下降,字典的大小設(shè)置為6000。
本文的對比實(shí)驗(yàn)由三部分組成,每個(gè)部分的每個(gè)實(shí)驗(yàn)都分別在字向量隨機(jī)初始化和字向量預(yù)訓(xùn)練等兩種字向量初始化策略下進(jìn)行。除此之外,還列出了當(dāng)年國際中文分詞大賽在PKU數(shù)據(jù)集上最好的分詞結(jié)果[29],如表5中數(shù)據(jù)第一行所示。
第一部分為基于經(jīng)典的多層BLSTM網(wǎng)絡(luò)的中文分詞和標(biāo)點(diǎn)預(yù)測(分別單獨(dú)執(zhí)行兩項(xiàng)任務(wù))。本部分由實(shí)驗(yàn)A、實(shí)驗(yàn)B和實(shí)驗(yàn)C組成,每個(gè)實(shí)驗(yàn)都對應(yīng)了不同層數(shù)的神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表5所示。
表5 第一部分實(shí)驗(yàn)結(jié)果匯總表Tab.5 The first part of experiment results
第二部分實(shí)驗(yàn)是基于改進(jìn)的多層BLSTM網(wǎng)絡(luò)的中文分詞和標(biāo)點(diǎn)預(yù)測(分別單獨(dú)執(zhí)行兩項(xiàng)任務(wù)),本部分由實(shí)驗(yàn)D、實(shí)驗(yàn)E和實(shí)驗(yàn)F組成,每個(gè)實(shí)驗(yàn)都對應(yīng)了不同層數(shù)的神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表6所示。
表6 第二部分實(shí)驗(yàn)結(jié)果匯總Tab.6 The second part of experiment result
0.960 0.959 0.960 0.964 0.960 0.962實(shí)驗(yàn)F(3層改進(jìn)BLSTM)0.939 0.940 0.939 0.955 0.959 0.957標(biāo)點(diǎn)預(yù)測中文分詞
第三部分為基于改進(jìn)的多層BLSTM網(wǎng)絡(luò)的中文分詞和標(biāo)點(diǎn)預(yù)測(并行執(zhí)行),由實(shí)驗(yàn)G(1層)、實(shí)驗(yàn)H(2層)和實(shí)驗(yàn)I(3層)共3個(gè)實(shí)驗(yàn)組成,實(shí)驗(yàn)結(jié)果如表7所示(本表的布局與表5相同。不同的是,本部分實(shí)驗(yàn)是聯(lián)合任務(wù)方法,最后的中文分詞和標(biāo)點(diǎn)預(yù)測結(jié)果是按照表3所述的規(guī)則計(jì)算得到的)。
由上述三個(gè)部分的實(shí)驗(yàn)可知:網(wǎng)絡(luò)模型相同的情況下,采用預(yù)訓(xùn)練字向量的初始化策略獲得的預(yù)測結(jié)果優(yōu)于采用隨機(jī)向量初始化獲得的預(yù)測結(jié)果;無論是經(jīng)典的多層BLSTM網(wǎng)絡(luò)模型進(jìn)行中文分詞,還是利用文本提出的改進(jìn)的多層BLSTM網(wǎng)絡(luò)模型進(jìn)行中文分詞,在進(jìn)行預(yù)訓(xùn)練字向量的初始化策略后,其中文分詞的預(yù)測性能均優(yōu)于當(dāng)年Bakeoff評測中最好的結(jié)果;更多層的深層網(wǎng)絡(luò)擁有更好的預(yù)測性能,但過多的網(wǎng)絡(luò)層數(shù)勢必會增加訓(xùn)練時(shí)間,在此不對更多層的網(wǎng)絡(luò)進(jìn)行闡述。
表7 第三部分實(shí)驗(yàn)結(jié)果匯總Tab.7 The third part of experiment results
對比第一部分和第二部分的實(shí)驗(yàn)可知,在只有一層神經(jīng)網(wǎng)絡(luò)時(shí),經(jīng)典的多層BLSTM和改進(jìn)的多層BLSTM都只經(jīng)過了一次信息融合,所以兩種網(wǎng)絡(luò)模型并無本質(zhì)區(qū)別,實(shí)驗(yàn)A和實(shí)驗(yàn)D相同的實(shí)驗(yàn)結(jié)果也驗(yàn)證了此種觀點(diǎn)。在相同的神經(jīng)網(wǎng)絡(luò)層數(shù)下(2層以上的網(wǎng)絡(luò)),本文所提出的改進(jìn)的多層BLSTM網(wǎng)絡(luò)模型無論是中文分詞還是標(biāo)點(diǎn)預(yù)測,其預(yù)測性能均優(yōu)于經(jīng)典的多層BLSTM網(wǎng)絡(luò)。
對比第二部分和第三部分的實(shí)驗(yàn)可知,在相同的神經(jīng)網(wǎng)絡(luò)層數(shù)下,本文提出的基于改進(jìn)的多層BLSTM的聯(lián)合任務(wù)方法的預(yù)測性能不低于甚至優(yōu)于用該模型執(zhí)行單個(gè)預(yù)測任務(wù)時(shí)的性能。
經(jīng)典多層BLSTM和改進(jìn)多層BLSTM執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測所需的訓(xùn)練時(shí)間和預(yù)測時(shí)間如表8所示。實(shí)驗(yàn)結(jié)果表明,不管是經(jīng)典BLSTM網(wǎng)絡(luò)還是改進(jìn)的BLSTM網(wǎng)絡(luò)在網(wǎng)絡(luò)層數(shù)增加的情況下,均會增加訓(xùn)練時(shí)間和預(yù)測時(shí)間;改進(jìn)后的多層BLSTM網(wǎng)絡(luò)減小了最后標(biāo)簽推理層的維數(shù),因此其較經(jīng)典的多層BSLTM網(wǎng)絡(luò)可以在一定程度上縮減訓(xùn)練時(shí)間和預(yù)測時(shí)間;在需要執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測兩項(xiàng)任務(wù)時(shí),本文提出的聯(lián)合任務(wù)方法由于可以并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測,避免了多次模型訓(xùn)練減小了系統(tǒng)復(fù)雜度,降低了訓(xùn)練時(shí)間和預(yù)測時(shí)間(分別單獨(dú)執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測需要的時(shí)間總和大于聯(lián)合任務(wù)方法)。
表8 多層BLSTM模型所需時(shí)間Tab.8 Time consumption of multilayer BLSTM
經(jīng)典2層BLSTM標(biāo)點(diǎn)預(yù)測104 31經(jīng)典3層BLSTM 105 32中文分詞140 41中文分詞標(biāo)點(diǎn)預(yù)測139 40改進(jìn)2層BLSTM聯(lián)合任務(wù)方法(中文分詞&標(biāo)點(diǎn)預(yù)測)106 31標(biāo)點(diǎn)預(yù)測 104 31中文分詞103 30改進(jìn)3層BLSTM聯(lián)合任務(wù)方法(中文分詞&標(biāo)點(diǎn)預(yù)測)132 40標(biāo)點(diǎn)預(yù)測 139 40中文分詞138 39
本文提出了一種改進(jìn)的多層BLSTM網(wǎng)絡(luò)用于序列標(biāo)注,并構(gòu)建了一種整合了分詞標(biāo)注和常用標(biāo)點(diǎn)標(biāo)注的聯(lián)合標(biāo)注集,進(jìn)而達(dá)到了并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測的目的。在公開數(shù)據(jù)集PKU上的實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的多層BLSTM網(wǎng)絡(luò)性能優(yōu)越,和經(jīng)典的多層BLSTM網(wǎng)絡(luò)相比,提升了中文分詞和標(biāo)點(diǎn)預(yù)測的分類精度;當(dāng)需要中文分詞和標(biāo)點(diǎn)預(yù)測時(shí),聯(lián)合任務(wù)方法可以并行執(zhí)行中文分詞和標(biāo)點(diǎn)預(yù)測,避免了分別單獨(dú)進(jìn)行兩項(xiàng)標(biāo)注任務(wù)時(shí)的多次訓(xùn)練,減小了系統(tǒng)復(fù)雜度,減少了訓(xùn)練和預(yù)測時(shí)間。此改進(jìn)的多層雙向LSTM模型可以很容易地應(yīng)用于其他序列標(biāo)注任務(wù),具有很強(qiáng)的通用性。