亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法研究

        2019-01-11 06:00:12車萬(wàn)翔
        關(guān)鍵詞:分詞字符雙向

        徐 偉, 車萬(wàn)翔, 劉 挺

        (哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

        0 引 言

        詞作為“最小的能獨(dú)立運(yùn)用的語(yǔ)言單位”[1],通常是上層自然語(yǔ)言處理任務(wù)的基礎(chǔ)輸入。分詞結(jié)果的好壞,將直接影響到上層應(yīng)用的效果。

        考慮到中文詞語(yǔ)之間沒(méi)有明顯的分隔符,因此想要獲得較好的分詞效果則并非易事。在2002年之前,學(xué)術(shù)界普遍使用基于規(guī)則或者基于統(tǒng)計(jì)的詞典匹配方法,典型的如正向最大匹配、逆向最大匹配等[2]。2002年,Xue等人[3]首次提出了基于字標(biāo)注的方法,次年,又使用最大熵模型實(shí)現(xiàn)的系統(tǒng)參加Backoff-2003評(píng)測(cè)[4],取得優(yōu)異成績(jī),從此,基于字符標(biāo)注的中文分詞方法即已迅速吸引了學(xué)界的廣泛關(guān)注。基于字標(biāo)注的方法首先將分詞結(jié)果(詞序列)轉(zhuǎn)變?yōu)闃?biāo)簽序列,然后通過(guò)序列標(biāo)注模型學(xué)習(xí)字符序列與標(biāo)簽序列的關(guān)系來(lái)完成分詞。詞序列轉(zhuǎn)換為標(biāo)簽序列依據(jù)的是每個(gè)字符在詞語(yǔ)中出現(xiàn)的位置(詞位)。目前常使用詞位標(biāo)簽集為{B,M,E,S},其中,B表示字出現(xiàn)在詞語(yǔ)的開(kāi)始位置(Begin),相應(yīng)的M、E分別表示字出現(xiàn)在詞語(yǔ)的中間(Middle)和結(jié)尾(End),標(biāo)簽S表示單字成詞(Single)。字符序列、詞序列和標(biāo)簽序列的關(guān)系如圖1所示。在基于字標(biāo)注的方法成為主流后,學(xué)術(shù)界即已開(kāi)始著重研究特征工程和序列標(biāo)注模型改進(jìn)。常見(jiàn)的特征包括n-gram特征、詞典特征、字符類別特征和字符重疊信息等[5],模型一般為CRFs[6]或結(jié)構(gòu)化感知器[7]等。2011年,Collobert等人[8]提出了一套針對(duì)詞性標(biāo)注、命名實(shí)體識(shí)別和語(yǔ)義角色標(biāo)注的通用網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法。以此為起點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的中文分詞(序列標(biāo)注模型)研究即已陸續(xù)涌現(xiàn),并獲得蓬勃發(fā)展。所使用的網(wǎng)絡(luò)結(jié)構(gòu)包括多層感知器(Multi-Layer Perceptron, MLP)[9]、最大間隔張量網(wǎng)絡(luò)(Max-Margin Tensor Neural Network, MMTNN)[10]、GRNN(Gated Recursive Neural Network)[11]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)[12]以及雙向LSTM(Bidirectional LSTM, Bi-LSTM)[13]、雙向LSTM-CRFs[14]等。在深度學(xué)習(xí)的浪潮下,研究者們普遍忽視了手工特征,大多數(shù)模型僅使用當(dāng)前位置的字符信息(unigram)作為輸入。但仍有部分學(xué)者的研究表明,在MLP或MMTNN網(wǎng)絡(luò)中加入bigram特征可以顯著提升模型的效果[9-10]。

        圖1 字符序列、詞序列和標(biāo)簽序列示例

        Fig.1Examplesofcharactersequence,wordsequenceandlabelsequence

        研究認(rèn)為,手工特征作為人類知識(shí)的體現(xiàn),對(duì)模型而言是非常有價(jià)值的。本文將當(dāng)下熱門(mén)的雙向LSTM結(jié)構(gòu)與手工特征相融合,試圖說(shuō)明結(jié)合手工特征和深度神經(jīng)網(wǎng)絡(luò)的模型,相比傳統(tǒng)中文分詞方法以及不使用額外特征的深度神經(jīng)網(wǎng)絡(luò)模型效果更加優(yōu)異。

        1 融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法

        研究中,首先展示模型整體結(jié)構(gòu),隨后依次探討了手工特征融入方法、雙向LSTM結(jié)構(gòu)以及標(biāo)簽預(yù)測(cè)方法,最后給出本次研究在模型中所使用的手工特征。研究可得剖析論述如下。

        1.1 模型整體結(jié)構(gòu)

        從宏觀上,本文的模型結(jié)構(gòu)可以分為3個(gè)層次。第一層將手工特征轉(zhuǎn)變?yōu)檫B續(xù)值向量,將該層稱為輸入層;第二層為表示學(xué)習(xí)層,通過(guò)雙向LSTM結(jié)構(gòu)設(shè)計(jì)得出各位置間輸入向量的特征組合;第三層為標(biāo)簽預(yù)測(cè)層,完成標(biāo)簽預(yù)測(cè),模型的整體結(jié)構(gòu)如圖2所示。

        1.2 手工特征融入神經(jīng)網(wǎng)絡(luò)模型的方法

        手工特征一般可分為離散特征和連續(xù)值特征2類。對(duì)于深度神經(jīng)網(wǎng)絡(luò),其輸入一般是連續(xù)實(shí)值向量。因此離散特征往往需要轉(zhuǎn)換為實(shí)值向量才能輸入給神經(jīng)網(wǎng)絡(luò)。而對(duì)于連續(xù)值特征,可以有2種處理方式。一種是將連續(xù)值直接輸入給網(wǎng)絡(luò),另一種是將連續(xù)值離散化,轉(zhuǎn)換為離散特征進(jìn)行處理。通常而言,將連續(xù)值離散化能夠解決輸入稀疏的問(wèn)題,有利于模型泛化。文中就采用了離散化連續(xù)值特征的策略,因此手工特征都成為了離散特征的形式。

        將離散特征轉(zhuǎn)換為連續(xù)實(shí)值向量,一般是通過(guò)映射表的形式完成的。以u(píng)nigram特征為例,記所有unigram構(gòu)成字典D,n=|D|為字典大小,即unigram個(gè)數(shù)。首先對(duì)D中每個(gè)unigram編號(hào)為0,1,…,n-1,設(shè)某個(gè)unigram為u,則i=Du即為u對(duì)應(yīng)的編號(hào);接著建立一個(gè)編號(hào)到值向量的映射表M,Mi就表示編號(hào)為i的unigram對(duì)應(yīng)的實(shí)值向量。

        由于選擇使用了多種類型的手工特征,在每種特征均已生成了特征值到實(shí)值向量的映射后,還需要將這些向量組合起來(lái),研究中采取拼接的方法將所有類型的特征向量組合成為一個(gè)輸入向量。

        整個(gè)將手工特征(離散特征)轉(zhuǎn)換為連續(xù)實(shí)值向量的過(guò)程如圖3所示。轉(zhuǎn)換流程過(guò)后,就達(dá)到了將手工特征融入神經(jīng)網(wǎng)絡(luò)的目的,而這也是整個(gè)輸入層面臨的工作任務(wù)。

        圖2 模型整體結(jié)構(gòu)圖

        圖3 手工特征(離散特征)轉(zhuǎn)變?yōu)檫B續(xù)實(shí)值向量的流程

        Fig.3Theprocessofmanulfeaturesturningtocontinousreal-valuevector

        1.3 雙向LSTM結(jié)構(gòu)

        雙向LSTM結(jié)構(gòu)更準(zhǔn)確的表述是在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)中以LSTM作為RNN單元的結(jié)構(gòu)。

        循環(huán)神經(jīng)網(wǎng)絡(luò)是一種處理時(shí)序輸入的網(wǎng)絡(luò)結(jié)構(gòu)。RNN結(jié)構(gòu)理論上只包含一個(gè)RNN單元,該單元將在時(shí)間維度上反復(fù)循環(huán)地處理輸入序列,并由此而得名。RNN單元接口和在時(shí)間序列上的展開(kāi)效果如圖4所示。RNN考慮了前一個(gè)時(shí)刻的輸出,因此被認(rèn)為能夠記錄輸入序列的歷史信息。

        RNN單元有多種類型。簡(jiǎn)易的RNN單元只是將輸入向量x和前一個(gè)時(shí)刻的狀態(tài)ht-1進(jìn)行非線性組合,在訓(xùn)練較長(zhǎng)的輸入序列時(shí)容易出現(xiàn)梯度消失或者梯度爆炸的問(wèn)題,難以訓(xùn)練模型。針對(duì)此問(wèn)題,Hochreiter等人[15]專門(mén)提出了LSTM單元,在LSTM單元內(nèi)部引入了控制門(mén)和記憶單元,較大程度上解決了訓(xùn)練過(guò)程中可能出現(xiàn)的梯度問(wèn)題。此外,其特征組合的能力也因其內(nèi)部結(jié)構(gòu)的復(fù)雜而更顯強(qiáng)大。

        圖4 RNN單元接口(左)以及在時(shí)間序列上的展開(kāi)效果(右)

        Fig.4RNNcellinterface(left)andtheexpandingeffectontimesequence(right)

        在RNN的基礎(chǔ)上,Schuster等人[16]擴(kuò)展出了雙向RNN結(jié)構(gòu),圖5就提供了雙向RNN結(jié)構(gòu)在長(zhǎng)度為3的時(shí)間序列上的展開(kāi)效果。由于前向單元能夠編碼歷史信息,而后向單元可以融合未來(lái)的信息,因此理論上雙向RNN結(jié)構(gòu)在每個(gè)位置上都能夠看到全局的信息。顯而易見(jiàn),這個(gè)特性對(duì)中文分詞任務(wù)是非常重要的。

        圖5 雙向RNN的展開(kāi)結(jié)構(gòu)

        雙向LSTM結(jié)構(gòu)搭建了本次研究模型中的表示學(xué)習(xí)層。該層用于設(shè)計(jì)生成各位置間輸入特征向量的組合,并在每個(gè)位置上輸出特征組合結(jié)果。

        1.4 標(biāo)簽預(yù)測(cè)方法

        在標(biāo)簽預(yù)測(cè)層,研究將在每個(gè)位置獨(dú)立預(yù)測(cè)標(biāo)簽。就是說(shuō),對(duì)每個(gè)位置上表示學(xué)習(xí)層的輸出向量均需經(jīng)過(guò)Softmax操作才可運(yùn)算得到每個(gè)標(biāo)簽的概率。需要注意的是,研究在每個(gè)位置上選取標(biāo)簽是在滿足標(biāo)簽限制關(guān)系下概率最大的那個(gè)。舉例來(lái)說(shuō),假設(shè)前一個(gè)位置的標(biāo)簽為S,那么依據(jù)詞位標(biāo)簽的限制關(guān)系,當(dāng)前位置的合法標(biāo)簽候選集就是{B,S},研究會(huì)從該集合中選取概率最大的作為預(yù)測(cè)結(jié)果。

        1.5 手工特征選擇

        研究在模型中使用的手工特征包括unigram、bigram、詞典特征和字符類別特征。這里,針對(duì)其研究要點(diǎn)可逐一闡釋分述如下。

        (1)unigram特征。即是當(dāng)前位置的字符特征,代表著原始的輸入信息。

        (2)bigram特征。為當(dāng)前位置字符和下一個(gè)位置字符構(gòu)成的bigram表示。特別指出,研究中可令尾后字符(最后一個(gè)位置的后一個(gè)位置字符,在原始輸入中并不存在)的表示為EOS,用來(lái)與輸入序列中最后一個(gè)位置的字符構(gòu)成bigram。bigram表示對(duì)于中文分詞尤為重要,因其不僅蘊(yùn)含著語(yǔ)言模型的信息,同時(shí)有助于擴(kuò)大輸入空間,令模型在標(biāo)簽預(yù)測(cè)時(shí)更加容易。LSTM單元由于兼顧了上一個(gè)位置的狀態(tài)輸出,因此理論上能夠自動(dòng)捕獲一定量的bigram信息,這也是目前研究者們?cè)噲D通過(guò)復(fù)雜化網(wǎng)絡(luò)結(jié)構(gòu)來(lái)使得模型僅根據(jù)原始輸入序列(unigram特征)就能做出良好預(yù)測(cè)的理由。但是,和把學(xué)習(xí)bigram特征的工作交給模型相比,直接輸入bigram信息顯然可使模型預(yù)測(cè)更趨便捷。

        (3)詞典特征。使得模型具有了融合詞典信息的能力。在抽取詞典特征前,首先需要構(gòu)建一個(gè)詞典,這既可以從訓(xùn)練集中統(tǒng)計(jì)得到,也可以由外部指定。特別地,通過(guò)外部指定特定領(lǐng)域的詞典,模型將具有一定的領(lǐng)域適應(yīng)能力。在詞表構(gòu)建成功后,接下來(lái)就在輸入句子的每個(gè)位置上對(duì)構(gòu)建的詞表做最大正向匹配,得到在每個(gè)位置上以此位置字符開(kāi)始的詞的最大長(zhǎng)度Ls、經(jīng)過(guò)(不包含詞首、尾)此位置的詞的最大長(zhǎng)度Lp和以此位置字符結(jié)尾的詞的最大長(zhǎng)度Le,接著將對(duì)這3個(gè)長(zhǎng)度值進(jìn)行離散化,設(shè)計(jì)操作如下:

        (1)

        (4)字符類別特征。研究將會(huì)判斷當(dāng)前位置的字符是否是{數(shù)字類,標(biāo)點(diǎn)類,字母類}中的某一種。如果是,則取對(duì)應(yīng)的字符類別,否則取值為“其它類”。該特征從字符類別的角度為字符提供了泛化表示,使模型的泛化能力更強(qiáng)。

        2 實(shí)驗(yàn)結(jié)果與分析

        在本次實(shí)驗(yàn)中采用的數(shù)據(jù)集為人民日?qǐng)?bào)1998年上半年數(shù)據(jù)(約30萬(wàn)行、七百萬(wàn)詞)和微博數(shù)據(jù)(約五萬(wàn)七千行、一百萬(wàn)詞)的合并集,具體訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集信息可見(jiàn)表1。該數(shù)據(jù)集規(guī)模較大,能夠充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的能力。

        表1 中文分詞數(shù)據(jù)集詳情

        為了直觀比較模型效果,研究中使用了2個(gè)基準(zhǔn)線模型。第一個(gè)模型為哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心發(fā)布的LTP工具[17]。與中文模型相比,LTP使用相似的手工特征,但通過(guò)結(jié)構(gòu)化感知器來(lái)擬合數(shù)據(jù),屬于線性模型。第二個(gè)基準(zhǔn)線模型為僅使用unigram特征的雙向LSTM模型,除輸入特征不同外,其余部分與本文的模型結(jié)構(gòu)完全一致。為了敘述方便,研究中將unigram的雙向LSTM記為Uni-Bi-LSTM,將本文的的模型記為All-Bi-LSTM。

        實(shí)驗(yàn)參數(shù)上,對(duì)于LTP,設(shè)定使用默認(rèn)參數(shù)完成訓(xùn)練;Uni-Bi-LSTM和All-Bi-LSTM的參數(shù)設(shè)置可見(jiàn)表2。

        研究中選擇使用F1值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果詳見(jiàn)表3。根據(jù)實(shí)驗(yàn)結(jié)果,融合手工特征和雙向LSTM結(jié)構(gòu)的方法取得了最優(yōu)的效果,且相比其余2種方法提升明顯。LTP作為傳統(tǒng)中文分詞方法的代表,在開(kāi)發(fā)集和測(cè)試集上均取得了不錯(cuò)的效果,但是其在測(cè)試集上的F1值相比在開(kāi)發(fā)集上低0.13個(gè)百分點(diǎn),高于Uni-Bi-LSTM的0.11和All-Bi-LSTM的0.07,這表明在此數(shù)據(jù)集上基于Bi-LSTM的方法泛化能力更強(qiáng)。僅使用unigram特征的Uni-Bi-LSTM方法效果最差,相比All-Bi-LSTM在開(kāi)發(fā)集上低1.65個(gè)百分點(diǎn),測(cè)試集上低1.69個(gè)百分點(diǎn)。這表明僅是通過(guò)雙向LSTM結(jié)構(gòu)去自動(dòng)學(xué)習(xí)輸入中的特征還是不夠的,引入手工特征能夠顯著提升模型效果。最后,同樣基于手工特征,使用Bi-LSTM結(jié)構(gòu)的All-Bi-LSTM方法比使用結(jié)構(gòu)化感知器的LTP效果優(yōu)異,在開(kāi)發(fā)集和測(cè)試集上分別高0.28和0.34個(gè)百分點(diǎn),這說(shuō)明Bi-LSTM結(jié)構(gòu)的特征組合能力更加強(qiáng)大。

        表2 Uni-Bi-LSTM和All-Bi-LSTM參數(shù)設(shè)計(jì)

        注:學(xué)習(xí)率在{0.01, 0.05, 0.1}三個(gè)候選值中搜索,取在開(kāi)發(fā)集上取得最優(yōu)效果的值作為最終參數(shù)值。

        表3 實(shí)驗(yàn)結(jié)果

        3 結(jié)束語(yǔ)

        本文探討了將手工特征和雙向LSTM結(jié)構(gòu)相融合的中文分詞方法,該方法既融入了人類的先驗(yàn)知識(shí),又引入了深度神經(jīng)網(wǎng)絡(luò)模型對(duì)于輸入特征的組合能力。實(shí)驗(yàn)結(jié)果表明,本文的方法相比傳統(tǒng)基于手工特征的方法有較大提升,相比不使用額外手工特征的雙向LSTM模型則有長(zhǎng)足可觀的大幅提升。這也進(jìn)一步驗(yàn)證了本文提出的融合手工特征和雙向LSTM結(jié)構(gòu)的中文分詞方法的有效性。

        猜你喜歡
        分詞字符雙向
        雙向度的成長(zhǎng)與自我實(shí)現(xiàn)
        出版人(2022年11期)2022-11-15 04:30:18
        尋找更強(qiáng)的字符映射管理器
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        結(jié)巴分詞在詞云中的應(yīng)用
        消失的殖民村莊和神秘字符
        值得重視的分詞的特殊用法
        一種軟開(kāi)關(guān)的交錯(cuò)并聯(lián)Buck/Boost雙向DC/DC變換器
        一種工作頻率可變的雙向DC-DC變換器
        基于雙向預(yù)測(cè)的圖像去噪
        河南科技(2014年19期)2014-02-27 14:15:24
        精品亚洲不卡一区二区| 亚洲精品无码不卡在线播放he| 国内露脸中年夫妇交换| 国产精品自线在线播放| 亚洲一区二区av天堂| 欧美a级在线现免费观看| 国产内射999视频一区| 国产精品自产拍在线观看中文| 美女福利视频在线观看网址| 手机在线看片| 亚洲精华国产精华液的福利| 人妻无码AⅤ不卡中文字幕| 亚洲福利一区二区不卡| 中文区中文字幕免费看| 亚洲av日韩av高潮潮喷无码 | 激情都市亚洲一区二区| 亚洲中文字幕无码不卡电影 | 久久久久久亚洲av无码蜜芽| 亚洲综合婷婷久久| 日本一区二区三区一级免费| 在线精品国产亚洲av蜜桃| 亚洲精品一区久久久久久| 产国语一级特黄aa大片| 成人在线观看视频免费播放| 美国少妇性xxxx另类| 抽搐一进一出试看60秒体验区| 麻豆AV无码久久精品蜜桃久久| 久久91综合国产91久久精品| 久久久精品国产亚洲av网不卡 | 亚洲无线码一区二区三区| 色妺妺视频网| 亚洲AV无码永久在线观看| 看中文字幕一区二区三区| 日韩欧美在线综合网另类| 男女肉粗暴进来120秒动态图| 四虎无码精品a∨在线观看| 狠色人妻丝袜中文字幕| 精品少妇人妻av无码专区| 亚洲无码a∨在线视频| 日本一区二区三区在线视频播放| 成人做爰69片免费看网站野花|