亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注的中文分詞研究

        2017-10-23 02:16:21古麗米拉克孜爾別克鐘麗峰張志強(qiáng)
        關(guān)鍵詞:分詞標(biāo)簽向量

        刁 琦,古麗米拉·克孜爾別克,鐘麗峰,張 健,張志強(qiáng)

        (1.新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,新疆 烏魯木齊 830052;2.新疆維吾爾自治區(qū)圖書館,新疆 烏魯木齊 830052;3.新疆虹聯(lián)軟件有限公司,新疆 烏魯木齊 830052)

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注的中文分詞研究

        刁 琦1,古麗米拉·克孜爾別克1,鐘麗峰2,張 健3,張志強(qiáng)1

        (1.新疆農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,新疆 烏魯木齊 830052;2.新疆維吾爾自治區(qū)圖書館,新疆 烏魯木齊 830052;3.新疆虹聯(lián)軟件有限公司,新疆 烏魯木齊 830052)

        分詞是中文自然語(yǔ)言處理中的關(guān)鍵技術(shù)。在自然語(yǔ)言處理中,序列標(biāo)注在中文分詞中有著極其重要的應(yīng)用。當(dāng)前主流的中文分詞方法是基于監(jiān)督學(xué)習(xí),從中文文本中提取特征信息。這些方法未能充分地利用上下文信息對(duì)中文進(jìn)行分割,缺乏長(zhǎng)距離信息約束能力。針對(duì)上述問(wèn)題進(jìn)行研究,提出在序列標(biāo)注的前提下利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行中文分詞,避免了窗口對(duì)上下文大小的限制,可以獲得一個(gè)詞的前面和后面的上下文信息,通過(guò)增加上下文能夠有效地解決梯度爆炸和爆的問(wèn)題,然后再在輸入層加入訓(xùn)練好的上下文詞向量,取得相對(duì)較好的分詞效果。實(shí)驗(yàn)結(jié)果表明,該算法的使用可以達(dá)到97.3%的中文分詞準(zhǔn)確率,與傳統(tǒng)機(jī)器學(xué)習(xí)分詞算法相比,效果較為顯著。

        自然語(yǔ)言處理;循環(huán)神經(jīng)網(wǎng)絡(luò);序列標(biāo)注;中文分詞;監(jiān)督學(xué)習(xí)

        0 引 言

        分詞是中文處理的一項(xiàng)根本任務(wù)。詞是“最小的能獨(dú)立運(yùn)用的語(yǔ)言單位”[1]。中文與英文有所不同,英文中詞與詞之間用空格天然分割,而中文具有大字符連續(xù)書寫的特點(diǎn),需要對(duì)其進(jìn)行有效分割。分詞更重要的一個(gè)功能是幫助計(jì)算機(jī)理解文字。因此,在自然語(yǔ)言處理中,中文分詞[2]是一項(xiàng)重要的基礎(chǔ)技術(shù)。

        近年來(lái),中文分詞技術(shù)有了長(zhǎng)足進(jìn)步。陳碩等[3]提出一種使用誤差反傳神經(jīng)網(wǎng)絡(luò)與一種改進(jìn)的匹配算法相結(jié)合的中文分詞技術(shù),該方法不需要標(biāo)注語(yǔ)義信息,適應(yīng)性、魯棒性好,且訓(xùn)練結(jié)果占用空間小,有一定冗余性,對(duì)比單純的神經(jīng)網(wǎng)絡(luò)分詞方法有較大提高。巫黃旭[4]提出一種基于統(tǒng)計(jì)學(xué)習(xí)的分詞方法,以期在最小人工干預(yù)的條件下達(dá)到盡可能高的分詞性能,擴(kuò)展二元語(yǔ)法模型至三元語(yǔ)法模型,提出性能優(yōu)化的三元語(yǔ)法獲取和使用方法,但語(yǔ)法模型結(jié)構(gòu)較為簡(jiǎn)單。何嘉[5]在分析進(jìn)化神經(jīng)網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)分詞法優(yōu)勢(shì)的基礎(chǔ)上,將改進(jìn)的免疫遺傳算法應(yīng)用到基于神經(jīng)網(wǎng)絡(luò)的中文分詞模型中,對(duì)歧義進(jìn)行處理。盡管這些方法效果較好,但是標(biāo)記特征工作量大,訓(xùn)練的模型過(guò)度擬合訓(xùn)練語(yǔ)料庫(kù)。

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)[6]廣泛應(yīng)用于機(jī)器翻譯[7]、語(yǔ)音識(shí)別[8]、圖像描述生成等領(lǐng)域。相比于傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò),其特點(diǎn)是可以存在有向環(huán),將上一次的輸出作為本次的輸入。而與前饋神經(jīng)網(wǎng)絡(luò)[9]的最大區(qū)別是:前饋神經(jīng)網(wǎng)絡(luò)要求輸入的上下文是固定長(zhǎng)度的,也就是說(shuō)n-gram中的n要求是個(gè)固定值,而在LSTM基礎(chǔ)上擴(kuò)展的循環(huán)神經(jīng)網(wǎng)絡(luò)不限制上下文的長(zhǎng)度,可以充分利用所有上文提供的信息來(lái)預(yù)測(cè)下一個(gè)詞,本次預(yù)測(cè)的中間隱層信息可以在下一次預(yù)測(cè)里循環(huán)使用。為此,文中試圖將循環(huán)神經(jīng)網(wǎng)絡(luò)模型應(yīng)用在中文分詞方面。

        1 理論研究

        1.1詞向量特征

        在自然語(yǔ)言處理中,需要將自然語(yǔ)言理解問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題,即自然語(yǔ)言的符號(hào)數(shù)學(xué)化。目前最常用的詞表示方法是One-hot Representation[10],把文本中每一個(gè)詞表示為多維向量,向量的維度是詞表大小,其中絕大部分?jǐn)?shù)元素表示為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。例如,“學(xué)生”表示為[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0];“班級(jí)”表示為[0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]。

        常將One-hot采用稀疏的方式對(duì)詞進(jìn)行存儲(chǔ),即為每個(gè)詞分配對(duì)應(yīng)的數(shù)字ID。該方法簡(jiǎn)單易用,廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù)中,如N-gram模型[11]中就采用該方法。但這種表述方法也存在一定問(wèn)題,即表示的任意兩詞之間是孤立的,無(wú)法表示這兩個(gè)詞之間的依賴關(guān)系,從詞向量上看不出兩個(gè)詞是否存在相關(guān)關(guān)系;采用稀疏表示法[12],在處理某些任務(wù),如構(gòu)建N-gram模型時(shí),會(huì)引起維數(shù)災(zāi)難問(wèn)題。

        而在深度學(xué)習(xí)[13]中,一般采用分布式表示(Distributed Representation)的方法表示詞向量,該方法最早由Hinton[14]提出,通常稱為Word Representation。該方法將詞用一種低維實(shí)數(shù)向量表示,優(yōu)點(diǎn)在于相似的詞在距離上更接近,體現(xiàn)出不同詞之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。同時(shí),較低的維度也使特征向量在應(yīng)用時(shí)有一個(gè)可接受的復(fù)雜度。因此,新近提出的許多語(yǔ)言模型,如潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)模型和潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)[15]模型,及目前流行的神經(jīng)網(wǎng)絡(luò)模型等,都采用這種方法表示詞向量。

        1.2循環(huán)神經(jīng)網(wǎng)絡(luò)

        中文分詞通常被看作為基于字符的序列標(biāo)簽[16]。每個(gè)字符貼上{B,M,E,S}來(lái)表示分割。一個(gè)多字符分割用{B,M,E}表示開始、中間、結(jié)束,S表示單個(gè)字符分割。序列標(biāo)注[17]就是針對(duì)一個(gè)線性輸入序列:x=x1,x2,…,xn,給線性序列中的每個(gè)元素打上標(biāo)簽集中的某個(gè)標(biāo)簽,即y=y1,y2,…,yn。

        中文分詞的序列標(biāo)注過(guò)程如圖1所示。

        圖1 中文分詞序列標(biāo)注過(guò)程

        神經(jīng)網(wǎng)絡(luò)的中文分詞通用模塊主要由三部分組成[18]:詞向量化;一系列典型的神經(jīng)網(wǎng)絡(luò)層;標(biāo)簽推理層。通用框架如圖2所示。

        圖2 基于神經(jīng)網(wǎng)絡(luò)的中文分詞通用框架

        基于字標(biāo)注的分詞方法是基于一個(gè)局部滑動(dòng)窗口,假設(shè)一個(gè)字的標(biāo)簽極大地依賴于其相鄰位置的字。給定長(zhǎng)度為n的文本序列c(1:n),大小為k的窗口從文本序列的第一個(gè)字c(1)滑動(dòng)至最后一個(gè)字c(n)。對(duì)于序列中每個(gè)字c(1),窗口大小為5時(shí),上下文信息(c(t-2),c(t-1),c(t),c(t+1),c(t+2))被送入查詢表中,當(dāng)字的范圍超過(guò)了序列邊界時(shí),將以諸如“start”和“end”等特殊標(biāo)記來(lái)補(bǔ)充。然后,將查詢表中提取的字向量連接成一個(gè)向量X(t);接著,在神經(jīng)網(wǎng)絡(luò)下一層中,X(t)經(jīng)過(guò)先行變換后經(jīng)由sigmoid函數(shù)σ(x)=(1+e-x)-1或tanh函數(shù)激活。

        h(t)=σ(w1x(t)+b1)

        (1)

        接下來(lái)根據(jù)給定的標(biāo)注集,將經(jīng)過(guò)一個(gè)相似的線性變換,不同之處在于沒(méi)有線性函數(shù),得到的y(t)是每個(gè)可能標(biāo)簽的得分向量。文中選定的是更能充分表達(dá)詞信息的四位標(biāo)注集{B,M,E,S}。

        y(t)=w2h(t)+b2

        (2)

        為了建模標(biāo)簽間依賴,引入轉(zhuǎn)移得分向量Aij,用于衡量從標(biāo)簽i跳轉(zhuǎn)到標(biāo)簽j的概率。 過(guò)往的研究表明,引入轉(zhuǎn)移得分向量非常適用于中文分詞等序列標(biāo)注的任務(wù),但它僅利用了長(zhǎng)度有限的窗口信息。

        1.3LSTM網(wǎng)絡(luò)

        Recurrent Neural Networks(RNNs)具有循環(huán)的網(wǎng)絡(luò)結(jié)構(gòu),具備保持信息的能力,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 RNNs網(wǎng)絡(luò)結(jié)構(gòu)

        RNNs中的循環(huán)網(wǎng)絡(luò)模塊將信息從網(wǎng)絡(luò)上一層傳輸?shù)较乱粚?,網(wǎng)絡(luò)模塊的隱含層每個(gè)時(shí)刻的輸出都依賴于以往時(shí)刻的信息。RNNs的鏈?zhǔn)綄傩员砻髌渑c序列標(biāo)注問(wèn)題存在密切聯(lián)系,目前已被應(yīng)用到文本分類器和機(jī)器翻譯等NLP任務(wù)中。在RNNs的訓(xùn)練中,存在梯度爆炸和消失的問(wèn)題;且傳統(tǒng)的RNNs難以保較長(zhǎng)時(shí)間的記憶。

        LSTM[19](Long Short-Term Memory)網(wǎng)絡(luò)是RNNs的擴(kuò)展,用來(lái)避免長(zhǎng)期依賴問(wèn)題。LSTM的重復(fù)神經(jīng)網(wǎng)絡(luò)模塊具有不同的結(jié)構(gòu),這與樸素RNNs網(wǎng)絡(luò)不同,存在4個(gè)以特殊方式影響的神經(jīng)網(wǎng)絡(luò)層,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

        圖4 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        LSTM網(wǎng)絡(luò)的關(guān)鍵在于細(xì)胞狀態(tài),有點(diǎn)類似于傳送帶。在LSTM中,通過(guò)門結(jié)構(gòu)對(duì)細(xì)胞狀態(tài)增加或刪除信息,而門結(jié)構(gòu)采用選擇性讓信息通過(guò)的方式,通常由一個(gè)sigmoid神經(jīng)網(wǎng)絡(luò)層和逐點(diǎn)乘積操作組成(sigmoid層的輸出在0到1之間,定義了信息通過(guò)的程度,0表示什么都不讓過(guò),1表示所有都讓過(guò))。

        (1)從細(xì)胞狀態(tài)中忘記信息,由忘記門的sigmoid層決定,以當(dāng)前的輸入xt和上一層的輸出ht-1作為輸入,在t-1時(shí)刻的細(xì)胞狀態(tài)輸出ft為;

        ft=σ(wf·(ht-1,xi)+bf)

        (3)

        it=σ(wi·(ht-1,xt)+bi)

        (4)

        (5)

        (6)

        (3)輸出信息由輸出門決定。先使用sigmoid層決定要輸出細(xì)胞狀態(tài)的部分信息,接著用tanh處理細(xì)胞狀態(tài),兩部分信息的乘積得到輸出的值。

        ot=σ(wo·(h·,)+bo)

        (7)

        ht=ot·tanh(ct)

        (8)

        LSTM網(wǎng)絡(luò)模型已成功應(yīng)用于諸如文本/情感分類、機(jī)器翻譯、智能問(wèn)答和看圖說(shuō)話[20]等自然語(yǔ)言處理任務(wù)中。由于LSTM網(wǎng)絡(luò)記憶單元去學(xué)習(xí)從細(xì)胞狀態(tài)中忘記信息、去更新細(xì)胞狀態(tài)的信息,而且具有學(xué)習(xí)文本序列中遠(yuǎn)距離依賴的特性,很自然地想到可以使用LSTM網(wǎng)絡(luò)模型進(jìn)行中文分詞的任務(wù)。

        1.4基于循環(huán)神經(jīng)網(wǎng)絡(luò)的中文分詞架構(gòu)

        在以往的大學(xué)英語(yǔ)寫作課堂上,教師一直以來(lái)都遵循著這樣一個(gè)程序:布置英語(yǔ)寫作題目、修改學(xué)生作文、給出作文分?jǐn)?shù)。從某個(gè)角度來(lái)說(shuō),這一流程單一枯燥,讓學(xué)生始終處于一個(gè)被動(dòng)的寫作狀態(tài),并使其因此逐漸失去對(duì)英語(yǔ)寫作的興趣和自己的寫作風(fēng)格。就另一個(gè)角度而言,由于大學(xué)教師平時(shí)的教學(xué)任務(wù)較為繁重,且英語(yǔ)寫作的批改是一個(gè)費(fèi)時(shí)費(fèi)力的事情,久而久之就會(huì)被視為一種負(fù)擔(dān),或者會(huì)被棄置一邊,或者走形式主義,這樣一來(lái)學(xué)生就不會(huì)得到有效的指導(dǎo)。如果老師對(duì)學(xué)生的習(xí)作的反饋不及時(shí)充分,學(xué)生的英語(yǔ)寫作水平就得不到有效提高,寫作就會(huì)變得沒(méi)有動(dòng)力。

        在中文分析任務(wù)中,LSTM記憶單元的輸入來(lái)自上下文窗口的漢字。對(duì)每個(gè)漢字C(t),LSTM記憶單元的輸入為X(t),由上下文字嵌入(c(t),…,c(t+k))連接而成。其中k代表與當(dāng)前字的距離。LSTM單元的輸出在經(jīng)過(guò)線性變換后用于標(biāo)簽推理函數(shù),推理漢字對(duì)應(yīng)的標(biāo)簽。

        (9)

        文中提出的架構(gòu)如圖5所示。為了建模標(biāo)簽間依賴,在以往的神經(jīng)網(wǎng)絡(luò)模型方法中引入轉(zhuǎn)移得分向量Aij,用于衡量從標(biāo)簽i跳轉(zhuǎn)到標(biāo)簽j的概率。對(duì)于輸入文本序列c(1:n),其標(biāo)注的標(biāo)簽序列為y(1:n),序列級(jí)的得分是標(biāo)簽轉(zhuǎn)移得分和網(wǎng)絡(luò)標(biāo)注得分的總和。

        (10)

        2 分詞評(píng)估標(biāo)準(zhǔn)

        圖5 文中提出的架構(gòu)

        中文分詞性能評(píng)估指標(biāo),采用了分詞評(píng)測(cè)常用的R(召回率)、P(準(zhǔn)確率)和F-measure(F值),以F值為主要評(píng)測(cè)指標(biāo)。

        P=正確詞數(shù)/識(shí)別的詞數(shù)*100%

        (11)

        R=正確詞數(shù)/原有詞數(shù)*100%

        (12)

        F=2PR/(P+R)

        (13)

        3 實(shí) 驗(yàn)

        3.1實(shí)驗(yàn)設(shè)備

        實(shí)驗(yàn)設(shè)備如表1所示。

        軟件方面使用python2.7,安裝好了keras,theano及相關(guān)庫(kù)。

        表1 實(shí)驗(yàn)設(shè)備

        3.2實(shí)驗(yàn)結(jié)果

        語(yǔ)料庫(kù)由2億字的中文語(yǔ)料訓(xùn)練形成,該中文語(yǔ)料含有50本電子書、2年的人民日?qǐng)?bào),內(nèi)容涵蓋范圍非常廣泛,包含外交、政治、經(jīng)濟(jì)、文化、民生等眾多領(lǐng)域。測(cè)試集為新疆維吾爾自治區(qū)科技計(jì)劃項(xiàng)目提供的3組數(shù)據(jù),共2 000句,內(nèi)容包含政治、外交、體育、民俗、文化和日常生活等方面。實(shí)驗(yàn)結(jié)果如下:P為0.973,R為0.971,F(xiàn)為0.972。

        4 結(jié)束語(yǔ)

        文中實(shí)驗(yàn)基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型,采用四詞位標(biāo)注,在循環(huán)神經(jīng)網(wǎng)絡(luò)層輸入預(yù)先訓(xùn)練的詞向量,對(duì)實(shí)驗(yàn)的中文語(yǔ)料庫(kù)進(jìn)行分詞。測(cè)試結(jié)果表明,該算法較傳統(tǒng)的中文分詞效果要好。

        [1] 漢語(yǔ)信息處理詞匯01部分;基本術(shù)語(yǔ)(GB12200.1-90)6[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,1991.

        [2] 奉國(guó)和,鄭 偉.國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J].圖書情報(bào)工作,2011,55(2):41-45.

        [3] 李 華,陳 碩,練睿婷.神經(jīng)網(wǎng)絡(luò)和匹配融合的中文分詞研究[J].心智與計(jì)算,2010(2):117-127.

        [4] 巫黃旭.基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞改進(jìn)及其在面向應(yīng)用分詞中的應(yīng)用[D].杭州:浙江大學(xué),2012.

        [5] 何 嘉.基于遺傳算法優(yōu)化的中文分詞研究[D].成都:電子科技大學(xué),2012.

        [6] Graves A.Supervised sequence labelling with recurrent neural networks[M].Berlin:Springer,2012.

        [7] 蔣銳瀅,崔 磊,何 晶,等.基于主題模型和統(tǒng)計(jì)機(jī)器翻譯方法的中文格律詩(shī)自動(dòng)生成[J].計(jì)算機(jī)學(xué)報(bào),2015,38(12):2426-2436.

        [8] 王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語(yǔ)音識(shí)別的研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(8):2289-2291.

        [9] Bebis G,Georgiopoulos M.Feed-forward neural networks[J].IEEE Potentials,1994,13(4):27-31.

        [10] Landauer T K,Foltz P W,Laham D.An introduction to latent semantic analysis[J].Discourse Processes,1998,25(2-3):259-284.

        [11] 陳天瑩,陳 蓉,潘璐璐,等.基于前后文n-gram模型的古漢語(yǔ)句子切分[J].計(jì)算機(jī)工程,2007,33(3):192-193.

        [12] 欒悉道,王衛(wèi)威,謝毓湘,等.非線性稀疏表示理論及其應(yīng)用[J].計(jì)算機(jī)科學(xué),2014,41(8):13-18.

        [13] 張建明,詹智財(cái),成科揚(yáng),等.深度學(xué)習(xí)的研究與發(fā)展[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2015,36(2):191-200.

        [14] Hinton G E.Learning distributed representations of concepts[C]//Proceedings of the 8th annual conference of the cognitive science society.[s.l.]:[s.n.],1986.

        [15] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [16] 梁喜濤,顧 磊.中文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(2):175-180.

        [17] 王 昊,鄧三鴻,蘇新寧.基于字序列標(biāo)注的中文關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(12):39-45.

        [18] Zheng X,Chen H,Xu T.Deep learning for Chinese word segmentation and POS tagging[C]//Proceedings of conference on empirical methods in natural language processing.[s.l.]:[s.n.],2013:647-657.

        [19] Graves A,Jaitly N,Mohamed A.Hybrid speech recognition with deep bidirectional LSTM[C]//IEEE workshop on automatic speech recognition and understanding.[s.l.]:IEEE,2013:273-278.

        [20] 翟 艷,馮紅梅.基于“看圖說(shuō)話”任務(wù)的漢語(yǔ)學(xué)習(xí)者口語(yǔ)流利性發(fā)展研究[J].華文教學(xué)與研究,2014(4):1-7.

        ResearchonChineseWordSegmentationMethodofSequenceLabelingBasedonRecurrentNeuralNetworks

        DIAO Qi1,Gulimila·KEZIERBIEKE1,Zhong Li-feng2,ZHANG Jian3,ZHANG Zhi-qiang1

        (1.College of Computer & Information Engineering,Xinjiang Agricultural University,Urumqi 830052,China; 2.Library of Xinjiang Uygur Autonomous Region,Urumqi 830052,China; 3.Xinjiang Honglian Software Co.,Ltd.,Urumqi 830052,China)

        Word segmentation is a key technology in Chinese natural language processing.In natural language processing,sequence labeling plays an important role in Chinese word segmentation.The current mainstream Chinese word segmentation method is based on supervised learning,extraction of feature information from the Chinese text.However,they cannot make full use of context information to segment Chinese,and lack of long-distance information constraint.In order to solve it,Chinese word segmentation is carried on based on bi-directional recurrent neural network model on the premise of sequence labeling,avoiding the limitation of window size on context,obtaining the context information of the front and back of a word.It can effectively solve the problem of gradient explosion and explosion by adding context information,and then add a good context vector in the input layer to obtain a relatively good word segmentation effect.The experimental results show that it can achieve 97.3% accuracy of Chinese word segmentation and is superior to the traditional machine learning segmentation algorithm in the effect.

        natural language processing;recurrent neural network;sequence annotation;Chinese word segmentation;supervised learning

        TP301.6

        A

        1673-629X(2017)10-0065-04

        2016-11-18

        2017-03-09 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間

        時(shí)間:2017-07-19

        新疆維吾爾自治區(qū)科技計(jì)劃項(xiàng)目(2015X0106)

        刁 琦(1989-),男,碩士研究生,研究方向?yàn)橹悄苡?jì)算及應(yīng)用;古麗米拉·克孜爾別克,通信作者,副教授,研究方向?yàn)楝F(xiàn)代通信技術(shù)及嵌入式技術(shù)。

        http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1112.072.html

        10.3969/j.issn.1673-629X.2017.10.014

        猜你喜歡
        分詞標(biāo)簽向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        結(jié)巴分詞在詞云中的應(yīng)用
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        值得重視的分詞的特殊用法
        標(biāo)簽化傷害了誰(shuí)
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        无码国产一区二区三区四区| 久久久受www免费人成| 欧美成人精品午夜免费影视| 99久热re在线精品99 6热视频| 欧美一区二区午夜福利在线yw| 成人网站免费大全日韩国产| 中文字幕第一页亚洲| 亚洲精品自拍视频在线观看| 极品少妇一区二区三区四区| 国产日产亚洲系列首页| 亚洲综合av一区二区三区蜜桃| 无码人妻丰满熟妇区五十路| 性生交大片免费看淑女出招| 国产国拍亚洲精品mv在线观看| 日本理论片一区二区三区| 亚洲中文字幕永久网站| 毛片成人18毛片免费看| 亚洲理论电影在线观看| 欧美最猛性xxxxx免费| 自拍欧美日韩| 日本高清一区二区在线观看| 日韩三级一区二区三区| 色欲aⅴ亚洲情无码av| 黄 色 人 成 网 站 免 费| 精品久久杨幂国产杨幂| 成人av在线免费播放| 蜜桃a人妻精品一区二区三区| 天天爽夜夜爽人人爽| 欧美人与动牲猛交xxxxbbbb| 美女啪啪国产| 中文字幕一二区中文字幕| 三级国产自拍在线观看| 伊人久久大香线蕉av波多野结衣| 孕妇特级毛片ww无码内射| 四虎在线播放免费永久视频| 国产麻豆成人精品av| 一区二区国产av网站| 99久久综合精品五月天| 久久久久成人亚洲综合精品| 久久精品国产亚洲精品色婷婷| 国产高潮迭起久久av|