涂文博,袁貞明,俞 凱
1.杭州師范大學(xué) 信息工程學(xué)院,杭州311121
2.移動(dòng)健康管理系統(tǒng)教育部工程研究中心,杭州311121
單詞,是能夠獨(dú)立存在且承載語義的最小語言單元。相對(duì)于單字來說,單詞能夠表達(dá)的語義更加豐富。以英語為代表的一些語言,單詞之間以空格作為自然分隔符,而漢語等大部分東亞語言文字,則以單字作為基本的語言單位,詞語之間沒有明顯的分隔標(biāo)記。因此,在中文信息處理中,分詞是一個(gè)十分關(guān)鍵且困難的基本任務(wù)。很多中文自然語言處理(Natural Language Processing,NLP)的任務(wù)都需要先進(jìn)行分詞,再根據(jù)分好的單詞繼續(xù)完成任務(wù)。
分詞的方法,大多采用有監(jiān)督的機(jī)器學(xué)習(xí)方法。文獻(xiàn)[1]基于字標(biāo)注學(xué)習(xí)的方法,首次將分詞任務(wù)形式化為對(duì)字位的序列標(biāo)注學(xué)習(xí)任務(wù)。這種方法使用一個(gè)字在單詞中的四種相對(duì)位置的標(biāo)簽,即BMES(開始,中間,結(jié)束,單字)(如表1 所示)等字位,來表示該字所攜帶的單詞切分標(biāo)注信息。
表1 字位標(biāo)注示例
之后,文獻(xiàn)[2]使用最大熵(Maximum Entropy,ME)Markov模型第一次將序列標(biāo)注學(xué)習(xí)方法應(yīng)用到分詞任務(wù)中,表2顯示不同的序列標(biāo)注集。文獻(xiàn)[3]和文獻(xiàn)[4]又將標(biāo)準(zhǔn)的序列標(biāo)注學(xué)習(xí)方法——條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)引入到分詞學(xué)習(xí)任務(wù)當(dāng)中。自此以后,CRF的各種變種方法便成為主流的非深度學(xué)習(xí)分詞模型,這些模型構(gòu)成了傳統(tǒng)的分詞方法。然而,傳統(tǒng)的分詞方法的表現(xiàn)十分依賴于人工處理的特征。
表2 各類字位標(biāo)注集
最近幾年,隨著深度學(xué)習(xí)技術(shù)和詞嵌入技術(shù)(Word Embedding)的發(fā)展,很多學(xué)者開始將神經(jīng)網(wǎng)絡(luò)方法用于自然語言處理。由于神經(jīng)網(wǎng)絡(luò)方法能夠極大地減少特征工程的工作量,中文分詞的方法也從傳統(tǒng)的非神經(jīng)網(wǎng)絡(luò)方法遷移到基于神經(jīng)網(wǎng)絡(luò)方法上來。文獻(xiàn)[5]提出了使用滑動(dòng)窗口提取窗口內(nèi)文字特征,然后對(duì)應(yīng)窗口來解決標(biāo)簽分類問題的神經(jīng)網(wǎng)絡(luò)方法。在其基礎(chǔ)上,文獻(xiàn)[6]提出了使用神經(jīng)網(wǎng)絡(luò)做中文分詞,并首次驗(yàn)證了在中文分詞任務(wù)上使用神經(jīng)網(wǎng)絡(luò)的可行性。文獻(xiàn)[7]在文獻(xiàn)[6]的模型上引入標(biāo)簽向量來更精細(xì)地刻畫標(biāo)簽之間的轉(zhuǎn)移關(guān)系。文獻(xiàn)[8]提出了一種帶有自適應(yīng)門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(Gated Recursive Neural Network,GRNN)。針對(duì)滑動(dòng)窗口的局部性,文獻(xiàn)[9]提出用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory Neural Networks,LSTM)來捕捉長距離依賴。文獻(xiàn)[10]將GRNN和LSTM結(jié)合起來進(jìn)行更深入的特征提取。
盡管現(xiàn)在大多數(shù)現(xiàn)有的工作在準(zhǔn)確性方面取得了較好的成績,但它們也有模型過于復(fù)雜、過于依賴人工處理的特征、對(duì)新詞表現(xiàn)不佳等缺點(diǎn)。本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的分詞模型——PCNN(Pure CNN)模型,該模型使用字向量結(jié)合上下文字向量的方式來對(duì)字進(jìn)行標(biāo)簽分類。該模型結(jié)構(gòu)簡單,不依賴人工處理的特征,在性能方面具有很高的準(zhǔn)確率。并且,根據(jù)不同的字向量模型,對(duì)不同領(lǐng)域的文本分詞任務(wù)也有很好的表現(xiàn)。
在做自然語言處理任務(wù)時(shí),需要把字或詞用數(shù)字化的形式表示,傳統(tǒng)的方法如One-hot編碼表示,是建立一個(gè)詞庫并對(duì)詞庫內(nèi)每一個(gè)詞編號(hào)。采用這種方法編碼,每個(gè)詞就是一個(gè)很長的向量,向量的維度與詞庫大小相同,向量中,只有該詞的對(duì)應(yīng)位置上的數(shù)字為1,其他位置均為0。這種方法有兩個(gè)主要缺點(diǎn),一是詞向量十分稀疏,二是詞與詞之間沒有任何關(guān)聯(lián),比如它并不能表現(xiàn)出近義詞之間的相似性。
為了解決One-hot編碼所出現(xiàn)的問題,文獻(xiàn)[11]首次提出分布式表示(Distributed Representation)方法來表示詞,它的基本思想是使用統(tǒng)計(jì)學(xué)方法通過訓(xùn)練把句子中的每個(gè)詞映射成K 維的實(shí)數(shù)向量,通過詞與詞的實(shí)數(shù)向量之間的距離(如歐氏距離、余弦距離等)來描述詞之間的語義相似性,即相似文本擁有相似的向量。之后,文獻(xiàn)[12]提出了神經(jīng)網(wǎng)絡(luò)語言模型,該模型首次使用了詞向量這一方法。自此,眾多學(xué)者參與到詞向量研究當(dāng)中,并且使用詞向量方法在很多NLP任務(wù)中獲得很大效果提升。后來,谷歌公司的學(xué)者在文獻(xiàn)[13]提出Word2vec,這是一種使用神經(jīng)網(wǎng)絡(luò)的詞向量的訓(xùn)練工具,它使得詞向量的訓(xùn)練變得更容易,繼而被廣泛應(yīng)用于自然語言處理中。和以詞為句子基本單位的英文不同,中文句子中對(duì)詞并無明顯的劃分,因而在中文NLP任務(wù)中,尤其是分詞領(lǐng)域,需要用字代替詞來訓(xùn)練字向量表示句子。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)現(xiàn)在被廣泛應(yīng)用于計(jì)算機(jī)視覺中。隨著詞向量和深度學(xué)習(xí)技術(shù)的發(fā)展,現(xiàn)在很多學(xué)者開始在自然語言處理任務(wù)中使用CNN。文獻(xiàn)[14]提出了一種改進(jìn)的單層卷積網(wǎng)絡(luò)對(duì)句子進(jìn)行分類,并獲得不錯(cuò)的結(jié)果。文獻(xiàn)[15]使用單層的CNN對(duì)社交網(wǎng)絡(luò)文本做情感分析。文獻(xiàn)[16]提出基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolutional Neural Network,DCNN),結(jié)合英文詞向量對(duì)句子建模。使用詞或字向量的神經(jīng)網(wǎng)絡(luò)模型,因詞或字向量的特殊表示方法,使得模型并不依賴于特定語言和特定句法,因此具有很好的擴(kuò)展性和適用性。
在使用CNN 做NLP 任務(wù)時(shí),眾多模型沿襲了CNN在圖形圖像領(lǐng)域的使用方式,采用卷積層加池化層的模式設(shè)計(jì)模型結(jié)構(gòu)。由于圖像像素和字向量元素特征的本質(zhì)不同,池化過程會(huì)造成卷積層提取到的文字之間關(guān)聯(lián)信息的部分特征缺失,進(jìn)而影響模型的性能表現(xiàn)。本文在文獻(xiàn)[16]提出的模型基礎(chǔ)上,通過移除模型池化層,改進(jìn)卷積方式,并結(jié)合滑動(dòng)窗口,提出使用字向量上下文窗口對(duì)字進(jìn)行標(biāo)簽分類的分詞方法。并與近年其他分詞模型的表現(xiàn)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文提出模型的性能表現(xiàn)達(dá)到了甚至優(yōu)于主流模型的水準(zhǔn),且具有良好的穩(wěn)定性。另外,在池化與無池化的對(duì)比實(shí)驗(yàn)中,也驗(yàn)證了無池化層模型要遠(yuǎn)遠(yuǎn)好于有池化層的模型。
卷積操作是CNN的重要特征之一。與傳統(tǒng)的數(shù)學(xué)上的卷積不同,CNN中的卷積,是狹義的卷積操作。卷積層以特征映射為組織方式,其中的每一個(gè)單位與前一層的局部感受野相連接,利用共享的卷積核(或稱過濾器)與局部感受野做卷積運(yùn)算,再經(jīng)過激活函數(shù)(如ReLU、tanh)做非線性運(yùn)算,得到特征值。通常,在神經(jīng)網(wǎng)絡(luò)中,卷積運(yùn)算以二維形式出現(xiàn),給定一個(gè)矩陣X ∈?M×N,和卷積核F ∈?m×n,一般m ?M,n ?N ,其卷積如式(1)所示:
特別的,由于NLP任務(wù)的特殊性,卷積在NLP任務(wù)中以一維卷積的形式出現(xiàn),即對(duì)文本序列s ∈Rn,一維卷積核f ∈Rm,其中n ≥m ,可得式(2),卷積結(jié)果為conv ∈
為了均衡文本邊緣(開始和結(jié)束處)與文本中間位置特征提取的頻繁程度,使用文本邊緣填充padding 的方式進(jìn)行卷積運(yùn)算,這種方法也稱為寬卷積。寬卷積不要求式(2)中n 與m 的大小關(guān)系,同時(shí)可以保證卷積結(jié)果convt不為空向量。
PCNN 是以字向量作為輸入,結(jié)合滑動(dòng)窗口,使用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行字標(biāo)簽分類任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。該模型的結(jié)構(gòu)如圖1所示。
定義ci∈?d為d 維的字向量,k 為上下文單字的數(shù)量,上下文字窗口大小為2k+1,上下文字向量矩陣為模型的輸入矩陣,x 由文本序列的第i個(gè)字及其前后各k 個(gè)字的字向量組成。式(3)給出上下文字向量矩陣x 的定義:
用該矩陣做字i 的標(biāo)簽分類任務(wù)。之后,窗口滑動(dòng)向后一個(gè)字,即做分類字i+1 的標(biāo)簽任務(wù)。
模型第一層是一維卷積層,卷積核大小為h×1(圖示中為2×1),padding 核為(pd,0)。該層主要提取相鄰h 個(gè)字之間在字向量中第m 維上的特征。例如,第l層第m 維第i+pd 個(gè)特征可由第l-1 層的子矩陣提取。具體的,如式(4)所示:這里,l 表示第l 層,wl為第l 層的卷積核,bl為第l 層的偏置單位,f 為激活函數(shù),本層的卷積采用寬卷積,對(duì)邊緣補(bǔ)零向量。
圖1 上下文字窗口矩陣的多通道的PCNN模型結(jié)構(gòu)示意圖
模型第二層同樣是卷積層,卷積核大小為1×d,即卷積核維數(shù)與字向量維數(shù)相同。第二層卷積之后是兩層全連接層,第一層的全連接的輸入特征向量A1是由前一層p 個(gè)通道的卷積結(jié)果的激活向量ai組合而成,A1可以表示為:
其中,⊕表示向量連接運(yùn)算。全連接的計(jì)算方式由式(6)給出:
式中,W 為該全連接層的參數(shù)矩陣(向量),A 為上一層網(wǎng)絡(luò)輸出結(jié)果經(jīng)激活函數(shù)進(jìn)行非線性計(jì)算后的輸入矩陣(向量),b′是該層的偏置向量。
模型的最后輸出向量連接到SoftMax函數(shù),由Soft-Max函數(shù)輸出該字在不同標(biāo)簽上的概率分布。
一般的卷積神經(jīng)網(wǎng)絡(luò)在處理圖像問題中,卷積操作之后都會(huì)有一個(gè)池化的過程,即采用類似卷積操作中卷積核運(yùn)行的方式,對(duì)局部感受野中的特征進(jìn)行取最大值或取均值的篩選過程。傳統(tǒng)的觀點(diǎn)認(rèn)為(文獻(xiàn)[17]、文獻(xiàn)[18]),池化層能在模型應(yīng)對(duì)圖像的細(xì)微平移和變形的問題時(shí)起到穩(wěn)定性的作用,但這個(gè)假設(shè)并未被驗(yàn)證[19]。而最近的研究證明,由池化層提供的歸納偏差并不是良好性能的必要條件。文獻(xiàn)[20]在其圖像處理模型中減少了網(wǎng)絡(luò)的池化層,并依然實(shí)現(xiàn)了強(qiáng)大的性能。DeepMind公司發(fā)表的文獻(xiàn)[19]指出,池化對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)對(duì)圖像微小平移和變形的穩(wěn)定性沒有作用,卷積核的平滑度才是關(guān)鍵。也就是說,池化的主要作用只有精簡出前一層的特征并減少下一層網(wǎng)絡(luò)的計(jì)算量。并且認(rèn)為,字向量中的特征與圖像像素的特征性質(zhì)并不等價(jià),字向量的訓(xùn)練本身就是一個(gè)特征生成和篩選的過程,字向量不同的維度也是對(duì)特征做了不同程度的精簡,不再需要池化層做進(jìn)一步的特征篩選。所以在模型中,移除了神經(jīng)網(wǎng)絡(luò)模型中的池化層,只做一維卷積操作。并且,在分詞實(shí)驗(yàn)中,單獨(dú)設(shè)置了一個(gè)有池化與無池化的對(duì)比實(shí)驗(yàn),該實(shí)驗(yàn)也證實(shí)了移除池化層之后的準(zhǔn)確率等模型評(píng)估值更高。
基于以上信息,下面給出PCNN模型的分詞算法抽象描述:
算法PCNN模型分詞算法
初始化:隨機(jī)設(shè)置兩層卷積的參數(shù),包括卷積核w1,w2、偏置單位b1,b2,并分別指定兩層卷積的通道數(shù)C1、C2。隨機(jī)設(shè)置兩層全連接的參數(shù),包括參數(shù)矩陣W1,W2、偏置單位b′1,b′2;根據(jù)運(yùn)行環(huán)境設(shè)置批數(shù)據(jù)量batch-size大小。
輸入:字向量上下文矩陣X 。
輸出:各層網(wǎng)絡(luò)的所有參數(shù)(w1,w2,b1,b2,W1,W2,b′1,b′2)。
步驟1 設(shè)置迭代次數(shù)epochs 和學(xué)習(xí)率α。
步驟2 計(jì)算網(wǎng)絡(luò)第一、二層卷積值。
步驟3 連接C2 個(gè)通道的卷積結(jié)果作為下一層全連接的輸入數(shù)據(jù)。
步驟4 計(jì)算兩層全連接層,得到SoftMax結(jié)果。
步驟5 計(jì)算損失并使用學(xué)習(xí)率為α 的梯度下降算法獲得各層參數(shù)(w1,w2,b1,b2,W1,W2,b′1,b′2)更新值。
步驟6 更新各層參數(shù)(w1,w2,b1,b2,W1,W2,b′1,b′2)。
步驟7 重復(fù)步驟2~6直至達(dá)到設(shè)定的epochs 為止。
實(shí)驗(yàn)采用SIGHAN Bakeoff-2005數(shù)據(jù)集,該數(shù)據(jù)集是由國際性的中文分詞評(píng)測(cè)競(jìng)賽公開的數(shù)據(jù)集。本實(shí)驗(yàn)中,只使用數(shù)據(jù)集中四份語料中的兩份簡體中文語料,這兩份語料分別由北京大學(xué)(下稱PKU 數(shù)據(jù)集)和微軟亞洲研究院(下稱MSR數(shù)據(jù)集)整理。數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表3所示。
表3 數(shù)據(jù)集統(tǒng)計(jì)信息
對(duì)于數(shù)據(jù)集的劃分,考慮到數(shù)據(jù)集規(guī)模相對(duì)龐大。采用9∶1 的分割方法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練集和測(cè)試集進(jìn)行劃分,即training_set∶test_set=9∶1。訓(xùn)練集和測(cè)試集的數(shù)據(jù)在使用前均進(jìn)行隨機(jī)排列操作。
另外,對(duì)于字向量的訓(xùn)練數(shù)據(jù)集,采用的是搜狗公司公開的2006年分類新聞數(shù)據(jù)集和上面提及的PKU數(shù)據(jù)集與MSR 數(shù)據(jù)集共三個(gè)數(shù)據(jù)集,文本文件大小共計(jì)約為71 MB。訓(xùn)練的字向量特征維度為120維。
模型采用查準(zhǔn)率(Precision,P)、查全率(Recall,R)、F1 值和測(cè)試集的準(zhǔn)確率(Accuracy,A)作為評(píng)估標(biāo)準(zhǔn)。定義y 為模型輸出的字標(biāo)簽預(yù)測(cè)分類值集合,y^ 為數(shù)據(jù)集字標(biāo)簽的真實(shí)值集合,模型的查準(zhǔn)率P(y,y^)由式(7)給出定義:
F1 值由式(9)給出定義,它是P 值和R 值的調(diào)和平均數(shù),其中β=1。
以上四個(gè)值都是值越高模型表現(xiàn)越好。
實(shí)驗(yàn)采用帶有GPU的云服務(wù)器運(yùn)行本文的實(shí)驗(yàn)代碼,具體的實(shí)驗(yàn)環(huán)境如表4。
表4 實(shí)驗(yàn)環(huán)境
神經(jīng)網(wǎng)絡(luò)的超參數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)模型的優(yōu)劣是至關(guān)重要的,經(jīng)過多次調(diào)試,選出表5 中超參數(shù)值作為本文實(shí)驗(yàn)最終模型所采用的超參數(shù)。
表5 神經(jīng)網(wǎng)絡(luò)超參數(shù)
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,epochs 數(shù)對(duì)模型收斂情況有重要影響,因此,針對(duì)不同的epochs 值使用F1 值做了分詞測(cè)試,在PKU 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖2 所示,所以最終選定最佳的epochs 值為30。
圖2 PKU數(shù)據(jù)集下不同epochs 下的F1 值
實(shí)驗(yàn)設(shè)置了兩個(gè)縱向?qū)Ρ葘?shí)驗(yàn)和一個(gè)橫向?qū)Ρ葘?shí)驗(yàn)??v向?qū)Ρ葘?shí)驗(yàn)是針對(duì)字的上下文大小對(duì)該字的標(biāo)簽分類有何影響而進(jìn)行。橫向?qū)Ρ葘?shí)驗(yàn)是考慮在相同參數(shù)數(shù)量的情況下,池化與不池化對(duì)分類結(jié)果的影響如何。
在上下文大小對(duì)字標(biāo)簽分類影響的實(shí)驗(yàn)中,分別設(shè)置上下文長度為1、2、3 來進(jìn)行實(shí)驗(yàn)。即一個(gè)字的前后各1、2、3 個(gè)字分別組成3、5、7 窗口大小的字序列,由它們的字向量分別組成3×120、5×120、7×120 維矩陣作為三個(gè)實(shí)驗(yàn)的輸入數(shù)據(jù)。并且,分別設(shè)置了4-標(biāo)簽集和2-標(biāo)簽集作為對(duì)比,以評(píng)估模型在標(biāo)簽數(shù)量不同時(shí)的表現(xiàn)。實(shí)驗(yàn)結(jié)果如表6、表7 所示(為增加區(qū)分度,保留小數(shù)點(diǎn)后四位,加粗表示該列最大值)。
從實(shí)驗(yàn)結(jié)果可以看出,模型在兩個(gè)數(shù)據(jù)集上表現(xiàn)較為一致,具有良好的穩(wěn)定性。在多上下文單字的情況下,模型對(duì)字的標(biāo)簽判別更加準(zhǔn)確。并且,字標(biāo)簽的類別越少,分詞效果越好。
作為參考,表8 列出由文獻(xiàn)[21]所統(tǒng)計(jì)的近兩年基于深度學(xué)習(xí)方法的分詞模型與本文模型的F1 值對(duì)比結(jié)果,這里所有模型使用的是相同的數(shù)據(jù)集(Bakeoff-2005)。從結(jié)果中可以看出,本文模型有著很好的表現(xiàn)。
另外,針對(duì)池化層對(duì)模型的影響如何這一問題,選擇在前一個(gè)實(shí)驗(yàn)中表現(xiàn)最優(yōu)的條件來進(jìn)行池化與不池化的對(duì)比實(shí)驗(yàn)。具體的,使用BE標(biāo)簽集標(biāo)注法、上下文字窗口大小為7(即context-3,前后各3 個(gè)字)來分別對(duì)PKU 數(shù)據(jù)集和MSR 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表9所示。對(duì)于池化的方法,采用三種池化的方法,分別為最大值池化(max pooling)、平均值池化(average pooling)、k-max 池化(k-max pooling)。池化操作類似于卷積,不過池化只是用池化核對(duì)感受野范圍內(nèi)的元素進(jìn)行篩選。最大值池化是選擇感受野內(nèi)最大的特征值,平均值池化是對(duì)感受野內(nèi)的特征取平均值,k-max池化是最大值池化的擴(kuò)展,用于選取感受野內(nèi)數(shù)值最大的k 個(gè)特征??紤]到網(wǎng)絡(luò)中模型參數(shù)數(shù)量對(duì)模型擬合程度的影響,在添加了池化層以后,網(wǎng)絡(luò)相對(duì)地會(huì)減少一些特征,從而減少模型參數(shù)的數(shù)量。因此,在池化實(shí)驗(yàn)中適當(dāng)增加了卷積的通道數(shù)和隱藏層單元數(shù)量以增強(qiáng)模型對(duì)學(xué)習(xí)任務(wù)的擬合程度。
表6 不同上下文大小使用BMES標(biāo)簽集的實(shí)驗(yàn)結(jié)果
表7 不同上下文大小使用BE標(biāo)簽集的實(shí)驗(yàn)結(jié)果
表9 不同池化方法使用BE標(biāo)簽集的實(shí)驗(yàn)結(jié)果
表8 不同模型的F1 值對(duì)比
實(shí)驗(yàn)結(jié)果表明,最大值池化和平均值池化對(duì)模型性能的表現(xiàn)比較相似,并且比較差。k-max池化由于是保留了更多的特征,因而表現(xiàn)相對(duì)于最大值和平均值池化要好一些,但仍不如無池化層的模型表現(xiàn)。這也驗(yàn)證了前面的假設(shè)。
至于移除池化層對(duì)模型的時(shí)間復(fù)雜度影響,本實(shí)驗(yàn)測(cè)試的結(jié)果是有池化層(任意一種池化方式)的模型訓(xùn)練時(shí)間是無池化層的模型訓(xùn)練時(shí)間的4 倍左右。也就是說,移除池化層的做法不僅給模型帶來準(zhǔn)確率的提升,也加快了模型的訓(xùn)練速度。
本文在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出一種無池化的卷積神經(jīng)網(wǎng)絡(luò)分詞模型PCNN。該模型可以高效地在訓(xùn)練中學(xué)習(xí)字向量維度之間的特征關(guān)聯(lián)信息,準(zhǔn)確地標(biāo)識(shí)出單字的標(biāo)簽類別,從而完成分詞任務(wù)。該模型準(zhǔn)確率高,穩(wěn)定性好,具有良好的適應(yīng)性。這是在中文分詞領(lǐng)域的一次新的嘗試,通過學(xué)習(xí)字向量特征之間的關(guān)系信息來識(shí)別字與字之間潛在的“分隔”,從而準(zhǔn)確地標(biāo)識(shí)出字的標(biāo)簽類別。并且,實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文的觀點(diǎn)。根據(jù)由不同領(lǐng)域的文本數(shù)據(jù)訓(xùn)練的字向量的不同,該模型也適應(yīng)各種領(lǐng)域內(nèi)的中文分詞任務(wù)。由于實(shí)驗(yàn)條件有限,沒有進(jìn)行更多的模型測(cè)試,模型還有很大的改進(jìn)空間,有待于后續(xù)的研究。