亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文分詞研究綜述

        2021-04-23 05:51:18王佳楠梁永全
        軟件導(dǎo)刊 2021年4期
        關(guān)鍵詞:歧義分詞準(zhǔn)確度

        王佳楠,梁永全

        (山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,山東青島 266590)

        0 引言

        隨著自然語(yǔ)言處理的發(fā)展,分詞作為基礎(chǔ)任務(wù)成為研究重點(diǎn),中文因其復(fù)雜性和特殊性成為分詞熱點(diǎn)話題。中國(guó)知網(wǎng)和Web of Science 的相關(guān)論文顯示,自2010 年分詞研究達(dá)到小高峰后,中文分詞研究熱度再次緩步增長(zhǎng),見(jiàn)圖1、圖2。但是,作為自然語(yǔ)言處理的基礎(chǔ)任務(wù),分詞究竟有沒(méi)有必要,Li 等[1]在2019 年ACL 會(huì)議上提出此觀點(diǎn),并在機(jī)器翻譯、文本分類、句子匹配和語(yǔ)言建模4 個(gè)NLP任務(wù)上驗(yàn)證分詞的非必要性,但這并不說(shuō)明分詞研究不再有意義。詞級(jí)別模型欠佳表現(xiàn)在數(shù)據(jù)稀疏、過(guò)擬合、OOV以及數(shù)據(jù)遷移能力缺乏等,要解決此類問(wèn)題,提高分詞性能仍有重大意義,例如谷歌提出的知識(shí)圖譜概念。知識(shí)圖譜強(qiáng)大的語(yǔ)義關(guān)聯(lián)能力為網(wǎng)絡(luò)搜索提供便利。知識(shí)圖譜本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò),用圖的形式描述客觀事物,由邊和節(jié)點(diǎn)組成。邊一般指關(guān)系和屬性,節(jié)點(diǎn)指概念和實(shí)體?,F(xiàn)實(shí)中,書本和網(wǎng)頁(yè)中的內(nèi)容屬于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),無(wú)法直接構(gòu)建知識(shí)圖譜,分詞成為構(gòu)建知識(shí)圖譜的第一步。英文通過(guò)空格區(qū)分單詞,中文則需要根據(jù)上下文信息理解分詞,但這對(duì)于計(jì)算機(jī)而言相當(dāng)困難。

        Fig.1 Statistics on the number of word segmentation documents of CNKI圖1 中國(guó)知網(wǎng)分詞文獻(xiàn)數(shù)量統(tǒng)計(jì)

        Fig.2 Statistics on the number of word segmentation documents in Web of Science圖2 Web of Science 分詞文獻(xiàn)數(shù)量統(tǒng)計(jì)

        本文通過(guò)詳細(xì)閱讀近20 年文獻(xiàn)資料,總結(jié)歸納中文分詞的瓶頸和算法,提出新的瓶頸及改進(jìn)方向。

        1 中文分詞瓶頸

        1.1 粒度選擇

        由于中文的復(fù)雜性,分詞時(shí)粒度的選擇尤為重要。目前分詞粒度分為粗粒度和細(xì)粒度兩類,例如“中華人民共和國(guó)”,粗粒度:中華人民|共和國(guó);細(xì)粒度:中華|人民|共和國(guó)。

        雖然人類閱讀不會(huì)發(fā)生障礙,但對(duì)于計(jì)算機(jī)來(lái)說(shuō),尤其是當(dāng)分詞用于搜索引擎時(shí),細(xì)粒度可能導(dǎo)致搜索準(zhǔn)確率降低;當(dāng)用于知識(shí)圖譜構(gòu)建時(shí)則導(dǎo)致圖譜復(fù)雜性增加,準(zhǔn)確度降低。

        1.2 分詞歧義

        歧義字段在中文中普遍存在,而歧義字段又是中文切分的一個(gè)難點(diǎn)。梁南元教授[2]最早對(duì)歧義字段進(jìn)行了兩種基本定義:

        (1)交集型切分歧義。漢字串ASB 稱作交集型切分歧義,如果滿足AS、SB 同時(shí)為詞(A、S、B 分別為漢字串),此時(shí)漢字串S 稱作交集串。如句子“人民生活幸?!?,分詞的可能結(jié)果有:

        Eg1:人民|生活|幸福

        Eg2:人|民生|活|幸福

        如果由計(jì)算機(jī)判斷,則“人民”和“民生”皆為可能詞匯,就會(huì)造成交集型歧義。

        (2)組合型切分歧義。漢字串AB 稱作多義組合型切分歧義,如果滿足A、B、AB 同時(shí)為詞,如“校友會(huì)”一詞:

        Eg1:我|在|校友會(huì)|工作

        Eg2:我|的|校友|會(huì)|來(lái)

        “校友”和“會(huì)”可以單獨(dú)成詞,也可組合成詞,就造成了組合型歧義。

        歧義字段給分詞帶來(lái)極大困擾,想要作出正確的切分判斷,需要結(jié)合上下文語(yǔ)境,甚至韻律、語(yǔ)氣、重音、停頓等,這對(duì)機(jī)器來(lái)說(shuō)無(wú)疑是困難的。

        1.3 未登錄詞識(shí)別

        未登錄詞有兩種,一種指已有的詞表中沒(méi)有收錄的詞,另一種指訓(xùn)練語(yǔ)料中未曾出現(xiàn)過(guò)的詞,而后一種也可被稱作集外詞(Out of Vocabulary,OOV),即訓(xùn)練集以外的詞。未登錄詞通常包含以下幾種類型:

        (1)新出現(xiàn)的普通詞匯。隨著時(shí)代變遷,語(yǔ)言不斷發(fā)展,詞匯也在更新,尤其是網(wǎng)絡(luò)用語(yǔ)中層出不窮的新詞,這對(duì)分詞甚至自然語(yǔ)言處理都是一大挑戰(zhàn)。

        (2)專有名詞。如人名、地名以及組織機(jī)構(gòu)名稱等。

        (3)專業(yè)名詞和研究領(lǐng)域名稱。將分詞運(yùn)用到某些特定領(lǐng)域或?qū)I(yè),需要特定的領(lǐng)域詞典。

        (4)其它專用名詞。如新產(chǎn)生的產(chǎn)品名、電影名稱、書籍名稱等。

        由此可見(jiàn),粒度選擇、歧義消除和未登錄詞識(shí)別是干擾中文分詞的重要原因。孫茂松等[3]發(fā)現(xiàn)在真實(shí)語(yǔ)料庫(kù)中,由未登錄詞造成的分詞錯(cuò)誤是歧義切分的5 倍以上,提高未登錄詞識(shí)別對(duì)提升分詞性能有重大影響。

        2 傳統(tǒng)分詞方法

        2.1 基于規(guī)則的分詞方法

        基于規(guī)則的匹配方法又稱為機(jī)械分詞方法或基于字典的分詞方法,就是按照一定的規(guī)則將測(cè)試的字段與機(jī)器詞典中的詞條相匹配。

        1984 年梁南元教授根據(jù)漢俄翻譯機(jī)器提到的6-5-4-3-2-1 分詞方法,利用詞典中最長(zhǎng)詞的長(zhǎng)度作為匹配字段長(zhǎng)度進(jìn)行匹配,成功則輸出,失敗則去掉匹配字段中的最后一個(gè)字,繼續(xù)匹配,直到全部切分為止,稱為最大匹配法,并首次將最大匹配法用于中文分詞任務(wù),實(shí)現(xiàn)了我國(guó)第一個(gè)自動(dòng)漢語(yǔ)分詞系統(tǒng)CDWS。除此之外,還有逆向最大匹配法和雙向最大匹配法。

        基于詞典的分詞方法直觀簡(jiǎn)單,可以通過(guò)增減詞典調(diào)整最終的分詞效果。當(dāng)詞典直接決定分詞結(jié)果的好壞時(shí),詞典的構(gòu)造就成了重中之重,即使到現(xiàn)在詞典的作用仍然不可磨滅。

        分詞的詞典機(jī)制主要有:基于整詞二分、基于TRIE 索引樹以及基于逐字二分。2000 年孫茂松等通過(guò)實(shí)驗(yàn)比較3 種詞典機(jī)制,認(rèn)為基于逐字二分的分詞詞典機(jī)制簡(jiǎn)潔、高效,能較好地滿足實(shí)用型漢語(yǔ)自動(dòng)分詞系統(tǒng)需要;2001 年楊文峰等[4]則認(rèn)為原始的3 種詞典機(jī)制在更新時(shí)維護(hù)成本較高且效率較低,故根據(jù)PATRICIA tree 的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)一種新的分詞詞典機(jī)制,可以實(shí)現(xiàn)快速查詢及快速更新功能;2003 年李慶虎等[5]提出雙子哈希機(jī)制,在不提升現(xiàn)有詞典機(jī)制空間復(fù)雜度和維護(hù)復(fù)雜度基礎(chǔ)上,提高了中文分詞的速度和效率。

        隨后,通過(guò)改進(jìn)分詞詞典提高分詞性能的文章層出不窮。雖然基于詞典的分詞方法簡(jiǎn)潔高效、操作簡(jiǎn)單,但是準(zhǔn)確度不高,不能很好地處理歧義切分和未登錄詞識(shí)別。

        2.2 基于統(tǒng)計(jì)的分詞方法

        基于統(tǒng)計(jì)的分詞方法是把每個(gè)詞看作字組成,相鄰的字在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)越多,就越可能是一個(gè)詞。

        Mashall 于1993 年提出了CLAWS 算法,利用概率統(tǒng)計(jì)模型對(duì)語(yǔ)料庫(kù)的詞性進(jìn)行自動(dòng)標(biāo)注;Derose[6]在CLAWS算法基礎(chǔ)上提出WOLSUNGA 算法。此后,中文分詞利用統(tǒng)計(jì)方法在詞性標(biāo)注方面取得了巨大成就。2002 年第一屆SIGHAN 會(huì)議召開(kāi)后,Xue 等[7]第一次提出基于字標(biāo)注分詞,成為中文分詞領(lǐng)域的重要方法。一年后,在最大熵模型上實(shí)現(xiàn)基于字標(biāo)注的分詞系統(tǒng),在2003 年的bakeoff測(cè)評(píng)中取得好成績(jī),之后發(fā)表論文詳細(xì)闡述了基于字標(biāo)注的分詞模型。序列標(biāo)注就是將每個(gè)中文單字標(biāo)注為B(),I(),O(),E(),S()的形式,以此進(jìn)行分詞,開(kāi)啟了分詞領(lǐng)域新模式。

        目前,基于統(tǒng)計(jì)的字序列標(biāo)注分詞方法最常用的步驟如下:①構(gòu)建語(yǔ)言模型;②對(duì)句子作單詞劃分,對(duì)劃分結(jié)果利用隱馬爾可夫(Hidden Markov Model,HMM)或條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)等進(jìn)行概率計(jì)算,獲得概率最大分詞方式。

        其中,HMM 模型是利用已分詞的訓(xùn)練集訓(xùn)練模型,得到三概率矩陣,利用維特比算法和三概率矩陣分析測(cè)試集標(biāo)簽,利用標(biāo)簽進(jìn)行分詞,最常用的結(jié)巴分詞就是基于此模型;此后,Peng 等(2004)又將CRF 引入分詞學(xué)習(xí)中。CRF 模型較于HMM 模型能更好地利用上下文信息,以及外部信息特征完成實(shí)驗(yàn)。

        基于統(tǒng)計(jì)的分詞方法可以很好地識(shí)別未登錄詞和消除歧義,但是統(tǒng)計(jì)模型復(fù)雜度高,運(yùn)行周期長(zhǎng),依賴人工特征提取。隨著計(jì)算機(jī)運(yùn)行速度加快,神經(jīng)網(wǎng)絡(luò)逐漸進(jìn)入分詞領(lǐng)域。

        3 神經(jīng)網(wǎng)絡(luò)分詞法

        2001 年,Bengio 等[8]提出第一個(gè)神經(jīng)語(yǔ)言模型——前饋神經(jīng)語(yǔ)言模型,并誕生了詞嵌入這一概念,隨后又提出一種基于神經(jīng)網(wǎng)絡(luò)變種的概率語(yǔ)言模型,將神經(jīng)網(wǎng)絡(luò)引入自然語(yǔ)言處理任務(wù)。神經(jīng)網(wǎng)絡(luò)因其自動(dòng)學(xué)習(xí)特征,避免了傳統(tǒng)的特征構(gòu)建,早在20 世紀(jì)就有學(xué)者試圖在中文分詞任務(wù)中運(yùn)用神經(jīng)網(wǎng)絡(luò),但是分詞速度不理想。到了21 世紀(jì),隨著技術(shù)提升以及深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在中文分詞領(lǐng)域有了重大進(jìn)步。自序列標(biāo)注方法在bakeoff 測(cè)試中取得優(yōu)異成績(jī)后,將神經(jīng)網(wǎng)絡(luò)與序列標(biāo)注相結(jié)合成為中文分詞領(lǐng)域的通用框架。

        2011 年Collobert 等[9]為改善以往每個(gè)NLP 任務(wù)需要設(shè)計(jì)構(gòu)造新模型的思想,提出一種可以推廣到其它多種NLP 任務(wù)中的多層神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu);2013 年Zheng 等[10]在Collobert 的基礎(chǔ)上,為減少學(xué)習(xí)算法對(duì)特征提取的依賴性,將整個(gè)句子作為輸入進(jìn)行多層特征提取,得到抽象的特征表示,同時(shí)提出了Perceptron-Style 算法,并首次探討利用以上模型算法在中文分詞和詞性標(biāo)注任務(wù)中與CRF統(tǒng)計(jì)模型比較速度上的優(yōu)劣;2014 年,Pei 等[11]在此基礎(chǔ)上提出了最大邊緣張量神經(jīng)網(wǎng)絡(luò)模型,模型模擬了標(biāo)簽和上下文字符之間的交互,以獲得更多的語(yǔ)義信息,加快訓(xùn)練速度,防止過(guò)擬合,提高了準(zhǔn)確度。

        但是,這些算法受限于輸入窗口大小,無(wú)法利用文本的時(shí)間序列信息進(jìn)行分詞,遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)的分詞方法應(yīng)運(yùn)而生。遞歸神經(jīng)網(wǎng)絡(luò)利用順序信息,在處理新輸入信息的同時(shí)存儲(chǔ)上一時(shí)刻信息。利用當(dāng)前輸入和上一時(shí)刻輸出,同時(shí)得到這一時(shí)刻輸出。利用遞歸神經(jīng)網(wǎng)絡(luò)可以在序列標(biāo)記任務(wù)中考慮序列信息,提高分詞準(zhǔn)確度。

        2015 年,為了對(duì)輸入上下文進(jìn)行建模,Chen 等[12]提出門控遞歸神經(jīng)網(wǎng)絡(luò)模型,利用重置門和更新門控制信息的傳送和抽取。而為了解決神經(jīng)網(wǎng)絡(luò)利用固定窗口而忽視長(zhǎng)距離信息問(wèn)題,在Sutskever 等[13]基礎(chǔ)上提出在分詞領(lǐng)域運(yùn)用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-short-term memory,LSTM)思想,成為分詞領(lǐng)域里程碑式的進(jìn)步。

        LSTM 是在RNN 基礎(chǔ)上提出的。雖然RNN 已經(jīng)在語(yǔ)音識(shí)別、語(yǔ)言建模和文本生成方面取得巨大成就,但是由于梯度消失和梯度爆炸導(dǎo)致很難訓(xùn)練長(zhǎng)距離信息,LSTM則允許網(wǎng)絡(luò)學(xué)習(xí)何時(shí)忘記先前信息以及何時(shí)在給定信息的情況下更新存儲(chǔ)單元,將重要信息保留在存儲(chǔ)單元中以避免窗口大小限制,可以很好地應(yīng)用在分詞領(lǐng)域;Chen等[14]在一般模型(包括字嵌入層、神經(jīng)網(wǎng)絡(luò)層和標(biāo)簽推理層)基礎(chǔ)上在網(wǎng)絡(luò)層運(yùn)用LSTM,從精確度(precision)、召回率(recall)、FI 值以及OVV 召回率4 個(gè)方面評(píng)估,發(fā)現(xiàn)與最新模型相比,LSTM 可以利用較小的窗口獲得最好的性能。

        但是LSTM 分詞模型自提出后并沒(méi)有在分詞領(lǐng)域得到廣泛研究與應(yīng)用,直到2016 年Yao 等[15]為了充分利用上下文信息進(jìn)行分詞才提出了雙向LSTM;早在2015 年,為解決詞性標(biāo)注問(wèn)題,Huang 等[16]提出雙向LSTM-CRF 模型,實(shí)驗(yàn)證明該模型在詞性標(biāo)注上的準(zhǔn)確度要優(yōu)于當(dāng)前模型,最高可達(dá)到97.55%;隨后,Xu[17]提出一種基于依賴的門控遞歸網(wǎng)絡(luò),將LSTM 和門控遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合;黃丹丹等[18]將注意力機(jī)制融入雙向LSTM-CRF 模型;Zhang等[19]第一次提出將Lattice LSTM 應(yīng)用到中文實(shí)體識(shí)別中;Yang 等[20]在Zhang 的基礎(chǔ)上提出在Lattice LSTM 中加入子詞編碼,發(fā)現(xiàn)使用Lattice+word(詞)或Lattice+subword(子詞)替換字符信息后模型性能更好,并提出將具有域詞典的Lattice LSTM 結(jié)構(gòu)用于跨領(lǐng)域分詞的可行性。

        2018 年,新型語(yǔ)言模型BERT 刷新了11 項(xiàng)NLP 任務(wù)的性能記錄。Huang 等[21]提出采用多準(zhǔn)則的學(xué)習(xí)方法進(jìn)行中文分詞,利用BERT 進(jìn)行預(yù)訓(xùn)練產(chǎn)生詞向量進(jìn)行特征提取,對(duì)BERT 模型進(jìn)行層級(jí)修剪來(lái)平衡分割速度和準(zhǔn)確度,同時(shí)采集不同準(zhǔn)則的數(shù)據(jù)集,捕獲每個(gè)數(shù)據(jù)集的異構(gòu)分段標(biāo)準(zhǔn)以及公共知識(shí),最后利用CRF 推理層得到最佳標(biāo)簽序列。這種方法不僅提高了分詞性能,加快了計(jì)算速度,還減小了模型尺度。BERT 為中文分詞開(kāi)創(chuàng)了新的突破口,大幅提高了分詞準(zhǔn)確度。

        基于神經(jīng)網(wǎng)絡(luò)的分詞模型經(jīng)過(guò)近20 年的研究已趨于成熟,研究人員在序列標(biāo)注、網(wǎng)絡(luò)模型以及推理機(jī)制等方面不斷改進(jìn),大大提高了中文分詞的準(zhǔn)確度。但是分詞速度和跨領(lǐng)域分詞等方面仍然存在不足。

        4 中文分詞新的瓶頸

        隨著計(jì)算機(jī)技術(shù)的發(fā)展,分詞領(lǐng)域的準(zhǔn)確度也隨之提高,但是通過(guò)增加模型內(nèi)部復(fù)雜度來(lái)提高準(zhǔn)確度,損害了運(yùn)行速度;除此之外,未登錄詞的影響仍然存在,專業(yè)名詞的識(shí)別失誤在跨領(lǐng)域分詞中尤為明顯。

        4.1 跨領(lǐng)域分詞

        自從將神經(jīng)網(wǎng)絡(luò)應(yīng)用到中文分詞領(lǐng)域,隨著網(wǎng)絡(luò)模型的不斷改進(jìn),中文分詞的準(zhǔn)確度大大提升,歧義切分的影響逐漸縮小,但是未登錄詞的識(shí)別方法仍需改進(jìn),尤其在跨領(lǐng)域分詞任務(wù)中。

        2018 年,Ma 等[22]使用雙向LSTM(Bi-LSTM)模型進(jìn)行中文分詞,但未提出新的模型或改進(jìn)模型,而是在LSTM 模型基礎(chǔ)上預(yù)訓(xùn)練字向量、Dropout 和調(diào)整超參數(shù)以達(dá)到State-of-the-art(SOTA),詳細(xì)比較了3 種技術(shù)對(duì)性能的影響。預(yù)訓(xùn)練字向量(詞向量)已經(jīng)成為NLP 任務(wù)的基礎(chǔ)工作,例如Word2vec、ELMO、BERT 等,都是對(duì)字向量訓(xùn)練的提升算法,實(shí)驗(yàn)發(fā)現(xiàn)預(yù)訓(xùn)練字向量對(duì)性能優(yōu)化貢獻(xiàn)最大。針對(duì)不同的數(shù)據(jù)集調(diào)整參數(shù)可以很好地提高模型的準(zhǔn)確度。最新的分詞模型大約三分之一的錯(cuò)誤來(lái)自注釋不一致問(wèn)題,三分之二由詞匯不足造成,使用外部詞典或知識(shí)庫(kù)非常重要,而調(diào)整模型結(jié)構(gòu)對(duì)這類錯(cuò)誤幾乎毫無(wú)用處;Zhang 等[23]提出結(jié)合字典的神經(jīng)網(wǎng)絡(luò)分詞,該方法可以解決由詞稀少引起的問(wèn)題,并在模型應(yīng)用于不同的域時(shí)僅需添加額外的域特定詞典,其它參數(shù)可保持不變。該方法在跨域CWS 任務(wù)中得到明顯改進(jìn),也恰恰證明了Ma 等關(guān)于詞匯不足的重要性結(jié)論。

        Zhao 等[24]提出結(jié)合未標(biāo)記和部分標(biāo)記數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)用于跨領(lǐng)域中文分詞方法。發(fā)現(xiàn)在跨域分詞中,Bi-LSMT+LM(未標(biāo)記)+PL(部分標(biāo)記)在大部分測(cè)試集中具有最佳性能,同時(shí)在域內(nèi)數(shù)據(jù)分詞中有最佳性能。未標(biāo)記和部分標(biāo)記數(shù)據(jù)的結(jié)合應(yīng)用,為跨域分詞乃至域內(nèi)分詞提供了一種新的研究方向。

        跨領(lǐng)域分詞瓶頸主要來(lái)自于OOV 的原始瓶頸,專有名詞的限制使該瓶頸不可能完全消除,增加領(lǐng)域詞典可以很好地解決跨領(lǐng)域分詞問(wèn)題。隨著科技進(jìn)步,強(qiáng)大知識(shí)庫(kù)的構(gòu)建使運(yùn)用外部輔助方法變得越來(lái)越簡(jiǎn)便。但是,不同領(lǐng)域的通用分詞算法仍需進(jìn)一步研究。

        4.2 分詞速度

        速度是任何系統(tǒng)不可避免的熱點(diǎn)問(wèn)題,分詞模型的高準(zhǔn)確率導(dǎo)致復(fù)雜的模型層出不窮,損害了分詞速度,即使在CPU 運(yùn)算速度不斷提高的情況下,LSTM 分詞模型運(yùn)行時(shí)間仍可達(dá)3 天,Bi-LSTM 的時(shí)間也達(dá)17 個(gè)小時(shí),而CRF的加入使模型運(yùn)行速度更加緩慢。分詞作為自然語(yǔ)言處理的基礎(chǔ)步驟,不僅需要高準(zhǔn)確度,運(yùn)行速度也是目前研究熱點(diǎn)。

        2016 年,Cai 等[25]提出一種新穎的神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建句子完整的切分歷史,直接在結(jié)果上進(jìn)行建模可發(fā)現(xiàn)訓(xùn)練和測(cè)試速度慢的原因。隨后提出一種貪婪神經(jīng)詞分割器,通過(guò)去掉不必要的設(shè)計(jì)建立更有效的字符組合模型,大幅降低訓(xùn)練和運(yùn)行時(shí)間[26]。

        劉志明等[27]提出一種最簡(jiǎn)門單元模型,在LSTM 基礎(chǔ)上刪除輸出門,將隱藏狀態(tài)和細(xì)胞狀態(tài)合并,輸入門和遺忘門合為更新門以簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)果顯示MGU 精度并無(wú)大的差異,而推理速度是LSTM 模型的3 倍,訓(xùn)練耗時(shí)則是LSTM 的1/2,證明通過(guò)簡(jiǎn)化模型提高訓(xùn)練速度減少訓(xùn)練時(shí)間的方法是可行的。

        除此之外,循環(huán)神經(jīng)網(wǎng)絡(luò)在長(zhǎng)距離信息保存上的優(yōu)越性,使得NLP 中循環(huán)神經(jīng)網(wǎng)絡(luò)占主要地位,但實(shí)際上卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)能更好地理解語(yǔ)義信息,并利用稀疏連接縮短運(yùn)算時(shí)間,提高效率。文獻(xiàn)[28]為改進(jìn)人工設(shè)計(jì)特征提取,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并取得較好效果;涂文博等[29]驗(yàn)證了采用無(wú)池化卷積神經(jīng)網(wǎng)絡(luò)的速度是池化層卷積神經(jīng)網(wǎng)絡(luò)的4 倍左右;王星等[30]認(rèn)為目前的分詞模型只利用到漢字,字根和五筆等深層次特征也應(yīng)考慮在內(nèi)。采用膨脹卷積神經(jīng)網(wǎng)絡(luò),使用CRF 進(jìn)行解碼,結(jié)果表明準(zhǔn)確度和速度都高于Bi-LSTM 模型??梢?jiàn),卷積神經(jīng)網(wǎng)絡(luò)早已進(jìn)入分詞領(lǐng)域。

        對(duì)于分詞速度的影響因素主要有網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性以及解碼方式。目前,分詞準(zhǔn)確度已達(dá)到相當(dāng)高的水平,因此在保證準(zhǔn)確率的前提下,速度成為分詞研究的重要方向,而卷積神經(jīng)網(wǎng)絡(luò)對(duì)速度和準(zhǔn)確率的兼顧性使其具有極大的研究?jī)r(jià)值。

        5 結(jié)語(yǔ)

        分詞技術(shù)正在逐步改進(jìn)?;谠~典分詞的機(jī)械分詞方法操作簡(jiǎn)單,實(shí)現(xiàn)快速,但利用已有的詞典直接匹配獲取存在領(lǐng)域局限性,并且歧義性和局外詞匯識(shí)別差。基于統(tǒng)計(jì)分詞的監(jiān)督學(xué)習(xí)算法改進(jìn)了歧義等問(wèn)題,將分詞轉(zhuǎn)換為序列標(biāo)注問(wèn)題,CRF 模型和HMM 模型成為統(tǒng)計(jì)分詞的主要方法。近年,神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使分詞準(zhǔn)確度有了極大提高,但在Bi-LSTM+CRF 算法應(yīng)用于分詞領(lǐng)域后,準(zhǔn)確度的提升空間逐步變小,如表1 所示。

        Table 1 F1 value of participle in each document表1 各文獻(xiàn)分詞F1 值

        雖然各文獻(xiàn)所用方法存在外部差異,如外加字典、預(yù)處理、Dropout 等,但結(jié)果波動(dòng)不大。由此可見(jiàn),目前分詞領(lǐng)域研究已經(jīng)趨于成熟,作為基礎(chǔ)任務(wù)可滿足絕大部分NLP問(wèn)題研究。但是,分詞性能和速度存在不一致性,而卷積神經(jīng)網(wǎng)絡(luò)由于速度優(yōu)勢(shì),近年也常應(yīng)用于自然語(yǔ)言處理領(lǐng)域并取得顯著成效。

        中文分詞研究應(yīng)該兼顧準(zhǔn)確度與速度,在兩者之間選擇平衡點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)在速度上的優(yōu)勢(shì)勢(shì)必會(huì)給分詞領(lǐng)域帶來(lái)重大改進(jìn)。

        猜你喜歡
        歧義分詞準(zhǔn)確度
        eUCP條款歧義剖析
        結(jié)巴分詞在詞云中的應(yīng)用
        幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
        建筑科技(2018年6期)2018-08-30 03:40:54
        English Jokes: Homonyms
        值得重視的分詞的特殊用法
        動(dòng)態(tài)汽車衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
        “那么大”的語(yǔ)義模糊與歧義分析
        高爐重量布料準(zhǔn)確度的提高
        天津冶金(2014年4期)2014-02-28 16:52:58
        對(duì)電子天平的誤差及保證其稱量準(zhǔn)確度的探討
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        日本女优免费一区二区三区| 乌克兰少妇xxxx做受野外| 日本丰满熟妇bbxbbxhd| 中文幕无线码中文字蜜桃| 国产乱人伦AⅤ在线麻豆A| 亚洲天堂一区二区三区视频| 久久综合久久综合久久| 中文字幕五月久久婷热| 最好的99精品色视频大全在线| 丰满人妻被持续侵犯中出在线| 日韩有码中文字幕在线观看| 亚洲av综合av成人小说| 日韩精品无码视频一区二区蜜桃| 337p日本欧洲亚洲大胆色噜噜| 新久久久高清黄色国产| 亚洲第一页视频在线观看| 亚洲色偷偷综合亚洲avyp| 久久成人国产精品| 久久精品国产亚洲av蜜臀| 亚洲黄色在线看| 日本一区二区高清在线观看| 日韩精品极品免费视频观看| 亚洲av无码国产精品草莓在线| 99久久国产露脸精品竹菊传媒| 中文字幕av无码一区二区三区电影| 久久精品女人天堂av麻| 一区二区三区字幕中文| 亚洲国产精华液网站w| 熟妇五十路六十路息与子| 国产免费一区二区av| 久久精品国产亚洲av成人无人区| 最新中文字幕日韩精品| 99久久99久久精品免费看蜜桃| 亚洲欧美另类激情综合区| 亚洲无码视频一区:| 久久综合伊人有码一区中文字幕| 亚洲色一区二区三区四区| 成人精品一区二区三区中文字幕| 亚洲视频高清| 自拍av免费在线观看| 亚洲精品在线国产精品|