亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新詞發(fā)現(xiàn)的跨領(lǐng)域中文分詞方法

        2022-09-22 03:36:18賴志鵬寧更新
        電子與信息學(xué)報(bào) 2022年9期
        關(guān)鍵詞:詞表新詞分詞

        張 軍 賴志鵬 李 學(xué) 寧更新 楊 萃

        (華南理工大學(xué)電子與信息學(xué)院 廣州 510641)

        1 引言

        詞語(yǔ)是中文文本中包含語(yǔ)義信息并且能夠獨(dú)立使用的最小結(jié)構(gòu)單元,因此中文分詞(Chinese Word Segmentation, CWS)是中文自然語(yǔ)言處理(Natural Language Processing, NLP)的基礎(chǔ),其性能好壞將對(duì)NLP下游任務(wù)的效果產(chǎn)生直接影響。

        早期的中文分詞方法主要包括機(jī)械分詞法[1]和統(tǒng)計(jì)分詞法[2,3]兩種。機(jī)械分詞法需要預(yù)先構(gòu)造一個(gè)足夠大的中文詞表,然后通過(guò)設(shè)置詞表中詞語(yǔ)的組合規(guī)則來(lái)對(duì)中文句子進(jìn)行切分。統(tǒng)計(jì)分詞法則是根據(jù)相鄰字之間的共現(xiàn)頻率來(lái)計(jì)算它們構(gòu)成詞語(yǔ)的可信度,無(wú)需預(yù)先構(gòu)建詞表。由于這兩種方法所使用的分詞模型都較為簡(jiǎn)單,不能很好地描述復(fù)雜的中文構(gòu)詞規(guī)律,因此分詞性能并不理想。隨著深度學(xué)習(xí)技術(shù)的提出和發(fā)展,近年來(lái)提出了多種利用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行中文分詞的方法[4,5]。與傳統(tǒng)的分詞方法不同,基于深度神經(jīng)網(wǎng)絡(luò)的分詞方法將中文分詞當(dāng)成序列標(biāo)注任務(wù),以人工標(biāo)注的數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),在無(wú)需獲取中文詞表和人為構(gòu)造規(guī)則,也不需要人為構(gòu)造特征模板的情況下,利用深度網(wǎng)絡(luò)的強(qiáng)大建模能力,能獲得遠(yuǎn)高于傳統(tǒng)方法的準(zhǔn)確率(Precision)和召回率(Recall),因此成為目前中文分詞的主流技術(shù)。

        在基于深度神經(jīng)網(wǎng)絡(luò)的中文分詞方法中,首先需要使用大量標(biāo)注好的語(yǔ)料來(lái)訓(xùn)練網(wǎng)絡(luò)模型,然后利用訓(xùn)練好的網(wǎng)絡(luò)模型對(duì)無(wú)標(biāo)注的測(cè)試語(yǔ)料進(jìn)行分詞。當(dāng)訓(xùn)練語(yǔ)料的領(lǐng)域(源領(lǐng)域)與測(cè)試語(yǔ)料的領(lǐng)域(目標(biāo)領(lǐng)域)屬于同一個(gè)領(lǐng)域時(shí),這種方法能通常能取得很好的效果,但當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域不屬于同一個(gè)領(lǐng)域,即跨領(lǐng)域(cross domain)時(shí),其性能將會(huì)顯著降低。造成這種現(xiàn)象的原因主要有兩個(gè),一是未登錄詞(Out Of Vocabulary, OOV),即目標(biāo)領(lǐng)域中存在著大量未在源領(lǐng)域中出現(xiàn)過(guò)的詞語(yǔ),這些詞語(yǔ)對(duì)于網(wǎng)絡(luò)模型來(lái)說(shuō)是未知樣本,難以正確識(shí)別。另一個(gè)原因是領(lǐng)域之間的表達(dá)鴻溝,即不同領(lǐng)域的語(yǔ)言表達(dá)是有差異的,使得網(wǎng)絡(luò)模型在源領(lǐng)域上學(xué)習(xí)的特征對(duì)于目標(biāo)領(lǐng)域并不具有很好的泛化性能。解決未登錄詞和表達(dá)鴻溝最簡(jiǎn)單的方法是對(duì)目標(biāo)領(lǐng)域的語(yǔ)料進(jìn)行標(biāo)注并重新訓(xùn)練模型,但由于在實(shí)際中對(duì)所有未知領(lǐng)域的訓(xùn)練語(yǔ)料進(jìn)行人工標(biāo)注需要非常高的成本,并不可行,因此如何有效地解決中文分詞系統(tǒng)的領(lǐng)域適應(yīng)性,特別是未登錄詞和表達(dá)鴻溝問(wèn)題,是目前中文分詞的最大難點(diǎn)之一。現(xiàn)有的研究中,在模型的訓(xùn)練中結(jié)合詞典或字/詞向量是解決未登錄詞的最常用的方法[6],而遷移學(xué)習(xí)則是解決表達(dá)鴻溝的主要方法[7]。盡管目前對(duì)跨領(lǐng)域中文分詞中的未登錄詞或表達(dá)鴻溝問(wèn)題已有一定的研究,但現(xiàn)有的文獻(xiàn)所提方法大多只針對(duì)兩者之一,而同時(shí)解決兩個(gè)問(wèn)題的研究成果尚不多見(jiàn)。

        本文針對(duì)跨領(lǐng)域中文分詞中的未登錄詞和表達(dá)鴻溝問(wèn)題,首先采用現(xiàn)有技術(shù)構(gòu)建了一個(gè)基于新詞發(fā)現(xiàn)的跨領(lǐng)域中文分詞系統(tǒng),實(shí)現(xiàn)了自動(dòng)從目標(biāo)領(lǐng)域語(yǔ)料中提取新詞、標(biāo)注語(yǔ)料和訓(xùn)練網(wǎng)絡(luò)模型的功能。然后針對(duì)現(xiàn)有新詞發(fā)現(xiàn)算法提取出的詞表垃圾詞串多的缺點(diǎn),提出了一種基于向量增強(qiáng)互信息和加權(quán)鄰接熵的無(wú)監(jiān)督新詞發(fā)現(xiàn)算法,以提高新詞詞表提取的準(zhǔn)確率和領(lǐng)域性。最后,針對(duì)自動(dòng)標(biāo)注語(yǔ)料中存在噪聲樣本的不足,提出了一種基于對(duì)抗式訓(xùn)練的中文分詞模型,有效提高了分詞網(wǎng)絡(luò)模型訓(xùn)練的魯棒性。

        文章的其余部分組織如下:第2節(jié)介紹了本文搭建的基線系統(tǒng),第3節(jié)提出了基于向量增強(qiáng)互信息和加權(quán)鄰接熵的無(wú)監(jiān)督新詞發(fā)現(xiàn)算法,第4節(jié)提出了基于對(duì)抗式訓(xùn)練的中文分詞算法,第5節(jié)是實(shí)驗(yàn)結(jié)果和分析,最后一節(jié)給出了結(jié)論。

        2 基線系統(tǒng)

        為了同時(shí)處理跨領(lǐng)域分詞中的未登錄詞和表達(dá)鴻溝問(wèn)題,本文構(gòu)建的基線系統(tǒng)包含新詞發(fā)現(xiàn)、自動(dòng)標(biāo)注和跨領(lǐng)域分詞3個(gè)部分,結(jié)構(gòu)如圖1所示。首先使用新詞發(fā)現(xiàn)算法從各個(gè)目標(biāo)領(lǐng)域語(yǔ)料中提取出該領(lǐng)域的新詞詞表,然后利用該新詞詞表對(duì)無(wú)標(biāo)注的目標(biāo)領(lǐng)域語(yǔ)料進(jìn)行自動(dòng)標(biāo)注,以降低目標(biāo)領(lǐng)域語(yǔ)料的未登錄詞率,最后使用自動(dòng)標(biāo)注好的語(yǔ)料訓(xùn)練分詞模型,并使用該模型來(lái)對(duì)目標(biāo)領(lǐng)域進(jìn)行分詞。在這個(gè)系統(tǒng)中,新詞發(fā)現(xiàn)能顯著減少跨領(lǐng)域分詞中的未登錄詞率,而對(duì)目標(biāo)領(lǐng)域語(yǔ)料的自動(dòng)標(biāo)注并在此基礎(chǔ)上訓(xùn)練適用于目標(biāo)領(lǐng)域的分詞模型,則能有效解決跨領(lǐng)域分詞中的表達(dá)鴻溝問(wèn)題。

        圖1 基線系統(tǒng)的結(jié)構(gòu)

        新詞發(fā)現(xiàn)包含語(yǔ)料預(yù)處理、候選詞提取和候選詞過(guò)濾3個(gè)步驟。目標(biāo)領(lǐng)域的中文語(yǔ)料首先按照非中文字符的方式進(jìn)行切割,并剔除非漢字字符,然后使用N-Gram的方法[8]從目標(biāo)領(lǐng)域語(yǔ)料中提取出所有的候選字符串,得到候選詞集。此時(shí)得到的候選詞集既包含了正確的詞語(yǔ),又包含了大量錯(cuò)誤的字符組合,因此需要對(duì)詞集中的詞進(jìn)行篩選?;バ畔?Mutual Information, MI)和鄰接熵(Branch Entropy, BE)相結(jié)合的方法是目前最常用的詞集篩選方法[9],首先統(tǒng)計(jì)每個(gè)候選詞在目標(biāo)領(lǐng)域語(yǔ)料中的詞頻后,然后采用下式計(jì)算出每個(gè)詞的得分

        自動(dòng)標(biāo)注中,首先根據(jù)目標(biāo)領(lǐng)域的新詞詞表使用逆向最大匹配算法(Backward Maximum Matching, BMM)[10]對(duì)目標(biāo)領(lǐng)域語(yǔ)料進(jìn)行初步的切分,然后利用有標(biāo)注的源領(lǐng)域語(yǔ)料訓(xùn)練分詞模型,并使用該模型對(duì)目標(biāo)領(lǐng)域的語(yǔ)料進(jìn)行完全切分,得到自動(dòng)標(biāo)注的目標(biāo)領(lǐng)域語(yǔ)料。分詞模型是中文分詞系統(tǒng)的核心,由于目前基于深度神經(jīng)網(wǎng)絡(luò)的分詞方法均將中文分詞當(dāng)成序列標(biāo)注任務(wù),因此主流的中文分詞方法是使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)[11]加上條件隨機(jī)場(chǎng)模型(Conditional Random Fields, CRF)[12]。由于在BiLSTM中,輸入之間相互依賴使得模型在處理當(dāng)前字符時(shí)還可以提取到上下文里的語(yǔ)境和語(yǔ)義信息,并且從理論上來(lái)說(shuō)這個(gè)上下文可以擴(kuò)展到全文,而CRF模型屬于統(tǒng)計(jì)模型,可以在分詞模型中加入有關(guān)于語(yǔ)料的統(tǒng)計(jì)信息,能很好地彌補(bǔ)深度模型無(wú)法提取淺層特征的劣勢(shì),因此BiLSTM+CRF在領(lǐng)域內(nèi)分詞和跨領(lǐng)域分詞中都取得了很好的效果。但BiLSTM在實(shí)際使用中存在著訓(xùn)練速度慢、信息冗余,在獲取遠(yuǎn)距離依賴時(shí)容易出現(xiàn)梯度爆炸或者梯度彌散的缺點(diǎn)。為此,本文的基線系統(tǒng)中使用了門控卷積神經(jīng)網(wǎng)絡(luò)(Gated Convolutional Neural Network, GCNN)[13]來(lái)代替BiLSTM。GCNN是帶有線性門控的卷積神經(jīng)網(wǎng)絡(luò),使用線性門控后能令模型在堆疊獲取遠(yuǎn)距離上下文時(shí)可以遺忘不重要的信息而只保留重要的信息,遠(yuǎn)距離依賴效果將會(huì)變得更好,不僅可以進(jìn)一步降低梯度彌散的現(xiàn)象,還可以保留CNN的非線性能力。

        跨領(lǐng)域分詞時(shí),利用自動(dòng)標(biāo)注好的目標(biāo)領(lǐng)域語(yǔ)料訓(xùn)練出一個(gè)適用于目標(biāo)領(lǐng)域的GCNN-CRF模型,即可以使用該模型對(duì)目標(biāo)領(lǐng)域內(nèi)的測(cè)試語(yǔ)料進(jìn)行分詞。由于該模型是使用自動(dòng)標(biāo)注好的目標(biāo)領(lǐng)域語(yǔ)料訓(xùn)練出來(lái)的,因此能克服跨領(lǐng)域中文分詞的未登錄詞和表達(dá)鴻溝問(wèn)題。

        3 基于向量增強(qiáng)互信息和加權(quán)鄰接熵的無(wú)監(jiān)督新詞發(fā)現(xiàn)算法

        傳統(tǒng)基于MI+BE的無(wú)監(jiān)督新詞發(fā)現(xiàn)算法認(rèn)為互信息可以表示字符串內(nèi)部聚合度的大小,左右鄰接熵可以表示字符串邊界自由度的高低,因此將互信息和鄰接熵直接相加可以同時(shí)衡量字符串內(nèi)部聚合度和邊界自由度的高低。但在實(shí)驗(yàn)中發(fā)現(xiàn),使用MI+BE算法提取的新詞詞表中存在大量垃圾詞串,例如“過(guò)程中”、“線城市”等非詞語(yǔ)的固定搭配由于具有較大的詞頻和互信息,并且鄰接熵也較大,很容易被錯(cuò)誤地認(rèn)為是一個(gè)合理的新詞。究其原因,MI+BE算法一方面在判定內(nèi)部凝結(jié)度上只利用了語(yǔ)料中的統(tǒng)計(jì)信息,使得一些常用搭配因?yàn)槟潭容^高而被認(rèn)為也是新詞,另一方面在判定邊界自由度上只利用了左右鄰接熵中的較小值,使得一些錯(cuò)誤詞串也被認(rèn)為是新詞,造成提取出的新詞詞表中含有較多的垃圾詞串。本文針對(duì)MI+BE算法的不足,提出了基于向量增強(qiáng)互信息和加權(quán)鄰接熵的無(wú)監(jiān)督新詞發(fā)現(xiàn)算法。

        3.1 向量增強(qiáng)互信息

        對(duì)于一個(gè)新詞而言,它內(nèi)部的片段應(yīng)該是緊密結(jié)合并且很大概率是一起出現(xiàn)在句子中的,也就是說(shuō)這些片段之間必然就會(huì)有著相似的上下文語(yǔ)境,因此使用上下文語(yǔ)境的相關(guān)性來(lái)進(jìn)一步描述字符串內(nèi)部的結(jié)合程度對(duì)新詞發(fā)現(xiàn)應(yīng)有一定的幫助。本文借助基于語(yǔ)義的詞向量來(lái)對(duì)互信息進(jìn)行改進(jìn),提出向量增強(qiáng)互信息(Vector Enhancement Mutual Information, VEMI)的概念。

        3.2 加權(quán)鄰接熵

        根據(jù)式(3)和式(4)計(jì)算得到字符片段的左右鄰接熵后,傳統(tǒng)的方法是選擇較小的熵作為指標(biāo)來(lái)對(duì)字片段的邊界進(jìn)行衡量,這種方式雖然簡(jiǎn)單,但是并沒(méi)有充分考慮到左右兩邊的鄰接熵信息,在很多情況下是不合適的,例如候選詞語(yǔ)“紅皮病”,由于其在文中多是單獨(dú)成句子出現(xiàn),因此其左鄰接熵很低,傳統(tǒng)的算法會(huì)將這個(gè)詞語(yǔ)剔除,但“紅皮病”在文本中卻是一個(gè)新詞。為此,本文對(duì)傳統(tǒng)的鄰接熵進(jìn)行了改進(jìn),采用加權(quán)的方式來(lái)同時(shí)利用左右兩邊的鄰接熵信息,加權(quán)鄰接熵的計(jì)算為

        其中,B E(w)表 示加權(quán)后的鄰接熵,Hl(w)和Hr(w)分別為詞w的左鄰接熵和右鄰接熵,ε為一個(gè)小的正數(shù)。式(10)的對(duì)數(shù)部分相當(dāng)于對(duì)左右鄰接熵加上一個(gè)權(quán)重,其作用主要有兩個(gè)方面,一是令較大的熵權(quán)值變小,較小的熵權(quán)值變大,從而使最終結(jié)果不再僅由其中的較小值所支配;二是當(dāng)一個(gè)字符串片段的左右鄰接熵都比較小,但相差不大時(shí),有很大可能是一個(gè)合理的詞,式(10)會(huì)增加這種情況下左右熵的權(quán)重,使得總得分變大。以“關(guān)節(jié)病”這個(gè)片段為例,實(shí)驗(yàn)中統(tǒng)計(jì)得到其左鄰字分別有{療,對(duì)},出現(xiàn)次數(shù)依次為{1,1},右鄰字分別有{人,或,的},出現(xiàn)的次數(shù)依次為{8, 1, 1}。據(jù)統(tǒng)計(jì)得到的左右鄰字及其出現(xiàn)次數(shù),可以得到其左右鄰接熵分別為0.693和0.639,選擇其中較小的右鄰熵作為得分,則得分過(guò)小,“關(guān)節(jié)病”這個(gè)片段將不會(huì)認(rèn)為是一個(gè)合理的新詞。而根據(jù)式(10)可以計(jì)算得到其鄰接熵為3.341,這是一個(gè)較大的熵值,會(huì)認(rèn)為這個(gè)片段是一個(gè)合理的新詞。由此可見(jiàn),使用加權(quán)鄰接熵比直接使用左右鄰接熵中的較小值進(jìn)行判斷效果更好。

        3.3 候選詞篩選

        經(jīng)過(guò)得分篩選后,第2步將進(jìn)行詞頻篩選。一個(gè)片段如果是一個(gè)合理的詞語(yǔ),那么這個(gè)片段在語(yǔ)料必然是多次出現(xiàn)的,本文將詞頻的最小值設(shè)定為8,出現(xiàn)次數(shù)小于8的片段即使得分較大也不認(rèn)為是一個(gè)合理的詞,將其從候選詞中刪除。

        通過(guò)觀察發(fā)現(xiàn),采用以上步驟得到的新詞詞表中仍然存在少量諸如“導(dǎo)致了”、“擴(kuò)展到”等錯(cuò)誤詞語(yǔ),因此本文對(duì)詞表進(jìn)行了第3次篩選:統(tǒng)計(jì)候選詞的首字和尾字的出現(xiàn)次數(shù),如果這些字出現(xiàn)的次數(shù)大于一定值就認(rèn)為這些字構(gòu)成的詞屬于常用搭配而不是新詞,比如“了”就在首尾中出現(xiàn)了261次,高于預(yù)設(shè)的閾值100,那么認(rèn)為這些詞語(yǔ)就是不合理的新詞將其進(jìn)行刪除。

        需要注意的是,由于分詞只是將合理的詞切分出來(lái),不涉及詞語(yǔ)語(yǔ)義的理解,因此中文的同義詞只要是正確的詞,組成它們的字之間的互信息以及它們與鄰近字之間的聯(lián)系與其他正確詞語(yǔ)具有相似的特性,同樣可以采用本文方法進(jìn)行切分,無(wú)需特殊處理。

        4 基于對(duì)抗式訓(xùn)練的中文分詞模型

        盡管本文提出的新詞發(fā)現(xiàn)算法提取出的新詞詞表具有較高的準(zhǔn)確性和領(lǐng)域性,但目標(biāo)領(lǐng)域語(yǔ)料是完全基于新詞詞表和分詞算法進(jìn)行自動(dòng)標(biāo)注的。由于詞表和分詞算法本身并不能保證完全正確,因此自動(dòng)標(biāo)注的語(yǔ)料會(huì)存在著一定數(shù)量的噪聲樣本。基線系統(tǒng)中使用的GCNN-CRF算法原本是基于正確標(biāo)注好語(yǔ)料而設(shè)計(jì)的,并未考慮到訓(xùn)練語(yǔ)料中會(huì)存在噪聲,因此并不具有抑制噪聲對(duì)模型影響的能力,自動(dòng)標(biāo)注語(yǔ)料中的噪聲將會(huì)影響分詞模型的性能。針對(duì)這個(gè)問(wèn)題,本文提出了一種基于對(duì)抗式訓(xùn)練的中文分詞模型,通過(guò)單獨(dú)提取出源領(lǐng)域和目標(biāo)領(lǐng)域的共有特征來(lái)提高目標(biāo)領(lǐng)域特征的魯棒性,其結(jié)構(gòu)如圖2所示。

        由圖2可以看到,本文提出的跨領(lǐng)域分詞模型包含3個(gè)GCNN編碼器,分別是源領(lǐng)域GCNN編碼器、目標(biāo)領(lǐng)域GCNN編碼器和共享GCNN編碼器。源領(lǐng)域編碼器和目標(biāo)領(lǐng)域編碼器只接收各自領(lǐng)域的文本作為輸入,用于提取各自領(lǐng)域獨(dú)有特征,共享編碼器則同時(shí)接收兩個(gè)領(lǐng)域的文本作為輸入,提取兩個(gè)領(lǐng)域的共有特征。源領(lǐng)域編碼器得到的獨(dú)有特征和共享編碼器得到的共有特征組合即可得到源領(lǐng)域的文本特征,再將這個(gè)特征輸入到CRF中對(duì)源領(lǐng)域的文本預(yù)測(cè)詞位標(biāo)簽。目標(biāo)領(lǐng)域的處理方式與源領(lǐng)域相同。共享編碼器的目標(biāo)是盡可能提取出源領(lǐng)域和目標(biāo)領(lǐng)域共有的特征,文中采用了對(duì)抗式訓(xùn)練來(lái)對(duì)其進(jìn)行優(yōu)化,將共享編碼器中提取出的共有特征輸入到一個(gè)文本判別器TextCNN[15]中,使用文本判別器來(lái)判別共享編碼器輸出的特征是來(lái)自源領(lǐng)域還是目標(biāo)領(lǐng)域。

        圖2 基于對(duì)抗式訓(xùn)練的中文分詞模型

        通過(guò)共享編碼器和文本判別器的對(duì)抗式訓(xùn)練,可以使共享編碼器提取的特征包含更少的源領(lǐng)域和目標(biāo)領(lǐng)域的獨(dú)有特征,越來(lái)越接近兩個(gè)領(lǐng)域的共有特征。與單個(gè)GCNN-CRF相比,本文方法有以下優(yōu)勢(shì):(1)由于源領(lǐng)域的語(yǔ)料是正確標(biāo)注的,因此兩個(gè)領(lǐng)域的共有特征在理想情況下不含噪聲,目標(biāo)領(lǐng)域中的標(biāo)注噪聲只存在于其獨(dú)有特征中。將目標(biāo)領(lǐng)域的共有特征和獨(dú)有特征分離,可以將噪聲的影響限制在一定范圍內(nèi),從而提高目標(biāo)領(lǐng)域分詞對(duì)標(biāo)注錯(cuò)誤的魯棒性。(2)將源領(lǐng)域損失與目標(biāo)領(lǐng)域損失的和作為總損失,與原GCNN-CRF模型相比相當(dāng)于在訓(xùn)練過(guò)程中加入了正則化,可以起到防止過(guò)擬合和增強(qiáng)魯棒性的作用。

        5 實(shí)驗(yàn)結(jié)果及分析

        5.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)中采用的數(shù)據(jù)分為源領(lǐng)域和目標(biāo)領(lǐng)域兩個(gè)部分,其中源領(lǐng)域數(shù)據(jù)為中文分詞領(lǐng)域中普遍使用的北大開(kāi)源新聞?wù)Z料[16],目標(biāo)領(lǐng)域數(shù)據(jù)包括醫(yī)療、小說(shuō)《誅仙》和《斗羅》、發(fā)明專利3個(gè)領(lǐng)域的語(yǔ)料,這些目標(biāo)領(lǐng)域語(yǔ)料中都隨機(jī)選取一部分做了人工標(biāo)注作為測(cè)試集,其中訓(xùn)練集和測(cè)試集的比例大致為5:1。各個(gè)數(shù)據(jù)集的大小如表1所示。

        表1 實(shí)驗(yàn)中使用的語(yǔ)料大小(Byte)

        實(shí)驗(yàn)中所使用的深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別均基于開(kāi)源框架tensorflow1.14,所有數(shù)據(jù)的編碼格式為UTF-8,GCNN網(wǎng)絡(luò)維度為200,層數(shù)為5,Dropout率為0.2,學(xué)習(xí)率為0.001,Epoch數(shù)為15。新詞發(fā)現(xiàn)中的使用N-Gram方法切分的字符串片段最大長(zhǎng)度為6,候選詞得分閾值為0.95,詞頻閾值為8,首字和尾字的出現(xiàn)次數(shù)閾值為100。以上閾值均為經(jīng)驗(yàn)閾值,通過(guò)觀察和實(shí)驗(yàn)來(lái)確定。字符串最大長(zhǎng)度、詞頻閾值、首字和尾字出現(xiàn)次數(shù)閾值分別通過(guò)觀察統(tǒng)計(jì)訓(xùn)練語(yǔ)料分詞結(jié)果中正確詞語(yǔ)的長(zhǎng)度、詞頻、典型的首字和尾字(如上文提到的“了”字)出現(xiàn)次數(shù)得到,這些閾值設(shè)置過(guò)嚴(yán)容易導(dǎo)致正確的詞語(yǔ)被切分開(kāi)或丟棄,而設(shè)置過(guò)寬松則容易產(chǎn)生錯(cuò)誤的字詞組合。候選詞得分閾值則是在實(shí)驗(yàn)中嘗試多個(gè)閾值后,選取未登錄詞率最優(yōu)的0.95。

        實(shí)驗(yàn)中對(duì)新詞發(fā)現(xiàn)和中文分詞算法的性能采用了不同的評(píng)價(jià)指標(biāo)。新詞發(fā)現(xiàn)算法的主要目的是用于解決跨領(lǐng)域中文分詞中的未登錄詞問(wèn)題,因此實(shí)驗(yàn)中使用未登錄詞率(即未登錄詞數(shù)量與總詞數(shù)的比值)來(lái)作為評(píng)價(jià)指標(biāo)。中文分詞算法的性能則采用了準(zhǔn)確率、召回率和F值(F-measure)3個(gè)常用的評(píng)價(jià)指標(biāo)來(lái)衡量。

        5.2 新詞發(fā)現(xiàn)

        為了衡量本文提出的新詞發(fā)現(xiàn)算法的性能,實(shí)驗(yàn)中首先分別使用MI+BE算法和本文提出的新詞發(fā)現(xiàn)算法從目標(biāo)領(lǐng)域訓(xùn)練語(yǔ)料上提取該領(lǐng)域相對(duì)源領(lǐng)域語(yǔ)料獨(dú)有的新詞,再利用新詞詞表對(duì)目標(biāo)領(lǐng)域測(cè)試語(yǔ)料進(jìn)行自動(dòng)標(biāo)注,并統(tǒng)計(jì)標(biāo)注過(guò)程中出現(xiàn)的未登錄詞占總詞數(shù)的比例。實(shí)驗(yàn)中還對(duì)不進(jìn)行新詞發(fā)現(xiàn)、直接使用源領(lǐng)域詞表對(duì)目標(biāo)領(lǐng)域測(cè)試語(yǔ)料進(jìn)行自動(dòng)標(biāo)注時(shí)的未登錄詞率進(jìn)行了統(tǒng)計(jì)。表2給出了無(wú)新詞發(fā)現(xiàn)、MI+BE算法和本文提出的新詞發(fā)現(xiàn)算法應(yīng)用于目標(biāo)領(lǐng)域測(cè)試語(yǔ)料時(shí)的未登錄詞率。由表2的結(jié)果可以看出,使用了新詞發(fā)現(xiàn)算法的未登錄詞率比無(wú)新詞發(fā)現(xiàn)、直接使用源領(lǐng)域詞表時(shí)有顯著的下降,同時(shí),本文所提的新詞發(fā)現(xiàn)算法要明顯優(yōu)于傳統(tǒng)的MI+BE算法,在各個(gè)語(yǔ)料上都取得了最好的效果,說(shuō)明了本文方法的有效性。

        表2 不同方法的未登錄詞率(%)

        為了更好地檢驗(yàn)本文算法所提取的新詞的合理性,表3給出了MI+BE算法和本文算法從各個(gè)語(yǔ)料中提取的前20個(gè)最頻繁出現(xiàn)詞中垃圾詞串的數(shù)目。由表3可以看到,本文方法提取的詞表更準(zhǔn)確,有效地減少了詞表中無(wú)意義的垃圾詞串?dāng)?shù)量。

        5.3 基于對(duì)抗式訓(xùn)練的分詞算法

        為了測(cè)試本文提出的基于對(duì)抗式訓(xùn)練的分詞算法的效果,表4給出了GCNN-CRF與本文對(duì)抗式訓(xùn)練模型在目標(biāo)領(lǐng)域測(cè)試語(yǔ)料上分詞的準(zhǔn)確率、召回率和F值,其中基線系統(tǒng)使用了MI+BE的新詞發(fā)現(xiàn)算法和GCNN-CRF分詞算法,GCNN-CRF使用了本文的新詞發(fā)現(xiàn)算法和GCNN-CRF分詞算法,本文方法使用了本文的新詞發(fā)現(xiàn)算法和對(duì)抗式訓(xùn)練模型。由表4可以看到,基線系統(tǒng)的性能最差,使用了本文新詞發(fā)現(xiàn)算法的GCNN-CRF性能次之,本文方法性能最優(yōu),這說(shuō)明:(1)由于傳統(tǒng)的MI+BE算法提取的新詞詞表中存在著較多的缺失和錯(cuò)誤,本文的新詞發(fā)現(xiàn)算法能更準(zhǔn)確地提取新詞,因此使用了本文新詞發(fā)現(xiàn)算法的GCNN-CRF性能顯著優(yōu)于基線系統(tǒng)。(2)由表3可知,本文的新詞發(fā)現(xiàn)算法中仍存在著少量標(biāo)注錯(cuò)誤的噪聲樣本,而在中文分詞中引入對(duì)抗式訓(xùn)練可以有效地降低噪聲樣本對(duì)模型的影響,使模型在跨領(lǐng)域分詞時(shí)取得比傳統(tǒng)GCNN-CRF更高的準(zhǔn)確率。

        表3 前20個(gè)最頻繁出現(xiàn)詞中垃圾詞串?dāng)?shù)(個(gè))

        表4 基于對(duì)抗式訓(xùn)練的分詞算法效果

        5.4 與現(xiàn)有方法的對(duì)比

        為了衡量本文方法的整體性能,實(shí)驗(yàn)中將本文方法與文獻(xiàn)[6]所提的方法進(jìn)行了對(duì)比。文獻(xiàn)[6]提出的分詞模型首先采用人工識(shí)別的方法提前獲得目標(biāo)領(lǐng)域詞典,然后將該領(lǐng)域詞典作為先驗(yàn)知識(shí)和源領(lǐng)域標(biāo)注語(yǔ)料組成訓(xùn)練集,通過(guò)訓(xùn)練改進(jìn)的BiLSTM+CRF網(wǎng)絡(luò)模型實(shí)現(xiàn)跨領(lǐng)域分詞。由于本文所用的目標(biāo)領(lǐng)域語(yǔ)料沒(méi)有現(xiàn)成的人工標(biāo)注詞典,因此文獻(xiàn)[6]的方法中人工詞典使用本文的新詞發(fā)現(xiàn)算法構(gòu)造的詞典代替。從表5可以看到,本文方法的性能顯著優(yōu)于文獻(xiàn)[6]的方法。

        表5 本文方法與現(xiàn)有方法的性能對(duì)比

        6 結(jié)束語(yǔ)

        未登錄詞和表達(dá)鴻溝是目前跨領(lǐng)域中文分詞中的難點(diǎn)問(wèn)題,而目前同時(shí)解決兩個(gè)問(wèn)題的研究尚不多見(jiàn)。本文針對(duì)這兩個(gè)問(wèn)題,構(gòu)建了一個(gè)基于新詞發(fā)現(xiàn)的跨領(lǐng)域中文分詞系統(tǒng),可以自動(dòng)完成從目標(biāo)領(lǐng)域語(yǔ)料中提取新詞、標(biāo)注語(yǔ)料和訓(xùn)練網(wǎng)絡(luò)模型的工作。在此基礎(chǔ)上,針對(duì)常用的MI+BE新詞發(fā)現(xiàn)算法提取出的詞表垃圾詞串多的問(wèn)題,對(duì)互信息和鄰接熵的提取進(jìn)行了改進(jìn),提出了一種基于向量增強(qiáng)互信息和加權(quán)鄰接熵的無(wú)監(jiān)督新詞發(fā)現(xiàn)算法;針對(duì)自動(dòng)標(biāo)注語(yǔ)料中存在的噪聲文本問(wèn)題,提出了一種基于對(duì)抗式訓(xùn)練的中文分詞模型,使用對(duì)抗式訓(xùn)練來(lái)提取源領(lǐng)域和目標(biāo)領(lǐng)域的共有特征,以提高中文分詞系統(tǒng)的魯棒性和跨領(lǐng)域表達(dá)能力。實(shí)驗(yàn)中將使用北大開(kāi)源新聞?wù)Z料訓(xùn)練的網(wǎng)絡(luò)模型提取出的特征遷移到醫(yī)療、發(fā)明專利和小說(shuō)領(lǐng)域,結(jié)果表明本文所提方法在未登錄詞率、準(zhǔn)確率、召回率和分詞F值方面均優(yōu)于現(xiàn)有模型。

        猜你喜歡
        詞表新詞分詞
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
        結(jié)巴分詞在詞云中的應(yīng)用
        《微群新詞》選刊之十四
        值得重視的分詞的特殊用法
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        小議網(wǎng)絡(luò)新詞“周邊”
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        外教新詞堂
        當(dāng)代新詞“微X”詞族的多維考察
        國(guó)外敘詞表的應(yīng)用與發(fā)展趨勢(shì)探討*
        国内精品九九久久精品小草| 无人视频在线观看免费播放影院 | 亚洲一区二区三区成人网| 亚洲av色欲色欲www| 深夜福利小视频在线观看| 中文字幕精品久久天堂一区| 国产自拍伦理在线观看| 国产一区二区自拍刺激在线观看| 无码国模国产在线观看| 热久久亚洲| 亚洲第一页在线观看视频网站| 一本色道久久婷婷日韩| 幻女bbwxxxx在线视频| 国产精品一区二区韩国AV| 亚洲中文字幕日本日韩| 一本久久a久久免费综合| 无码毛片视频一区二区本码| 国产爆乳无码一区二区在线| 日韩精品综合在线视频| www夜插内射视频网站| 中国老妇女毛茸茸bbwbabes| 亚洲熟妇大图综合色区| 日本免费播放一区二区| 国产a√无码专区亚洲av| 国产熟妇搡bbbb搡bbbb搡| 激情人妻网址| 美妇炮灰被狂躁爽到高潮h| 国产麻传媒精品国产av| 亚洲国产精品久久久久久网站| 久久青青草原亚洲av| 无码毛片内射白浆视频| 国语少妇高潮对白在线| 91免费国产高清在线| 亚洲一区二区三区偷拍厕所| 国产精品久久久久久久妇| 国产成人户外露出视频在线| 精品国产一区二区三区九一色| 国产成人精品久久亚洲高清不卡| 2019年92午夜视频福利| 中文字幕乱码av在线| 人妻av有码中文字幕|