亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-BiLSTM-CRF的中文分詞和詞性標(biāo)注聯(lián)合方法

        2023-09-06 07:28:24
        小型微型計算機系統(tǒng) 2023年9期
        關(guān)鍵詞:馬爾可夫分詞字符

        袁 里 馳

        (江西財經(jīng)大學(xué) 軟件與物聯(lián)網(wǎng)工程學(xué)院,南昌 330013)

        1 引 言

        分詞是語言信息處理的重要基礎(chǔ)技術(shù)之一,其任務(wù)是把語言句子劃分為多個詞語.英語句子由多個單詞構(gòu)成,所以分詞能夠利用單詞之間的分隔符進行劃分.然而漢語句子的基本單位是字,不能像英文那樣按分隔符來分割,因而漢語的分詞比英語的分詞要困難得多.漢語分詞是許多漢語信息處理技術(shù)的根本,其正確率直接影響信息檢索、機器翻譯、信息抽取的結(jié)果.近段時間以來,漢語分詞技術(shù)進展迅猛,然而因為自然語言處理的復(fù)雜性,漢語分詞仍然是自然語言信息處理的困難之一.

        當(dāng)前大部分的分詞算法都視漢語分詞為一個序列標(biāo)記任務(wù),主流的序列標(biāo)注算法有隱馬爾可夫模型(HMM)、最大熵模型(Maximum entropy)、支持向量機(SVM)和條件隨機場(CRF)模型.近年來,一些基于深度神經(jīng)網(wǎng)絡(luò)的漢語分詞方法[1-5]不斷被提出.Zhen等人[6]首次提出了利用深度神經(jīng)網(wǎng)絡(luò)模型的漢語分詞方法;Chen等人[7]擴展了用于漢語分詞問題的長短期記憶神經(jīng)網(wǎng)絡(luò)模型,解決了普通神經(jīng)網(wǎng)絡(luò)方法無法學(xué)習(xí)長距離依存關(guān)系的缺陷,并在分詞中獲得了良好的結(jié)果.Zhang等人[8]引入了一種利用詞向量的神經(jīng)網(wǎng)絡(luò)分詞方法,該方法將長短期記憶模型與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,算法輸入端的向量包括從預(yù)訓(xùn)練語料集中獲得的單詞嵌入和字符嵌入.結(jié)果表明,長短期記憶模型在序列標(biāo)記問題中獲得了良好的結(jié)果.Huang等人[9]首次將條件隨機場模型與雙向長短期記憶模型融合起來,在序列標(biāo)記問題中獲得了良好的效果.雙向長短期記憶模型(BiLSTM)能夠同時學(xué)習(xí)目標(biāo)詞的上下文信息,而條件隨機場層能夠通過訓(xùn)練和學(xué)習(xí)獲得句子層的標(biāo)記信息.BiLSTM-CRF算法魯棒性好,對詞嵌入的依賴較小.然而上述方法不能表示多義詞.由于它們忽略了單詞的語義或上下文,只集中在單詞、字符或單詞之間的特征提取上,提取的只是一個缺少上下文信息的靜態(tài)單詞向量.針對上述缺陷,Google團隊Jacob Devlin等人[22]引入了BERT (Bidirectional Encoder Representation from Transformers)語言模型來描述字符向量或詞向量.BERT是一種先進的預(yù)訓(xùn)練字符向量或詞向量算法,改進了向量模型的泛化性能,全面描繪了字符級、詞級、語句以至語句之間關(guān)系的特征,并且較好地表示了不同上下文中的語義和句法信息.近年來,張忠林等人[28]綜合注意力機制、卷積神經(jīng)網(wǎng)絡(luò)和條件隨機場,提出了注意力卷積神經(jīng)網(wǎng)絡(luò)條件隨機場模型應(yīng)用于中文分詞.周慧等人[29]利用BIGRU-CRF模型,引入了一種基于Attention-BIGRU-CRF的分詞算法,該算法不但繼承了BIGRU模型能夠使用相鄰標(biāo)記之間的相關(guān)性和雙向上下文信息實施分詞,它還利用了BIGRU層的輸出和輸入之間的聯(lián)系,以大幅改進分詞性能.

        所謂詞性標(biāo)注就是根據(jù)句子上下文中的信息給句中的每個詞一個正確的詞性標(biāo)記.詞性標(biāo)記是進一步自然語言處理的重要基礎(chǔ),在許多應(yīng)用領(lǐng)域,如文本索引、文本分類、語言合成、語料庫加工,詞性標(biāo)注都是一個重要環(huán)節(jié).因此詞性標(biāo)記的方法研究具有重要意義.當(dāng)前用于詞性標(biāo)記的語言模型包括統(tǒng)計模型[10-16]和規(guī)則模型.利用規(guī)則的標(biāo)注系統(tǒng)與系統(tǒng)設(shè)計者的語言能力有關(guān),其中規(guī)則集就直接體現(xiàn)了設(shè)計者的語言能力.不幸的是,要對某一種語言的各種語言現(xiàn)象都構(gòu)造規(guī)則的話,將是一項很艱難也很耗時的任務(wù).基于統(tǒng)計的方法相對比較主流,主要有最大熵模型(ME)、隱馬爾可夫模型(HMM)、條件隨機場(CRF)模型等.隱馬爾可夫模型是廣泛應(yīng)用于詞性標(biāo)注任務(wù)中效果較好的統(tǒng)計模型.針對隱馬爾可夫詞性標(biāo)記算法的輸出狀態(tài)獨立同分布等不合理假定,在改進隱馬爾可夫算法的基礎(chǔ)上引進了樹形概率[27]和馬爾可夫族算法[10].馬爾可夫族算法使用條件獨立假定代替了獨立假定,與條件獨立假定相比,獨立假定過于強烈,因此利用馬爾可夫族算法的語言模型更近似語言現(xiàn)實.樹形概率計算方法[32]與隱馬爾可夫模型等鏈?zhǔn)礁怕视嬎惴椒ǖ牟煌c在于鏈?zhǔn)礁怕视嬎惴椒ɡ锩總€條件概率值都要與它前面的條件概率值相乘,但是在樹形的計算方式上,只把那些與它在同一條路徑上的條件概率值相乘,并且用根節(jié)點的條件概率值作為分母.在詞性標(biāo)記中成功運用馬爾可夫族算法,詞性標(biāo)記實驗數(shù)據(jù)證明,在相同測試情況下,馬爾可夫族算法顯著優(yōu)于隱馬爾可夫算法.

        完成漢語分詞和詞性標(biāo)記兩個任務(wù)可以考慮兩種方法:先分詞再詞性標(biāo)記;分詞和詞性標(biāo)記同時實施.通常的算法是分別進行這兩個任務(wù),然而詞性標(biāo)記的準(zhǔn)確性與分詞的準(zhǔn)確性緊密關(guān)聯(lián),分詞錯誤也許會制約詞性標(biāo)記的準(zhǔn)確性.近年來,分詞和詞性標(biāo)注聯(lián)合模型方面的研究正大量涌現(xiàn).Xinxin Li等人[30]提出了一種用于漢語分詞和詞性標(biāo)記的神經(jīng)模型,該模型對每個字符使用基于字邊界的字符嵌入,并引入Transformer編碼器來捕獲序列中字符之間的長距離關(guān)系,最終標(biāo)記序列由BiLST-CRF層預(yù)測.Binbin Shen等人[31]首次將基于轉(zhuǎn)換的模型應(yīng)用于韻律結(jié)構(gòu)預(yù)測,在ELECTRA編碼器的基礎(chǔ)上提出了一個簡單但有效的聯(lián)合模型,該模型可以同時預(yù)測單詞邊界和詞性標(biāo)簽.聯(lián)合模型的使用能夠大幅減少錯誤的傳播,也有益于利用詞性信息進行分詞,將兩者緊密融合能夠幫助消除歧義和提升詞性標(biāo)記、分詞的準(zhǔn)確性.本文提出了一種基于BERT語言模型、雙向長短時記憶神經(jīng)網(wǎng)絡(luò)模型、條件隨機場的中文分詞和詞性標(biāo)注聯(lián)合方法,該方法將馬爾可夫族模型(改進的隱馬爾科夫模型)或樹形概率的計算方法應(yīng)用到分詞、詞性標(biāo)簽推斷CRF層的轉(zhuǎn)移概率計算中,大幅度提高了分詞和詞性標(biāo)注的準(zhǔn)確率.

        2 基于BERT-BiLSTM-CRF的分詞和詞性標(biāo)記聯(lián)合算法

        詞性標(biāo)記、漢語分詞是許多漢語信息處理技術(shù)的基礎(chǔ),其正確率直接影響信息檢索、機器翻譯、信息抽取的結(jié)果.將詞性標(biāo)記和分詞統(tǒng)一在一個聯(lián)合模型架構(gòu)中,能夠大幅減少錯誤的傳播,也有益于利用詞性信息進行分詞,將兩者緊密融合能夠幫助消除歧義和提升詞性標(biāo)記、分詞的準(zhǔn)確性.

        漢語的詞性標(biāo)記和分詞一般被當(dāng)作是序列標(biāo)記任務(wù),每個字符在詞中的位置和詞的詞性標(biāo)記是由它們各自的標(biāo)記決定的.漢語分詞常用標(biāo)記符號為{B,M,E,S},使用這4個標(biāo)記來獲得單詞的邊界信息,其中B、M、E代表詞的開頭、中間、結(jié)尾,S表示單字詞.本文中文分詞、詞性標(biāo)注聯(lián)合方法采用的標(biāo)注符號是{B,M,E-tg,S-tg},其中tg表示詞性.基于BERT-BiLSTM-CRF的分詞、詞性標(biāo)注聯(lián)合算法由3部分構(gòu)成:字符嵌入層,BiLSTM層和CRF層.

        2.1 基于BERT的字符嵌入層

        長期以來,語言模型的研究先后經(jīng)歷了one-hot、Word2Vec、ELMO、GPT和BERT.Word2Vec曾經(jīng)是語言信息處理中應(yīng)用最廣泛的詞向量訓(xùn)練模型,Word2Vec使得深度學(xué)習(xí)在語言信息處理中廣泛應(yīng)用,并且對語言信息處理的發(fā)展發(fā)揮了巨大作用.但Word2Vec自身是用于淺層結(jié)構(gòu)的詞向量訓(xùn)練模型,并且所獲語義信息受窗口大小的影響,因此,一些學(xué)者后來提出使用長短時記憶(LSTM)語言模型對單詞向量進行預(yù)訓(xùn)練,從而獲得長距離依賴.普通的長短時記憶模型僅能單向獲取信息.Peters[23]提出了語言嵌入模型(ELMo),ELMo模型某些程度上解決了僅能單向獲取信息的問題.ELMo是兩層雙向長短時記憶結(jié)構(gòu),基于ELMo的語言模型能夠獲取句子左側(cè)和右側(cè)的上下文信息.此外,Radford[24]等人引入了GPT,GPT利用Transformer編碼器當(dāng)作預(yù)訓(xùn)練語言模型,并且可以在此基礎(chǔ)上微調(diào)下游語言信息處理任務(wù).與長短時記憶模型相比,GPT語言模型的優(yōu)勢在于它能夠在更長的距離上獲得語句上下文信息,然而它也是單向的.為了使用來自雙向的上下文信息,2018年,google團隊Jacob Devlin等人引入了BERT預(yù)訓(xùn)練語言模型,該算法獲得了當(dāng)時11;類語言信息處理問題的最好性能.BERT模型使用雙向Transformer,其在所有層中的特征表示取決于左側(cè)和右側(cè)的上下文.該模型結(jié)合了其它模型的長處,拋棄了它們的不足,并在隨后的語言信息處理的許多特定任務(wù)中取得了較佳的結(jié)果[25].

        BERT語言模型使用雙向Transformer網(wǎng)絡(luò)模型作為編碼器,因此預(yù)測每個字符能夠雙向引用文本信息.模仿中國英文測試中的完形填空測試,隨機覆蓋一些輸入單詞,并通過句子中的其它單詞來推測被掩蓋的單詞.另外,句子級別的連續(xù)性推測任務(wù)被添加到模型訓(xùn)練之中[26].

        應(yīng)用神經(jīng)網(wǎng)絡(luò)模型解決漢語分詞、詞性標(biāo)記任務(wù),我們需要用向量的方式來表達文本,并利用給定維度的特征矢量來表示字符.字符向量能夠描述字符之間的語法和語義相關(guān)性,作為字符特征輸入神經(jīng)網(wǎng)絡(luò).首先,以字符為單位分割語句,利用BERT模型預(yù)處理生成字符xi的含有上下文信息的字向量,得到d維字符向量,構(gòu)成d×N字符矩陣,這里N代表訓(xùn)練數(shù)據(jù)中有效字符的數(shù)量.其次,對語句中的每個字符xi,設(shè)置長度為l=5的窗口(l的值是可改變的),獲取xi的上下文字符序列(xi-2,xi-1,xi,xi+1,xi+2).對每個在窗口中的字符,由字符矩陣查找獲得對應(yīng)的向量.最后構(gòu)造當(dāng)前字符xi的嵌入向量ei.

        2.2 BiLSTM層

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種使用隱藏狀態(tài)存儲歷史信息來進行序列標(biāo)記任務(wù)的成功模型.但是梯度消失使得RNN不能較好地處理遠(yuǎn)距離依賴問題.長短期記憶網(wǎng)絡(luò)(LSTM)[17]基于RNN模型引進記憶單元記錄當(dāng)前狀態(tài)信息,利用輸入門、輸出門和遺忘門三類門結(jié)構(gòu)刷新記憶單元和隱藏狀態(tài).LSTM單元組成LSTM網(wǎng)絡(luò),一個LSTM單元由輸入門、輸出門、遺忘門和單元狀態(tài)組成.輸入門控制向單元狀態(tài)添加新信息,輸出門決定隱藏狀態(tài)的輸出,遺忘門決定前一時間單元狀態(tài)的丟棄信息.設(shè)et代表時刻t的輸入向量,ht-1代表LSTM單元在時刻t-1的隱藏狀態(tài)輸出,ct-1表示時刻t-1的細(xì)胞狀態(tài).LSTM在時間t的計算過程能夠表示為公式(1)~公式(6):

        it=σ(Wiht-1+Uiet+bi)

        (1)

        ft=σ(Wfht-1+Ufet+bf)

        (2)

        ot=σ(Woht-1+Uoet+bo)

        (3)

        (4)

        (5)

        ht=ot⊙tanh(ct)

        (6)

        LSTM(長短時記憶網(wǎng)絡(luò))利用門機制捕獲遠(yuǎn)距離的歷史信息.因為需要同時獲得上下文信息,選擇了雙向LSTM (BILSTM).雙向LSTM模型有兩個不一樣方向的并行層:向前層和向后層.這兩層從語句的前端和結(jié)尾分別運行,從兩個方向存儲語句信息,從而提升了詞性標(biāo)記和分詞的性能.因此,BiLSTM模型中的輸出(隱藏狀態(tài))ht計算如下:

        (7)

        2.3 基于MFM(或TLP)的標(biāo)記推測CRF層

        在基于字符的詞性標(biāo)記和漢語分詞問題中,必須考慮鄰接標(biāo)記之間的搭配關(guān)系.例如,B(開始)標(biāo)記后面應(yīng)當(dāng)為M(中間)標(biāo)記或E-tg(結(jié)束)標(biāo)記,而M標(biāo)記后面不可以是B標(biāo)記或S-tg標(biāo)記.因此,不能單獨使用ht^來做出標(biāo)記決策,而是利用條件隨機場以聯(lián)合建模標(biāo)記序列.條件隨機場模型是一種無向圖模型,用于計算輸入隨機變量給定時隨機變量輸出的條件概率.它融合了隱馬爾可夫模型和最大熵模型的特點,擁有處理重疊特征和遠(yuǎn)距離依賴的能力,可以很好地處理標(biāo)記偏置問題,因而廣泛應(yīng)用于語言信息處理等領(lǐng)域.

        給定句子X=(x1,x2,…,xn)和對應(yīng)的預(yù)測標(biāo)簽Y=(y1,y2,…,yn),yt∈{B,M,E-tg,S-tg},其中tg表示詞性.預(yù)測標(biāo)簽Y=(y1,y2,…,yn)包含分詞信息和詞性標(biāo)注信息,可以分解為分詞標(biāo)簽Z=(z1,z2,…,zn),zt∈{B,M,E,S}和分詞條件下的詞性標(biāo)注標(biāo)簽p(tg1,tg2,…,tgm|w1,w2,…,wm),其中w1,w2,…,wm為給定句子X=(x1,x2,…,xn)在分詞標(biāo)簽序列Z=(z1,z2,…,zn)下的詞序列.假設(shè)在給定詞序列條件下詞性標(biāo)注滿足馬爾可夫族模型(MFM)[10],即有下式成立:

        (8)

        對于給定句子X=(x1,x2,…,xn)和對應(yīng)的預(yù)測標(biāo)簽Y=(y1,y2,…,yn),預(yù)測評估分?jǐn)?shù)定義如下:

        (9)

        其中:A系一個分詞標(biāo)記轉(zhuǎn)換得分矩陣,Ai,j計算分詞標(biāo)記i到j(luò)的得分;B系詞性標(biāo)記轉(zhuǎn)變得分矩陣,Bk,l計算詞性標(biāo)記k到l的得分;Qi,yi計算字符xi在分詞和詞性聯(lián)合預(yù)測標(biāo)記yi上的得分.Qi定義如下:

        Qi=Wsht+bs

        (10)

        其中:ht系BiLSTM模型中t時刻輸入數(shù)據(jù)xt對應(yīng)的隱藏狀態(tài);Ws系權(quán)值矩陣;bs系偏置向量.假設(shè)在給定詞序列條件下詞性標(biāo)注滿足樹形概率(TLP),即有下式成立:

        (11)

        則對于給定句子X=(x1,x2,…,xn)和對應(yīng)的預(yù)測標(biāo)簽Y=(y1,y2,…,yn),預(yù)測評估分?jǐn)?shù)定義如下:

        (12)

        在CRF層,語句X被標(biāo)記為序列Y的可能性概率計算如下:

        (13)

        深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,損失函數(shù)定義如式(14)所示:

        J(θ)=-∑ilog(P(Y|X))+αΩ(θ)

        (14)

        這里X和Y相應(yīng)是訓(xùn)練數(shù)據(jù)中的句子和對應(yīng)的標(biāo)注序列,Ω(θ)是為了防止神經(jīng)網(wǎng)絡(luò)的過擬合而添加的正則項.

        聯(lián)合學(xué)習(xí)模型流程圖如圖1所示.

        圖1 聯(lián)合學(xué)習(xí)模型流程圖Fig.1 Flow chart of joint learning model

        3 實驗結(jié)果及分析

        本文模型的主要設(shè)置如下:Transformer層數(shù)設(shè)置為12,隱藏層的維度設(shè)置為768,字向量的維度設(shè)置為128,增加維度并不能再提高效果.本文實驗學(xué)習(xí)率取值0.001;實驗采用了Dropout機制來防止神經(jīng)網(wǎng)絡(luò)過擬合,實驗中Dropout設(shè)置為0.5.本文主要進行了分詞和詞性聯(lián)合標(biāo)注實驗.

        分詞和詞性聯(lián)合標(biāo)注實驗使用的實驗語料是PKU、MSR和CTB8(來自Chinese Treebank 8.0).PKU是由北大計算語言學(xué)研究所提供的語料庫,該語料庫是對人民日報1998年上半年的純文本語料進行了詞語切分和詞性標(biāo)注制作而成的.該語料庫分詞的一個特征是姓和名要分離,組織機構(gòu)要直接在語法詞典中標(biāo)注出來,大多數(shù)短語詞在組合之前應(yīng)該被分割.MSR系微軟亞洲研究院開發(fā)的語料數(shù)據(jù)庫,它的分詞特征是由比較多的命名實體組成的長詞.賓夕法尼亞大學(xué)中文語法樹數(shù)據(jù)庫(CTB8)包含經(jīng)過詞性標(biāo)記、分詞、句法標(biāo)記的語料,根據(jù)語句的內(nèi)部結(jié)構(gòu)形成語法樹.

        公式(9)、公式(12)中的分詞標(biāo)簽轉(zhuǎn)換分?jǐn)?shù)矩陣A由語料集PKU、MSR和CTB8聯(lián)合訓(xùn)練得到,其它模型參數(shù)分別在語料集PKU、CTB8上單獨進行訓(xùn)練.分詞性能采取召回率、準(zhǔn)確率和綜合指數(shù)F1來評估:其中準(zhǔn)確率P表示推測正確的分詞個數(shù)與推測分詞個數(shù)的比值;召回率R表示推測正確的分詞個數(shù)與測試集中正確的分詞個數(shù)的比值;綜合指標(biāo)F1表示召回率和精確率的調(diào)和平均值:

        (15)

        實驗結(jié)果表1列出了不同語料集的分詞測試性能.

        表1 不同方法在不同數(shù)據(jù)測試集上分詞測試結(jié)果對比Table 1 Comparison of word segmentation test results of different methods on different test sets

        本文應(yīng)用馬爾可夫族模型(MFM)、樹形概率(TLP)進行詞性標(biāo)注,并結(jié)合BERT語言模型、雙向長短時記憶神經(jīng)網(wǎng)絡(luò)模型(BiLSTM)和條件隨機場模型(CRF)提出了中文分詞和詞性標(biāo)注聯(lián)合方法BERT-BiLSTM-CRF-MFM、BERT-BiLSTM-CRF-TLP.由表1分詞標(biāo)注結(jié)果中可以看出:本文提出的分詞方法在基于字的BiLSTM-CRF中文分詞模型基礎(chǔ)上,利用詞性標(biāo)注信息實現(xiàn)分詞,有機地將中文分詞和詞性標(biāo)注結(jié)合起來明顯提高了分詞性能;在中文分詞上,相比于BiLSTM-CRF分詞模型、Switch-LSTMs分詞模型,BERT-BiLSTM-CRF-MFM、BERT-BiLSTM-CRF-TLP方法分詞效果有大幅度的提高,并且基于馬爾可夫族模型(MFM)、BERT語言模型、長短時記憶神經(jīng)網(wǎng)絡(luò)模型和條件隨機場模型的中文分詞和詞性標(biāo)注聯(lián)合方法BERT-BiLSTM-CRF-MFM取得了最佳的效果.

        本文比較了幾種中文分詞和詞性標(biāo)注聯(lián)合方法分別在語料集PKU和CTB8上的實驗結(jié)果,具體如表2、表3所示.

        表3 不同方法在語料集PKU上的實驗結(jié)果對比Table 3 Comparison of experimental results of different methods on the corpus PKU

        實驗結(jié)果表明,中文分詞和詞性標(biāo)注聯(lián)合方法BERT-BiLSTM-CRF-MFM能同時大幅度提高分詞和詞性標(biāo)注效果.在基于馬爾可夫族模型的詞性標(biāo)注中,目前詞的詞性不僅與前面一個詞的詞性關(guān)聯(lián),也與目前詞自身關(guān)聯(lián).故而在一樣的測試情況下,利用馬爾可夫族模型的聯(lián)合標(biāo)記模型BERT-BiLSTM-CRF-MFM比常規(guī)的詞性標(biāo)注方法大大提高了詞性標(biāo)注準(zhǔn)確率,這也驗證了前面的假設(shè).

        4 結(jié) 論

        針對中文分詞、詞性標(biāo)注等序列標(biāo)注任務(wù),本文提出了結(jié)合BERT語言模型、BiLSTM、CRF和馬爾可夫族模型(MFM)或樹形概率(TLP)構(gòu)建的中文分詞和詞性標(biāo)記聯(lián)合算法.利用隱馬爾科夫模型的詞性標(biāo)記算法只利用到了詞性到詞的發(fā)射概率,弱化了詞對詞性的分布情況;而在利用樹形概率或馬爾可夫族模型的詞性標(biāo)記算法中,目前詞的詞性不僅和前一個詞的詞性關(guān)聯(lián),而且和目前詞自身關(guān)聯(lián).通常詞性標(biāo)記和漢語分詞是分別進行這兩個任務(wù),然而詞性標(biāo)記的準(zhǔn)確性與分詞的準(zhǔn)確性緊密關(guān)聯(lián),分詞錯誤也許會制約詞性標(biāo)記的準(zhǔn)確性.將詞性標(biāo)記和分詞統(tǒng)一在一個聯(lián)合模型架構(gòu)中,能夠大幅減少錯誤的傳播,并有益于利用詞性信息進行分詞,將兩者緊密結(jié)合能夠幫助消除歧義和提升詞性標(biāo)記、分詞的準(zhǔn)確性.

        猜你喜歡
        馬爾可夫分詞字符
        尋找更強的字符映射管理器
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        消失的殖民村莊和神秘字符
        值得重視的分詞的特殊用法
        保費隨機且?guī)в屑t利支付的復(fù)合馬爾可夫二項模型
        基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
        應(yīng)用馬爾可夫鏈對品牌手機市場占有率進行預(yù)測
        認(rèn)知無線網(wǎng)絡(luò)中基于隱馬爾可夫預(yù)測的P-CSMA協(xié)議
        国产99r视频精品免费观看| 亚洲图片自拍偷图区| 国产精品成人aaaaa网站 | 国产成年无码V片在线| 国产人妖一区二区在线| 三级日韩视频在线观看| 男女啪动最猛动态图| 美女胸又www又黄的网站| 国产三级国产精品三级在专区| 人妻精品一区二区三区蜜桃| 妺妺窝人体色www看人体| 久久国产色av| 日日噜噜噜夜夜爽爽狠狠视频| 国产精品自拍午夜伦理福利| 日本一区二区三区免费播放| 国产亚洲精久久久久久无码| 69堂在线无码视频2020| 老女人下面毛茸茸的视频| 国产精品免费av片在线观看| 女人与牲口性恔配视频免费| 中文字幕五月久久婷热| 在线观看中文字幕二区| 丰满爆乳在线播放| 婷婷九月丁香| 免费人成网在线观看品观网| 成年丰满熟妇午夜免费视频| 欧美日韩中文国产一区发布| 久久中文字幕日韩无码视频 | 一区二区国产av网站| 久久精品噜噜噜成人| 精品欧美久久99久久久另类专区| 青青草视频免费在线播放| 久久精品国产亚洲av麻豆色欲| 久久久精品波多野结衣| 国产精品狼人久久久影院| 日本一区二区不卡精品| 无码人妻av一区二区三区蜜臀| 成人在线免费视频亚洲| 一个人午夜观看在线中文字幕| 亚洲精品乱码久久久久久中文字幕| 久久久久99精品成人片试看|