亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-CRF的中文分詞模型設(shè)計(jì)

        2022-02-17 07:39:26陳月月,李燕,帥亞琦,徐麗娜,鐘昕妤
        電腦知識(shí)與技術(shù) 2022年35期
        關(guān)鍵詞:自然語(yǔ)言處理

        陳月月,李燕,帥亞琦,徐麗娜,鐘昕妤

        摘要:分詞作為中文自然語(yǔ)言處理中的基礎(chǔ)和關(guān)鍵任務(wù),其分詞效果的好壞會(huì)直接影響后續(xù)各項(xiàng)自然語(yǔ)言處理任務(wù)的結(jié)果。本文基于BERT-CRF的分詞模型利用通用領(lǐng)域數(shù)據(jù)集與醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,分別取得F1值0.898和0.738的實(shí)驗(yàn)結(jié)果。

        關(guān)鍵詞:BERT;CRF;中文分詞;自然語(yǔ)言處理

        中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2022)35-0004-03

        自然語(yǔ)言處理(Natural Language Processing, NLP)是研究計(jì)算機(jī)理解和自然語(yǔ)言生成的信息處理[1]。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)算法被廣泛應(yīng)用于各項(xiàng)自然語(yǔ)言處理任務(wù)中。分詞作為自然語(yǔ)言處理中的基礎(chǔ)和關(guān)鍵任務(wù),其結(jié)果會(huì)直接影響后續(xù)命名實(shí)體識(shí)別、關(guān)系抽取等自然語(yǔ)言處理相關(guān)工作的準(zhǔn)確性[2]。由于神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自學(xué)習(xí)性和自適應(yīng)性,有助于提高中文分詞模型的性能,因此,現(xiàn)有的中文分詞模型大都結(jié)合了神經(jīng)網(wǎng)絡(luò)算法對(duì)分詞模型進(jìn)行構(gòu)建。

        分詞的目的是將一個(gè)完整的句子分割為詞語(yǔ)級(jí)別[3]。不同于英文中以空格為分詞符號(hào)的分詞,在中文文本中,詞與詞之間沒有明確的分詞標(biāo)記,其以連續(xù)字符串的形式呈現(xiàn),且存在一詞多義和語(yǔ)境不同意義不同的現(xiàn)象。因此,做好中文分詞工作對(duì)處理所有的中文自然語(yǔ)言處理任務(wù)有著至關(guān)重要的作用。

        1 相關(guān)工作

        分詞模型是自然語(yǔ)言處理中最基本的語(yǔ)言處理模型之一。中文的語(yǔ)言結(jié)構(gòu)復(fù)雜,難以準(zhǔn)確地進(jìn)行詞語(yǔ)識(shí)別[4]。因此,中文分詞成為分詞任務(wù)中的熱點(diǎn)話題。中文分詞方法可以分為傳統(tǒng)的分詞方法和基于神經(jīng)網(wǎng)絡(luò)的分詞方法。

        傳統(tǒng)的分詞方法包括基于詞典規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谠~典規(guī)則的方法就是按照中文文本的順序?qū)⑵淝蟹殖蛇B續(xù)詞序,然后根據(jù)規(guī)則以及連續(xù)詞序是否在給定的詞典中來決定連續(xù)詞序?是否為最終的分詞結(jié)果[5]。基于詞典規(guī)則方法構(gòu)建的分詞模型分詞速度快、容易實(shí)現(xiàn),且其在特定領(lǐng)域分詞的準(zhǔn)確率較高,但其高度依賴詞典規(guī)則,針對(duì)詞典規(guī)則中未登錄詞的識(shí)別效果差?;诮y(tǒng)計(jì)方法構(gòu)建的分詞模型,其主要思想是把字符序列中的每個(gè)詞都看作由字組成,計(jì)算字符序列中任意相鄰字符出現(xiàn)的概率,概率值越大則說明相鄰字符成詞的可能性越大[6]?;诮y(tǒng)計(jì)方法構(gòu)建的分詞模型可以很好地識(shí)別未登錄詞,但模型復(fù)雜度高,存在人工特征提取工作量大、容易過擬合等問題。

        鑒于傳統(tǒng)分詞方法的各種不足,近年來,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分詞方法逐漸成為分詞任務(wù)處理中的研究熱點(diǎn)?;谏窠?jīng)網(wǎng)絡(luò)的分詞方法構(gòu)建的分詞模型,其主要思想是將輸入序列中詞向量的元素值作為模型參數(shù),并使用神經(jīng)網(wǎng)絡(luò)和訓(xùn)練數(shù)據(jù)的學(xué)習(xí)來獲取模型的參數(shù)值。神經(jīng)網(wǎng)絡(luò)充分利用了文本自身所具有的有序性和詞共現(xiàn)信息的優(yōu)勢(shì),具有很強(qiáng)的自學(xué)習(xí)性和自適應(yīng)性,可以自動(dòng)從原始數(shù)據(jù)中提取特征,而無須人工構(gòu)造特征,避免了人工設(shè)置特征的局限性[7]。因此,神經(jīng)網(wǎng)絡(luò)算法在自然語(yǔ)言處理任務(wù)中得到了廣泛的應(yīng)用。張文靜等[8]提出了一種基于Lattice-LSTM的中文分詞模型,該模型集成了多粒度的分詞信息,在多粒度的中文分詞任務(wù)中取得了優(yōu)異的性能表現(xiàn);胡曉輝等[3]利用雙向LSTM可以提取輸入序列前后信息和卷積神經(jīng)網(wǎng)絡(luò)能夠提取文本局部特征信息的特點(diǎn),提出了基于BiLSTM-CNN-CRF的中文分詞模型,在中文分詞任務(wù)中取得了較好的效果。

        2 基本原理

        本文采用基于BERT-CRF的中文分詞模型對(duì)文本進(jìn)行分詞處理。模型結(jié)構(gòu)如圖1所示。主要包含基于BERT的詞嵌入層和CRF條件隨機(jī)場(chǎng)模型層。其中,BERT的詞嵌入層用于提取輸入文本序列的上下文信息;CRF用于進(jìn)行最后的序列標(biāo)注,將輸入的數(shù)據(jù)標(biāo)注成B、M、E、S的向量形式。

        2.1 BERT詞嵌入層

        BERT是從Transformer中衍生出來的預(yù)訓(xùn)練模型,2018年由Google團(tuán)隊(duì)提出。BERT模型采用深層雙向的Transformer組件來進(jìn)行模型構(gòu)建,打破了單向融合上下文的限制,生成了融合上下文信息的深層雙向語(yǔ)言表征[9]。BERT的結(jié)構(gòu)如圖2所示,其中,E1、E2…En為輸入向量; T1、T2…Tn為經(jīng)過多層Transformer編碼器后的輸出向量。

        BERT預(yù)訓(xùn)練模型憑借龐大的語(yǔ)料庫(kù)和強(qiáng)大的計(jì)算能力,在獲得通用語(yǔ)言模型和表示的基礎(chǔ)上,結(jié)合任務(wù)語(yǔ)料對(duì)模型進(jìn)行微調(diào)[10],可以很好地完成各類文本處理任務(wù),成為當(dāng)前各類自然語(yǔ)言處理任務(wù)中的研究熱點(diǎn)和核心技術(shù)。

        2.2 CRF條件隨機(jī)場(chǎng)模型層

        CRF條件隨機(jī)場(chǎng)模型是由Lafferty等[6]提出的一種序列標(biāo)記模型,它結(jié)合了最大熵模型(Maximum Entropy)和隱馬爾可夫模型(Hidden Markov Model,HMM)的特點(diǎn),能夠充分考慮標(biāo)簽之間的依存關(guān)系,避免了標(biāo)記偏執(zhí)和最大熵模型局部?jī)?yōu)化的問題,克服了HMM輸出獨(dú)立性假設(shè)的缺點(diǎn),可以很好地完成分詞等其他序列標(biāo)注任務(wù)。因此,現(xiàn)有的分詞模型大都結(jié)合了CRF模型,模型結(jié)構(gòu)如圖3所示。

        根據(jù)CRF的定義,CRF條件隨機(jī)場(chǎng)模型是輸入隨機(jī)變量X和輸出隨機(jī)變量Y的條件概率分布模型。其中,X為輸入變量,表示要標(biāo)記的字符序列;Y是表示標(biāo)注序列(也稱為狀態(tài)序列)的輸出變量。

        3 實(shí)驗(yàn)及分析

        3.1 數(shù)據(jù)集

        本實(shí)驗(yàn)中的通用數(shù)據(jù)集來自SIGHAN 2005第二屆中文分詞任務(wù)中的Peking University數(shù)據(jù)集(簡(jiǎn)稱PKU數(shù)據(jù)集);中文醫(yī)學(xué)領(lǐng)域數(shù)據(jù)(Chinese Medical Corpus,CMC)來自《國(guó)醫(yī)大師治療中風(fēng)經(jīng)典醫(yī)案》療病叢書中所記錄的醫(yī)案數(shù)據(jù)。

        按照9:1的比例將通用領(lǐng)域和中文醫(yī)學(xué)領(lǐng)域訓(xùn)練數(shù)據(jù)分割為訓(xùn)練集和驗(yàn)證集。

        3.2 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)的環(huán)境參數(shù)和模型訓(xùn)練參數(shù)設(shè)置如表1和表2所示。其中,模型訓(xùn)練的迭代次數(shù)(epoch_num)為20次。實(shí)驗(yàn)中涉及通用領(lǐng)域訓(xùn)練語(yǔ)料和醫(yī)學(xué)領(lǐng)域訓(xùn)練語(yǔ)料,針對(duì)兩個(gè)不同領(lǐng)域的數(shù)據(jù)集均使用BERT-CRF分詞模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。所有數(shù)據(jù)采用BMES四詞位標(biāo)注法進(jìn)行標(biāo)注,各標(biāo)注的具體含義如表3所示。

        3.3 評(píng)價(jià)指標(biāo)

        試驗(yàn)結(jié)果評(píng)估指標(biāo)采用查準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值,各項(xiàng)指標(biāo)的計(jì)算公式為:

        [F1=2PRR+P]? ? ? ? ? ? ? ? ? ? ? ? ? (1)

        [P=TPTP+FP]? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

        [R=TPTP+FN]? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)

        式中:TP表示分詞正確的詞數(shù);TP+FP表示分詞的總詞數(shù);TP+FN表示標(biāo)準(zhǔn)分詞集中的詞數(shù)。

        3.4 結(jié)果分析

        本次實(shí)驗(yàn)分別利用PKU數(shù)據(jù)集和CMC數(shù)據(jù)集對(duì)BERT-CRF分詞模型進(jìn)行訓(xùn)練,其訓(xùn)練結(jié)果如圖4和圖5所示,兩個(gè)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果的對(duì)比如表4所示。

        由表4可以看出,基于BERT-CRF的中文分詞模型的分詞效果在通用領(lǐng)域數(shù)據(jù)集上的分詞結(jié)果更好。這是因?yàn)椴徽撌腔谀姆N分詞方法來構(gòu)建分詞模型,其分詞的效果都依賴于大規(guī)模的訓(xùn)練數(shù)據(jù),但由于目前醫(yī)學(xué)領(lǐng)域開放的數(shù)據(jù)集較少,且數(shù)據(jù)專業(yè)性強(qiáng),很難獲得大量標(biāo)注的訓(xùn)練數(shù)據(jù),導(dǎo)致模型訓(xùn)練不夠完全,無法達(dá)到模型所期望的最佳分詞效果。因此,若想在醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集上獲得更好的分詞效果,需要增加醫(yī)學(xué)領(lǐng)域的訓(xùn)練數(shù)據(jù),并對(duì)模型進(jìn)行進(jìn)一步的優(yōu)化和訓(xùn)練,使得模型能夠更好地理解醫(yī)學(xué)領(lǐng)域的中文文本,從而發(fā)揮模型的最佳分詞性能。

        4 結(jié)束語(yǔ)

        針對(duì)自然語(yǔ)言處理中的中文分詞任務(wù),本文利用BERT-CRF的模型探究同一模型在不同領(lǐng)域數(shù)據(jù)集上的分詞效果,分別在PKU數(shù)據(jù)集和CMC數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,得到F1值分別為0.898和0.738的實(shí)驗(yàn)結(jié)果,證明了該模型在通用領(lǐng)域數(shù)據(jù)集上的分詞效果更好。

        參考文獻(xiàn):

        [1] ISO/IEC.Information technology—artificial intelligence—artificial intelligence concepts and terminology:ISO/IEC TR 24372:2021(E)[S].2021

        [2] WANG K,ZONG C,SU K Y.A character-based joint model for Chinese word segmentation[C]//23rd International Conference on Computational Linguistics,2010:1173-1181.

        [3] 胡曉輝,朱志祥.基于深度學(xué)習(xí)的中文分詞方法研究[J].計(jì)算機(jī)與數(shù)字工程,2020,48(3):627-632.

        [4] 王若佳,趙常煜,王繼民.中文電子病歷的分詞及實(shí)體識(shí)別研究[J].圖書情報(bào)工作,2019,63(2):34-42.

        [5] WU A.Word segmentation in sentence analysis[C]//Proceedings of 1998 International Conference on Chinese Information Processing.Beijing:Chinese Webster F.What information society?[J].The Information Society,1994,10(1):1-23.

        [6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco.Morgan Kaufmann Publishers Inc,2001:282-289.

        [7] 姚茂建,李晗靜,呂會(huì)華,等.基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J].現(xiàn)代電子技術(shù),2019,42(1):95-99.

        [8] 張文靜,張惠蒙,楊麟兒,等.基于Lattice-LSTM的多粒度中文分詞[J].中文信息學(xué)報(bào),2019,33(1):18-24.

        [9] 何濤,陳劍,聞?dòng)⒂?基于BERT-CRF模型的電子病歷實(shí)體識(shí)別研究[J].計(jì)算機(jī)與數(shù)字工程,2022,50(3):639-643.

        [10] 王海寧.自然語(yǔ)言處理技術(shù)發(fā)展[J].中興通訊技術(shù),2022,28(2):59-64.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        自然語(yǔ)言處理
        基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
        自然語(yǔ)言處理與司法案例
        國(guó)外基于知識(shí)庫(kù)的問答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
        基于依存句法的實(shí)體關(guān)系抽取
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
        詞向量的語(yǔ)義學(xué)規(guī)范化
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        日日天干夜夜狠狠爱| 亚洲精品二区在线观看| 国产网友自拍视频在线观看| 国内久久婷婷六月综合欲色啪| 一区二区三区亚洲视频| 亚洲中文字幕无码av永久| 日日噜噜噜夜夜爽爽狠狠视频| 日日躁夜夜躁狠狠躁超碰97| 久热香蕉av在线爽青青| 日本97色视频日本熟妇视频 | 人妻 日韩精品 中文字幕| 久久精品免视看国产盗摄| 亚洲av福利天堂在线观看| 国产免费人成视频在线观看| 久久精品一区午夜视频| 丰满少妇a级毛片野外| 中国老妇女毛茸茸bbwbabes| 巨大欧美黑人xxxxbbbb| 国产日韩亚洲中文字幕| 亚洲精品在线免费视频| 妺妺窝人体色www聚色窝| 91日韩高清在线观看播放| 欧美日韩中文亚洲另类春色| 日产一区一区三区区别| av手机在线观看不卡| 欧美成人在线视频| 国产色诱视频在线观看| 3亚洲日韩在线精品区| 国产一区二区三区在线观看免费版| 天天做天天爱夜夜夜爽毛片| 摸进她的内裤里疯狂揉她动视频| 青春草在线视频精品| 中文乱码字幕在线亚洲av| 成人免费直播| 日韩欧美第一页| 国产精品天堂在线观看| 无码人妻一区二区三区免费看| 成人天堂资源www在线| 久久迷青品着产亚洲av网站| 白嫩人妻少妇偷人精品| 免费无码又爽又刺激聊天app|