亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        采用BERT-BiLSTM-CRF 模型的中文位置語義解析

        2022-03-07 06:57:52鄧慶康李曉林
        軟件導(dǎo)刊 2022年2期
        關(guān)鍵詞:分詞語義解析

        鄧慶康,李曉林

        (1.武漢工程大學(xué)計算機科學(xué)與工程學(xué)院;2.智能機器人湖北省重點實驗室,湖北武漢 430205)

        0 引言

        中文位置語義解析是指將非結(jié)構(gòu)化的中文位置信息拆分成若干最小位置要素,是中文分詞在地理信息領(lǐng)域的應(yīng)用。隨著互聯(lián)網(wǎng)相關(guān)技術(shù)的迅速發(fā)展與普及,位置信息已被廣泛應(yīng)用于各種網(wǎng)頁端和移動應(yīng)用端,如北斗衛(wèi)星導(dǎo)航系統(tǒng)、地圖類軟件、外賣軟件、打車軟件等。隨著互聯(lián)網(wǎng)越來越開放化,網(wǎng)絡(luò)上大量位置信息數(shù)據(jù)來源于用戶上傳與共享的文本位置信息,這些信息很大程度上是用戶根據(jù)個人理解上傳的信息,缺乏統(tǒng)一標(biāo)準(zhǔn)及格式,存在語義模糊、表意不清、結(jié)構(gòu)混亂等問題。因此,有效的中文位置語義解析算法顯得尤為重要,已成為地理信息領(lǐng)域應(yīng)用需要解決的核心問題之一。

        傳統(tǒng)中文位置語義解析主要是通過規(guī)則和統(tǒng)計兩種方法進行的?;谝?guī)則的中文位置語義解析主要依靠中文位置信息字典,如馬照亭等利用地理編碼庫編制地址字典對地名∕地址進行分詞;張雪英等通過構(gòu)建地址特征庫提高對中文位置的解析準(zhǔn)確率;趙陽陽等通過測試證明FMM算法能夠?qū)崿F(xiàn)對地名地址串的拆分,有效解決了對未登錄地址名稱的識別問題。基于統(tǒng)計的中文位置語義解析主要依靠傳統(tǒng)的機器學(xué)習(xí)方法,如應(yīng)申等利用統(tǒng)計決策樹對城市地址進行集中分詞;謝婷婷等先利用統(tǒng)計規(guī)則統(tǒng)計詞頻,經(jīng)過預(yù)處理后再對地址串進行切分;王勇等利用隱馬爾可夫模型(Hidden Markov Model,HMM)對地名語義進行解析。傳統(tǒng)的中文位置語義解析方法雖已十分成熟,但忽略了位置詞與位置詞之間的聯(lián)系,對中文位置解析的效果與泛化能力都較差。

        近年來,隨著神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于中文分詞領(lǐng)域,如Switch-LSTM模型、CNN-BiLSTM模型、BERT模型等,中文位置信息也利用神經(jīng)網(wǎng)絡(luò)模型進行語義解析。如張文豪等對比長短記憶(Long Short-term Memory,LSTM)網(wǎng) 絡(luò)和雙向長短記憶(Bi-directional Long Short-term Memory,BiLSTM)網(wǎng)絡(luò)在中文位置語義解析中的效果,證明利用這兩種模型進行位置語義解析都能得到很高的準(zhǔn)確率;程博等根據(jù)中文位置信息具有行政區(qū)劃的層級規(guī)范,提出中文位置信息的層級標(biāo)注策略,將BiLSTM 與CRF(ConditionalRandomField)相結(jié)合進行位置語義解析,能得到更好的分詞效果。

        上述方法雖然都具有可行性,但仍存在許多問題有待解決。傳統(tǒng)的中文位置語義解析方法忽略了位置詞之間的聯(lián)系,致使解析效果與泛化能力很差。當(dāng)前神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于中文位置語義解析,雖然分詞準(zhǔn)確率較高,但是存在多義詞解析效果差、泛化能力差等問題。

        針對上述問題,本文提出一種基于BERT-BiLSTMCRF 模型的中文位置語義解析算法。首先利用BERT(Bidirectional Encoder Representation from Transformers)預(yù)訓(xùn)練模型對中文位置信息進行預(yù)訓(xùn)練,獲取所有層中的上下文信息,增強中文位置信息的語義表征能力,然后通過BiLSTM 模型提取向量特征信息,最后通過CRF 模型的轉(zhuǎn)移概率矩陣得到全局得分最高的標(biāo)注序列作為最終結(jié)果。利用該模型進行中文位置語義解析,得到的整體解析準(zhǔn)確率和多義詞解析準(zhǔn)確率都較高,并且針對不同區(qū)域的位置信息數(shù)據(jù)集具有很好的泛化能力。

        1 模型設(shè)計

        1.1 BERT-BiLSTM-CRF 模型

        BERT-BiLSTM-CRF 模型的系統(tǒng)結(jié)構(gòu)如圖1 所示。首先,利用BERT 預(yù)訓(xùn)練模型將位置信息轉(zhuǎn)化為特征向量,并將特征向量作為BiLSTM 網(wǎng)絡(luò)的輸入;然后,特征向量在前向LSTM 與后向LSTM 的作用下獲得隱藏向量,將隱藏向量轉(zhuǎn)化為定長的文本向量,再將此向量輸送到CRF 層,即將BiLSTM 層中的So-ftMax 層替換成CRF 層;最后,將BiLSTM網(wǎng)絡(luò)輸出的向量與CRF 層中的參數(shù)相結(jié)合,以獲得整個句子的標(biāo)簽分?jǐn)?shù),并找到位置信息的最佳標(biāo)簽。

        Fig.1 Structure of BERT-BiLSTM-CRF model圖1 BERT-BiLSTM-CRF 模型結(jié)構(gòu)

        1.2 BERT 預(yù)訓(xùn)練模型

        在自然語言處理領(lǐng)域,通常使用Word2Vec 方法進行詞嵌入操作,但這種操作文本序列的解析是靜態(tài)的。2018 年由Devlin 等提出的BERT 模型通過無監(jiān)督方式學(xué)習(xí),能保存深層的特征信息,具有更好的泛化能力,其結(jié)構(gòu)如圖2所示。Bert 模型主要由雙向Transformer 的encoder 結(jié)構(gòu)組成,利用Mask 預(yù)訓(xùn)練任務(wù)學(xué)習(xí)token 的上下文語義信息,并利用下一句預(yù)測任務(wù)學(xué)習(xí)句子的順序特征信息。在掩碼語言模型任務(wù)中,會隨機選擇15%的位置信息進行遮掩,之后將80%的被遮掩位置信息用maskedtoken 取代,10%的被遮掩位置信息用隨機產(chǎn)生的詞語取代,余下被遮掩的位置信息保持原狀。

        Fig.2 Structure of BERT圖2 BERT 結(jié)構(gòu)

        雙向Transformer 是一個完全基于注意力機制的模塊,其編碼單元如圖3 所示。Transformer 由多個重疊的單元組成,每個單元又由兩部分組成,第一部分是自注意力機制(self-attention),第二部分是前饋神經(jīng)網(wǎng)絡(luò)(FeedForward-Network)。單元內(nèi)部的子層之間設(shè)計了殘差連接,如圖3中虛線所示,該連接可保證把上一層信息完整地傳到下一層。當(dāng)輸入部分進入Transformer 特征抽取器時,在第一個子層中首先經(jīng)過自注意力層,然后進行殘差處理與標(biāo)準(zhǔn)化;在第二個子層中把從自注意力層得到的輸出傳遞到前饋神經(jīng)網(wǎng)絡(luò)中,然后同樣進行殘差處理與歸一化。因為單一自注意力機制無法獲取更多子空間信息,而多頭注意力機制可獲取句子級別的語義信息。該機制采用多個自注意力機制進行并行計算,將多組輸出乘以隨機初始化的矩陣,最后通過線性變換輸出最終結(jié)果。

        Fig.3 Transformer coding unit structure圖3 Transformer 編碼單元結(jié)構(gòu)

        1.3 BiLSTM 模型

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種典型的深度學(xué)習(xí)模型,在理論上可處理序列數(shù)據(jù)并學(xué)習(xí)任意長度的上下文信息。但當(dāng)數(shù)據(jù)長度過長,會出現(xiàn)梯度消失問題,致使其無法繼續(xù)優(yōu)化。因此,RNN 是長度相關(guān)的。由于RNN 的這一缺陷,在文獻[17]中提出長短期記憶網(wǎng)絡(luò)模型,這是一種改進的RNN 模型。LSTM 網(wǎng)絡(luò)單元如圖4 所示。

        LSTM 單元內(nèi)部計算公式可定義如下:

        其中,

        σ

        是Sigmoid 函數(shù),

        f

        、

        i

        o

        分別代表遺忘門、輸入門與輸出門,

        W

        、

        W

        W

        W

        代表權(quán)重矩陣,

        b

        、

        b

        、

        b

        b

        代表誤差,

        h

        代表隱藏狀態(tài),

        x

        、

        h

        、

        C

        代表輸入,

        h

        、

        C

        代表輸出。最后,當(dāng)有n個LSTM 單元時,可獲得輸出向量(

        h

        ,

        h

        ,

        h

        ,…,

        h

        )。

        Fig.4 Structure of LSTM cell圖4 LSTM 單元架構(gòu)

        1.4 CRF 模型

        相鄰標(biāo)簽通常在標(biāo)簽任務(wù)中具有很強的依賴性??紤]到該問題,本文利用條件隨機場(CRF)共同解碼給定輸入句子的標(biāo)簽信息。CRF 是一種序列標(biāo)記模型,其在序列標(biāo)記任務(wù)中具有優(yōu)勢,因其考慮了標(biāo)記之間的順序與相關(guān)性。因此,在給定帶有句子

        X

        的預(yù)測序列

        y

        =(

        y

        ,

        y

        ,

        y

        ,…,

        y

        )情況下,本文使用CRF 模型獲得標(biāo)簽最佳序列。設(shè)

        A

        表示CRF 層中的過渡矩陣,其中

        A

        表示從標(biāo)簽

        y

        到標(biāo)簽

        y

        的過渡分?jǐn)?shù)。

        P

        是BiLSTM 的輸出得分矩陣,其中

        P

        代表屬于標(biāo)簽

        y

        的單詞

        i

        的置信度得分,將得分

        s

        (

        X

        ,

        y

        )定義為式(7)。

        顯然,

        s

        (

        X

        ,

        y

        )越高,預(yù)測越準(zhǔn)確。因此,可利用式(8)獲得最可靠的輸出。

        2 實驗結(jié)果與分析

        2.1 實驗數(shù)據(jù)

        中文位置信息沒有現(xiàn)成的數(shù)據(jù)集,本文從網(wǎng)上獲取到25 萬條關(guān)于武漢市的原始中文位置信息數(shù)據(jù)集,以及3 萬條關(guān)于孝感市的原始中文位置信息數(shù)據(jù)集。原始中文位置信息存在數(shù)據(jù)重復(fù)、缺失及結(jié)構(gòu)混亂等情況,故需要對數(shù)據(jù)進行預(yù)處理后再使用。剔除不規(guī)則的中文位置信息數(shù)據(jù)后,篩選得到用于本次實驗的20 萬條武漢市標(biāo)準(zhǔn)中文位置信息數(shù)據(jù)集和2 萬條孝感市標(biāo)準(zhǔn)中文位置信息數(shù)據(jù)集。數(shù)據(jù)集格式如表1 所示。

        Table 1 Standard Chinese location information format表1 標(biāo)準(zhǔn)中文位置信息格式

        將20 萬條武漢市標(biāo)準(zhǔn)中文位置信息數(shù)據(jù)集分別按照數(shù)量2 萬、6 萬和12 萬隨機分成A 組、B 組及C 組,并將全數(shù)據(jù)集設(shè)置為D 組,每組都按照7∶2∶1 的比例分為訓(xùn)練集、測試集與驗證集,每組數(shù)據(jù)集規(guī)模如表2 所示。將2 萬條孝感市標(biāo)準(zhǔn)中文位置信息數(shù)據(jù)集設(shè)置為E 組,只作為測試集使用。

        Table 2 Dataset size表2 數(shù)據(jù)集規(guī)模

        2.2 實驗環(huán)境

        本文實驗環(huán)境配置如下:操作系統(tǒng)為Ubuntu18.04,CPU型號為Intel Xeon E5-2665,GPU型號為GTX1080Ti;內(nèi)存為64G,顯存為11GB;Python 版本為3.7.0,Pytorch 版本為1.7.0。

        BERT 模型參數(shù)設(shè)置如下:版本為BERT-Base;網(wǎng)絡(luò)層數(shù)為12,隱藏層為768;多頭數(shù)量為12,總參數(shù)量為110M,序列最大長度為128;train_epochs 為20,train_batch_size 為16;學(xué)習(xí)率為5e-5,dropout 率為0.5;BiLSTM_size 為128。

        2.3 標(biāo)注與評價指標(biāo)

        目前,常用的序列標(biāo)注策略有很多,本文在中文位置語義解析實驗中選擇使用BMES 4 位序列標(biāo)注策略,其中B表示位置詞詞首,M 表示位置詞詞中,E 表示位置詞詞尾,S表示位置單字詞。例如位置信息“湖北省∕武漢市∕東西湖區(qū)∕東吳大道∕與∕新城十路∕交叉口”標(biāo)注后的結(jié)果為“湖∕B北∕M省∕E武∕B漢∕M市∕E東∕B西∕M湖∕M區(qū)∕E東∕B吳∕M大∕M道∕E與∕S新∕B城∕M十∕M路∕E交∕B叉∕M口∕E”。

        本文采用中文分詞任務(wù)中常用的準(zhǔn)確率(Precision,P)、召回率(Recall,R)與F1 值進行評價,具體為:

        其中,TP 指此模型正確劃分中文位置信息的詞數(shù),F(xiàn)P指此模型錯誤劃分中文位置信息的詞數(shù),F(xiàn)N 指模型實際未識別的實體數(shù)量。例如,中文位置信息“湖北省∕武漢市∕江夏區(qū)∕光谷一路∕武漢工程大學(xué)”經(jīng)過本實驗的中文位置分詞模型被劃分為“湖北省∕武漢市∕江夏區(qū)∕光谷一路∕武漢∕工程∕大學(xué)”,TP 為4,F(xiàn)N 為3,F(xiàn)N 為1,則P=0.57,R=0.8,F(xiàn)1=0.67。

        2.4 實驗結(jié)果與分析

        本文對比了兩個神經(jīng)網(wǎng)絡(luò)模型LSTM 和BiLSTM-CRF,以證明BERT-BiLSTM-CRF 模型在中文位置語義解析中可獲得更好效果。其中,LSTM 和BiLSTM-CRF 模型都是使用word2vec 模型進行預(yù)訓(xùn)練的。

        本文利用3 種網(wǎng)絡(luò)模型分別在A、B、C、D 4 組數(shù)據(jù)集上進行實驗,每組數(shù)據(jù)集進行實驗時,訓(xùn)練集、測試集都來自于同組數(shù)據(jù)集,3 種模型在A、B、C、D 組數(shù)據(jù)集上的實驗結(jié)果分別如表3-表6 所示。

        Table 3 Experiment result of three models in A group表3 3 種模型在A 組實驗結(jié)果 單位:%

        Table 4 Experiment result of three models in B group表4 3 種模型在B 組數(shù)據(jù)結(jié)果 單位:%

        Table 5 Experiment result of three models in C group表5 3 種模型在C 組數(shù)據(jù)結(jié)果 單位:%

        從3 種模型分別在4 組數(shù)據(jù)集上的分詞結(jié)果可以看出,3 種神經(jīng)網(wǎng)絡(luò)模型隨著中文位置信息訓(xùn)練集數(shù)量的不斷增加,位置分詞的準(zhǔn)確率P、召回率R 和F1 值也不斷增加。其中,BERT-BiLSTM-CRF 模型在不同數(shù)據(jù)集上得到的準(zhǔn)確率P、召回率R 和F1 值都是最高的。在表6 中,準(zhǔn)確率P 最高達到93.91%,F(xiàn)1 值最高達到93.96。即使在中文位置信息數(shù)據(jù)集較少的情況下,表3 中BERT-BiLSTMCRF 模型的分詞準(zhǔn)確率F1 值也超過了90%,達到90.33%。LSTM 模型的分詞效果相比其他兩種模型較差,主要因為LSTM 模型是隨著時間推移進行順序處理的,不能在未處理特征與已處理特征之間建立聯(lián)系。相較于BERT-BiLSTM-CRF 模型,BiLSTM-CRF 模型的預(yù)訓(xùn)練過程是靜態(tài)的,沒有考慮到位置信息詞的多層特性。引進BERT 預(yù)訓(xùn)練模型后,模型的準(zhǔn)確率P 與F1 值都顯著提高,說明BERT預(yù)訓(xùn)練模型訓(xùn)練得到的向量具有更多、更好的文本特征,能較好地表征位置信息詞的多義性。由此可見,本文提出的模型不僅能提高中文位置信息的解析準(zhǔn)確率,而且還能提高多義詞的解析準(zhǔn)確率。

        Table 6 Experiment result of three models in D group表6 3 種模型在D 組數(shù)據(jù)結(jié)果 單位:%

        因為D 組數(shù)據(jù)集和E 組數(shù)據(jù)集來源于不同城市,本文采用D 組數(shù)據(jù)集作為訓(xùn)練集與驗證集,采用E 組數(shù)據(jù)集作為泛化能力實驗中的測試集,分別在4 種模型上進行泛化能力實驗。實驗結(jié)果如表7 所示。

        Table 7 Generalization ability experiment result表7 泛化能力實驗結(jié)果 單位:%

        由表7 中不同模型的實驗結(jié)果可知,BERT-BiLSTMCRF 模型的準(zhǔn)確率P、召回率R 和F1 值明顯高于LSTM 模型與BiLSTM-CRF 模型。與表6 中的實驗結(jié)果進行對比,BERT-BiLSTM-CRF 模型在不同測試集上的準(zhǔn)確率、F1 值差距很小,僅在2%的范圍內(nèi),而BLSTM、BiLSTM-CRF 模型因為測試集的變化,在表7 中的準(zhǔn)確率、召回率和F1 值大幅下降。因此,在跨區(qū)域中文位置信息數(shù)據(jù)集上,BERT-BILSTM-CRF 模型具有較好的泛化能力。

        3 結(jié)語

        隨著地圖類軟件在人們生活中的應(yīng)用越來越廣泛,當(dāng)前常用于中文位置語義解析的神經(jīng)網(wǎng)絡(luò)模型存在多義詞解析效果差、泛化能力較差等問題。鑒于此,本文提出一種采用BERT-BiLSTM-CRF 模型的中文位置語義解析模型,首先使用BERT 模型對中文位置信息進行預(yù)訓(xùn)練,獲取中文位置信息所有層中的上下文信息,增強位置信息的表征能力,然后通過BiLSTM-CRF 模型進行解密,獲取全局最優(yōu)結(jié)果。實驗結(jié)果表明,該模型相比于LSTM 與BiLSTMCRF 神經(jīng)網(wǎng)絡(luò)模型,將其用于中文位置信息解析能取得更好的分詞效果及多義詞解析效果。而且在不同區(qū)域中文位置信息數(shù)據(jù)集作為測試集的情況下,該模型具有更好的泛化能力。

        根據(jù)中文位置信息的特點,后續(xù)可在序列標(biāo)注中融入更豐富的信息,并進一步增加模型提取位置的特征信息,以提升中文位置信息解析的效果與泛化能力。

        猜你喜歡
        分詞語義解析
        三角函數(shù)解析式中ω的幾種求法
        語言與語義
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        睡夢解析儀
        電競初解析
        商周刊(2017年12期)2017-06-22 12:02:01
        值得重視的分詞的特殊用法
        相機解析
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        高考分詞作狀語考點歸納與疑難解析
        无码人妻精品一区二区三区蜜桃| 性无码国产一区在线观看| 亚洲精品女同在线观看| 国产日本精品视频一区二区| 人人爽久久涩噜噜噜丁香| 国产精品女同一区二区| 亚洲精品白浆高清久久| 精品久久综合日本久久综合网| 国产精品国三级国产av| 中国年轻丰满女人毛茸茸| 亚洲又黄又大又爽毛片| 国产高清在线一区二区不卡| 天天躁日日躁狠狠躁欧美老妇| 国产男女猛烈无遮挡免费视频| 亚洲成人激情在线影院| 国产香蕉一区二区三区在线视频| 五月综合缴情婷婷六月| 亚洲AV无码成人精品区网页| 青青草精品在线免费观看| 日本熟妇人妻xxxx| 亚洲日韩精品欧美一区二区一| 日日噜噜夜夜狠狠2021| 漂亮人妻出轨中文字幕| 丰满少妇呻吟高潮经历| 一级二级中文字幕在线视频| 色视频日本一区二区三区 | 亚洲av之男人的天堂网站| 日本理论片一区二区三区| 水蜜桃视频在线观看入口| 人成午夜免费视频无码| 亚洲va欧美va国产综合| av亚洲在线一区二区| 日本一二三区在线观看视频| 亚洲av无码潮喷在线观看| 国产精品日本天堂| 久草视频这里只有精品| 国产农村乱辈无码| 亚洲熟妇AV一区二区三区宅男 | 国产传媒在线视频| 国产精品一区二区偷拍| 高清不卡一区二区三区|