亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        地理信息服務(wù)領(lǐng)域的實體自動化識別

        2022-01-25 05:53:48獨凌子肖桂榮
        關(guān)鍵詞:語料實體卷積

        獨凌子,肖桂榮

        (福州大學(xué)空間數(shù)據(jù)挖掘與信息共享教育部重點實驗室,福州大學(xué)數(shù)字中國研究院,福建 福州 350108)

        命名實體識別作為自然語言處理的主要研究內(nèi)容之一,也是GIServices領(lǐng)域知識圖譜、知識推理研究的核心問題;其任務(wù)是找出一套有效的識別算法,抽出文本中的關(guān)鍵實體,并將其應(yīng)用于關(guān)系抽取、知識圖譜構(gòu)建中[1].早期主流命名實體識別方法包括基于規(guī)則的方法和基于統(tǒng)計的方法,基于規(guī)則的方法需要人工建立知識規(guī)則,這類技術(shù)成本高,泛化能力差;基于統(tǒng)計的方法,如最大熵[2]、隱馬爾可夫[3]、條件隨機(jī)場[4],需要復(fù)雜的特征設(shè)計,投入成本大.近年來,基于神經(jīng)網(wǎng)絡(luò)的命名實體識別方法取得了重大進(jìn)展,其主要思路是利用卷積神經(jīng)網(wǎng)絡(luò)[5],循環(huán)神經(jīng)網(wǎng)絡(luò)[6-7]學(xué)習(xí)文本的上下文信息,將命名實體識別轉(zhuǎn)換為序列標(biāo)注問題,再利用CRF約束,增強(qiáng)實體上下文依賴性,提高了實體識別準(zhǔn)確率,這類模型具有較強(qiáng)的泛化能力和魯棒性.為提高字詞向量表示能力,傳統(tǒng)深度學(xué)習(xí)模型在詞嵌入層加入靜態(tài)語言模型,如word2vec[a][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018、glove[8],然而這些單層神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的詞向量與上下文無關(guān),只能表示單一的字符語義,面對一詞多義的現(xiàn)象則力不從心,為解決此問題,陸續(xù)出現(xiàn)了Elmo[b][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018、GPT[9]、BERT[c][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018等動態(tài)語言模型.BERT模型使用Transformer編碼器與自注意力機(jī)制(Self-Attention)真正實現(xiàn)雙向捕獲語義信息,能夠更好地結(jié)合文本上下文語義,在醫(yī)療[10]、科技[11-12]、警務(wù)[13]等領(lǐng)域都有不錯的表現(xiàn).目前有關(guān)地理信息服務(wù)的命名實體識別[14-15]只針對于通用的地名、機(jī)構(gòu)名、人名識別.大量的地理信息服務(wù)領(lǐng)域知識廣泛存在于學(xué)術(shù)文獻(xiàn)中,這些知識包含大量專業(yè)術(shù)語,存在實體嵌套,中文、英文、數(shù)字混合現(xiàn)象,已有的分詞工具無法識別此類實體,同時地理信息服務(wù)領(lǐng)域缺乏必要的訓(xùn)練語料,加大了地理信息服務(wù)實體識別難度.

        針對以上地理信息服務(wù)領(lǐng)域?qū)嶓w識別問題,本文通過構(gòu)建地理信息服務(wù)語料庫,提出了BERT-CNNBiLSTM-CRF模型來提升地理信息服務(wù)領(lǐng)域?qū)嶓w識別效果,該模型以傳統(tǒng)深度模型BiLSTM-CRF為基礎(chǔ),在模型詞嵌入層引入BERT預(yù)訓(xùn)練語言模型,用于字向量訓(xùn)練,以便提升文本語義表示能力,在BiLSTMCRF之前加入CNN層能夠更好地訓(xùn)練提取文本局部特征.

        1 語料數(shù)據(jù)集構(gòu)建

        1.1 文獻(xiàn)實體分類本文以CNKI中國知網(wǎng)文獻(xiàn)數(shù)據(jù)庫中2010—2020年之間以“地理信息服務(wù)”為主題的文獻(xiàn)作為實驗數(shù)據(jù),通過分析已獲取文獻(xiàn)結(jié)構(gòu),以地理信息服務(wù)構(gòu)建過程為主線,結(jié)合崔鐵軍在《地理信息服務(wù)導(dǎo)論》[16]中對地理信息服務(wù)研究內(nèi)容的劃分構(gòu)建適用于本文研究數(shù)據(jù)的知識體系.盡可能涵蓋地理信息服務(wù)文獻(xiàn)研究內(nèi)容中的重要知識點,研究認(rèn)為這些文獻(xiàn)主題以地理信息服務(wù)應(yīng)用研究與技術(shù)研究為主,圍繞如何構(gòu)建與空間位置相關(guān)的地理信息服務(wù)展開,依照地理信息服務(wù)構(gòu)建流程劃分知識體系更能涵蓋本文數(shù)據(jù)重要信息,該分類體系遵循文獻(xiàn)思路結(jié)構(gòu),保留崔鐵軍等人對技術(shù)體系、服務(wù)類型以及應(yīng)用領(lǐng)域的劃分方式,在此基礎(chǔ)上擴(kuò)展出文獻(xiàn)研究背景、研究數(shù)據(jù)、服務(wù)標(biāo)準(zhǔn)規(guī)范等重要信息,同時地理信息服務(wù)文獻(xiàn)中大量出現(xiàn)基礎(chǔ)設(shè)施、服務(wù)功能相關(guān)詞匯,因此將其作為大類納入分類體系.參考《GB/T 25529—2010地理信息分類與編碼規(guī)則》分類原則按照線分類法,將地理信息服務(wù)文獻(xiàn)實體劃分為九個大類要素:服務(wù)、數(shù)據(jù)、基礎(chǔ)設(shè)施、服務(wù)類型、服務(wù)功能、政策法規(guī)、技術(shù)、行業(yè)標(biāo)準(zhǔn)、應(yīng)用領(lǐng)域.圖1為本文對地理信息服務(wù)文獻(xiàn)研究的知識體系劃分示意圖.

        圖1 本文地理信息服務(wù)知識體系

        數(shù)據(jù):地理信息數(shù)據(jù)是地理信息服務(wù)面向用戶最終呈現(xiàn)的內(nèi)容或提供的產(chǎn)品,地理信息服務(wù)的構(gòu)建的數(shù)據(jù)基礎(chǔ).本文參考《GBT13923—2006基礎(chǔ)地理信息要素分類與代碼》將這些地理數(shù)據(jù)概括為水系、居民地及設(shè)施、交通、管線、境界與政區(qū)、地貌、植被與土質(zhì)、地名與空間定位基礎(chǔ)八種數(shù)據(jù)類型.

        地理信息服務(wù)類型:分類為地圖服務(wù)、位置服務(wù)、功能服務(wù),地圖服務(wù)即為用戶提供包含基礎(chǔ)地理要素的可視化電子地圖.位置服務(wù)主要以衛(wèi)星定位獲取位置信息,功能服務(wù)包括數(shù)據(jù)分析、空間分析、路徑規(guī)劃等服務(wù)功能.

        技術(shù)體系:為地理信息服務(wù)構(gòu)建的方法基礎(chǔ),地理信息服務(wù)為多學(xué)科交叉領(lǐng)域,實現(xiàn)技術(shù)主要以計算機(jī)技術(shù)、地理信息技術(shù)為主.計算機(jī)技術(shù)用以實現(xiàn)服務(wù)框架構(gòu)建,地理信息技術(shù)用以獲取數(shù)據(jù)、數(shù)據(jù)處理、分析以及數(shù)據(jù)可視化.

        服務(wù)功能:多以系統(tǒng)或API形式為用戶提供地理信息系統(tǒng)功能,如地圖瀏覽標(biāo)注、空間位置查詢、空間分析、數(shù)據(jù)交換、二次開發(fā)等等.

        政策背景:地理信息服務(wù)研究驅(qū)動力多以國家政策主導(dǎo),同時地理數(shù)據(jù)的嚴(yán)密性與保密性都需要明確的國家政策作為規(guī)范約束.

        基礎(chǔ)設(shè)施:是地理信息服務(wù)構(gòu)建的硬件基礎(chǔ),包括構(gòu)建服務(wù)所需的計算機(jī)硬件環(huán)境以及獲取數(shù)據(jù)以及數(shù)據(jù)可視化的設(shè)備(如衛(wèi)星、車載導(dǎo)航儀、各類無人機(jī)、手機(jī)).

        應(yīng)用領(lǐng)域:地理信息服務(wù)應(yīng)用領(lǐng)域包括政府企業(yè)、公眾生活的方方面面,涉及空間活動的行業(yè)皆能成為其服務(wù)對象,主要涉及交通、礦產(chǎn)、生態(tài)環(huán)境、旅游、物流、城市規(guī)劃等行業(yè).

        服務(wù)標(biāo)準(zhǔn):是地理信息服務(wù)構(gòu)建必須遵循的標(biāo)準(zhǔn),遵循統(tǒng)一的服務(wù)標(biāo)準(zhǔn)能夠解決數(shù)據(jù)交換、信息孤島問題.具體涉及數(shù)據(jù)規(guī)范、服務(wù)規(guī)范、開發(fā)技術(shù)規(guī)范,數(shù)據(jù)規(guī)范規(guī)定地理信息的分類編碼、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)處理與維護(hù)更新流程;服務(wù)規(guī)范如OGC服務(wù)接口規(guī)范、服務(wù)分類規(guī)范、服務(wù)元數(shù)據(jù)內(nèi)容、服務(wù)質(zhì)量管理等方面;開發(fā)技術(shù)規(guī)范包括系統(tǒng)或接口的數(shù)據(jù)交換、界面美觀性、安全性等方面的技術(shù)規(guī)范.

        地理信息服務(wù):圍繞上述八類實體構(gòu)成了地理信息服務(wù)研究內(nèi)容完整體系,實際上地理信息服務(wù)還包括許多元數(shù)據(jù)信息,如服務(wù)url、目的描述、發(fā)布單位、發(fā)布時間等,但由于本文研究數(shù)據(jù)為GIServices文獻(xiàn)文本,并不涉及上述信息,因此不列入研究之列.

        由于文獻(xiàn)研究僅以理論構(gòu)建進(jìn)行討論,未涉及具體實現(xiàn),本文僅針對其理論上的技術(shù)類的名詞進(jìn)行提取,而未涉及具體技術(shù)實現(xiàn)內(nèi)容,如矢量數(shù)據(jù)存儲的具體屬性.

        1.2 語料庫構(gòu)建利用格式轉(zhuǎn)換工具將文獻(xiàn)格式統(tǒng)一由CAJ格式轉(zhuǎn)為TXT格式,編碼統(tǒng)一設(shè)為UTF-8.去除原始數(shù)據(jù)中多余空行、空格識別錯誤的標(biāo)點字詞.按照1-294序號依次命名文本,形成源數(shù)據(jù)文件source_data.采用BIO三段標(biāo)記法,對每個實體的第一個字標(biāo)記為“B-(實體類別)”,之后統(tǒng)一標(biāo)注為“I-(實體類別)”,其余未出現(xiàn)在字典的實體均標(biāo)注為O.依照表1設(shè)計的標(biāo)注規(guī)范標(biāo)注數(shù)據(jù)得到標(biāo)注后的文本,將其按照6:2:2的比例劃分為訓(xùn)練集、驗證集、測試集.由于文獻(xiàn)大多以CAJ、PDF格式文件存儲,經(jīng)過格式轉(zhuǎn)換之后存在內(nèi)容缺失,導(dǎo)致句子邊界模糊,造成少量單條語料長度過大,部分單個詞匯之后也存在句號,因此以句號作為句子分割標(biāo)準(zhǔn)做法不妥,若以固定長度切割會導(dǎo)致一個實體可能被分為兩個部分,采用滑動窗口切割句子,設(shè)置固定長度的窗口值WINDOW_SIZE=75,窗口大小采用句子長度的平均值,左右各延伸10個字符寬度作為填充,可以保證每條句子長度相等,且每條語料留有一定的上下文內(nèi)容.經(jīng)過語料切分,得到訓(xùn)練語料8 758條,驗證語料2 109條,測試語料2 541條.

        表1 地理信息服務(wù)領(lǐng)域?qū)嶓w類型

        2 實體識別方法

        2.1 融合BERT模型的實體識別方法本文模型在BiLSTM-CRF模型基礎(chǔ)上進(jìn)行改進(jìn),詞嵌入層采用能夠動態(tài)表示文本語義特征的BERT模型,相對于以往采用Word2vec、GLOVE等靜態(tài)模型的方法,該方法能夠表示更豐富的語義信息,解決句子多義性問題;為了降低句子語義稀疏性對模型識別的干擾,在BERT模型之后加入一維卷積層,提取句子特征.模型分為四層,第一層加入BERT預(yù)訓(xùn)練詞向量模型,提高字向量語義表征能力,第二層卷積層,用于提取文本字符級特征,第三層Bi LSTM模型,能夠?qū)W習(xí)長文本上下文信息,有效解決傳統(tǒng)RNN模型梯度爆炸或者梯度消失的問題,之后采用CRF層計算實體所屬類別概率,輸出分類結(jié)果.模型結(jié)構(gòu)如圖2所示.

        圖2 BERT-1DCNN-BiLSTM-CRF模型

        2.2 BERT語言模型中文存在字與詞的區(qū)分,中文文本表示方法主要有三種,分別是基于字的向量表示、基于詞的向量表示以及字詞拼接的表示方法,結(jié)合以下因素,本文最終采用基于字向量的方法:(1)本文模型應(yīng)用對象為科學(xué)文獻(xiàn),這類文本專業(yè)術(shù)語較多,多為嵌套實體,通用領(lǐng)域的分詞結(jié)果并不適用于該領(lǐng)域同時基于詞級別方法會對后續(xù)模型訓(xùn)練產(chǎn)生干擾;(2)文獻(xiàn)[17-18]通過字級別和詞級別統(tǒng)計方法對比,表明基于字符的命名實體識別方法一般具有更好的表現(xiàn).

        現(xiàn)有可利用的地理信息服務(wù)文獻(xiàn)語料較少,難以通過現(xiàn)有數(shù)據(jù)訓(xùn)練出具有豐富語義的字向量,而字向量訓(xùn)練很大程度影響模型性能,因此在向量表示中引入預(yù)訓(xùn)練字向量.預(yù)訓(xùn)練字向量已在許多任務(wù)中表現(xiàn)出色[19-20],如詞袋模型(Continuous Bag-of-Words Model,CBOW)、Skip-gram(Continuous Skip-gram Model,Skip-gram),但在地理信息服務(wù)文獻(xiàn)中一詞多義現(xiàn)象廣泛存在,單一的字嵌入(Token Embedding)無法解決一詞多義問題,同時靜態(tài)語言模型采用從左到右單向的編碼方式,無法獲取更多上下文信息.動態(tài)語言模型的出現(xiàn)解決了中文多義性問題,實現(xiàn)真正意義的深度雙向編碼.基于以上分析本層采用BERT模型解決一字多義問題,豐富句子語義信息.

        該層首先在語料中增加具有特殊作用的標(biāo)識符:在句子首位加入[CLS]標(biāo)志,在兩個句子之間加入[SEP]用于分隔兩個句子,[MASK]標(biāo)志遮蓋句子中部分字符.以one-hot方式編碼處理后的語料序列[w1,w2,w3,…,w n]得到高維、稀疏的字向量矩陣(Token Embedding)[e1,e2,e3,…,e n],每個字符的位置向量(Position Embedding)[p1,p2,p3,…,p n]及句子向量(Segment Embedding)[s1,s2,s3,…,s n];將每個字符對應(yīng)的三個Embedding疊加,形成BERT模型的輸入向量[E1,E2,E3,…,E n].結(jié)構(gòu)如圖3所示.

        以往的標(biāo)準(zhǔn)語言模型均為從左到右的單向模型或者雙向淺層拼接模型,只能獲取文本單向信息,為訓(xùn)練深度雙向語言模型,BERT模型采用MLM的方法隨機(jī)遮蔽輸入的字符(以下稱token),預(yù)測被遮蔽的token,默認(rèn)遮蔽15%的字符.

        其中80%被遮擋詞用符號masked token代替,10%用隨機(jī)詞替換,剩余10%保持不變.BERT模型結(jié)構(gòu)如圖3所示,其中,E1,E2,…,E N表示模型輸入向量,T1,T2,T3,…,TN為模型輸出向量,Tr m代表模型采用雙向Transformer作為編碼器,BERT模型結(jié)構(gòu)如圖4所示.

        圖3 BERT預(yù)訓(xùn)練語言模型詞向量構(gòu)成

        圖4 BERT模型

        2.3 字間特征卷積模型Kim Y[d][d]Kim Y.Convolutional neural networks for sentence classification[J].arxiv preprint arXiv:1408.5882,2014.于2014年提出TextCNN概念,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類中.其結(jié)構(gòu)包括:向量表示層、卷積層、池化層、全連接層.不同于文本分類任務(wù),常規(guī)的CNN模型直接應(yīng)用于命名實體任務(wù)會導(dǎo)致特征損失,同時池化操作會造成大量信息丟失[21],因此在考慮字向量維度的完整性同時將卷積層實現(xiàn)局部特征提取的優(yōu)勢應(yīng)用于向量輸入與BiLSTM-CRF模型之間,本層接收BERT模型訓(xùn)練后的字向量[T1,T2,T3,…,T n]作為輸入向量,通過固定窗口的一維卷積層與填充設(shè)置,在不改變字向量維度前提下將字向量特征與上下文信息深度結(jié)合,更好地結(jié)合句子語境.經(jīng)過卷積計算獲得特征向量[C1,C2,C3,…,C n],結(jié)構(gòu)圖5所示:

        圖5 字間卷積模型

        2.4 BiLSTM-CRF模型該模型接收經(jīng)過卷積層計算后的字向量[C1,C2,C3,…,C n],將字向量[C1,C2,C3,…,C n]輸入到BiLSTM完成上下文信息提取,最后結(jié)合條件隨機(jī)場(Conditional Random Field,CRF)完成實體標(biāo)注.

        分析地理信息服務(wù)文獻(xiàn)實體發(fā)現(xiàn),其命名實體長度較長,即使同一實體在不同語境表示意義也不同;實體對上下文依賴性強(qiáng),而長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)能夠在當(dāng)前時刻保留上一時刻信息,同時解決了循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失或梯度爆炸的問題,使模型能夠獲取更遠(yuǎn)距離的信息.

        命名實體識別方法通常以歸一化方法處理BiLSTM輸出層計算每個時刻所屬概率最高的類別.這類方法將標(biāo)簽看作相互獨立個體,不考慮標(biāo)簽之間依賴性,導(dǎo)致解碼出現(xiàn)非法標(biāo)簽如實體頭尾顛倒的識別結(jié)果.CRF模型為預(yù)測標(biāo)簽添加約束以保證預(yù)測標(biāo)簽的合法性.通過公式(1)計算出BiLSTM層輸出Y=[y1,y2,…,y n]的標(biāo)記序列T=[t1,t2,…,t n]的得分[18].

        其中A為轉(zhuǎn)換矩陣,Pi,yi表示該字符第yi個標(biāo)簽得分.

        利用公式(2)中Softmax函數(shù)得到歸一化后的概率分布,選取最大概率集合.得到CRF層最終標(biāo)注序列.

        3 實驗與結(jié)果

        3.1 實驗參數(shù)設(shè)置基于BERT-1DCNN-BiLSTM-CRF的實驗,BERT層采用BERT-Base Mutilingual Cased,是BERT模型中多語言版本,層數(shù)12,768個隱藏層,自注意機(jī)制采用12頭,110M參數(shù).CNN層卷積核大小為3×3,輸出張量大小為32,激活函數(shù)采用relu函數(shù);LSTM層隱藏單元設(shè)為128,優(yōu)化器采用Adam.雙向LSTM輸出神經(jīng)元數(shù)128;全連接層,輸出神經(jīng)元數(shù)64,激活函數(shù)采用tanh;CRF層輸出向量大小為20,即分為20類,每類為20×1的one-hot向量.

        經(jīng)過調(diào)整超參數(shù),模型在迭代次數(shù)達(dá)到100,訓(xùn)練批次大小為64,學(xué)習(xí)率為0.000 5,丟棄率0.4能達(dá)到最好效果.

        3.2 結(jié)果分析實驗采用通用評估指標(biāo)系統(tǒng)來評價本文模型的識別效果,此評估體系包括精確度、召回率、F1值.精確度(Precision)用于衡量所有樣本中預(yù)測正確的樣本正確率、召回率(Recall)用于衡量實際為正樣本中被正確預(yù)測的樣本概率、F1值則綜合精確度和召回率兩項指標(biāo),F(xiàn)1值越大模型識別效果越好,具體指標(biāo)計算公式如下所示:

        其中,TP表示識別正確的實體個數(shù),F(xiàn)P表示識別錯誤的實體個數(shù),F(xiàn)N表示沒有被識別出的實體個數(shù).

        實驗1

        目的:研究BERT模型對地理信息服務(wù)文獻(xiàn)實體識別的影響,分別進(jìn)行三組對比實驗,實驗在CNN-BiSLTM-CRF模型詞嵌入層分別采用隨機(jī)初始化字向量的方法、Word2Vec、BERT,為控制參數(shù)對實驗的影響,每組實驗超參數(shù)設(shè)置相同.從表2看出BERT語言模型的表現(xiàn)效果最好,對比Word2vecF1值提升3.3%,對比隨機(jī)初始化向量(BareEmbedding),F(xiàn)1值提升了8.1%,說明BERT模型對文本的語義表征能力更強(qiáng).

        表2 不同嵌入層實體識別結(jié)果

        為了更好地分析詞嵌入層對模型的影響,表3列出九類實體的識別結(jié)果.其中BERT模型明顯提高了服務(wù)名稱的識別效果,說明加入預(yù)訓(xùn)練語言模型可以大大提高模型長實體類型識別準(zhǔn)確率.在標(biāo)準(zhǔn)識別上BERT模型F1值相比Bare提高了7.4%,由于預(yù)訓(xùn)練的Word2vec模型完全采用維基百科中文語料訓(xùn)練,因此Word2Vec模型無法有效表示英文類實體.

        表3 不同詞嵌入層各類實體識別結(jié)果

        實驗2

        目的:研究CNN層的加入對模型識別效果的影響.在加入BERT模型的基礎(chǔ)上對CNN-BiLSTM-CRF、BiLSTM-CRF模型進(jìn)行對比實驗,從表4可以看出在加入CNN層之后模型效果明顯提高,精確度相比BiLSTM-CRF模型提高了1.7%,召回率提高4.74%,F(xiàn)1值提高3.39%,說明CNN能夠有效捕捉字符形態(tài)特征.

        表4 加入CNN前后模型實驗結(jié)果

        實驗3

        目的:對比本文方法與傳統(tǒng)命名實體識別方法的識別效果.選取CNN-LSTM與BiGRU-CRF模型作為對比模型.CNN-LSTM與BiGRU-CRF模型采用隨機(jī)初始化字向量的方法.從表5的結(jié)果來看,本文所用方法效果最好.而CNN-LSTM的表現(xiàn)欠佳,其F1僅有0.432 4,由于雙向LSTM單元可以學(xué)習(xí)到文本上下文信息,而單向LSTM單元只依賴于當(dāng)前時刻前向的文本信息,因此雙向LSTM單元在長文本識別中的表現(xiàn)相較于LSTM更好.

        表5 不同模型實驗結(jié)果

        以上三組實驗表明BERT模型的加入可以有效提高文本語義表征能力,CNN模型能夠獲取文本局部特征,基于BiLSTM-CRF改進(jìn)后的方法能夠有效提高BiLSTM-CRF實體識別精度,對比傳統(tǒng)深度學(xué)習(xí)模型,本文構(gòu)建的模型能夠有效提高實體識別能力,模型總體識別精確率達(dá)到0.80以上,具有較好的魯棒性.

        4 結(jié)語

        本文針對GIServices文獻(xiàn)實體種類多樣,表述方式多樣,存在嵌套實體、中英文混合等難點,提出一種面向地理信息服務(wù)領(lǐng)域的實體識別方法,該方法解決了地理信息服務(wù)領(lǐng)域?qū)嶓w識別語義稀疏、實體復(fù)雜等問題,提升了中文長實體識別精度,實現(xiàn)了地理信息服務(wù)文獻(xiàn)自動化實體識別.通過選取隨機(jī)初始化向量的方法BareEmbedding、Word2VecEmbedding作為對照組,測試BERT語言模型對傳統(tǒng)深度學(xué)習(xí)模型識別效果的影響.實驗結(jié)果表明:引入BERT模型能夠充分發(fā)揮BERT模型在語義特征表示上的優(yōu)勢,顯著提升了實體識別的準(zhǔn)確率;通過在BiLSTM-CRF模型加入CNN層,有效提高了字符特征的捕捉能力和識別能力;本文構(gòu)建的BERT-1DCNN-BiLSTM-CRF模型識別效果最優(yōu),F(xiàn)1值達(dá)到0.824,能夠較好地實現(xiàn)GIServices領(lǐng)域?qū)嶓w識別.下一步工作將此模型標(biāo)注后的實體應(yīng)用到實體關(guān)系抽取,為構(gòu)建GIServices領(lǐng)域知識圖譜提供有效方法.

        猜你喜歡
        語料實體卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        日韩精品乱码中文字幕| 开心五月激情五月天天五月五月天| 精品福利视频一区二区三区| 天天综合网网欲色| 国产av精品久久一区二区| 91国际视频| 97高清国语自产拍| 美女免费视频观看网址| 国产成人精品视频网站| 亚洲aⅴ无码成人网站国产app| 国产精品久久久久久人妻无| 亚洲中文字幕高清在线视频一区| 最新国产精品亚洲二区| 免费a级毛片永久免费| 天天综合网网欲色| 免费在线不卡黄色大片| 人妻少妇精品无码专区app| 成人亚洲性情网站www在线观看| 亚洲色欲久久久综合网东京热| 国产不卡在线播放一区二区三区| 亚洲色欲色欲大片WWW无码| 久久久久麻豆v国产精华液好用吗 欧美性猛交xxxx乱大交丰满 | 亚洲国产免费一区二区| 国产精品国产三级在线高清观看| 在线永久免费观看黄网站| 樱桃视频影院在线播放| 亚洲高清中文字幕视频| 手机在线中文字幕av| 天天射色综合| 国产成人国产在线观看入口| 夜夜添夜夜添夜夜摸夜夜摸 | 青青久在线视频免费视频| 国产小车还是日产的好| 最新无码国产在线播放| 在教室伦流澡到高潮hgl视频| 亚洲欧美日韩精品久久| 中出人妻希奇杰卡西av| av资源在线免费观看| 成人免费视频自偷自拍| 久久精品国产亚洲不av麻豆| 欧美午夜精品一区二区三区电影|