亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        地名實體識別研究與展望

        2023-11-20 11:00:58王文濤奚雪峰崔志明
        計算機(jī)工程與應(yīng)用 2023年21期
        關(guān)鍵詞:詞典實體文本

        王文濤,奚雪峰,3,崔志明,3,徐 川

        1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000

        2.蘇州市虛擬現(xiàn)實智能交互及應(yīng)用技術(shù)重點實驗室,江蘇 蘇州 215000

        3.蘇州智慧城市研究院,江蘇 蘇州 215000

        4.昆山市社會治理現(xiàn)代化綜合指揮中心,江蘇 昆山 215300

        地名實體識別(toponym entity recognition,TER)從自然語言中提取地名,是泛在地理信息應(yīng)用的一項基本任務(wù)。地名識別作為上游任務(wù),首先將存在于文本中的地名實體進(jìn)行識別,再將非標(biāo)準(zhǔn)的地名實體進(jìn)行標(biāo)準(zhǔn)地名匹配,匹配的結(jié)果一般為POI精確坐標(biāo)或者是公安系統(tǒng)的地址ID 編碼,從而將數(shù)據(jù)與現(xiàn)實世界的地名信息進(jìn)行關(guān)聯(lián)。

        地名識別(提取)過程是命名實體識別(named entity recognition,NER)的一個子集,其目的是識別文本中的位置名稱邊界,因為NER 是指識別出文本中具有特定意義的命名實體并將其分類為預(yù)先定義的實體類型,如人名、地名、機(jī)構(gòu)名、時間、貨幣等,不同的是,TER 識別的是細(xì)粒度的地名。現(xiàn)如今,地名識別應(yīng)用于許多領(lǐng)域,其中,較多的是用于地理信息和社交媒體事件中的地名識別。

        本文從數(shù)據(jù)集、訓(xùn)練資源、評價指標(biāo)和研究方法這4個角度來闡述地名實體識別研究。首先從基于規(guī)則和詞典、基于統(tǒng)計機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)和混合方法這4方面對目前地名是實體識別研究工作進(jìn)行系統(tǒng)性梳理,歸納總結(jié)了每一種TER方法的關(guān)鍵思路、優(yōu)缺點和具有代表性的模型。

        1 地名實體識別數(shù)據(jù)集及評價標(biāo)準(zhǔn)

        1.1 地名實體識別概述

        在過去的十年里,大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能的出現(xiàn)促進(jìn)了社交媒體數(shù)據(jù)和空間信息數(shù)據(jù)的發(fā)展。社交媒體數(shù)據(jù)、空間地理信息等其他相關(guān)領(lǐng)域數(shù)據(jù)都可以被認(rèn)為是無處不在的地名實體信息。這為研究人員充分利用這些信息提供了新的機(jī)會,從而對理解整個現(xiàn)實世界非常重要?,F(xiàn)實世界中的基礎(chǔ)應(yīng)用是由“數(shù)據(jù)”構(gòu)成的,因為在使用社交媒體技術(shù)的過程中會產(chǎn)生大量數(shù)據(jù),然而,大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)的,并且這些非結(jié)構(gòu)數(shù)據(jù)基本都是以自由隨意的形式存在于文本文檔中,包括各種報告、科學(xué)論文文章、博客網(wǎng)頁信息和社交媒體帖子。

        地名識別在諸多領(lǐng)域都有許多應(yīng)用。在本節(jié)中,總結(jié)了以往文獻(xiàn)中討論最多的4 個典型的地名識別應(yīng)用領(lǐng)域——地理信息檢索、災(zāi)難信息管理、醫(yī)學(xué)疾病監(jiān)測和交通管理。下面將對這些領(lǐng)域一一說明。

        (1)地理信息檢索

        地名的主要應(yīng)用之一是地理信息檢索。大量信息系統(tǒng)研究人員希望對文檔進(jìn)行地理層面的訪問,從而檢索特定地理位置的相關(guān)內(nèi)容。該領(lǐng)域的具體應(yīng)用流程大致為,首先采用地名實體識別技術(shù)對包含地理信息的文本數(shù)據(jù)進(jìn)行處理,將文本中的地名實體標(biāo)注出來,并提取地名的相關(guān)屬性信息,如地理坐標(biāo)、行政區(qū)劃、地理特征等。接著,將標(biāo)注出的地名實體進(jìn)行地理編碼,將地名轉(zhuǎn)換成地理位置坐標(biāo)。最后,利用地理位置信息,結(jié)合用戶查詢條件,進(jìn)行地理信息檢索,找到符合用戶查詢條件的相關(guān)信息,如地圖、圖像、文本、視頻等。比如,數(shù)字圖書館中的資源可以根據(jù)與資源相關(guān)的描述性元數(shù)據(jù)記錄中包含的位置進(jìn)行索引,從而改善用戶搜索所需資源的體驗。

        (2)災(zāi)難信息管理

        在日常的新聞報道中包含大量的實時災(zāi)難信息,基于地名識別的災(zāi)難信息管理會對描述災(zāi)難場景方面非常有幫助。例如在災(zāi)難發(fā)生后,救援請求、資源需求(如食物、衣服、水、醫(yī)療和住所)[1]以及基礎(chǔ)設(shè)施狀態(tài)(如建筑物倒塌、道路封閉、管道破裂和停電[2~4])等受災(zāi)信息,對于救援人員和被困人員至關(guān)重要。如果有了受災(zāi)人員的地點信息,那么應(yīng)急人員可以跟蹤事態(tài)發(fā)展,識別需要優(yōu)先干預(yù)的受災(zāi)地點,實現(xiàn)資源實時優(yōu)化配置,政府機(jī)構(gòu)可以更快地對災(zāi)害進(jìn)行損失評估,受災(zāi)群眾也可以搜索到可以獲得所需資源的地點。所以,在對災(zāi)難信息文本數(shù)據(jù)進(jìn)行精準(zhǔn)的地名識別體現(xiàn)的尤為重要。地名識別技術(shù)在災(zāi)難信息文本中的應(yīng)用也是通過將災(zāi)難文本中的地名進(jìn)行標(biāo)注并提取地名的相關(guān)屬性信息,將識別的地名信息進(jìn)行地名匹配,從而得到具體的受災(zāi)地點信息。

        (3)醫(yī)學(xué)疾病監(jiān)測

        在醫(yī)學(xué)領(lǐng)域的科學(xué)文章、歷史檔案、新聞報道和社交媒體中,包含了大量疾病事件的詳細(xì)信息,如疾病首次報告的地點和疾病是如何進(jìn)行時空傳播的。從這些文本數(shù)據(jù)中挖掘疾病事件的地理位置和其他相關(guān)信息可以幫助跟蹤疾病,從而進(jìn)行早期預(yù)警和快速反應(yīng),并了解疾病發(fā)生的機(jī)制。比如,Tateosian 等人[5]為了了解19世紀(jì)美國和歐洲馬鈴薯病“晚疫病”的地理起源和傳播方式,使用CLA VIN 19 對兩篇歷史文獻(xiàn)進(jìn)行了梳理。CLA VIN 是一個開源的地名信息提取模塊,它利用Apache OpenNLP進(jìn)行地名提取。

        (4)交通管理

        獲取精確位置和其他相關(guān)信息對于有效的交通管理系統(tǒng)是非常重要的。在交通管理領(lǐng)域中,地名實體識別技術(shù)可以應(yīng)用于以下幾個方面:

        ①交通路線規(guī)劃:利用地名實體識別技術(shù)對地址文本數(shù)據(jù)進(jìn)行處理,識別出起點、終點以及途經(jīng)的地點,并根據(jù)地點之間的距離、交通方式等信息進(jìn)行路線規(guī)劃。

        ②實時交通狀況監(jiān)測:通過地名實體識別技術(shù)對社交媒體等數(shù)據(jù)進(jìn)行處理,識別出與交通相關(guān)的地點信息,如交通擁堵的路段、事故發(fā)生地點等,并根據(jù)這些信息進(jìn)行實時監(jiān)測和分析,提供交通狀況報告。

        ③交通事件發(fā)現(xiàn):利用地名實體識別技術(shù)對新聞報道等數(shù)據(jù)進(jìn)行處理,識別出與交通相關(guān)的事件信息,如道路施工、交通事故等,并根據(jù)這些信息進(jìn)行分析和挖掘,提供相關(guān)的預(yù)警和管理建議。

        ④地名標(biāo)準(zhǔn)化:在地址數(shù)據(jù)管理中,地名實體識別技術(shù)可以識別出重復(fù)地址、錯別字等問題,并進(jìn)行標(biāo)準(zhǔn)化處理,提高地址數(shù)據(jù)的準(zhǔn)確性和可靠性。

        從整體上看,所有這些領(lǐng)域相關(guān)的信息都可以被認(rèn)為是無處不在的地名信息,這為研究人員提供了充分的利用這些數(shù)據(jù)的機(jī)會。關(guān)于地名位置地址數(shù)據(jù)的描述,它從相關(guān)文本中識別地名并將它們與一組具體的地理位置數(shù)據(jù)關(guān)聯(lián)起來,在自動理解各種自然語言文本的語義信息方面發(fā)揮著重要作用[6]。例如,在2022年9月13日至15 日的“梅花”臺風(fēng)中,檢索到以下險情:“蘇州市萬佳花苑小區(qū)空調(diào)外機(jī)支架脫落,懸掛高空”和“樹木被臺風(fēng)吹倒,堵塞交通”。當(dāng)緊急情況發(fā)生時,從這些文本中提取位置信息對救援規(guī)劃和決策至關(guān)重要,因為它們提供了受災(zāi)害影響地區(qū)、風(fēng)險人群的位置以及需要救援和醫(yī)療援助的人的關(guān)鍵信息。

        1.2 地名識別研究的難點

        由于帶有地名標(biāo)記的自然語言文本非常稀疏,自然語言地名的自動提取非常具有挑戰(zhàn)性。根據(jù)研究,只有很少的自然語言文本包含地名標(biāo)簽,而這些標(biāo)簽很少能反映相關(guān)人員的精確地理位置。因此,從自然語言文本中準(zhǔn)確地提取和識別地名是必要的。

        目前,針對地名實體識別研究仍存在一些問題:

        (1)地名歧義問題。地名歧義是指一個地名可能有多種含義或解釋,造成對地名含義的不確定或模糊。例如,迪士尼樂園可以指上海的迪士尼樂園,也可以指中國香港地區(qū)的迪士尼樂園。在自然語言處理中,地名歧義經(jīng)常會導(dǎo)致語義理解的錯誤或混淆。為了解決這個問題,需要進(jìn)行地名消歧,即在上下文中確定一個地名實體的具體含義。在一些具體的應(yīng)用場景中,如地圖應(yīng)用或者導(dǎo)航系統(tǒng)中,地名歧義可能會造成更為嚴(yán)重的后果,因此進(jìn)行地名消歧尤為重要。

        (2)地名嵌套問題。地名嵌套是指在地名中包含另一個地名的情況。在某些情況下,地名嵌套可能導(dǎo)致歧義,因此在自然語言處理中,需要對地名嵌套進(jìn)行識別和處理。例如,在“蘇州市虎丘區(qū)學(xué)府路蘇州科技大學(xué)石湖校區(qū)”中,虎丘區(qū)是蘇州市的一個行政區(qū)劃,學(xué)府路是虎丘區(qū)的一條街道,而蘇州科技大學(xué)石湖校區(qū)則是學(xué)府路上的一個POI 地名實體。這個地名包含了多個地名,其中虎丘區(qū)嵌套在了蘇州市中,學(xué)府路則嵌套在虎丘區(qū)中。在地名實體識別中,需要對這種地名嵌套進(jìn)行識別,以便更準(zhǔn)確地理解地名實體的含義。

        (3)未登錄地名問題。未登錄地名指的是在地名識別過程中,沒有出現(xiàn)在預(yù)定義地名詞典中,無法被識別的新地名。未登錄地名的出現(xiàn)可能有多種原因,包括地名發(fā)生變化、地名使用場景的變化、新地名的出現(xiàn)等。例如,近年來高新科技園區(qū)和商業(yè)中心的興起,這些地方的名字可能沒有被納入到地名詞典中,因此在命名實體識別過程中可能無法被正確識別。

        (4)語境依賴問題。地名的含義通常是依賴于上下文語境的,例如在“我想去巴黎”和“我想去巴黎貝甜買點蛋糕”中,前者“巴黎”指的是法國巴黎城市,后者“巴黎”指的是一家蛋糕店鋪,但是這個差異需要在上下文中才能確定。

        1.3 數(shù)據(jù)集和訓(xùn)練資源

        由于地名識別的應(yīng)用領(lǐng)域相對于其他任務(wù)領(lǐng)域比較廣泛,并且數(shù)據(jù)來源也比較雜,大多來源于社交媒體,所以基本都是非正式的數(shù)據(jù)集(即推特或微博),所以收集了32 個非正式的英文數(shù)據(jù)集(如表1 所示)和5 個常用的中文數(shù)據(jù)集(如表2 所示)。它們可以根據(jù)數(shù)據(jù)集的用途分為:地名實體識別(TER)和命名實體識別(NER)。前者只標(biāo)注地名,后者不僅標(biāo)注地名,還標(biāo)注其他類型,如人名、組織機(jī)構(gòu)名和其他實體類別。

        表1 非正式的英文地名識別數(shù)據(jù)集Table 1 Informal English toponym recognition datasets

        表2 通用的NER中文數(shù)據(jù)集和中文地名識別數(shù)據(jù)集Table 2 General NER Chinese datasets and Chinese toponym recognitions datasets

        從表1 可以看出大多數(shù)的數(shù)據(jù)集都是來源于社交媒體的災(zāi)難事故信息,比如地震、臺風(fēng)、洪澇災(zāi)害等。對災(zāi)難事故信息的地名信息處理往往會涉及到細(xì)粒度的地名實體,比如街道地名、樓宇店鋪門牌號等,因為在災(zāi)難過后的救援需要精確的地名信息定位,從而實現(xiàn)救災(zāi)資源的實時配置。

        1.4 評價指標(biāo)

        采用精度、召回率和F1-score三個標(biāo)準(zhǔn)指標(biāo)來評價深度學(xué)習(xí)模型的地名識別性能:

        TP 表示被正確識別地名實體的數(shù)量,F(xiàn)P 表示非地名實體但被識別為地名實體的數(shù)量。此外,F(xiàn)N 表示被標(biāo)記為地名實體但未被識別的實體數(shù)量,TN 表示被標(biāo)記為非地名實體且被識別為非地名實體的數(shù)量。精度是通過正確識別的實體數(shù)量除以識別的地名實體總數(shù)來計算的。召回率的計算方法是:正確識別的實體數(shù)量除以語料庫中地名實體的總數(shù)。F1值表示精度和查全率的調(diào)和平均值,該指標(biāo)代表地名識別的整體性能。在本文的研究中,只有所有地名實體標(biāo)簽的預(yù)測都是正確的,才能認(rèn)為它們是正確的。

        2 地名實體識別的方法

        由于地名實體識別是命名實體識別的子任務(wù),所以根據(jù)地名實體識別的發(fā)展歷程,主流的TER方法可以分為3類:基于規(guī)則和詞典的方法、基于統(tǒng)計機(jī)器 學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法,這3類方法根據(jù)處理特點又細(xì)分為若干種不同的子方法,比如,基于深度學(xué)習(xí)的可以根據(jù)使用的模型細(xì)細(xì)劃分。后面的內(nèi)容將圍繞該分類方法分別進(jìn)行詳細(xì)闡述。

        2.1 基于規(guī)則的地名實體識別方法

        早期的TER 方法[12]主要運(yùn)用由語言學(xué)專家根據(jù)語言知識特性手工構(gòu)造的規(guī)則模板,通過匹配的方式實現(xiàn)命名實體的識別。針對不同的數(shù)據(jù)集通常需要構(gòu)造特定的規(guī)則,一般根據(jù)標(biāo)點符號、關(guān)鍵字、指示詞、方向詞、位置詞和中心詞等特征來構(gòu)造。早期,Gelernter等[13]根據(jù)語法規(guī)則為英語和西班牙語建立了相對應(yīng)的詞語組合分析器,基本規(guī)則是一個或多個形容詞加上一個或多個名詞組成一個短語。其中分塊算法的差異主要來自于西班牙語和英語的語法差異,以及它們各自的詞類標(biāo)記器帶來的差異。Leidner 等人[14]綜述了如何基于語法規(guī)則來識別地名實體。Giridhar等人[15]根據(jù)描述位置的短語總是由名詞(NN)、限定詞(DT)、形容詞(JJ)、基數(shù)詞(CD)、連詞(CC)和名詞所有格結(jié)尾詞(PE)組成,根據(jù)這種語法規(guī)則來提取地名實體。

        雖然基于規(guī)則的方法很早便提出,但用于特定領(lǐng)域,其準(zhǔn)確率也較高。在近三年的文獻(xiàn)綜述中,MartíNez等人[8]提出了LORE 系統(tǒng),LORE 是一個概念證明應(yīng)用程序,利用語言知識和NLP 技術(shù)在短文本中進(jìn)行位置提取,它的主要目標(biāo)是如何通過LORE中的基于知識的規(guī)則自動檢測這些地名實體。在LORE系統(tǒng)中,地名實體這一部分是基于語言的規(guī)則來抽取的,主要通過關(guān)注推特文本類型的語言特質(zhì)和自然語言的地理空間特征來進(jìn)行語言模式的提取。深入分析了n維數(shù)組的不同組合和標(biāo)記的詞性以及地名實體在上下文中的位置,如位置介詞、位置指示名詞和位置標(biāo)記,這些通常標(biāo)志著地名的存在。所有這些知識都被整合到正則表達(dá)式的表述中,該表達(dá)式考慮了上述語言變量。使用英語評價語料庫,考慮基于實體的評價標(biāo)準(zhǔn),該系統(tǒng)的準(zhǔn)確率為0.81,召回率為0.81,F(xiàn)1 值為0.81。使用西班牙語評價語料庫,準(zhǔn)確率為0.64,召回率為0.72,F(xiàn)1值為0.67。但由于模型的限制,只能支持英語和西班牙語,對于其他語言,需要對模型進(jìn)行微調(diào)。

        2.2 基于地名詞典的地名實體識別方法

        在地名識別領(lǐng)域中,基于地名詞典的方法主要是通過將逐個字符與整個地名詞典進(jìn)行遍歷匹配,并搜索預(yù)定義的一組地名的出現(xiàn)情況。這些地名存儲在地名表中,地名表是地名和相關(guān)元數(shù)據(jù)[16]的數(shù)據(jù)庫。詞典通常存儲在try樹(例如Patricia tries)、散列表[17]和SQL數(shù)據(jù)庫中。早期的地名實體識別技術(shù)都是基于詞典的較多[18-27],因為那會的數(shù)據(jù)集不大,用到的領(lǐng)域范圍也偏小。

        對于近幾年基于詞典或者是用到詞典的技術(shù)的文獻(xiàn)中,也有不少特色之處。De Bruijn等人[28]為了確定推特文本的地理位置,將推文的文本與地名詞典匹配,而且對詞典進(jìn)行了額外的處理,比如,刪除了url和標(biāo)點符號,將文本大駝峰單詞全部轉(zhuǎn)換成小寫等。Al-Olimat等人[29]使用n-gram統(tǒng)計和位置相關(guān)的字典,并且提出一個地名提取工具(LNEx)來處理地名縮寫,并自動過濾和擴(kuò)充地名詞典中的位置名稱(處理名稱縮寫和輔助內(nèi)容),以幫助檢測多詞位置名稱的邊界,從而在文本中識別它們。Milusheva 等人[30]使用OpenStreetMap、Geonames 和GooglePlaces 為內(nèi)羅畢都市區(qū)的5 個下屬行政區(qū)建立了一個地名詞典。地名詞典包括地標(biāo)名稱、地理坐標(biāo)和地標(biāo)類型(例如:學(xué)校、公共汽車站)。Milleville 等人[31]提出了一種以地名檢測和地名匹配為核心的地名識別算法。對于人來說,這些地名地址相對容易閱讀和理解,但對于機(jī)器來說卻很難自動處理。地名詞典可用于將識別出的地名實體與現(xiàn)實世界的地名進(jìn)行匹配,從而提高注釋質(zhì)量。當(dāng)部分地名被識別出來時,可以基于相對位置進(jìn)行模糊匹配,從而將潛在候選地名限制在該區(qū)域。然后,使用字符串相似度對識別的文本與候選地名進(jìn)行匹配。Ahmed 等人[32]針對交通類的推特文本進(jìn)行一種實時的提取交通擁堵信息的方法,其中會涉及地名信息的提取,為了自動識別地名,作者使用公開數(shù)據(jù)創(chuàng)建了城市中所有主要位置和道路名稱的列表。每個位置名稱和推文中的所有單詞都被標(biāo)記,從而將推文和位置名稱表示為單個單詞的列表,然后使用Jaro-Winkler方法[33]查找位置中的每個單詞和推文中的單詞的相似性。當(dāng)相似度大于一個給定的閾值時,這個詞被標(biāo)記為地名詞。

        綜上所述,本文針對基于規(guī)則方法和基于地名詞典方法進(jìn)行了比較分析,具體如表3所示。盡管基于規(guī)則和地名詞典的地名識別方法使用簡單,但是需要手工制作匹配規(guī)則模板并且制作地名詞典更是需要大量的時間成本,為了保證準(zhǔn)確率,甚至每隔一段時間需要手動更新地名詞典。為了解決上述問題,一些專家學(xué)者研究了統(tǒng)計機(jī)器學(xué)習(xí)的地名實體識別方法[34]。

        表3 基于規(guī)則和基于地名詞典方法對比Table 3 Comparison of rules-based and gazette-based methods

        2.3 基于機(jī)器學(xué)習(xí)的地名實體識別方法

        基于統(tǒng)計機(jī)器學(xué)習(xí)的方法必須建立在帶有注釋的訓(xùn)練語料數(shù)據(jù)集上,并且?guī)ё⑨尩恼Z料庫要通過人工定義的特征來訓(xùn)練模型,例如字符串的長度、大小寫和上下文特征,以及深度學(xué)習(xí)算法自動學(xué)習(xí)的特征。然后將訓(xùn)練好的模型應(yīng)用于未標(biāo)記的文本。基于統(tǒng)計學(xué)習(xí)的方法通常使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型,如隨機(jī)森林(random forest)[35]等。通過統(tǒng)計以往文獻(xiàn)的地名識別方法,將基于統(tǒng)計學(xué)習(xí)的方法進(jìn)一步分為兩組:一是基于統(tǒng)計機(jī)器學(xué)習(xí)的地名實體識別工具,而是基于統(tǒng)計機(jī)器學(xué)習(xí)算法的地名識別。下面,將分別討論這兩組方法。

        地名實體識別是命名實體識別的一個子任務(wù),已經(jīng)得到了廣泛的研究。因此,許多研究[2,3,5,36-42]使用現(xiàn)有的基于統(tǒng)計的NER工具從文本中提取位置參考。

        Linga 等人[38]研究了使用命名實體識別器從推特文章中提取位置的可行性,分別使用了OpenNLP、TwitterNLP[9]、Yahoo!Placemaker和Stanford NER從2 878條與災(zāi)難相關(guān)的推特文本中提取地名。Stanford NER和OpenNLP在他們的研究中也通過10倍交叉驗證進(jìn)行了再訓(xùn)練和評估,結(jié)果表明,再訓(xùn)練模型的F1得分高于預(yù)訓(xùn)練模型。

        Karimzadeh 等人[40]提出了名為GeoTxt 的地名實體識別工具,一個可擴(kuò)展的地理定位系統(tǒng),并用于識別和定位非結(jié)構(gòu)化文本中的地名。GeoTxt 提供了6 種用于地名識別的命名實體識別(NER)算法,分別是Stanford NER、Illinois CogComp[43]、GATE ANNIE[44]、MITIE、Apache OpenNLP和LingPipe。并利用企業(yè)搜索引擎對地名進(jìn)行索引、排序和檢索,實現(xiàn)了對文本的地理定位。

        Belcastro等人[2]利用推特來收集災(zāi)難發(fā)生之后的事故信息,如倒塌的建筑物、破裂的煤氣管道和被淹的道路。提取地質(zhì)坍塌推文是其中的關(guān)鍵任務(wù)之一。具體來說,采用CoreNLP[45]工具識別街道和地區(qū)名稱,然后通過與當(dāng)?shù)氐孛~典匹配對這些名稱進(jìn)行地理編碼,從而與災(zāi)區(qū)相關(guān)聯(lián)。Fan等人[3]通過使用Stanford NER提取地名實體,然后過濾和地理編碼,只保留谷歌地理編碼API中匹配的地名,從而來揭示災(zāi)難事故的發(fā)生。

        Mircea[41]實現(xiàn)了一個全球COVID-19信息規(guī)模的可視化界面,用于COVID-19 推文的實時分類、地理定位和交互式可視化。spaCy-NER20 可以從推特內(nèi)容和用戶資料中提取城市和國家。Suat-Rojas等人[42]利用一個重新訓(xùn)練的spaCy-NER 來檢測和分析哥倫比亞市的西班牙語推文中的交通事故。

        綜上所述,本文針對基于機(jī)器學(xué)習(xí)的地名實體識別主流工具進(jìn)行了總結(jié),具體如表4所示。

        表4 基于機(jī)器學(xué)習(xí)的地名實體識別主流工具總結(jié)Table 4 Summary of main tools for toponym entity recognition based on machine learning

        除了使用或再訓(xùn)練現(xiàn)有的NER 模型工具外,許多研究還通過使用機(jī)器學(xué)習(xí)算法[6,46-52]來訓(xùn)練自己的地名實體識別模型。

        Nissim 等人[51]提出了一個使用現(xiàn)成的最大熵標(biāo)記器[53]來識別蘇格蘭歷史文獻(xiàn)中的地名實體,最大熵標(biāo)記器使用內(nèi)置的C&C 標(biāo)準(zhǔn)特征來訓(xùn)練和測試Curran 和Clark(C&C),這包括一組形態(tài)學(xué)和正字法特征,以及單詞本身的詞性標(biāo)記和上下文特征的信息。該模型評估了648 份蘇格蘭歷史文獻(xiàn),共10 868 句語料,5 682 個地名實體。

        Habib等人[46]提出一種基于隱馬爾可夫模型(HMM)和支持向量機(jī)(SVM)的混合方法來進(jìn)行地名提取。作者將帶有地名標(biāo)注的訓(xùn)練數(shù)據(jù)用于訓(xùn)練HMM[54],進(jìn)而用于地名提取。首先使用訓(xùn)練過的HMM 模塊從訓(xùn)練集中提取地名,接著將提取的地名與GeoNames地名表進(jìn)行匹配,并且將訓(xùn)練好的HMM 應(yīng)用于測試集,提取的地名將與GeoNames進(jìn)行匹配,并消除它們的候選地名的歧義。最后計算地名的信息性和相干性特征,并將其輸入經(jīng)過訓(xùn)練的支持向量機(jī)中,得到最終的地名提取結(jié)果。

        Sobhana 等人[47]提出基于條件隨機(jī)場(CRFs)的地質(zhì)文本命名實體識別(NER)系統(tǒng)的開發(fā),不同類型的地質(zhì)命名實體指的是國家、州、城市、地區(qū)、山、島嶼、水體、河流、村莊等,然后利用機(jī)器學(xué)習(xí)算法對這些地質(zhì)實體進(jìn)行識別、分類。

        由于地名實體識別任務(wù)和傳統(tǒng)的命名實體識別任務(wù)不同,TER 任務(wù)有著特殊領(lǐng)域的需求,所以并沒有地名實體識別領(lǐng)域通用的訓(xùn)練數(shù)據(jù)資源,而大多數(shù)數(shù)據(jù)集都是不同筆者根據(jù)應(yīng)用場景的需要制作的數(shù)據(jù)集。為了避免使用監(jiān)督學(xué)習(xí)模型卻缺乏足夠的注釋數(shù)據(jù)而產(chǎn)生較差的性能,Kamalloo等人[6]提出了一個無監(jiān)督模型來解決訓(xùn)練資源少的地名實體識別問題。該方法僅僅依賴于文檔內(nèi)容和地名詞典,它利用文檔的上下文特征以及地名的空間關(guān)系來產(chǎn)生一個連貫的地名識別解析任務(wù)。并且實驗數(shù)據(jù)表示上下文層次融合的無監(jiān)督模型,在精度上優(yōu)于拓?fù)渚垲愃惴ā?/p>

        綜上所述,本文針對基于統(tǒng)計機(jī)器學(xué)習(xí)的地名實體識別方法進(jìn)行了比較分析,具體如表5所示。

        表5 基于統(tǒng)計機(jī)器學(xué)習(xí)的地名實體識別方法比較Table 5 Comparison of toponym name entity recognition methods based on statistical machine learning

        2.4 基于深度學(xué)習(xí)的地名實體識別方法

        近年來,深度神經(jīng)網(wǎng)絡(luò)模型已被開發(fā)出來,并在NER 方面取得了非常好的效果,特別是在地名識別方面[7,55]。深度學(xué)習(xí)可以看作是一種由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成的機(jī)器學(xué)習(xí)算法[56-61]。深度學(xué)習(xí)最大的特點是具有較強(qiáng)的泛化能力,可以從原始數(shù)據(jù)中自行獲取特征,而且不依賴于專家知識和人工特征。在NLP領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)模型的本質(zhì)是對文本序列數(shù)據(jù)進(jìn)行處理,主要將輸入的字詞編碼成高維向量,并利用該向量通過神經(jīng)網(wǎng)絡(luò)層將單詞映射到標(biāo)簽空間,實現(xiàn)地名標(biāo)簽和其他標(biāo)簽的分類?;谝陨纤?,本文將基于深度學(xué)習(xí)的地名實體識別方法分為基于深度學(xué)習(xí)模型的NER 工具、主流的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型和混合方法模型。

        2.4.1 基于深度學(xué)習(xí)的NER工具

        最近,有關(guān)地名實體識別的基于深度學(xué)習(xí)的NER工具也被大量使用。例如,Limsopatham 等人[62]提出通過BiLSTM 特征提取工具和使用字符嵌入和單詞嵌入自動學(xué)習(xí)正字法特征來識別推文中的名稱實體。Akbik等人[63]提出了Flair,這是一種使用上下文字符串嵌入進(jìn)行序列標(biāo)記任務(wù)的NLP 工具,如詞性標(biāo)記(POS)和NER。Qi 等人[64]提出了一種名為Stanza 的基于深度學(xué)習(xí)的NLP工具包,該工具包采用了基于上下文的字符串表示標(biāo)記器。近年來,全連接自注意體系結(jié)構(gòu)(又稱Transformer)因其在上下文建模方面的并行性和優(yōu)勢而備受關(guān)注。例如,Ushio 等人[65]提出了一個用于NER 模型微調(diào)的python 庫,命名為T-NER。它支持基于Transformer 的NER 模型的培訓(xùn)和測試。來自不同領(lǐng)域的9個公共NER 數(shù)據(jù)集被編譯為T-NER 庫的一部分,如CoNLL 2003、ontonoot 5.0和WNUT 2017數(shù)據(jù)集。

        2.4.2 卷積神經(jīng)網(wǎng)絡(luò)模型

        卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),隱含層的卷積層和池化層是實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能的核心模塊。卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中廣泛應(yīng)用,并且在圖像處理方面展現(xiàn)出強(qiáng)大的計算能力,所以研究學(xué)者們將其進(jìn)行領(lǐng)域遷移,將CNN 應(yīng)用在自然語言處理領(lǐng)域,進(jìn)行序列問題處理。

        Gritta 等人[66]提出了一種名為CamCoder 的地名解析方法,該方法結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、用于輸入表示的單詞嵌入和用于位置名稱的地理向量表示來解析地名。通過CamCoder與NER工具,并將其轉(zhuǎn)換為一個地質(zhì)傳感器,以進(jìn)行進(jìn)一步的地名識別。在地名實體識別領(lǐng)域中,Kumar 等人[67]提出基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型(如圖1 所示)來提取推文中使用的地名位置。該模型通過10 倍交叉驗證對5 107 條地震相關(guān)推文和6 690個地名進(jìn)行了評估。該體系結(jié)構(gòu)包括三個部分:向量形式表示推文的詞嵌入;卷積神經(jīng)網(wǎng)絡(luò)模型;從文本表示中學(xué)習(xí)顯著特征和全連接層,以預(yù)測輸出。在數(shù)據(jù)集方面,使用了與地震相關(guān)的tweet 數(shù)據(jù)集,并且數(shù)據(jù)集包括了一些細(xì)粒度的位置信息,如街道、建筑物、城市、地區(qū)和國家名稱。盡管CNN最大的特點是可以并行化,加快運(yùn)行計算速度,但它無法更好地處理序列信息。

        圖1 基于CNN的地名實體識別模型Fig.1 Toponym entity recognition model based on CNN

        2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)模型

        在對序列信息處理的過程中,預(yù)測句子的下一個單詞時需要用到前面的單詞信息,因為一個句子中前后單詞并不是獨立的,這便是句子的局部特征。

        然而,CNN并不能很好地利用單詞前后的特征,所以研究學(xué)者們提出更適合序列信息的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNNs)。RNN 已經(jīng)在眾多自然語言處理(natural language processing,NLP)中取得了巨大成功以及廣泛應(yīng)用,它一般以序列數(shù)據(jù)為輸入,通過網(wǎng)絡(luò)內(nèi)部的結(jié)構(gòu)設(shè)計有效捕捉序列之間的關(guān)系特征,一般也是以序列形式進(jìn)行輸出,它的目的是處理序列數(shù)據(jù)。

        RNNs 之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個序列當(dāng)前的輸入與前面的輸出有關(guān)。具體的表現(xiàn)形式即為隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,RNNs 能夠?qū)θ魏伍L度的序列數(shù)據(jù)進(jìn)行處理。但是在實踐中,為了降低復(fù)雜性往往假設(shè)當(dāng)前的狀態(tài)只與前面的幾個狀態(tài)相關(guān)。

        然而,傳統(tǒng)的RNNs 有一個致命的缺陷——“梯度消失”。所謂“梯度消失”是RNN 模型當(dāng)前的輸出與之前的輸出有關(guān),一旦序列信息逐漸增加導(dǎo)致過長,模型會逐步喪失“學(xué)習(xí)能力”。針對RNN在訓(xùn)練過程中容易出現(xiàn)梯度消失和梯度爆炸的問題,專家學(xué)者對RNNs進(jìn)行改進(jìn)——長短期記憶網(wǎng)絡(luò)模型。

        2.4.4 長短期記憶網(wǎng)絡(luò)模型

        LSTM(long short-term memory)也稱長短時記憶結(jié)構(gòu),最早是由Hochreiter 等人[68]于1997 年提出它是傳統(tǒng)RNN的變體,與經(jīng)典RNN相比能夠有效捕捉長序列之間的語義關(guān)聯(lián),緩解梯度消失或爆炸現(xiàn)象。

        在地名實體識別研究方向中,使用LSTM模型的也不在少數(shù),甚至后續(xù)的模型都是基于長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)的。Xu等人[69]提出了DLocRL,一種用于推特中細(xì)粒度位置識別和鏈接的深度學(xué)習(xí)管道,模型如圖2所示。具體地說,他們首先使用BiLSTM-CRF來訓(xùn)練興趣點(POI)識別器。然后,給定輸入對,訓(xùn)練鏈接模塊判斷位置配置文件是否對應(yīng)于POI。該方法在新加坡國家Twitter數(shù)據(jù)集[70]上進(jìn)行了評估。

        圖2 基于BiLSTM的地名實體識別模型Fig.2 Toponym entity recognition model based on BiLSTM

        Mao等人[4]提出了一種新的基于深度學(xué)習(xí)的Twitter停電檢測框架,利用雙向長短期記憶網(wǎng)絡(luò)模從推特文本中提取停電位置,從而來應(yīng)對停電事故引起的事故災(zāi)害。方法上,使用的深度學(xué)習(xí)模型是雙向LSTM模型和CRF,它不需要任何先驗知識,也不需要任何字詞嵌入編碼,也不依賴其他NLP 工具進(jìn)行預(yù)處理(如詞性、分塊)。因此,它可以很容易地適應(yīng)新的數(shù)據(jù),而且自動準(zhǔn)確地檢測社交媒體文本中的位置,那么應(yīng)急人員可以利用這些數(shù)據(jù)找到需要幫助的人,并且從數(shù)據(jù)訓(xùn)練資源的角度來說,這有助于解決位置標(biāo)記數(shù)據(jù)稀缺的問題,并顯著增加了大量帶標(biāo)注的數(shù)據(jù)。

        2.4.5 Transformer網(wǎng)絡(luò)模型

        在2.4.3 和2.4.4 小節(jié)中,介紹了RNN 和它的變體。由于RNN 能夠處理長序列輸入,這些結(jié)構(gòu)已經(jīng)成為許多自然語言處理任務(wù)的首選模型方法,例如語言建模[71-73]、機(jī)器翻譯[74-77]以及句法解析[78-80]。然而,RNN 只有輕微的并行性,這意味著計算資源不能在訓(xùn)練過程中得到充分利用,從而導(dǎo)致了一個非常耗時的訓(xùn)練過程。

        為了緩解這一問題,Vaswani 等人[81]提出了Transformer架構(gòu)。Transformer模型基于注意機(jī)制,并使用自我注意層來學(xué)習(xí)單詞表征。在序列數(shù)據(jù)的背景下,Transformer 架構(gòu)優(yōu)于經(jīng)典的神經(jīng)結(jié)構(gòu)方法,如RNN 或CNN,并且基于三個重要的標(biāo)準(zhǔn):計算復(fù)雜度、并行性和長期依賴建模。

        其中,Devlin 等人[82]提出了BERT 模型,即來自Transformer的雙向編碼器表示的簡稱,這是一種完全基于Transformer 的語言模型架構(gòu)。BERT 架構(gòu)由多層雙向編碼器組成,并且是通過兩種具有相同架構(gòu)的模型大小引入的:BERTBase 和BERT-Large。由于BERT 模型的強(qiáng)大,使得自然語言處理領(lǐng)域的各個方向都有BER模型的身影。

        比如,Davari[83]提出了一個基于BERT 的地名識別模型(模型如圖3 所示),模型使用預(yù)先訓(xùn)練的BERT 作為主干,并對兩個領(lǐng)域的數(shù)據(jù)集(通用文章和醫(yī)學(xué)文章)進(jìn)行微調(diào)。模型首先將帶有地名的句子的文字片段序列構(gòu)成模型的輸入,然后將這些序列令牌傳遞到一個預(yù)先訓(xùn)練過的BERT網(wǎng)絡(luò),接著將網(wǎng)絡(luò)的輸出以及某些語言特征傳遞到一個全連接層,該層決定了每個令牌的標(biāo)簽,并識別出地名標(biāo)簽。

        圖3 基于BERT的地名實體識別模型Fig.3 Toponym entity recognition model based on BERT

        在2022 年年初,Ma 等人[11]提出基于BERT 模型的中文地名識別方法。Ma等人[11]提出了一種深度神經(jīng)網(wǎng)絡(luò)BERT-BiLSTM-CRF,該網(wǎng)絡(luò)擴(kuò)展了基本的雙向遞歸神經(jīng)網(wǎng)絡(luò)模型(BiLSTM),并且BERT-BiLSTM-CRF 模型利用字符嵌入和預(yù)訓(xùn)練詞嵌入對輸入序列進(jìn)行編碼,然后對這些序列信息進(jìn)行預(yù)處理,從而實現(xiàn)對輸入的中文地名進(jìn)行分類,并用于處理中文文本地名識別任務(wù)。

        2.4.6 弱監(jiān)督深度學(xué)習(xí)模型

        現(xiàn)有的具有最先進(jìn)性能的地名識別方法主要利用監(jiān)督學(xué)習(xí)(即基于深度學(xué)習(xí)的方法),從必須手動注釋的海量標(biāo)記數(shù)據(jù)集學(xué)習(xí)參數(shù)。當(dāng)模型訓(xùn)練需要適應(yīng)不同的領(lǐng)域文本,特別是那些社交媒體消息時,這是一個很大的不便。所以Qiu等人[84]提出了弱監(jiān)督中文地名識別器ChineseTR。它首先根據(jù)單詞集合和來自不同文本的相關(guān)單詞頻率生成訓(xùn)練示例。在訓(xùn)練實例的基礎(chǔ)上,探討了一種基于BERT詞嵌入的BiLSTM-CRF網(wǎng)絡(luò)用于訓(xùn)練地名識別器。在三個中文NLP數(shù)據(jù)集(即WeiboNER、Boson和MSRA)上對該方法進(jìn)行了評價。

        綜上所述,本文針對基于深度學(xué)習(xí)的地名實體識別方法進(jìn)行了比較分析,具體如表6所示。

        表6 基于深度學(xué)習(xí)的地名實體識別方法比較Table 6 Comparison of toponym entity recognition methods based on deep learning

        2.4.7 混合方法模型

        通過以上對深度學(xué)習(xí)網(wǎng)絡(luò)的解析,可以大致了解序列模型的運(yùn)行原理。但是對于現(xiàn)階段的地名實體識別領(lǐng)域來說,想要更高準(zhǔn)確度的模型,基礎(chǔ)的模型架構(gòu)總是不夠的。所以,人們在基礎(chǔ)的模型架構(gòu)對其進(jìn)行改進(jìn)加強(qiáng),通常的做法是融合其他的特征來增強(qiáng)原始的文本表示,從而更好地提取實體信息。

        (1)上下文字詞嵌入特征與主流模型混合

        Cadorel 等人[85]提出了一個基于BiLSTM-CRF 的體系結(jié)構(gòu)通過將其應(yīng)用到法國房產(chǎn)廣告的案例來展現(xiàn)此模型,這些廣告通常提供了關(guān)于房產(chǎn)位置和社區(qū)的信息。模型結(jié)構(gòu)的第一個階段是命名實體識別模塊,它提取上面提到的所有實體。該模型基于BiLSTM-CRF架構(gòu)[57],在NER 任務(wù)中取得了很好的效果。同時還向BiLSTM-CRF添加了特征嵌入,這是一個由三種不同文本形式(CamenBERT[86]、Flair[63]和Word2Vec[19])的拼接組成的全局向量,以捕獲不同級別的特征。

        Wang 等人[7]提出從維基百科文章中生成帶標(biāo)簽的訓(xùn)練數(shù)據(jù)來訓(xùn)練一個名為NeuroTPR 的BiLSTM 模型。他們的模型包含若干層來解釋Twitter 文本中的語言不規(guī)則性,例如使用字符嵌入來捕獲單詞的形態(tài)學(xué)特征,以及使用上下文嵌入來捕獲推文中的標(biāo)記的語義。

        在不同應(yīng)用場景中,Chen等人[87]也提出了類似的框架,一種基于BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,用于識別社交媒體信息中局部地理實體。測試了單詞嵌入、字符嵌入、POS 標(biāo)記、大寫和介詞的五個特征,以評估它們區(qū)分地名實體標(biāo)簽和非地名實體標(biāo)簽的能力。研究發(fā)現(xiàn),POS標(biāo)簽對分類的貢獻(xiàn)最大。

        (2)基于規(guī)則、地名詞典與主流模型混合

        本文在對基于規(guī)則和詞典的傳統(tǒng)算法的論述中,發(fā)現(xiàn)許多研究將基于規(guī)則的方法歸為一類[14,29,88],或者將基于詞典的方法歸為一類,但純基于規(guī)則或者詞典的方法很少。所有在文獻(xiàn)[88]中討論的基于規(guī)則的方法實際上都是混合方法。這可能是因為僅依靠語言模式的方法是無效的。以一種完整而健壯的方式來定義規(guī)則,并且識別文本中所有可能出現(xiàn)的地名實體,這仍然是一個挑戰(zhàn),尤其是在寫作風(fēng)格變化巨大、語法薄弱的推特語料中[9]。但是,可以使用一組簡單的規(guī)則來增強(qiáng)地名詞典匹配和基于深度學(xué)習(xí)的方法,這將在以下的內(nèi)容中介紹。

        在這種混合方法中,地名詞典的使用主要有兩種方式:一種將統(tǒng)計學(xué)習(xí)模型的檢測結(jié)果與地名匹配相結(jié)合;另一種使用地名匹配結(jié)果(例如,是否有n-gram在地名中)作為機(jī)器學(xué)習(xí)模型的輸入特征。

        第一種方法的例子有文獻(xiàn)[46,70,89-90]。例如,為了改善用戶從數(shù)字圖書館中搜索所需資源的體驗,F(xiàn)reire等人[89]提出了與數(shù)字資源相關(guān)的描述性元數(shù)據(jù)記錄地質(zhì)arsing。通過將記錄的令牌與GeoNames中的候選數(shù)據(jù)相匹配,來識別初始位置實體。然后通過隨機(jī)森林分類器消除歧義,并將初始位置實體鏈接到最終的地址數(shù)據(jù)。

        Li 等人[70]提出識別推文中的POIs。推文中的候選POIs首先通過與一個POI清單進(jìn)行匹配來提取,該清單是根據(jù)Foursquare 中的簽到數(shù)據(jù)庫構(gòu)建的。然后利用一個基于CRF的時間感知POI標(biāo)記器,根據(jù)文本中的上下文特征去除候選POI的模糊性。

        第二種方式的例子包括文獻(xiàn)[48,91-94]。例如,Inkpen等人[92]訓(xùn)練了三種CRF模型,用于基于手工定義的特征(包括地名詞典特征)來識別國家、省/州和城市等地名。這些模型的目的不僅是檢測推文中的位置引用,還將其分類為三種類型。通過對6 000條推文(包含1 270 個國家、772 個省或州和2 327 個城市)進(jìn)行10 倍交叉驗證,對模型進(jìn)行了評估。

        為了支持病毒系統(tǒng)地理學(xué)研究,Weissenbacher 等人[48]提出通過使用CRF 模型來識別與病毒相關(guān)的GenBank記錄相關(guān)的研究文章中的位置參考。詞法(即POS標(biāo)記)、語義和地名詞典特征。

        還有一些研究將基于規(guī)則、詞典和機(jī)器學(xué)習(xí)三種技術(shù)結(jié)合起來進(jìn)行位置參考識別[1,12-13,93,95-96]。例如,Gelernter 等人[13]提出了一種針對推文的跨語言位置參考識別,通過使用地名表匹配、基于規(guī)則的建筑解析器、基于規(guī)則的街道解析器和經(jīng)過訓(xùn)練的基于CRF的命名實體解析器,將命名位置解析器的結(jié)果結(jié)合起來。街道和建筑解析器的規(guī)則是基于POS標(biāo)簽和指示詞創(chuàng)建的,例如形容詞+名詞和街道和建筑指示詞(例如,英語中的“street”和“highway”,西班牙語中的“calle”和“carreterra”)。

        Magge等人[93]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的NER,用于生物出版物中的地名檢測,該系統(tǒng)在不使用任何手工特征的情況下優(yōu)于以往最先進(jìn)的系統(tǒng)。所有提出的模型通過兩個公開可用的預(yù)先訓(xùn)練詞嵌入進(jìn)行評估。該論文展示了如何使用遠(yuǎn)程監(jiān)督來生成更多的訓(xùn)練數(shù)據(jù),以提高NER 的性能。其中該論文提出的所有模型都取得了較高的性能,其中最優(yōu)的F1-score 為0.927,短語F1-score為0.915。所提出的基于深度神經(jīng)網(wǎng)絡(luò)的NER具有足夠的通用性,可用于可靠地檢測生物醫(yī)學(xué)文本。

        最近,Hu等人[95-96]為推文提出了兩個地名提取器。第一個提取器被命名為GazPNE[95],它是一個神經(jīng)網(wǎng)絡(luò)分類器,主要基于美國地區(qū)和印度地區(qū)的OpenStreetMap中的地名以及由規(guī)則合成的非地名進(jìn)行訓(xùn)練。由于GazPNE對上下文信息的使用有限,仍然存在歧義問題,因此開發(fā)了第二種更強(qiáng)大的方法GazPNE2[96]。它利用兩個預(yù)先訓(xùn)練的變壓器模型,BERT和BERTweet[97]來消除檢測到的位置引用的歧義,并在19 個公共Twitter 數(shù)據(jù)集上獲得0.8的改進(jìn)F1得分。

        綜上所述,本文對使用混合模型的地名實體識別方法在融合特征和每個方法的特點進(jìn)行總結(jié)歸納,具體如表7所示。

        表7 使用混合模型的地名實體識別方法總結(jié)Table 7 Summary of toponym entity recognition methods using hybrid models

        3 TER模型性能對比和展望

        3.1 不同模型的性能對比

        為了讓讀者能對主流TER 模型有一個直觀的了解和對比,本文列舉了具有代表性的深度學(xué)習(xí)模型在各自數(shù)據(jù)集的性能表現(xiàn)。

        從表8可以看出,大多數(shù)主流模型結(jié)構(gòu)都來自基于序列模型、基于預(yù)訓(xùn)練BERT 類模型以及混合模型,對于卷積神經(jīng)網(wǎng)絡(luò)模型卻很少涉及。這是由于大多數(shù)TER 任務(wù)的數(shù)據(jù)都以序列信息為主,而CNN 網(wǎng)絡(luò)結(jié)構(gòu)并不適用于序列信息。在對主要的網(wǎng)絡(luò)結(jié)構(gòu)的解讀中,發(fā)現(xiàn)大多數(shù)網(wǎng)絡(luò)結(jié)構(gòu)都有底層的字詞特征嵌入,這主要集中在LSTM及其改進(jìn)模型上,并且從表格上可以看出字詞嵌入模型和LSTM 模型的融合在性能數(shù)值上得到了有效的驗證。發(fā)現(xiàn)基于預(yù)訓(xùn)練BERT 類模型的主要網(wǎng)絡(luò)結(jié)構(gòu)并沒有大面積地加字詞嵌入特征表示,為此做了基于詞嵌入的地名識別方法與基于預(yù)訓(xùn)練BERT 類模型的地名識別方法的比對分析,具體如表9所示。除了模型的網(wǎng)絡(luò)結(jié)構(gòu)對TER性能有較大的影響外,數(shù)據(jù)集的優(yōu)劣同樣對TER 性能有著重大影響。通過表8 的性能表現(xiàn),可以看出在同一BERT 模型結(jié)構(gòu)下,Boson 數(shù)據(jù)集的TER 性能數(shù)值比MSRA 數(shù)據(jù)集低了許多,同時MSRA數(shù)據(jù)集的TER性能數(shù)值又略低于人民日報PDC-04數(shù)據(jù)集,這說明質(zhì)量較高的數(shù)據(jù)集有助于模型性能的提升。

        表8 主流模型在不同數(shù)據(jù)集的性能表現(xiàn)Table 8 Performance of mainstream models in different datasets

        表9 詞嵌入模型與預(yù)訓(xùn)練模型的地名識別方法比較Table 9 Comparison of place name recognition methods between word embedding model and pre-training model

        綜上所述,總結(jié)了4 類模型的性能對比,分別是基于CNN模型、基于RNN及其改進(jìn)模型、基于BERT模型和混合模型。在這些模型類別中,并不是單單只有一個模型,而是基于一個基本模型和其他特征表示的各種融合。比如,基于RNN及其改進(jìn)模型,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)不能滿足高效處理序列信息的需求,基于RNN的變體模型BiLSTM 可以更好地滿足此類需求。在此類模型的基礎(chǔ)上融合其他特征向量表示已經(jīng)是業(yè)界內(nèi)比較受歡迎的模式了,比如基于BERT 的多模型混合,其模型性能已經(jīng)達(dá)到了業(yè)內(nèi)較高水平。未來的研究方法可以從更好的文本特征向量入手,或者融合更加全面健壯的地名詞典等特征。

        3.2 地名實體識別方法的特殊性

        地名實體識別與其他領(lǐng)域,在使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法時存在一些不同之處,主要體現(xiàn)在以下4個方面:

        (1)數(shù)據(jù)資源的特殊性[98-99]。地名實體識別的數(shù)據(jù)往往是地理信息數(shù)據(jù)或者是含有地名信息的非結(jié)構(gòu)化文本[100],其中包含地名實體及其位置等信息,而非傳統(tǒng)的NER任務(wù)文本數(shù)據(jù)。因此需要針對數(shù)據(jù)的特殊性進(jìn)行處理和分析。

        (2)地名實體識別涉及的語言現(xiàn)象較為特殊。地名實體識別任務(wù)需要處理各種語言現(xiàn)象,如地名省略、地名錯別字、地名歧義等[101],同時還要考慮地名實體的多樣性和復(fù)雜性。

        (3)模型的訓(xùn)練與測試。地名實體識別任務(wù)通常需要使用大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,這些數(shù)據(jù)集包含各種地名實體和語言現(xiàn)象。同時,為了提高識別效果,需要使用多種算法進(jìn)行組合,構(gòu)建復(fù)雜的模型。

        (4)精度要求較高。地名實體識別的應(yīng)用需要高精度和高召回率,因為地名實體識別是地理信息檢索、地圖導(dǎo)航等應(yīng)用的基礎(chǔ),錯誤的地名實體會導(dǎo)致誤導(dǎo)用戶。

        3.3 地名實體識別展望

        目前,地名實體識別技術(shù)日漸成熟,但依然需要研究人員投入大量精力進(jìn)行不斷探索,通過對現(xiàn)有TER研究工作進(jìn)行總結(jié),在以后的研究中可以從下面幾個方面展開相關(guān)的研究。

        (1)針對細(xì)粒度的地名實體識別研究。從文本內(nèi)容中提取精確的地名地址信息是TER的主要任務(wù),并且在許多的應(yīng)用程序中都是至關(guān)重要的。例如,在災(zāi)難事故文本或者危險事件中[102],一個精確的地名提取框架可以將相關(guān)地點與新聞媒體帖子所討論的主題聯(lián)系起來,并確定來自社交媒體的人道主義幫助請求[103]。然而,大多數(shù)的地名實體識別任務(wù)都集中在泛在寬廣的地名識別任務(wù)上,比如國家、省市等,缺乏細(xì)粒度的、準(zhǔn)確的地名地址識別任務(wù)模型。細(xì)粒度的、精確的地名地址涉及到道路建筑名稱、小區(qū)住宅、樓棟單元等細(xì)粒度的建筑地名[104]。由此可見,細(xì)粒度的地名識別任務(wù)仍是未來的一個研究熱點。

        (2)針對中文地名嵌套實體識別研究。由于中文地名構(gòu)詞規(guī)則復(fù)雜,數(shù)量龐大,其取名受區(qū)域性、民族性和時代性等因素影響。而且社交媒體數(shù)據(jù)中存在地名信息表達(dá)不規(guī)范、實體邊界不清晰、地名簡化表達(dá)等現(xiàn)象為中文地名識別增加了難度。這導(dǎo)致了中文地名出現(xiàn)地名實體嵌套的現(xiàn)象。因此,將各種神經(jīng)網(wǎng)絡(luò)、BERT、注意力機(jī)制等方法融合用于中文地名嵌套的TER任務(wù)仍然值得研究。

        (3)針對地名實體消歧研究。在TER任務(wù)中不僅僅是對地名實體的精準(zhǔn)識別,同時還伴隨著對地名的精準(zhǔn)定位,即確定它們的地理坐標(biāo)[105]。然而,在對地名進(jìn)行精準(zhǔn)定位時,會出現(xiàn)一個地名可以指代多個地理位置的情況,這會造成地名歧義。比如,“迪士尼樂園”可以指多個不同的地方,比如巴黎(法國)、加利福尼亞州(美國)、上海(中國),以及其他以“迪士尼樂園”命名的地方。因此,探索更優(yōu)的地名實體消歧方法來提升低資源的TER模型性能是該地名實體識別領(lǐng)域的重要研究方向。

        4 結(jié)束語

        地名實體識別是自然語言處理的重要任務(wù)之一,為許多領(lǐng)域提供基礎(chǔ)的數(shù)據(jù)支持。通過本文可以看出,地名實體識別在應(yīng)對自然災(zāi)害、交通管理等領(lǐng)域具有重要應(yīng)用價值,可以幫助提高災(zāi)害應(yīng)對效率、交通管理智能化程度[106]。同時,地名實體識別的研究不應(yīng)僅僅依賴于現(xiàn)有的數(shù)據(jù)集,需要從更廣泛的數(shù)據(jù)資源中進(jìn)行收集和整理。比如建立通用的非結(jié)構(gòu)化文本的地名數(shù)據(jù)集。地名實體識別的研究還需要關(guān)注多語種[107]、未登錄地名等問題,提高技術(shù)在多場景下的適用性。面對一項隨時都能應(yīng)用在人們的日常生活的技術(shù),相信未來會有更多的優(yōu)質(zhì)模型產(chǎn)生,進(jìn)而推動整個領(lǐng)域的前進(jìn)。

        猜你喜歡
        詞典實體文本
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        評《現(xiàn)代漢語詞典》(第6版)
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        詞典例證翻譯標(biāo)準(zhǔn)探索
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        欧美激情αv一区二区三区| 成人免费播放视频777777| 久久久www成人免费毛片| 欧美不卡视频一区发布| 久久99精品久久久66| 综合久久一区二区三区| 青春草在线视频观看| 午夜三级a三级三点| 免费看欧美日韩一区二区三区| 久久久99精品国产片| 亚洲国产成人av二区| 欧洲freexxxx性少妇播放| 免费看奶头视频的网站| 亚洲天堂av免费在线| 久久精品免费中文字幕| 天天弄天天模| 无码一区久久久久久久绯色AV| 成年男女免费视频网站点播| 中国孕妇变态孕交xxxx| 18禁超污无遮挡无码免费游戏| 99久久综合狠狠综合久久一区| 亚洲国产一区二区视频| 中文字幕亚洲欧美在线不卡| 成人无码一区二区三区网站| AV在线中出| 亚洲精品久久视频网站| 国产精品一卡二卡三卡| 色综合自拍| 国内精品久久人妻性色av| 久久久久av综合网成人| 亚洲av永久无码天堂网手机版| www.久久av.com| 蜜桃视频羞羞在线观看| 一区二区三区av波多野结衣| 香蕉视频毛片| 日本人妻三级在线观看| 国产一区二区三区久久精品| 日韩人妻精品无码一区二区三区| 40分钟永久免费又黄又粗| 人妻熟女翘屁股中文字幕| 精品国产一区av天美传媒|