亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        廣西農(nóng)業(yè)信息地理匹配引擎設(shè)計(jì)與實(shí)現(xiàn)

        2019-09-10 07:22:44朱明何永寧吳博
        關(guān)鍵詞:分詞引擎語(yǔ)義

        朱明 何永寧 吳博

        摘要:【目的】研究高并發(fā)、大流量農(nóng)業(yè)信息地理匹配引擎,改進(jìn)其算法,解決廣西區(qū)內(nèi)壯語(yǔ)地名匹配問(wèn)題,實(shí)現(xiàn)農(nóng)業(yè)信息的自動(dòng)匹配與空間定位,以滿足農(nóng)業(yè)大數(shù)據(jù)平臺(tái)高并發(fā)、大流量的地理匹配需求。?!痉椒ā客ㄟ^(guò)改造開(kāi)源的Solr全文搜索引擎,結(jié)合廣西地名中的少數(shù)民族語(yǔ)言特點(diǎn),擴(kuò)充地名詞典、設(shè)計(jì)數(shù)據(jù)組織方式與逆向分詞算法、改進(jìn)TF-IDF算法?!窘Y(jié)果】在改進(jìn)方法的基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了農(nóng)業(yè)地理信息地理匹配引擎。經(jīng)過(guò)第三方15484條數(shù)據(jù)測(cè)試,能夠準(zhǔn)確切分壯語(yǔ)地名,引擎在500并發(fā)下仍具有良好的響應(yīng)速度,匹配準(zhǔn)確率達(dá)98.43%。地理匹配引擎目前已應(yīng)用到糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)中,并取得了良好的效果?!窘ㄗh】針對(duì)測(cè)試中出現(xiàn)的問(wèn)題,建議在下一步工作中擴(kuò)充并完善詞庫(kù)內(nèi)容、增強(qiáng)語(yǔ)義推理能力、研究基于空間語(yǔ)義的定位算法,提高廣西農(nóng)業(yè)信息的定位精度。

        關(guān)鍵詞: 農(nóng)業(yè)信息;地理匹配引擎;地名分詞;地名檢索;地名匹配算法;廣西

        中圖分類號(hào): S126;P208? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)志碼: A 文章編號(hào):2095-1191(2019)01-0201-07

        0 引言

        【研究意義】數(shù)據(jù)處理是農(nóng)業(yè)地理信息系統(tǒng)建設(shè)的主要工作之一。在農(nóng)業(yè)大數(shù)據(jù)時(shí)代,人工處理數(shù)據(jù)成本高、效率低,難以滿足面向海量數(shù)據(jù)的實(shí)際應(yīng)用需求。地理匹配引擎能根據(jù)農(nóng)業(yè)信息中的地名快速匹配空間位置,批量完成數(shù)據(jù)的空間化處理,為農(nóng)業(yè)地理信息系統(tǒng)的開(kāi)發(fā)與應(yīng)用帶來(lái)極大的便利。在建設(shè)廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)過(guò)程中,通過(guò)研發(fā)高效、準(zhǔn)確的農(nóng)業(yè)信息地理匹配引擎技術(shù),利用匹配引擎自動(dòng)完成海量農(nóng)業(yè)信息的空間定位,能有效解決壯語(yǔ)地名匹配問(wèn)題,實(shí)現(xiàn)提高系統(tǒng)效能,降低人工處理數(shù)據(jù)成本,改善用戶體驗(yàn)等建設(shè)目標(biāo)?!厩叭搜芯窟M(jìn)展】在早期的地理匹配系統(tǒng)中,地理匹配一般利用通配符匹配,使用通配符構(gòu)建SQL搜索語(yǔ)句進(jìn)行模糊查詢。陳德權(quán)(2013)、梁明等(2014)研究表明使用通配符匹配簡(jiǎn)單易行、實(shí)現(xiàn)難度較小,在數(shù)據(jù)量與用戶并發(fā)量較小的情況下效率較高。但由于使用通配符進(jìn)行查詢,在數(shù)據(jù)大幅增加后查詢效率下降明顯,且對(duì)于非標(biāo)準(zhǔn)名址無(wú)法通過(guò)簡(jiǎn)單的模糊匹配檢索到相關(guān)結(jié)果。針對(duì)上述問(wèn)題,柴潔(2014)、徐道柱等(2017)提出了基于全文搜索引擎的地理編碼系統(tǒng),實(shí)現(xiàn)了地址匹配搜索引擎模糊查詢、分級(jí)搜索,但未對(duì)中文分詞算法作進(jìn)一步完善,制約了中文地名匹配的準(zhǔn)確率。馬照亭等(2011)、夏蘭芳等(2012)總結(jié)認(rèn)為地名分詞器的關(guān)鍵技術(shù)是通過(guò)地名分詞算法、詞庫(kù)與分詞處理,將搜索關(guān)鍵詞按語(yǔ)義切分為包含若干地址要素或名稱要素。鄒崇堯等(2014)、陳利燕等(2016)、俞敬松等(2016)研究表明,地名匹配過(guò)程中由于中文本身的復(fù)雜性及地址信息描述規(guī)則的不確定性,使中文地名分詞成為地理匹配引擎中的技術(shù)難點(diǎn)。上述研究一定程度上解決了地理匹配技術(shù)難點(diǎn),有效提高了匹配準(zhǔn)確率,但均屬于實(shí)驗(yàn)性質(zhì)或面向小型應(yīng)用系統(tǒng),未在大、中型系統(tǒng)上進(jìn)行應(yīng)用驗(yàn)證?!颈狙芯壳腥朦c(diǎn)】目前針對(duì)廣西地名的高性能地名匹配引擎的研究,以及滿足省級(jí)農(nóng)業(yè)大數(shù)據(jù)平臺(tái)地理匹配關(guān)鍵技術(shù)的研究較少,特別是缺乏投入實(shí)際應(yīng)用的地理匹配引擎?!緮M解決的關(guān)鍵問(wèn)題】通過(guò)改進(jìn)地名分詞技術(shù)、地名匹配算法,研發(fā)高性能農(nóng)業(yè)信息地理匹配引擎,解決壯語(yǔ)地名識(shí)別率低、地名匹配破壞實(shí)際地名語(yǔ)義等問(wèn)題,實(shí)現(xiàn)農(nóng)業(yè)大數(shù)據(jù)的空間定位與自動(dòng)匹配,降低數(shù)據(jù)采集成本,以滿足農(nóng)業(yè)大數(shù)據(jù)平臺(tái)高并發(fā)、大流量的地理匹配需求。

        1 數(shù)據(jù)來(lái)源與研究方法

        1. 1 數(shù)據(jù)收集與處理

        地理匹配引擎中地名數(shù)據(jù)來(lái)源于廣西基礎(chǔ)地理信息數(shù)據(jù)庫(kù),由地名、POI(Point of interest)、同義詞及品牌詞等數(shù)據(jù)組成。數(shù)據(jù)的采集與更新時(shí)間為2018年3月,總計(jì)106萬(wàn)條數(shù)據(jù)量,覆蓋廣西全部14個(gè)地市。各數(shù)據(jù)系統(tǒng)的關(guān)系如圖1所示,數(shù)據(jù)主要存放在POI和(區(qū)劃)地名數(shù)據(jù)表中,兩個(gè)表中的數(shù)據(jù)按照標(biāo)準(zhǔn)地名與地址數(shù)據(jù)結(jié)構(gòu)組織,具有規(guī)整的層次結(jié)構(gòu),能有效反映地名的所在位置與從屬關(guān)系,是地理匹配引擎的主要檢索對(duì)象。但在實(shí)際應(yīng)用中,用戶輸入的歷史地名、俗稱、簡(jiǎn)稱等不能與標(biāo)準(zhǔn)地名地址準(zhǔn)確匹配。為了解決實(shí)際應(yīng)用中的品牌與同義問(wèn)題,本研究在數(shù)據(jù)設(shè)計(jì)上增加了品牌詞和同義詞數(shù)據(jù)表。其中,品牌詞數(shù)據(jù)表記錄明確帶有企業(yè)品牌名稱的關(guān)鍵詞,主要用于分類搜索與關(guān)聯(lián)搜索;同義詞數(shù)據(jù)表記錄同義地名,以提高搜索準(zhǔn)確率并貼近用戶日常使用習(xí)慣。POI數(shù)據(jù)、品牌詞數(shù)據(jù)和同義詞數(shù)據(jù)通過(guò)地理實(shí)體編碼與地名數(shù)據(jù)關(guān)聯(lián)。

        1. 2 地名匹配算法設(shè)計(jì)

        地名搜索模塊是地理匹配引擎的核心,關(guān)鍵技術(shù)是地名分詞算法、地名搜索匹配算法與排序算法的設(shè)計(jì)。搜索模塊基于開(kāi)源的Solr搜索引擎開(kāi)發(fā)而成,Solr是基于JAVA開(kāi)發(fā)的開(kāi)源全文搜索引擎,能夠提供基礎(chǔ)的全文檢索API與服務(wù)框架,支持二次開(kāi)發(fā),具有良好的算法擴(kuò)展性。

        1. 2. 1 地名分詞算法設(shè)計(jì) 王俊超等(2012)對(duì)中文地名分詞的研究證明,采用逆向分詞方法的準(zhǔn)確率高于正向分詞。為提高分詞準(zhǔn)確率,本研究設(shè)計(jì)了地名逆向分詞算法,算法具體分為4個(gè)步驟。步驟[①]:初始化分詞集,即分詞處理隊(duì)列與分詞回收棧,并將搜索關(guān)鍵詞的字符逐個(gè)輸入分詞處理隊(duì)列。步驟[②]:將分詞處理隊(duì)列中所有字符作為一個(gè)單詞與詞典匹配,如果匹配成功,則將單詞輸出到分詞集,然后跳轉(zhuǎn)到步驟[③];如果無(wú)匹配結(jié)果則首字符出隊(duì),出隊(duì)字符輸出到分詞回收棧并繼續(xù)重復(fù)本步驟。步驟[③]:如果分詞回收棧為空,則跳轉(zhuǎn)到步驟[④],否則將分詞回收棧中的字符出棧并逐個(gè)輸入到分詞處理隊(duì)列,并跳轉(zhuǎn)回到步驟[②]。步驟[④]:輸出分詞集,結(jié)束分詞處理過(guò)程。

        1. 2. 2 地名搜索匹配與排序算法 地名搜索匹配與排序算法的主要步驟是構(gòu)建相似度計(jì)算分詞集、分詞權(quán)重,并計(jì)算匹配相似度。構(gòu)建相似度計(jì)算分詞集是計(jì)算匹配相似度的基礎(chǔ),地理匹配引擎利用Solr的全文檢索能力進(jìn)行地名匹配,將含有i個(gè)分詞的集合S={S1,S2,…,Si}進(jìn)行全文檢索,并返回所有有分詞匹配的結(jié)果,形成搜索結(jié)果集R={R1,R2,…,Rn}。匹配相似度計(jì)算采用向量空間模型算法,先從結(jié)果集R中逐條取出搜索結(jié)果,將取出的第i個(gè)搜索結(jié)果Ri按匹配的分詞打斷為幾部分,并將打斷部分取出構(gòu)成Rn的未匹配分詞集T={T1,T2,…,Tj},匹配部分構(gòu)成詞集P={P1,P2,…,Pk},Rn的分詞集為Rn=T∪P;將分詞集S與T合并構(gòu)建為含m個(gè)分詞的相似度計(jì)算集合Sim={S1,S2,…,Si,T1,T2,…,Tj},構(gòu)建過(guò)程如圖3所示。

        Solr采用的是詞頻—逆文檔頻率(Term frequency-inverse focument grequency,TF-IDF)搜索權(quán)重算法。唐旭日等(2010)、朱少楠等(2013)、程鋼和盧小平(2014)研究發(fā)現(xiàn)中文地名地址一般由行政區(qū)域、基本區(qū)域限定物和局部點(diǎn)位置3個(gè)部分構(gòu)成,該層次結(jié)構(gòu)決定了中文地址的特征詞一般位于名址詞條的尾部,當(dāng)詞條含有多條分詞時(shí),處于詞條尾部的分詞一般具有較高的識(shí)別度。針對(duì)中文地名的上述特性,中文地名分詞匹配權(quán)重需要根據(jù)匹配分詞詞頻、詞序和長(zhǎng)度等因素以改進(jìn)默認(rèn)的TF-IDF算法。定義WF、WD和WL分別為詞頻、詞序和詞長(zhǎng)的權(quán)重,搜索結(jié)果集R中總條目數(shù)為N,分詞集中某個(gè)分詞Si在搜索結(jié)果中的詞頻數(shù)為k,d為分詞在詞條中的詞序,長(zhǎng)度為L(zhǎng)S,RN長(zhǎng)度為L(zhǎng)R,M為分詞集合中分詞的數(shù)量,W為總權(quán)重,各權(quán)重的計(jì)算公式為:

        WF=1-[kN+1]? ?(1)

        WD=[dM12]? ? ? ? ? ? ? ?(2)

        WL=[LSLR]? ? ? ? ? ? ? ? ? ? ? ? (3)

        W=WF·WD·WL? ? ? ?(4)

        按照公式(1)~(4)對(duì)匹配向量[S]和[R]中的每個(gè)分詞項(xiàng)計(jì)算匹配權(quán)重,匹配向量按權(quán)重調(diào)整為[S]=(WS1S1,WS2S2,…,WS3Sm),[R]=(WU1U1,WU2U2,…,WUmUm)。

        構(gòu)建完成集合后,將關(guān)鍵詞S集合、搜索結(jié)果Ri分別與集合Sim進(jìn)行匹配,按照匹配結(jié)果形成m維的匹配向量[S]=(S1,S2,…,Sm)和[R]=(U1,U2,…,Um)。匹配相似度[ρ]按公式(5)計(jì)算:

        [ρ]=[1mWSiSiWUiUi1m(WSiSi)21m(WUiUi)2]? ? ? ? ?(5)

        在計(jì)算獲得每個(gè)檢索的匹配相似度后,將所有的搜索結(jié)果按匹配相似度排序,并根據(jù)不同的情況將搜索結(jié)果分為準(zhǔn)確搜索結(jié)果、推薦結(jié)果及偽結(jié)果三類。準(zhǔn)確搜索結(jié)果和推薦結(jié)果將推送給檢索服務(wù)模塊,通過(guò)封裝后傳輸?shù)秸?qǐng)求方,偽命中結(jié)果將被系統(tǒng)直接拋棄,減少不必要的干擾項(xiàng)。

        2 結(jié)果與分析

        2. 1 地理匹配引擎實(shí)現(xiàn)與應(yīng)用效果

        本研究中地理匹配引擎由檢索服務(wù)、全文檢索及檢索數(shù)據(jù)庫(kù)3個(gè)模塊構(gòu)成(圖4)。其中,檢索服務(wù)提供地理匹配引擎的各類服務(wù)接口,全文檢索主要負(fù)責(zé)實(shí)現(xiàn)地名的高效檢索與準(zhǔn)確匹配,檢索數(shù)據(jù)庫(kù)存放各類基礎(chǔ)信息。

        目前,地理匹配引擎已完成開(kāi)發(fā),并應(yīng)用于廣西糖業(yè)大數(shù)據(jù)平臺(tái),在大數(shù)據(jù)平臺(tái)中引擎提供了地名搜索、POI搜索、地址搜索等一系列服務(wù)。在Web、移動(dòng)客戶端等跨平臺(tái)服務(wù)應(yīng)用上,通過(guò)JSON與XML方式封裝的服務(wù)可將功能提供給其他糖業(yè)應(yīng)用平臺(tái)及移動(dòng)調(diào)查終端使用。已有測(cè)試結(jié)果顯示,地理匹配引擎性能穩(wěn)定,取得了很好的應(yīng)用效果。圖5是地理匹配引擎在廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)中的具體應(yīng)用示例,左側(cè)上部的搜索欄為地名搜索的輸入接口,列表為根據(jù)地名關(guān)鍵詞搜索返回的信息匹配結(jié)果,右側(cè)地圖模塊將匹配結(jié)果按具體坐標(biāo)位置逐一標(biāo)注,方便用戶查看信息的地理分布及具體內(nèi)容。除直接調(diào)用方式外,還可通過(guò)服務(wù)接口調(diào)用地理匹配引擎以實(shí)現(xiàn)信息的自動(dòng)化匹配。

        2. 2 分詞方法測(cè)試與分析

        本研究在開(kāi)發(fā)測(cè)試環(huán)境下進(jìn)行,軟件環(huán)境配置為Windows server 2008、Solr 6.6、JDK1.7和MySQ L5.7,硬件配置為E7-4830、32GB內(nèi)存,測(cè)試數(shù)據(jù)為收集到廣西全區(qū)范圍內(nèi)的15484條含有名址的文本屬性數(shù)據(jù),壓力測(cè)試工具為L(zhǎng)oadRunner 12.02。地理匹配引擎使用改進(jìn)后的分詞算法實(shí)現(xiàn)地名分詞器,基于Java語(yǔ)言開(kāi)發(fā),地名分詞處理過(guò)程主要包括詞典加載、地名預(yù)處理和地名分詞3個(gè)部分。

        本研究對(duì)比了Solr分詞器與改進(jìn)分詞器的應(yīng)用效果,通過(guò)樣例具體分析兩個(gè)分詞器的效能差異(表1)。在對(duì)比測(cè)試中,發(fā)現(xiàn)Solr自帶的中文分詞器對(duì)廣西區(qū)內(nèi)地名的分詞準(zhǔn)確率不高,特別是對(duì)壯語(yǔ)地名不能按實(shí)際語(yǔ)義正確切分,除了市一級(jí)地名外,其他地名均被分割為沒(méi)有實(shí)際語(yǔ)義的單字,破壞了地名地址含義的層次性。產(chǎn)生上述問(wèn)題的主要原因是Solr默認(rèn)的分詞詞典僅包含一般地名,在分詞算法上未針對(duì)地名的語(yǔ)義結(jié)構(gòu)進(jìn)行相應(yīng)優(yōu)化。而改進(jìn)后的分詞器除了算法以外,還針對(duì)上述問(wèn)題進(jìn)行如下改進(jìn):(1)詞典加載。詞典是地名分詞器進(jìn)行分詞的基礎(chǔ),系統(tǒng)中加載的詞典包括主詞典、量詞詞典和擴(kuò)展詞典。針對(duì)廣西地名的壯族語(yǔ)言特點(diǎn),例如那坡縣、那馬鎮(zhèn)、那弄村等專有名詞,通過(guò)擴(kuò)展詞典進(jìn)行補(bǔ)充。(2)地名預(yù)處理,主要針對(duì)關(guān)鍵詞中的英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)等非漢字部分進(jìn)行規(guī)范化處理,完成全角字符到半角字符的轉(zhuǎn)換,對(duì)可能存在的非法字符進(jìn)行清洗處理。在樣例對(duì)比中,對(duì)不規(guī)范的①號(hào)中含有的全角字符進(jìn)行清洗。(3)地名分詞,即搜索過(guò)程的關(guān)鍵環(huán)節(jié)。由于地名特點(diǎn),不同的算法會(huì)產(chǎn)生不同的分詞結(jié)果,導(dǎo)致出現(xiàn)搜索歧義,影響匹配引擎的匹配效率。在地名分詞過(guò)程中遵循以下原則:一是分詞過(guò)程中盡可能完整解析出包含地名的部分;二是分詞過(guò)程中盡可能保留最大語(yǔ)義分詞;三是對(duì)于關(guān)鍵詞中的數(shù)字與英文部分直接保留不進(jìn)行拆分。對(duì)比測(cè)試結(jié)果表明,上述改進(jìn)已達(dá)到預(yù)期目的,切分的地名能正確識(shí)別壯語(yǔ)地名并且符合地名語(yǔ)義特點(diǎn)。

        2. 3 匹配準(zhǔn)確率分析

        匹配準(zhǔn)確率包含匹配準(zhǔn)確度和空間精度兩個(gè)方面,其中,匹配準(zhǔn)確度是指關(guān)鍵詞與地名在文本上是否正確匹配,空間精度是指匹配后的空間定位精度是否與關(guān)鍵詞的地理位置相一致。地理匹配流程如圖6所示。

        匹配準(zhǔn)確率是地理匹配引擎的重要指標(biāo),由于本測(cè)試數(shù)據(jù)來(lái)源于人工填報(bào),在填報(bào)過(guò)程中對(duì)名址的書(shū)寫(xiě)未進(jìn)行標(biāo)準(zhǔn)化約束,部分信息中的地名不規(guī)范或存在錯(cuò)別字。測(cè)試過(guò)程中對(duì)比了傳統(tǒng)的SQL語(yǔ)句匹配法、Solr默認(rèn)分詞搜索方法與改進(jìn)后的算法,從表2可看出,經(jīng)過(guò)改進(jìn)后的匹配算法準(zhǔn)確率最高,正確匹配15241條,匹配成功率達(dá)98.43%。243條數(shù)據(jù)無(wú)法匹配和錯(cuò)誤匹配,其中,錯(cuò)誤匹配87條,占比0.56%,主要是個(gè)別地名地址數(shù)據(jù)在錄入階段出現(xiàn)文字錯(cuò)誤,導(dǎo)致分詞存在歧義,如“大明紙業(yè)有限公司”被錯(cuò)誤記錄為“大名紙業(yè)有限公司”;無(wú)法匹配的數(shù)據(jù)156條,占比1.01%,主要是存在地名數(shù)據(jù)庫(kù)中沒(méi)有的新地名,說(shuō)明在現(xiàn)有搜索匹配算法下,制約搜索準(zhǔn)確率的主要原因是地名庫(kù)中數(shù)據(jù)的豐富程度。在空間匹配精度方面,13704條地名地址能夠?qū)崿F(xiàn)準(zhǔn)確定位,1537條數(shù)據(jù)僅能實(shí)現(xiàn)大致定位。經(jīng)過(guò)具體分析,不能準(zhǔn)確定位的數(shù)據(jù)主要集中在農(nóng)村地區(qū),具體原因是大多數(shù)農(nóng)村地址缺乏具體的門(mén)牌編號(hào),地址的最小單元一般為自然村或屯,導(dǎo)致定位無(wú)法精確到具體空間位置。

        2. 4 檢索效率分析

        地理匹配引擎在準(zhǔn)確檢索的前提下必須具備高并發(fā)下良好的響應(yīng)速度。為測(cè)試改進(jìn)后地理匹配引擎的效率,使用LoadRunner分別模擬100、300和500并發(fā)訪問(wèn)效果進(jìn)行對(duì)比試驗(yàn),結(jié)果如表3所示,3種搜索方法中Solr默認(rèn)引擎在各種模擬條件下的搜索響應(yīng)速度最快,本研究中使用的引擎速度次之,二者在500并發(fā)情況下均能獲得較好的搜索響應(yīng)速度,對(duì)用戶搜索體驗(yàn)未產(chǎn)生明顯影響。在實(shí)際應(yīng)用中,地理匹配引擎將被部署到高性能服務(wù)器集群,500并發(fā)搜索響應(yīng)時(shí)間能降至100 ms以內(nèi)。

        3 討論

        本研究從實(shí)際應(yīng)用需求出發(fā),設(shè)計(jì)并實(shí)現(xiàn)了適用于廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)的農(nóng)業(yè)信息地理匹配引擎。其中,全文檢索模塊采用開(kāi)源軟件,開(kāi)發(fā)成本低廉、擴(kuò)展性好。通過(guò)擴(kuò)充廣西壯語(yǔ)地名詞典、改進(jìn)地名匹配規(guī)則及排序算法,使地理匹配引擎適應(yīng)廣西區(qū)域地名地址搜索需求,經(jīng)過(guò)第三方實(shí)際業(yè)務(wù)數(shù)據(jù)測(cè)試驗(yàn)證,系統(tǒng)相比原有基于SQL語(yǔ)句的檢索與默認(rèn)的Solr引擎,在保證匹配速度的同時(shí)提高了匹配精度,完全能夠滿足廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)的應(yīng)用需求。

        在王俊超等(2012)研究成果的基礎(chǔ)上,本研究總結(jié)了地名匹配的主要規(guī)則,針對(duì)地名語(yǔ)義的分詞進(jìn)行算法改進(jìn)與優(yōu)化,設(shè)計(jì)了逆向地名分詞算法,使分詞結(jié)果更加符合地名語(yǔ)義。經(jīng)過(guò)對(duì)比測(cè)試分析,發(fā)現(xiàn)面向普通文本的分詞引擎對(duì)廣西區(qū)內(nèi)地名分詞一般破壞了實(shí)際地名語(yǔ)義,而改進(jìn)后的分詞算法能按地名語(yǔ)義完成分詞,匹配精度從75.19%提高到98.43%。在匹配及排序算法上,參考了公冶小燕等(2017)、武永亮等(2017)、葉敏等(2017)的研究成果,針對(duì)壯語(yǔ)地名與地名地址數(shù)據(jù)特點(diǎn)進(jìn)一步改進(jìn)TF-IDF匹配算法,通過(guò)權(quán)重提高模糊搜索的準(zhǔn)確率,降低了偽命中項(xiàng)對(duì)匹配精度的影響程度。通過(guò)15484條數(shù)據(jù)測(cè)試結(jié)果表明,與陳利燕等(2016)基于開(kāi)源Lucene構(gòu)建的地理匹配引擎相比,本研究開(kāi)發(fā)的方法將匹配精度從91.00%提高到98.43%;在匹配效率方面,改進(jìn)算法增加了計(jì)算步驟,計(jì)算量增大,500并發(fā)條件下,平均響應(yīng)時(shí)間由373 ms增加到541 ms,匹配速率有所下降,但考慮到測(cè)試環(huán)境設(shè)備計(jì)算能力遠(yuǎn)低于實(shí)際運(yùn)行環(huán)境,在實(shí)際應(yīng)用中不會(huì)對(duì)用戶體驗(yàn)造成不良影響。

        本研究不足之處主要表現(xiàn)為:檢索詞庫(kù)依賴于靜態(tài)詞庫(kù),需要定期更新才能保證檢索精度;缺乏聯(lián)系上下文的地名推理能力,對(duì)用戶輸入過(guò)程中的人為錯(cuò)誤無(wú)法進(jìn)行自動(dòng)糾正;匹配排序權(quán)重主要與語(yǔ)義相關(guān),不能根據(jù)用戶匹配頻率動(dòng)態(tài)調(diào)整排序,無(wú)法使排序結(jié)果符合大多數(shù)用戶的預(yù)期目標(biāo)。

        4 建議

        4. 1 擴(kuò)充并完善詞庫(kù)內(nèi)容

        從測(cè)試結(jié)果來(lái)看,影響匹配準(zhǔn)確率的關(guān)鍵因素是詞庫(kù)數(shù)據(jù)的豐富程度。目前引擎使用的是靜態(tài)詞庫(kù),數(shù)據(jù)需要定期更新,且涉及農(nóng)村地區(qū)的信息,地址的最小粒度一般為自然村或屯,缺少具體的門(mén)牌號(hào),影響了定位的空間精度。在下一步的工作中,一是需要進(jìn)一步完善廣西全區(qū)的地名地址庫(kù),尤其是加強(qiáng)對(duì)農(nóng)村地區(qū)地址數(shù)據(jù)的采集與補(bǔ)充工作;二是研究從民政、公安、電力、工商及互聯(lián)網(wǎng)等多種數(shù)據(jù)來(lái)源動(dòng)態(tài)提取地址數(shù)據(jù),實(shí)現(xiàn)地名詞庫(kù)的多源數(shù)據(jù)更新,確保已經(jīng)實(shí)際編號(hào)的地址及時(shí)聯(lián)動(dòng)更新入庫(kù);三是擴(kuò)充地址表達(dá)的維度,研究并制定一套適用于不同粒度的地址表達(dá)方式,形成規(guī)范的地址層級(jí)結(jié)構(gòu)。

        4. 2 增強(qiáng)語(yǔ)義推理能力

        當(dāng)前的匹配精度主要依賴文本匹配,對(duì)于因人為輸入錯(cuò)誤的地名缺乏語(yǔ)義糾錯(cuò)能力,對(duì)于兩個(gè)以上分詞出現(xiàn)錯(cuò)誤的文本一般無(wú)法正確匹配;此外,對(duì)數(shù)據(jù)庫(kù)中不存在的地名切分準(zhǔn)確率較低。針對(duì)上述問(wèn)題,應(yīng)研究新的算法和數(shù)據(jù)組織模式,綜合考慮信息來(lái)源、用戶訪問(wèn)IP地址、用戶檢索習(xí)慣及信息類別等多源數(shù)據(jù)分析信息的潛在語(yǔ)義,在潛在語(yǔ)義基礎(chǔ)上總結(jié)其與潛在地名的關(guān)聯(lián)規(guī)則,增強(qiáng)聯(lián)合上下文推理地名的能力,從而實(shí)現(xiàn)識(shí)別潛在地名并進(jìn)行正確匹配。

        4. 3 研究基于空間語(yǔ)義的定位算法

        目前的匹配引擎可做到精確的點(diǎn)到點(diǎn)匹配,但缺乏處理復(fù)雜的語(yǔ)義匹配與語(yǔ)義定位能力,對(duì)語(yǔ)義方位上進(jìn)行定位精度較低。盡管Solr本身具有空間語(yǔ)義搜索能力,但對(duì)于“村委會(huì)斜對(duì)面”此類以地標(biāo)作為參照物的空間表述,僅能做到范圍定位,不能根據(jù)建筑物的坐落方位、圍墻隔離及街道走向等空間語(yǔ)義來(lái)精確確定匹配位置。因此,需進(jìn)一步研究改進(jìn)算法,研發(fā)理解人類思維的空間語(yǔ)義定位方法,提高此類信息的定位精度。

        參考文獻(xiàn):

        柴潔. 2014. 基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實(shí)現(xiàn)[J]. 城市勘測(cè),(6): 45-50. [Chai J. 2014. Research and implementation of Chinese search engine in geocoding based on IKAnalyzer and Lucene[J]. Urban Geotechnical Investigation & Surveying,(6): 45-50.]

        陳德權(quán). 2013. GIS地名搜索系統(tǒng)的關(guān)鍵技術(shù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 測(cè)繪與空間地理信息,36(8): 58-60. [Chen D Q. 2013. Design and implementation of key technologies for GIS place search system[J]. Geomatics & Spatial Information Technology, 36(8): 58-60.]

        陳利燕, 林鴻, 張新長(zhǎng). 2016. 一種改進(jìn)的Lucene算法及在空間數(shù)據(jù)融合中的應(yīng)用[J]. 測(cè)繪通報(bào),(10):106-109. [Chen L Y, Lin H, Zhang X C. 2016. An improved Lucene algorithm and its application to spatial data fusion[J]. Bulletin of Surveying and Mapping,(10):106-109.]

        程鋼, 盧小平. 2014. 顧及通名語(yǔ)義的漢語(yǔ)地名相似度匹配算法[J]. 測(cè)繪學(xué)報(bào),43(4): 404-410. [Cheng G, Lu X P. 2014. Matching algorithm for Chinese place names by similarity in consideration of semantics of general names for place[J]. Acta Geodaetica et Cartographica Sinica, 43(4): 404-410.]

        公冶小燕, 林培光, 任威隆, 張晨, 張春云. 2017. 基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)),53(6): 1072-1080. [Gongye X Y,Lin P G,Ren W L,Zhang C,Zhang C Y. 2017. A method of extracting subject words based on improved TF-IDF algorithm and co-occurrence words[J]. Journal of Nanjing University(Natural Science), 53(6): 1072-1080.]

        梁明, 羅榮, 胡最. 2014. 基于Lucene和PostGIS的地圖搜索研究[J]. 測(cè)繪通報(bào),(11): 42-45. [Liang M, Luo R, Hu Z. Map search based on Lucene and PostGIS[J]. Bulletin of Surveying and Mapping,(11): 42-45.]

        馬照亭, 李志剛, 孫偉, 印潔. 2011. 一種基于地址分詞的自動(dòng)地理編碼算法[J]. 測(cè)繪通報(bào),(2): 59-62. [Ma Z T, Li Z G,Sun W,Yin J. 2011. An automatic geocoding algorithm based on address segmentation[J]. Bulletin of Surveying and Mapping,(2): 59-62.]

        唐旭日,陳小荷,張雪英. 2010. 中文文本的地名解析方法研究[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),35(8): 930-935. [Tang X R,Chen X H,Zhang X Y. 2010. Research on toponym resolution in Chinese text[J]. Geomatics and Information Science of Wuhan University,35(8):930-935.]

        王俊超, 劉晨帆, 徐明世, 紀(jì)山, 蘭偉. 2012. 語(yǔ)義相似性度量技術(shù)在地名匹配研究中的應(yīng)用[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),31(6): 871-874. [Wang J C, Liu C F,Xu M S, Ji S,Lan W. 2012. Application of semantic similarity measurement technology in place name ma-tching[J]. Journal of Liaoning Technical University(Natural Science), 31(6): 871-874.]

        武永亮, 趙書(shū)良, 李長(zhǎng)鏡, 魏娜娣, 王子晏. 2017. 基于TF-IDF和余弦相似度的文本分類方法[J]. 中文信息學(xué)報(bào), 31(5):138-145. [Wu Y L, Zhao S L,Li C J,Wei N D,Wang Z Y. Text classification method based on TF-IDF and cosine similarity[J]. Journal of Chinese Information Processing, 31(5): 138-145.]

        夏蘭芳,毛煒青,郭功舉. 2012. 上海城市地理編碼系統(tǒng)應(yīng)用與研究[J]. 測(cè)繪通報(bào),(1):78-80. [Xia L F, Mao W Q, Guo G J. 2012. The application and research of geoco-ding system based on the city of Shanghai[J]. Bulletin of Surveying and Mapping,(1):78-80.]

        徐道柱,焦洋洋,蘇雪梅. 2017. 基于Lucene的地名管理模型設(shè)計(jì)與實(shí)現(xiàn)[J]. 測(cè)繪與空間地理信息,40(3):6-10. [Xu D Z,Jiao Y Y,Su X M. 2017. Design and implementation of toponym management model based on Lucene[J]. Geomatics & Spatial Information Technology,40(3):6-10.]

        葉敏,湯世平,牛振東. 2017. 一種基于多特征因子改進(jìn)的中文文本分類算法[J]. 中文信息學(xué)報(bào),31(4): 132-137. [Ye M,Tang S P,Niu Z D. 2017. An improved Chinese text classification algorithm based on multiple feature factors[J]. Journal of Chinese Information Processing,31(4): 132-137.]

        俞敬松, 王惠臨, 楊潔. 2016. 大規(guī)模地名本體數(shù)據(jù)庫(kù)系統(tǒng)的建構(gòu)技術(shù)與方法[J]. 圖書(shū)情報(bào)工作,60(8): 126-131. [Yu J S,Wang H L,Yang J. 2016. Research on large-scale toponym ontology database construction techniques and methods[J]. Library and Information Serivce,60(8): 126-131.]

        朱少楠,張雪英,李明,王宇. 2013. 基于行政隸屬關(guān)系樹(shù)狀圖的地名消歧方法[J]. 地理與地理信息科學(xué), 29(3): 39-42. [Zhu S N,Zhang X Y,Li M,Wang Y. 2013. Topo-nym disambiguation based on administrative district relation tree[J]. Geography and Geo-Information Science,29(3): 39-42.]

        鄒崇堯,朱貴方,趙雙明. 2014. 基于搜索引擎技術(shù)的地名地址定制查詢研究[J]. 測(cè)繪通報(bào),(8): 92-94. [Zou C Y, Zhu G F, Zhao S M. 2014. Research on customized query of geographic name and address based on search engine[J]. Bulletin of Surveying and Mapping,(8): 92-94.]

        (責(zé)任編輯 鄧慧靈)

        猜你喜歡
        分詞引擎語(yǔ)義
        語(yǔ)言與語(yǔ)義
        結(jié)巴分詞在詞云中的應(yīng)用
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        值得重視的分詞的特殊用法
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        無(wú)形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于Cocos2d引擎的PuzzleGame開(kāi)發(fā)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
        久久婷婷国产色一区二区三区| 国产精品嫩草影院av| 欧美v亚洲v日韩v最新在线| 国产亚洲午夜精品| 少妇被日到高潮的视频| 青青草视频在线观看绿色| 日本一区二区高清视频在线播放| 国产午夜精品久久精品| 精品国产一区二区三区三| 成人影院yy111111在线| 激情 人妻 制服 丝袜| 国产精品欧美韩国日本久久| 国内精品嫩模av私拍在线观看| 国产91久久麻豆黄片| 少妇熟女天堂网av| 在线永久免费观看黄网站| 中文字幕国产精品中文字幕| 狼人狠狠干首页综合网| 久久久精品毛片免费观看| 欧美乱大交xxxxx潮喷| 国产成人精品av| 三级全黄的视频在线观看| 少妇人妻av一区二区三区| 欧美成人精品第一区| 久久无码专区国产精品s| 中字无码av电影在线观看网站| 国产一区二区三区四区色| 国产亚洲午夜精品久久久| 国产亚洲精品久久久闺蜜 | 中文字幕一区二区人妻出轨| 99精品国产成人一区二区在线| 一本久道久久丁香狠狠躁| 国产成人亚洲精品无码青| 国产在线视频一区二区三区| 国产精品原创av片国产日韩| 69久久精品亚洲一区二区| 亚洲一区二区二区视频| 人人爽久久涩噜噜噜av| 国产乱人伦偷精品视频免| 国产精品久久婷婷六月 | 一区二区三区中文字幕有码|