廣西農(nóng)業(yè)信息地理匹配引擎設(shè)計(jì)與實(shí)現(xiàn)

2019-09-10 07:22:44朱明何永寧吳博

南方農(nóng)業(yè)學(xué)報(bào) 2019年1期

朱明何永寧吳博

摘要：【目的】研究高并發(fā)、大流量農(nóng)業(yè)信息地理匹配引擎，改進(jìn)其算法，解決廣西區(qū)內(nèi)壯語(yǔ)地名匹配問(wèn)題，實(shí)現(xiàn)農(nóng)業(yè)信息的自動(dòng)匹配與空間定位，以滿足農(nóng)業(yè)大數(shù)據(jù)平臺(tái)高并發(fā)、大流量的地理匹配需求。?！痉椒ā客ㄟ^(guò)改造開(kāi)源的Solr全文搜索引擎，結(jié)合廣西地名中的少數(shù)民族語(yǔ)言特點(diǎn)，擴(kuò)充地名詞典、設(shè)計(jì)數(shù)據(jù)組織方式與逆向分詞算法、改進(jìn)TF-IDF算法?！窘Y(jié)果】在改進(jìn)方法的基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了農(nóng)業(yè)地理信息地理匹配引擎。經(jīng)過(guò)第三方15484條數(shù)據(jù)測(cè)試，能夠準(zhǔn)確切分壯語(yǔ)地名，引擎在500并發(fā)下仍具有良好的響應(yīng)速度，匹配準(zhǔn)確率達(dá)98.43%。地理匹配引擎目前已應(yīng)用到糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)中，并取得了良好的效果?！窘ㄗh】針對(duì)測(cè)試中出現(xiàn)的問(wèn)題，建議在下一步工作中擴(kuò)充并完善詞庫(kù)內(nèi)容、增強(qiáng)語(yǔ)義推理能力、研究基于空間語(yǔ)義的定位算法，提高廣西農(nóng)業(yè)信息的定位精度。

關(guān)鍵詞：農(nóng)業(yè)信息;地理匹配引擎;地名分詞;地名檢索;地名匹配算法;廣西

中圖分類號(hào)： S126;P208? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)志碼： A 文章編號(hào)：2095-1191（2019）01-0201-07

0 引言

【研究意義】數(shù)據(jù)處理是農(nóng)業(yè)地理信息系統(tǒng)建設(shè)的主要工作之一。在農(nóng)業(yè)大數(shù)據(jù)時(shí)代，人工處理數(shù)據(jù)成本高、效率低，難以滿足面向海量數(shù)據(jù)的實(shí)際應(yīng)用需求。地理匹配引擎能根據(jù)農(nóng)業(yè)信息中的地名快速匹配空間位置，批量完成數(shù)據(jù)的空間化處理，為農(nóng)業(yè)地理信息系統(tǒng)的開(kāi)發(fā)與應(yīng)用帶來(lái)極大的便利。在建設(shè)廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)過(guò)程中，通過(guò)研發(fā)高效、準(zhǔn)確的農(nóng)業(yè)信息地理匹配引擎技術(shù)，利用匹配引擎自動(dòng)完成海量農(nóng)業(yè)信息的空間定位，能有效解決壯語(yǔ)地名匹配問(wèn)題，實(shí)現(xiàn)提高系統(tǒng)效能，降低人工處理數(shù)據(jù)成本，改善用戶體驗(yàn)等建設(shè)目標(biāo)?！厩叭搜芯窟M(jìn)展】在早期的地理匹配系統(tǒng)中，地理匹配一般利用通配符匹配，使用通配符構(gòu)建SQL搜索語(yǔ)句進(jìn)行模糊查詢。陳德權(quán)（2013）、梁明等（2014）研究表明使用通配符匹配簡(jiǎn)單易行、實(shí)現(xiàn)難度較小，在數(shù)據(jù)量與用戶并發(fā)量較小的情況下效率較高。但由于使用通配符進(jìn)行查詢，在數(shù)據(jù)大幅增加后查詢效率下降明顯，且對(duì)于非標(biāo)準(zhǔn)名址無(wú)法通過(guò)簡(jiǎn)單的模糊匹配檢索到相關(guān)結(jié)果。針對(duì)上述問(wèn)題，柴潔（2014）、徐道柱等（2017）提出了基于全文搜索引擎的地理編碼系統(tǒng)，實(shí)現(xiàn)了地址匹配搜索引擎模糊查詢、分級(jí)搜索，但未對(duì)中文分詞算法作進(jìn)一步完善，制約了中文地名匹配的準(zhǔn)確率。馬照亭等（2011）、夏蘭芳等（2012）總結(jié)認(rèn)為地名分詞器的關(guān)鍵技術(shù)是通過(guò)地名分詞算法、詞庫(kù)與分詞處理，將搜索關(guān)鍵詞按語(yǔ)義切分為包含若干地址要素或名稱要素。鄒崇堯等（2014）、陳利燕等（2016）、俞敬松等（2016）研究表明，地名匹配過(guò)程中由于中文本身的復(fù)雜性及地址信息描述規(guī)則的不確定性，使中文地名分詞成為地理匹配引擎中的技術(shù)難點(diǎn)。上述研究一定程度上解決了地理匹配技術(shù)難點(diǎn)，有效提高了匹配準(zhǔn)確率，但均屬于實(shí)驗(yàn)性質(zhì)或面向小型應(yīng)用系統(tǒng)，未在大、中型系統(tǒng)上進(jìn)行應(yīng)用驗(yàn)證?！颈狙芯壳腥朦c(diǎn)】目前針對(duì)廣西地名的高性能地名匹配引擎的研究，以及滿足省級(jí)農(nóng)業(yè)大數(shù)據(jù)平臺(tái)地理匹配關(guān)鍵技術(shù)的研究較少，特別是缺乏投入實(shí)際應(yīng)用的地理匹配引擎?！緮M解決的關(guān)鍵問(wèn)題】通過(guò)改進(jìn)地名分詞技術(shù)、地名匹配算法，研發(fā)高性能農(nóng)業(yè)信息地理匹配引擎，解決壯語(yǔ)地名識(shí)別率低、地名匹配破壞實(shí)際地名語(yǔ)義等問(wèn)題，實(shí)現(xiàn)農(nóng)業(yè)大數(shù)據(jù)的空間定位與自動(dòng)匹配，降低數(shù)據(jù)采集成本，以滿足農(nóng)業(yè)大數(shù)據(jù)平臺(tái)高并發(fā)、大流量的地理匹配需求。

1 數(shù)據(jù)來(lái)源與研究方法

1. 1 數(shù)據(jù)收集與處理

地理匹配引擎中地名數(shù)據(jù)來(lái)源于廣西基礎(chǔ)地理信息數(shù)據(jù)庫(kù)，由地名、POI（Point of interest）、同義詞及品牌詞等數(shù)據(jù)組成。數(shù)據(jù)的采集與更新時(shí)間為2018年3月，總計(jì)106萬(wàn)條數(shù)據(jù)量，覆蓋廣西全部14個(gè)地市。各數(shù)據(jù)系統(tǒng)的關(guān)系如圖1所示，數(shù)據(jù)主要存放在POI和（區(qū)劃）地名數(shù)據(jù)表中，兩個(gè)表中的數(shù)據(jù)按照標(biāo)準(zhǔn)地名與地址數(shù)據(jù)結(jié)構(gòu)組織，具有規(guī)整的層次結(jié)構(gòu)，能有效反映地名的所在位置與從屬關(guān)系，是地理匹配引擎的主要檢索對(duì)象。但在實(shí)際應(yīng)用中，用戶輸入的歷史地名、俗稱、簡(jiǎn)稱等不能與標(biāo)準(zhǔn)地名地址準(zhǔn)確匹配。為了解決實(shí)際應(yīng)用中的品牌與同義問(wèn)題，本研究在數(shù)據(jù)設(shè)計(jì)上增加了品牌詞和同義詞數(shù)據(jù)表。其中，品牌詞數(shù)據(jù)表記錄明確帶有企業(yè)品牌名稱的關(guān)鍵詞，主要用于分類搜索與關(guān)聯(lián)搜索;同義詞數(shù)據(jù)表記錄同義地名，以提高搜索準(zhǔn)確率并貼近用戶日常使用習(xí)慣。POI數(shù)據(jù)、品牌詞數(shù)據(jù)和同義詞數(shù)據(jù)通過(guò)地理實(shí)體編碼與地名數(shù)據(jù)關(guān)聯(lián)。

1. 2 地名匹配算法設(shè)計(jì)

地名搜索模塊是地理匹配引擎的核心，關(guān)鍵技術(shù)是地名分詞算法、地名搜索匹配算法與排序算法的設(shè)計(jì)。搜索模塊基于開(kāi)源的Solr搜索引擎開(kāi)發(fā)而成，Solr是基于JAVA開(kāi)發(fā)的開(kāi)源全文搜索引擎，能夠提供基礎(chǔ)的全文檢索API與服務(wù)框架，支持二次開(kāi)發(fā)，具有良好的算法擴(kuò)展性。

1. 2. 1 地名分詞算法設(shè)計(jì) 王俊超等（2012）對(duì)中文地名分詞的研究證明，采用逆向分詞方法的準(zhǔn)確率高于正向分詞。為提高分詞準(zhǔn)確率，本研究設(shè)計(jì)了地名逆向分詞算法，算法具體分為4個(gè)步驟。步驟[①]：初始化分詞集，即分詞處理隊(duì)列與分詞回收棧，并將搜索關(guān)鍵詞的字符逐個(gè)輸入分詞處理隊(duì)列。步驟[②]：將分詞處理隊(duì)列中所有字符作為一個(gè)單詞與詞典匹配，如果匹配成功，則將單詞輸出到分詞集，然后跳轉(zhuǎn)到步驟[③];如果無(wú)匹配結(jié)果則首字符出隊(duì)，出隊(duì)字符輸出到分詞回收棧并繼續(xù)重復(fù)本步驟。步驟[③]：如果分詞回收棧為空，則跳轉(zhuǎn)到步驟[④]，否則將分詞回收棧中的字符出棧并逐個(gè)輸入到分詞處理隊(duì)列，并跳轉(zhuǎn)回到步驟[②]。步驟[④]：輸出分詞集，結(jié)束分詞處理過(guò)程。

1. 2. 2 地名搜索匹配與排序算法地名搜索匹配與排序算法的主要步驟是構(gòu)建相似度計(jì)算分詞集、分詞權(quán)重，并計(jì)算匹配相似度。構(gòu)建相似度計(jì)算分詞集是計(jì)算匹配相似度的基礎(chǔ)，地理匹配引擎利用Solr的全文檢索能力進(jìn)行地名匹配，將含有i個(gè)分詞的集合S={S1，S2，…，Si}進(jìn)行全文檢索，并返回所有有分詞匹配的結(jié)果，形成搜索結(jié)果集R={R1，R2，…，Rn}。匹配相似度計(jì)算采用向量空間模型算法，先從結(jié)果集R中逐條取出搜索結(jié)果，將取出的第i個(gè)搜索結(jié)果Ri按匹配的分詞打斷為幾部分，并將打斷部分取出構(gòu)成Rn的未匹配分詞集T={T1，T2，…，Tj}，匹配部分構(gòu)成詞集P={P1，P2，…，Pk}，Rn的分詞集為Rn=T∪P;將分詞集S與T合并構(gòu)建為含m個(gè)分詞的相似度計(jì)算集合Sim={S1，S2，…，Si，T1，T2，…，Tj}，構(gòu)建過(guò)程如圖3所示。

Solr采用的是詞頻—逆文檔頻率（Term frequency-inverse focument grequency，TF-IDF）搜索權(quán)重算法。唐旭日等（2010）、朱少楠等（2013）、程鋼和盧小平（2014）研究發(fā)現(xiàn)中文地名地址一般由行政區(qū)域、基本區(qū)域限定物和局部點(diǎn)位置3個(gè)部分構(gòu)成，該層次結(jié)構(gòu)決定了中文地址的特征詞一般位于名址詞條的尾部，當(dāng)詞條含有多條分詞時(shí)，處于詞條尾部的分詞一般具有較高的識(shí)別度。針對(duì)中文地名的上述特性，中文地名分詞匹配權(quán)重需要根據(jù)匹配分詞詞頻、詞序和長(zhǎng)度等因素以改進(jìn)默認(rèn)的TF-IDF算法。定義WF、WD和WL分別為詞頻、詞序和詞長(zhǎng)的權(quán)重，搜索結(jié)果集R中總條目數(shù)為N，分詞集中某個(gè)分詞Si在搜索結(jié)果中的詞頻數(shù)為k，d為分詞在詞條中的詞序，長(zhǎng)度為L(zhǎng)S，RN長(zhǎng)度為L(zhǎng)R，M為分詞集合中分詞的數(shù)量，W為總權(quán)重，各權(quán)重的計(jì)算公式為：

WF=1-[kN+1]? ?（1）

WD=[dM12]? ? ? ? ? ? ? ?（2）

WL=[LSLR]? ? ? ? ? ? ? ? ? ? ? ? （3）

W=WF·WD·WL? ? ? ?（4）

按照公式（1）～（4）對(duì)匹配向量[S]和[R]中的每個(gè)分詞項(xiàng)計(jì)算匹配權(quán)重，匹配向量按權(quán)重調(diào)整為[S]=（WS1S1，WS2S2，…，WS3Sm），[R]=（WU1U1，WU2U2，…，WUmUm）。

構(gòu)建完成集合后，將關(guān)鍵詞S集合、搜索結(jié)果Ri分別與集合Sim進(jìn)行匹配，按照匹配結(jié)果形成m維的匹配向量[S]=（S1，S2，…，Sm）和[R]=（U1，U2，…，Um）。匹配相似度[ρ]按公式（5）計(jì)算：

[ρ]=[1mWSiSiWUiUi1m（WSiSi）21m（WUiUi）2]? ? ? ? ?（5）

在計(jì)算獲得每個(gè)檢索的匹配相似度后，將所有的搜索結(jié)果按匹配相似度排序，并根據(jù)不同的情況將搜索結(jié)果分為準(zhǔn)確搜索結(jié)果、推薦結(jié)果及偽結(jié)果三類。準(zhǔn)確搜索結(jié)果和推薦結(jié)果將推送給檢索服務(wù)模塊，通過(guò)封裝后傳輸?shù)秸?qǐng)求方，偽命中結(jié)果將被系統(tǒng)直接拋棄，減少不必要的干擾項(xiàng)。

2 結(jié)果與分析

2. 1 地理匹配引擎實(shí)現(xiàn)與應(yīng)用效果

本研究中地理匹配引擎由檢索服務(wù)、全文檢索及檢索數(shù)據(jù)庫(kù)3個(gè)模塊構(gòu)成（圖4）。其中，檢索服務(wù)提供地理匹配引擎的各類服務(wù)接口，全文檢索主要負(fù)責(zé)實(shí)現(xiàn)地名的高效檢索與準(zhǔn)確匹配，檢索數(shù)據(jù)庫(kù)存放各類基礎(chǔ)信息。

目前，地理匹配引擎已完成開(kāi)發(fā)，并應(yīng)用于廣西糖業(yè)大數(shù)據(jù)平臺(tái)，在大數(shù)據(jù)平臺(tái)中引擎提供了地名搜索、POI搜索、地址搜索等一系列服務(wù)。在Web、移動(dòng)客戶端等跨平臺(tái)服務(wù)應(yīng)用上，通過(guò)JSON與XML方式封裝的服務(wù)可將功能提供給其他糖業(yè)應(yīng)用平臺(tái)及移動(dòng)調(diào)查終端使用。已有測(cè)試結(jié)果顯示，地理匹配引擎性能穩(wěn)定，取得了很好的應(yīng)用效果。圖5是地理匹配引擎在廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)中的具體應(yīng)用示例，左側(cè)上部的搜索欄為地名搜索的輸入接口，列表為根據(jù)地名關(guān)鍵詞搜索返回的信息匹配結(jié)果，右側(cè)地圖模塊將匹配結(jié)果按具體坐標(biāo)位置逐一標(biāo)注，方便用戶查看信息的地理分布及具體內(nèi)容。除直接調(diào)用方式外，還可通過(guò)服務(wù)接口調(diào)用地理匹配引擎以實(shí)現(xiàn)信息的自動(dòng)化匹配。

2. 2 分詞方法測(cè)試與分析

本研究在開(kāi)發(fā)測(cè)試環(huán)境下進(jìn)行，軟件環(huán)境配置為Windows server 2008、Solr 6.6、JDK1.7和MySQ L5.7，硬件配置為E7-4830、32GB內(nèi)存，測(cè)試數(shù)據(jù)為收集到廣西全區(qū)范圍內(nèi)的15484條含有名址的文本屬性數(shù)據(jù)，壓力測(cè)試工具為L(zhǎng)oadRunner 12.02。地理匹配引擎使用改進(jìn)后的分詞算法實(shí)現(xiàn)地名分詞器，基于Java語(yǔ)言開(kāi)發(fā)，地名分詞處理過(guò)程主要包括詞典加載、地名預(yù)處理和地名分詞3個(gè)部分。

本研究對(duì)比了Solr分詞器與改進(jìn)分詞器的應(yīng)用效果，通過(guò)樣例具體分析兩個(gè)分詞器的效能差異（表1）。在對(duì)比測(cè)試中，發(fā)現(xiàn)Solr自帶的中文分詞器對(duì)廣西區(qū)內(nèi)地名的分詞準(zhǔn)確率不高，特別是對(duì)壯語(yǔ)地名不能按實(shí)際語(yǔ)義正確切分，除了市一級(jí)地名外，其他地名均被分割為沒(méi)有實(shí)際語(yǔ)義的單字，破壞了地名地址含義的層次性。產(chǎn)生上述問(wèn)題的主要原因是Solr默認(rèn)的分詞詞典僅包含一般地名，在分詞算法上未針對(duì)地名的語(yǔ)義結(jié)構(gòu)進(jìn)行相應(yīng)優(yōu)化。而改進(jìn)后的分詞器除了算法以外，還針對(duì)上述問(wèn)題進(jìn)行如下改進(jìn)：（1）詞典加載。詞典是地名分詞器進(jìn)行分詞的基礎(chǔ)，系統(tǒng)中加載的詞典包括主詞典、量詞詞典和擴(kuò)展詞典。針對(duì)廣西地名的壯族語(yǔ)言特點(diǎn)，例如那坡縣、那馬鎮(zhèn)、那弄村等專有名詞，通過(guò)擴(kuò)展詞典進(jìn)行補(bǔ)充。（2）地名預(yù)處理，主要針對(duì)關(guān)鍵詞中的英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)等非漢字部分進(jìn)行規(guī)范化處理，完成全角字符到半角字符的轉(zhuǎn)換，對(duì)可能存在的非法字符進(jìn)行清洗處理。在樣例對(duì)比中，對(duì)不規(guī)范的①號(hào)中含有的全角字符進(jìn)行清洗。（3）地名分詞，即搜索過(guò)程的關(guān)鍵環(huán)節(jié)。由于地名特點(diǎn)，不同的算法會(huì)產(chǎn)生不同的分詞結(jié)果，導(dǎo)致出現(xiàn)搜索歧義，影響匹配引擎的匹配效率。在地名分詞過(guò)程中遵循以下原則：一是分詞過(guò)程中盡可能完整解析出包含地名的部分;二是分詞過(guò)程中盡可能保留最大語(yǔ)義分詞;三是對(duì)于關(guān)鍵詞中的數(shù)字與英文部分直接保留不進(jìn)行拆分。對(duì)比測(cè)試結(jié)果表明，上述改進(jìn)已達(dá)到預(yù)期目的，切分的地名能正確識(shí)別壯語(yǔ)地名并且符合地名語(yǔ)義特點(diǎn)。

2. 3 匹配準(zhǔn)確率分析

匹配準(zhǔn)確率包含匹配準(zhǔn)確度和空間精度兩個(gè)方面，其中，匹配準(zhǔn)確度是指關(guān)鍵詞與地名在文本上是否正確匹配，空間精度是指匹配后的空間定位精度是否與關(guān)鍵詞的地理位置相一致。地理匹配流程如圖6所示。

匹配準(zhǔn)確率是地理匹配引擎的重要指標(biāo)，由于本測(cè)試數(shù)據(jù)來(lái)源于人工填報(bào)，在填報(bào)過(guò)程中對(duì)名址的書(shū)寫(xiě)未進(jìn)行標(biāo)準(zhǔn)化約束，部分信息中的地名不規(guī)范或存在錯(cuò)別字。測(cè)試過(guò)程中對(duì)比了傳統(tǒng)的SQL語(yǔ)句匹配法、Solr默認(rèn)分詞搜索方法與改進(jìn)后的算法，從表2可看出，經(jīng)過(guò)改進(jìn)后的匹配算法準(zhǔn)確率最高，正確匹配15241條，匹配成功率達(dá)98.43%。243條數(shù)據(jù)無(wú)法匹配和錯(cuò)誤匹配，其中，錯(cuò)誤匹配87條，占比0.56%，主要是個(gè)別地名地址數(shù)據(jù)在錄入階段出現(xiàn)文字錯(cuò)誤，導(dǎo)致分詞存在歧義，如“大明紙業(yè)有限公司”被錯(cuò)誤記錄為“大名紙業(yè)有限公司”;無(wú)法匹配的數(shù)據(jù)156條，占比1.01%，主要是存在地名數(shù)據(jù)庫(kù)中沒(méi)有的新地名，說(shuō)明在現(xiàn)有搜索匹配算法下，制約搜索準(zhǔn)確率的主要原因是地名庫(kù)中數(shù)據(jù)的豐富程度。在空間匹配精度方面，13704條地名地址能夠?qū)崿F(xiàn)準(zhǔn)確定位，1537條數(shù)據(jù)僅能實(shí)現(xiàn)大致定位。經(jīng)過(guò)具體分析，不能準(zhǔn)確定位的數(shù)據(jù)主要集中在農(nóng)村地區(qū)，具體原因是大多數(shù)農(nóng)村地址缺乏具體的門(mén)牌編號(hào)，地址的最小單元一般為自然村或屯，導(dǎo)致定位無(wú)法精確到具體空間位置。

2. 4 檢索效率分析

地理匹配引擎在準(zhǔn)確檢索的前提下必須具備高并發(fā)下良好的響應(yīng)速度。為測(cè)試改進(jìn)后地理匹配引擎的效率，使用LoadRunner分別模擬100、300和500并發(fā)訪問(wèn)效果進(jìn)行對(duì)比試驗(yàn)，結(jié)果如表3所示，3種搜索方法中Solr默認(rèn)引擎在各種模擬條件下的搜索響應(yīng)速度最快，本研究中使用的引擎速度次之，二者在500并發(fā)情況下均能獲得較好的搜索響應(yīng)速度，對(duì)用戶搜索體驗(yàn)未產(chǎn)生明顯影響。在實(shí)際應(yīng)用中，地理匹配引擎將被部署到高性能服務(wù)器集群，500并發(fā)搜索響應(yīng)時(shí)間能降至100 ms以內(nèi)。

3 討論

本研究從實(shí)際應(yīng)用需求出發(fā)，設(shè)計(jì)并實(shí)現(xiàn)了適用于廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)的農(nóng)業(yè)信息地理匹配引擎。其中，全文檢索模塊采用開(kāi)源軟件，開(kāi)發(fā)成本低廉、擴(kuò)展性好。通過(guò)擴(kuò)充廣西壯語(yǔ)地名詞典、改進(jìn)地名匹配規(guī)則及排序算法，使地理匹配引擎適應(yīng)廣西區(qū)域地名地址搜索需求，經(jīng)過(guò)第三方實(shí)際業(yè)務(wù)數(shù)據(jù)測(cè)試驗(yàn)證，系統(tǒng)相比原有基于SQL語(yǔ)句的檢索與默認(rèn)的Solr引擎，在保證匹配速度的同時(shí)提高了匹配精度，完全能夠滿足廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺(tái)的應(yīng)用需求。

在王俊超等（2012）研究成果的基礎(chǔ)上，本研究總結(jié)了地名匹配的主要規(guī)則，針對(duì)地名語(yǔ)義的分詞進(jìn)行算法改進(jìn)與優(yōu)化，設(shè)計(jì)了逆向地名分詞算法，使分詞結(jié)果更加符合地名語(yǔ)義。經(jīng)過(guò)對(duì)比測(cè)試分析，發(fā)現(xiàn)面向普通文本的分詞引擎對(duì)廣西區(qū)內(nèi)地名分詞一般破壞了實(shí)際地名語(yǔ)義，而改進(jìn)后的分詞算法能按地名語(yǔ)義完成分詞，匹配精度從75.19%提高到98.43%。在匹配及排序算法上，參考了公冶小燕等（2017）、武永亮等（2017）、葉敏等（2017）的研究成果，針對(duì)壯語(yǔ)地名與地名地址數(shù)據(jù)特點(diǎn)進(jìn)一步改進(jìn)TF-IDF匹配算法，通過(guò)權(quán)重提高模糊搜索的準(zhǔn)確率，降低了偽命中項(xiàng)對(duì)匹配精度的影響程度。通過(guò)15484條數(shù)據(jù)測(cè)試結(jié)果表明，與陳利燕等（2016）基于開(kāi)源Lucene構(gòu)建的地理匹配引擎相比，本研究開(kāi)發(fā)的方法將匹配精度從91.00%提高到98.43%;在匹配效率方面，改進(jìn)算法增加了計(jì)算步驟，計(jì)算量增大，500并發(fā)條件下，平均響應(yīng)時(shí)間由373 ms增加到541 ms，匹配速率有所下降，但考慮到測(cè)試環(huán)境設(shè)備計(jì)算能力遠(yuǎn)低于實(shí)際運(yùn)行環(huán)境，在實(shí)際應(yīng)用中不會(huì)對(duì)用戶體驗(yàn)造成不良影響。

本研究不足之處主要表現(xiàn)為：檢索詞庫(kù)依賴于靜態(tài)詞庫(kù)，需要定期更新才能保證檢索精度;缺乏聯(lián)系上下文的地名推理能力，對(duì)用戶輸入過(guò)程中的人為錯(cuò)誤無(wú)法進(jìn)行自動(dòng)糾正;匹配排序權(quán)重主要與語(yǔ)義相關(guān)，不能根據(jù)用戶匹配頻率動(dòng)態(tài)調(diào)整排序，無(wú)法使排序結(jié)果符合大多數(shù)用戶的預(yù)期目標(biāo)。

4 建議

4. 1 擴(kuò)充并完善詞庫(kù)內(nèi)容

從測(cè)試結(jié)果來(lái)看，影響匹配準(zhǔn)確率的關(guān)鍵因素是詞庫(kù)數(shù)據(jù)的豐富程度。目前引擎使用的是靜態(tài)詞庫(kù)，數(shù)據(jù)需要定期更新，且涉及農(nóng)村地區(qū)的信息，地址的最小粒度一般為自然村或屯，缺少具體的門(mén)牌號(hào)，影響了定位的空間精度。在下一步的工作中，一是需要進(jìn)一步完善廣西全區(qū)的地名地址庫(kù)，尤其是加強(qiáng)對(duì)農(nóng)村地區(qū)地址數(shù)據(jù)的采集與補(bǔ)充工作;二是研究從民政、公安、電力、工商及互聯(lián)網(wǎng)等多種數(shù)據(jù)來(lái)源動(dòng)態(tài)提取地址數(shù)據(jù)，實(shí)現(xiàn)地名詞庫(kù)的多源數(shù)據(jù)更新，確保已經(jīng)實(shí)際編號(hào)的地址及時(shí)聯(lián)動(dòng)更新入庫(kù);三是擴(kuò)充地址表達(dá)的維度，研究并制定一套適用于不同粒度的地址表達(dá)方式，形成規(guī)范的地址層級(jí)結(jié)構(gòu)。

4. 2 增強(qiáng)語(yǔ)義推理能力

當(dāng)前的匹配精度主要依賴文本匹配，對(duì)于因人為輸入錯(cuò)誤的地名缺乏語(yǔ)義糾錯(cuò)能力，對(duì)于兩個(gè)以上分詞出現(xiàn)錯(cuò)誤的文本一般無(wú)法正確匹配;此外，對(duì)數(shù)據(jù)庫(kù)中不存在的地名切分準(zhǔn)確率較低。針對(duì)上述問(wèn)題，應(yīng)研究新的算法和數(shù)據(jù)組織模式，綜合考慮信息來(lái)源、用戶訪問(wèn)IP地址、用戶檢索習(xí)慣及信息類別等多源數(shù)據(jù)分析信息的潛在語(yǔ)義，在潛在語(yǔ)義基礎(chǔ)上總結(jié)其與潛在地名的關(guān)聯(lián)規(guī)則，增強(qiáng)聯(lián)合上下文推理地名的能力，從而實(shí)現(xiàn)識(shí)別潛在地名并進(jìn)行正確匹配。

4. 3 研究基于空間語(yǔ)義的定位算法

目前的匹配引擎可做到精確的點(diǎn)到點(diǎn)匹配，但缺乏處理復(fù)雜的語(yǔ)義匹配與語(yǔ)義定位能力，對(duì)語(yǔ)義方位上進(jìn)行定位精度較低。盡管Solr本身具有空間語(yǔ)義搜索能力，但對(duì)于“村委會(huì)斜對(duì)面”此類以地標(biāo)作為參照物的空間表述，僅能做到范圍定位，不能根據(jù)建筑物的坐落方位、圍墻隔離及街道走向等空間語(yǔ)義來(lái)精確確定匹配位置。因此，需進(jìn)一步研究改進(jìn)算法，研發(fā)理解人類思維的空間語(yǔ)義定位方法，提高此類信息的定位精度。

參考文獻(xiàn)：

柴潔. 2014. 基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實(shí)現(xiàn)[J]. 城市勘測(cè)，（6）： 45-50. [Chai J. 2014. Research and implementation of Chinese search engine in geocoding based on IKAnalyzer and Lucene[J]. Urban Geotechnical Investigation & Surveying，（6）： 45-50.]

陳德權(quán). 2013. GIS地名搜索系統(tǒng)的關(guān)鍵技術(shù)設(shè)計(jì)與實(shí)現(xiàn)[J]. 測(cè)繪與空間地理信息，36（8）： 58-60. [Chen D Q. 2013. Design and implementation of key technologies for GIS place search system[J]. Geomatics & Spatial Information Technology， 36（8）： 58-60.]

陳利燕，林鴻，張新長(zhǎng). 2016. 一種改進(jìn)的Lucene算法及在空間數(shù)據(jù)融合中的應(yīng)用[J]. 測(cè)繪通報(bào)，（10）：106-109. [Chen L Y， Lin H， Zhang X C. 2016. An improved Lucene algorithm and its application to spatial data fusion[J]. Bulletin of Surveying and Mapping，（10）：106-109.]

程鋼，盧小平. 2014. 顧及通名語(yǔ)義的漢語(yǔ)地名相似度匹配算法[J]. 測(cè)繪學(xué)報(bào)，43（4）： 404-410. [Cheng G， Lu X P. 2014. Matching algorithm for Chinese place names by similarity in consideration of semantics of general names for place[J]. Acta Geodaetica et Cartographica Sinica， 43（4）： 404-410.]

公冶小燕，林培光，任威隆，張晨，張春云. 2017. 基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法[J]. 南京大學(xué)學(xué)報(bào)（自然科學(xué)），53（6）： 1072-1080. [Gongye X Y，Lin P G，Ren W L，Zhang C，Zhang C Y. 2017. A method of extracting subject words based on improved TF-IDF algorithm and co-occurrence words[J]. Journal of Nanjing University（Natural Science）， 53（6）： 1072-1080.]

梁明，羅榮，胡最. 2014. 基于Lucene和PostGIS的地圖搜索研究[J]. 測(cè)繪通報(bào)，（11）： 42-45. [Liang M， Luo R， Hu Z. Map search based on Lucene and PostGIS[J]. Bulletin of Surveying and Mapping，（11）： 42-45.]

馬照亭，李志剛，孫偉，印潔. 2011. 一種基于地址分詞的自動(dòng)地理編碼算法[J]. 測(cè)繪通報(bào)，（2）： 59-62. [Ma Z T， Li Z G，Sun W，Yin J. 2011. An automatic geocoding algorithm based on address segmentation[J]. Bulletin of Surveying and Mapping，（2）： 59-62.]

唐旭日，陳小荷，張雪英. 2010. 中文文本的地名解析方法研究[J]. 武漢大學(xué)學(xué)報(bào)（信息科學(xué)版），35（8）： 930-935. [Tang X R，Chen X H，Zhang X Y. 2010. Research on toponym resolution in Chinese text[J]. Geomatics and Information Science of Wuhan University，35（8）：930-935.]

王俊超，劉晨帆，徐明世，紀(jì)山，蘭偉. 2012. 語(yǔ)義相似性度量技術(shù)在地名匹配研究中的應(yīng)用[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào)（自然科學(xué)版），31（6）： 871-874. [Wang J C， Liu C F，Xu M S， Ji S，Lan W. 2012. Application of semantic similarity measurement technology in place name ma-tching[J]. Journal of Liaoning Technical University（Natural Science）， 31（6）： 871-874.]

武永亮，趙書(shū)良，李長(zhǎng)鏡，魏娜娣，王子晏. 2017. 基于TF-IDF和余弦相似度的文本分類方法[J]. 中文信息學(xué)報(bào)， 31（5）：138-145. [Wu Y L， Zhao S L，Li C J，Wei N D，Wang Z Y. Text classification method based on TF-IDF and cosine similarity[J]. Journal of Chinese Information Processing， 31（5）： 138-145.]

夏蘭芳，毛煒青，郭功舉. 2012. 上海城市地理編碼系統(tǒng)應(yīng)用與研究[J]. 測(cè)繪通報(bào)，（1）：78-80. [Xia L F， Mao W Q， Guo G J. 2012. The application and research of geoco-ding system based on the city of Shanghai[J]. Bulletin of Surveying and Mapping，（1）：78-80.]

徐道柱，焦洋洋，蘇雪梅. 2017. 基于Lucene的地名管理模型設(shè)計(jì)與實(shí)現(xiàn)[J]. 測(cè)繪與空間地理信息，40（3）：6-10. [Xu D Z，Jiao Y Y，Su X M. 2017. Design and implementation of toponym management model based on Lucene[J]. Geomatics & Spatial Information Technology，40（3）：6-10.]

葉敏，湯世平，牛振東. 2017. 一種基于多特征因子改進(jìn)的中文文本分類算法[J]. 中文信息學(xué)報(bào)，31（4）： 132-137. [Ye M，Tang S P，Niu Z D. 2017. An improved Chinese text classification algorithm based on multiple feature factors[J]. Journal of Chinese Information Processing，31（4）： 132-137.]

俞敬松，王惠臨，楊潔. 2016. 大規(guī)模地名本體數(shù)據(jù)庫(kù)系統(tǒng)的建構(gòu)技術(shù)與方法[J]. 圖書(shū)情報(bào)工作，60（8）： 126-131. [Yu J S，Wang H L，Yang J. 2016. Research on large-scale toponym ontology database construction techniques and methods[J]. Library and Information Serivce，60（8）： 126-131.]

朱少楠，張雪英，李明，王宇. 2013. 基于行政隸屬關(guān)系樹(shù)狀圖的地名消歧方法[J]. 地理與地理信息科學(xué)， 29（3）： 39-42. [Zhu S N，Zhang X Y，Li M，Wang Y. 2013. Topo-nym disambiguation based on administrative district relation tree[J]. Geography and Geo-Information Science，29（3）： 39-42.]

鄒崇堯，朱貴方，趙雙明. 2014. 基于搜索引擎技術(shù)的地名地址定制查詢研究[J]. 測(cè)繪通報(bào)，（8）： 92-94. [Zou C Y， Zhu G F， Zhao S M. 2014. Research on customized query of geographic name and address based on search engine[J]. Bulletin of Surveying and Mapping，（8）： 92-94.]

（責(zé)任編輯鄧慧靈）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

廣西農(nóng)業(yè)信息地理匹配引擎設(shè)計(jì)與實(shí)現(xiàn)