■邊正寧,陳 偉,李永鵬 ■江西省地質(zhì)礦產(chǎn)勘查開(kāi)發(fā)局贛西地質(zhì)調(diào)查大隊(duì),江西 南昌 330201
地圖上的文字和數(shù)字統(tǒng)稱為地圖注記(Map Label)[1-2]。地圖注記作為地圖不可或缺的內(nèi)容之一,具備豐富地圖信息以及增強(qiáng)地圖認(rèn)知的功能。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,刺激用戶對(duì)地圖產(chǎn)生新的要求,用戶需求不在局限于單一、傳統(tǒng)的地圖注記,于是具有專有性和寬泛性的地圖標(biāo)注應(yīng)運(yùn)而生[3-4]。地圖標(biāo)注(Map Annotation)是指以地理要素的信息內(nèi)容對(duì)地物進(jìn)行注記。地圖標(biāo)注以地圖為框架,通過(guò)用戶將地理要素信息標(biāo)注到電子地圖中。因此,地圖標(biāo)注可以視為深化的地圖注記。快速發(fā)展的地圖標(biāo)注逐漸取代地圖注記成為關(guān)注焦點(diǎn)。例如百度地圖和大眾點(diǎn)評(píng)網(wǎng)等電商鼓勵(lì)用戶進(jìn)行地圖標(biāo)注,并逐步產(chǎn)生了產(chǎn)品描述性質(zhì)的地圖標(biāo)注。
地圖標(biāo)注在滿足用戶需求和促進(jìn)地圖服務(wù)發(fā)展的同時(shí),也給地圖標(biāo)注帶來(lái)了更深層次的思考。由于地圖標(biāo)注的用戶廣泛參與性,眾多地圖標(biāo)注存在一定不安全因素,給地圖服務(wù)帶來(lái)了新的危機(jī)。例如危害地區(qū)安全信息、違反社會(huì)道德等異常地圖標(biāo)注危害著地圖安全。然而目前人們對(duì)異常地圖標(biāo)注的識(shí)別研究較少,因此從促進(jìn)地圖服務(wù)健康發(fā)展而言,如何自動(dòng)識(shí)別提取異常地圖標(biāo)注信息成為亟需解決的問(wèn)題。
首先建立異常詞詞庫(kù),包含社會(huì)事件和器材廣告類等異常地圖標(biāo)注內(nèi)容,然后提取地圖標(biāo)注內(nèi)容,即分詞處理形成數(shù)據(jù)集,然后利用AC-BM 算法構(gòu)建模式樹(shù)、計(jì)算字符跳躍函數(shù)、匹配數(shù)據(jù)集,對(duì)地圖標(biāo)注的異常信息進(jìn)行識(shí)別與提取,并對(duì)識(shí)別結(jié)果進(jìn)行分析和討論。工作流程如圖2.1 所示:
圖2.1 地圖標(biāo)注異常識(shí)別流程圖
(1)異常詞詞庫(kù)構(gòu)建:詞庫(kù)是把中文信息以詞為基本單位存儲(chǔ)在計(jì)算機(jī)中,為信息處理以及詞加工提供規(guī)范,是詞表的計(jì)算機(jī)化顯示[5]。結(jié)合網(wǎng)絡(luò)規(guī)范以及地理特征,建立地圖標(biāo)注異常詞詞庫(kù),異常詞詞庫(kù)涉及以下11 個(gè)內(nèi)容:社會(huì)歷史事件、彩民生活、器材廣告、醫(yī)藥廣告、女性詞匯、色情服務(wù)、隱私詞匯、反動(dòng)事件、軍事安全、政府政治、其它。
(2)地圖標(biāo)注內(nèi)容提取:對(duì)地圖標(biāo)注內(nèi)容進(jìn)行分詞處理是異常地圖標(biāo)注識(shí)別的重要前提,異常地圖標(biāo)注識(shí)別的結(jié)果取決于分詞處理的準(zhǔn)確性。由于本次實(shí)驗(yàn)地圖標(biāo)注內(nèi)容主要為中文,中文多為雙詞語(yǔ)表達(dá),為此選用雙哈希結(jié)構(gòu)的最大逆向分詞法對(duì)地圖標(biāo)注分詞。
(3)ACBM 多模式算法匹配:模式匹配算法是異常地圖標(biāo)識(shí)的高效識(shí)別的關(guān)鍵技術(shù)。在目前使用的算法中,AC 多模式算法的時(shí)間復(fù)雜度O(n)最小,但是產(chǎn)生多余比較,甚至導(dǎo)致數(shù)據(jù)膨脹;就效率而言,跳躍思想的BM 單模式匹配算法效率最高[6-7]。為此結(jié)合兩者優(yōu)缺點(diǎn),采用基于BM 跳躍思想的AC-BM 多模式匹配算法。主要過(guò)程如下:①模式樹(shù)構(gòu)建(AC 自動(dòng)機(jī));②計(jì)算模型樹(shù)的字符跳轉(zhuǎn)規(guī)則移位函數(shù)(BM跳躍思想);③使用AC 自動(dòng)機(jī)和跳轉(zhuǎn)規(guī)則掃描待匹配字符集。
實(shí)驗(yàn)地理注記對(duì)象為從美食評(píng)論網(wǎng)與百度搜集來(lái)的云南省昆明市一環(huán)內(nèi)657 個(gè)地圖標(biāo)注,文本漢字個(gè)數(shù)為[15,52],平均長(zhǎng)度為34。
2.2.1 總體標(biāo)注異常識(shí)別效果
按照上述工作流程對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行處理,識(shí)別117 個(gè)異常地圖標(biāo)注,如下圖所示。圖中,餅圖面積代表地圖標(biāo)注內(nèi)容異常信息的含量,餅圖面積越大,該地圖標(biāo)注包含的異常詞越多,表示該地圖標(biāo)注存在異常性,需要進(jìn)一步處理;反之亦然。對(duì)于多種顏色餅圖,其代表該標(biāo)注存在多種類別的異常信息。
2.2 異常詞識(shí)別結(jié)果Fig 2.2 Abnormal word detection result
2.2.2 單標(biāo)注異常發(fā)現(xiàn)與表達(dá)
以“3 月1 日晚9 點(diǎn)的昆明火車站發(fā)生暴動(dòng)事件”標(biāo)注為例,使用改進(jìn)AC-BM 算法,識(shí)別出該標(biāo)注包含異常詞“發(fā)生暴動(dòng)”,匹配的模型為“發(fā)生暴動(dòng)|0”,開(kāi)始位置為13。由于該事件定性為恐怖事件,地圖標(biāo)注為“暴動(dòng)”,與事實(shí)不符,屬于異常標(biāo)注,如圖2.3 所示(紅色高亮為識(shí)別的異常詞)。
圖2.3 異常信息查找定位
2.2.3 分類識(shí)別結(jié)果
根據(jù)異常詞詞庫(kù)中對(duì)詞庫(kù)的分類,檢測(cè)各詞類的異常標(biāo)注分布情況,發(fā)現(xiàn)分類結(jié)果較為滿意。從本次匹配算法的結(jié)果而言,對(duì)657 個(gè)標(biāo)注檢測(cè)結(jié)果分析,標(biāo)注中共檢測(cè)到117 個(gè)異常標(biāo)注,而其中,含有敏感信息的標(biāo)注總共含有128 個(gè),準(zhǔn)確率W 為91.4%,體現(xiàn)出極高的準(zhǔn)確率。我們對(duì)觀察未能正確檢測(cè)標(biāo)注,發(fā)現(xiàn)存在大量變異敏感詞條,即多數(shù)為填寫(xiě)人故意插入特殊符號(hào)以逃避算法的檢測(cè),或者將橫向的字條采用特殊字符排版,使出現(xiàn)縱向排列,逃避算法的檢測(cè)。針對(duì)此類型的敏感信息,本文未能進(jìn)行近一步討論。對(duì)于其他非變異敏感詞,通過(guò)建立完善的敏感詞庫(kù),其敏感信息都能夠被正確檢測(cè)。
本文以昆明地理標(biāo)注為例,采用ACBM 多模式算法識(shí)別提取地圖標(biāo)注內(nèi)容中的異常信息,得出總體標(biāo)注異常識(shí)別、單標(biāo)注異常識(shí)別以及分類識(shí)別結(jié)果,通過(guò)實(shí)驗(yàn)結(jié)果表明,本文的地圖標(biāo)注異常識(shí)別方法能以較高效率準(zhǔn)確發(fā)現(xiàn)異常地圖標(biāo)注,構(gòu)建和諧綠色地圖,滿足用戶不同的應(yīng)用需求。
由于本文從詞義上進(jìn)行對(duì)異常地圖標(biāo)注進(jìn)行識(shí)別,未涉及到空間位置的適宜性。然而,地圖標(biāo)注在空間上也存在異常,即地圖標(biāo)注是否適宜出現(xiàn)在該位置。在地圖中,標(biāo)注與地物相同,相同類型的標(biāo)注在空間上聚集,基于此特點(diǎn)的標(biāo)注空間適宜性評(píng)價(jià)是有待進(jìn)一步完善的內(nèi)容。
[1]馬耀峰,胡文亮,張安定,等.地圖學(xué)原理[M].北京:科學(xué)出版社,2004.
[2]樊紅,張祖勛.地圖線狀要素自動(dòng)注記的算法設(shè)計(jì)與實(shí)現(xiàn)[J].測(cè)繪學(xué)報(bào),1999:86-89.
[3]喬占明,閆浩文.地圖標(biāo)注和地圖注記的探討[J].測(cè)繪與空間地理信息,2011(1):205-207.
[4]何麗華,徐之俊.地圖注記設(shè)計(jì)若干問(wèn)題的探討[J].地理空間信息,2011,9(6).
[5]劉耕,方勇,劉嘉勇.基于關(guān)聯(lián)詞和擴(kuò)展規(guī)則的敏感詞庫(kù)設(shè)計(jì)[J].四川大學(xué)學(xué)報(bào):自然科學(xué)版,2009,46(3):667-667.
[6]BOYER R S,MOORE J S.A fast string searching algorithm[J].Communications of the ACM,1977,20(10):762-772.
[7]Aho A V,Corasick M J.Efficient string matching:an aid to bibliographic search[J].Communications of the ACM,1975,18(6):333-340.