周 海,杜澤欣,范瑞杰,馬雷雷,梁汝鵬
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001;2.西安測(cè)繪總站,陜西 西安 710054;3.61206部隊(duì),北京 100042)
?
空間關(guān)系地址模型及其表達(dá)模式分析
周海1,2,杜澤欣1,范瑞杰3,馬雷雷1,梁汝鵬1
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001;2.西安測(cè)繪總站,陜西 西安 710054;3.61206部隊(duì),北京 100042)
摘要:地址模型是進(jìn)行地址解析和地址匹配的基礎(chǔ)。針對(duì)非規(guī)范中文地址,在層級(jí)地址模型、有限自動(dòng)機(jī)模型的基礎(chǔ)上,提出空間關(guān)系地址模型,并分析該模型的優(yōu)勢(shì);闡述空間關(guān)系地址模型的結(jié)構(gòu),分析地址中空間關(guān)系的表達(dá),將地址中的空間關(guān)系劃分為包含關(guān)系、相交關(guān)系、模糊偏移關(guān)系、方向關(guān)系和距離關(guān)系;按照該模型設(shè)計(jì)相應(yīng)的地址標(biāo)注體系和規(guī)范,對(duì)按照該規(guī)范標(biāo)注的地址標(biāo)注語(yǔ)料進(jìn)行基于HashTable地址模型樹統(tǒng)計(jì)分析,分析顧及空間關(guān)系的中文地址的常用表達(dá)模式。
關(guān)鍵詞:空間關(guān)系地址模型;地址模式;中文地址;哈希表
地理編碼(GeoCoding),又稱地址匹配,是將文字描述的地址信息映射到地理空間坐標(biāo)系中的過(guò)程[1-3]。通過(guò)地理編碼可以將一系列城市生活中的社會(huì)經(jīng)濟(jì)信息空間化,以便在空間信息支持下進(jìn)行資源整合、共享、空間分析和決策應(yīng)用。地理編碼首先需要確定地址模型,中文地址模型是中文地址的地址要素構(gòu)成及地址模式。地址模式[4]是地址要素構(gòu)成地址的規(guī)則,其定義地址由何種地址成分組成,地址成分先后的銜接順序如何。地址模型是進(jìn)行地址解析和地址匹配的基礎(chǔ),因此地址模型研究和地址表達(dá)模式分析是地理編碼研究的重要內(nèi)容之一。
1研究背景
在國(guó)外,城市建設(shè)重視地址規(guī)劃,尤其重視路網(wǎng)和門牌號(hào),使路網(wǎng)結(jié)合門牌號(hào)的地址編碼使用方式十分普遍和便利。而在國(guó)內(nèi),由于中文地名、地址體系異常復(fù)雜,地名混亂、無(wú)序,缺乏規(guī)律性和統(tǒng)一的標(biāo)準(zhǔn),使得國(guó)外地址模型無(wú)法直接應(yīng)用于我國(guó)。鑒于日文和中文語(yǔ)言處理時(shí)的相似性,謝小蕙[1]借鑒日本地址模型依據(jù)Trie樹與地址樹的模型進(jìn)行了中文地理編碼研究,其采用的地址樹模型實(shí)際就是層級(jí)模型。2004年李軍提出的層級(jí)地址模型是目前最常用的中文地址模型,許多研究中地址模式都從層級(jí)模型的基礎(chǔ)上歸納,并在此基礎(chǔ)上構(gòu)建地址匹配算法[5-6]。以“鄭州市科學(xué)大道62號(hào)”為示例,層次模型表達(dá)如圖1所示。
圖1 地址層級(jí)樹狀模型示例
由于在非規(guī)范中文地址中,同一地址可能存在不同描述方式,如地址“鄭州市高新區(qū)科學(xué)大道62號(hào)”也可描述為“鄭州市科學(xué)大道62號(hào)”。為了適應(yīng)這一情況,便產(chǎn)生了地址有限狀態(tài)機(jī)模型[4,7]。地址有限狀態(tài)機(jī)模型是一個(gè)特殊的有向圖(見圖2),包含一些狀態(tài)(節(jié)點(diǎn)為地址要素)和連接這些狀態(tài)的有向弧,狀態(tài)轉(zhuǎn)移即各類地址要素。中文地址有限狀態(tài)機(jī)模型中,開始節(jié)點(diǎn)到終止?fàn)顟B(tài)的一條路徑就是一種地址描述,如上述地址的兩種描述方式分別對(duì)應(yīng)狀態(tài)機(jī)中,“開始→市→區(qū)縣→街道→號(hào)”和“開始→市→街道→號(hào)”兩條路徑。
圖2 地址有限狀態(tài)機(jī)模型
有限狀態(tài)機(jī)模型的缺點(diǎn)是忽略了地址要素之間的空間關(guān)系。日常使用的某些非規(guī)范中文地址包含了空間關(guān)系信息,如信息工程大學(xué)的地址被表述為“鄭州市瑞達(dá)路與科學(xué)大道交叉口向東200 m路北”,不僅包含了地址要素“鄭州市”、“科學(xué)大道”、“瑞達(dá)路”,還包括相交關(guān)系“交叉口”,距離關(guān)系“200 m”和方向關(guān)系“路北”,其結(jié)構(gòu)如圖3所示。
圖3 城市地址中的空間關(guān)系
宋子輝[8]提出空間關(guān)系地址模型的概念,并指出中文非規(guī)范地址中存在包含、相鄰、鄰接、方位及距離五種空間關(guān)系。由于地址的特點(diǎn),這種劃分并不能完全適應(yīng)地址尺度、空間關(guān)系建模及匹配算法的要求,也沒(méi)有給出空間關(guān)系地址模型的標(biāo)注規(guī)范。于煥菊[9]以院落為主體,分析了其內(nèi)部建筑、周圍興趣點(diǎn)以及相鄰街道間存在的包含關(guān)系、鄰近及關(guān)聯(lián)關(guān)系,并通過(guò)給院落門牌號(hào)增加主副屬性來(lái)解決一院多址問(wèn)題,但沒(méi)有全面對(duì)各類地址要素之間拓?fù)潢P(guān)系、方向關(guān)系和距離關(guān)系進(jìn)行詳細(xì)分析。
本文結(jié)合鄧敏[10]對(duì)自然語(yǔ)言空間關(guān)系的分析,對(duì)空間關(guān)系地址模型進(jìn)行了深入分析,詳細(xì)研究了地址中空間關(guān)系表達(dá),設(shè)計(jì)空間關(guān)系地址模型的標(biāo)注體系。此外,為了將非規(guī)范中文地址中的空間關(guān)系運(yùn)用到地址匹配定位中,需要對(duì)其地址表達(dá)模式進(jìn)行分析。本文針對(duì)中文地址語(yǔ)料進(jìn)行了基于哈希樹的地址模型樹統(tǒng)計(jì)分析,挖掘人們?nèi)粘J褂玫刂返谋磉_(dá)模式。
2空間關(guān)系地址模型
空間關(guān)系地址模型克服了層級(jí)傳統(tǒng)地址模型的缺陷,針對(duì)非規(guī)范化中文地址,不僅包含了地址中各種地址要素和銜接順序,還包括了地址要素之間顯式或隱式表達(dá)的空間關(guān)系。該模型下中文地址包含了地址要素(行政區(qū)劃、道路、門牌號(hào)、興趣點(diǎn)等)、地址空間關(guān)系指示詞及其他成分。在層級(jí)模型和有限自動(dòng)機(jī)模型中,通常僅涉及地址要素,地址要素之間的空間關(guān)系被忽略或僅作為附屬成分,無(wú)法直接利用??臻g關(guān)系地址模型認(rèn)為,地址的功能是空間定位,空間關(guān)系是空間定位目標(biāo)的一種空間約束,能夠被用來(lái)確定位置,以減少定位時(shí)空間計(jì)算的復(fù)雜性和計(jì)算量,加快空間查詢速度。在地址匹配時(shí),還可以使用空間關(guān)系進(jìn)行推理,以增強(qiáng)地理編碼準(zhǔn)確性。
地址中的地址要素對(duì)應(yīng)空間上的地理實(shí)體,因此地址中地址要素間的空間關(guān)系對(duì)應(yīng)于地理實(shí)體之間的空間關(guān)系。此外由于地址是自然語(yǔ)言的子集,采用自然語(yǔ)言描述,地址中的空間關(guān)系還是一種自然語(yǔ)言空間關(guān)系。為便于地址中空間關(guān)系建模和地址匹配定位,地址中空間關(guān)系劃分不僅要考慮自然語(yǔ)言表達(dá)的特點(diǎn),還要考慮地址空間關(guān)系建模量化的可行性。文獻(xiàn)[10]將自然語(yǔ)言中的空間關(guān)系分為包含、相鄰、鄰接、方位及距離,文獻(xiàn)[11]將自然語(yǔ)言中的空間關(guān)系歸納為空間拓?fù)潢P(guān)系、空間方位關(guān)系、空間度量關(guān)系及潛在的自然語(yǔ)言空間關(guān)系,并指出空間關(guān)系的描述模式為“[前綴]+空間詞匯+[后綴]”。但這些劃分并不能完全適應(yīng)地址尺度、地址空間關(guān)系建模及匹配算法的要求。
地址中的空間關(guān)系與觀察尺度密切相關(guān)。隨著觀察尺度的變化,空間目標(biāo)形態(tài)也發(fā)生著變化。如居民小區(qū)在大比例下被認(rèn)為是面要素,而在小比例尺下被認(rèn)為是點(diǎn)要素。這使道路與居民小區(qū)之間的空間關(guān)系在大比例尺下是一種面/線相鄰關(guān)系,而在小比例尺中是一種點(diǎn)/線包含關(guān)系。另外,由于觀察者認(rèn)知的不同和數(shù)據(jù)本身原因,空間關(guān)系還存在不確定性,如道路與其兩側(cè)的門牌號(hào)既可以認(rèn)為是一種相鄰關(guān)系也可以認(rèn)為是一種包含關(guān)系。
本文綜合考慮以上因素,認(rèn)為地址是一種較為微觀的定位點(diǎn),其尺度大約在1∶1 000比例上,該尺度能夠滿足大部分應(yīng)用需要。因此可以將地址中空間關(guān)系按照拓?fù)潢P(guān)系、方向關(guān)系和距離關(guān)系劃分為三種,考慮地址空間關(guān)系建模,拓?fù)潢P(guān)系則分為包含關(guān)系、相交關(guān)系和模糊偏移關(guān)系。
2.1拓?fù)潢P(guān)系
在許多研究中,將拓?fù)潢P(guān)系分為相交、相鄰、包含、被包含、相離、覆蓋、被覆蓋和相等8種[10]。而地址自然語(yǔ)言描述中,空間拓?fù)潢P(guān)系的劃分跟語(yǔ)言模型和空間認(rèn)知有關(guān),為便于建模,本文將地址中的拓?fù)潢P(guān)系分為包含關(guān)系、相交關(guān)系和模糊偏移關(guān)系。
圖4 地址中的拓?fù)浒P(guān)系
1)包含關(guān)系。包含關(guān)系是地址描述最常見、最普遍的空間關(guān)系(見圖4)。包含關(guān)系體現(xiàn)在:線包含點(diǎn),道路包含了興趣點(diǎn)、門牌號(hào)等;面包含點(diǎn),如興趣點(diǎn)、居民小區(qū)包含了單元號(hào)、樓層號(hào)等;線包含線,如道路包含了路段(隴海路包含了隴海中路);面包含線,如城市包含了道路;面包含面,如不同級(jí)行政區(qū)之間的所屬關(guān)系,省包含地級(jí)市、市包含區(qū)縣、區(qū)縣包含鄉(xiāng)鎮(zhèn)等。地址中的包含關(guān)系一般隱含在地址要素之間,不通過(guò)空間關(guān)系謂詞顯式表達(dá)。需要指出,地址中經(jīng)常出現(xiàn)某個(gè)地址點(diǎn)位于某個(gè)小區(qū)、院落內(nèi),如“鄭州市晨旭路銀監(jiān)局院內(nèi)”,由于“銀監(jiān)局”已是興趣點(diǎn)地址要素,因此本文將“院內(nèi)”這類表述劃分到模糊偏移關(guān)系中。
2)相交關(guān)系。地址中的相交關(guān)系體現(xiàn)在:線/線相交如道路與道路交叉相連(如地址“鄭州市科學(xué)大道與瑞達(dá)路交叉口”);線/面相交關(guān)系如道路穿過(guò)面狀地址要素;面/面相交在地址表達(dá)中不常見。地址中最常見的是道路的交叉口地址,通常表達(dá)成“道路名+道路名+交叉口”、“道路名+并列連詞+道路名+交叉口”等形式(見圖5)。
圖5 地址中拓?fù)湎嘟魂P(guān)系
3)模糊偏移關(guān)系。地址中的模糊偏移關(guān)系包含了地址中的模糊相鄰關(guān)系和相離關(guān)系(見圖6)。地址中相鄰關(guān)系如面狀地址點(diǎn)之間,道路交叉口與興趣點(diǎn);相離關(guān)系如興趣點(diǎn)與另一興趣點(diǎn),一個(gè)區(qū)縣與另一區(qū)縣內(nèi)興趣點(diǎn),兩條平行的道路,不相鄰的區(qū)縣等(后三種不常見)。
圖6 地址中模糊相離(相鄰)關(guān)系
地址中相離關(guān)系一般不會(huì)用“某地址與另一地址相離”來(lái)進(jìn)行描述,這樣的地址無(wú)法定位,因此通常將兩個(gè)地址點(diǎn)相鄰表達(dá)成一種空間偏移關(guān)系。偏移分為精確偏移和模糊偏移。精確偏移指定了方向和距離,如“科學(xué)大道信息工程大學(xué)向東100 m”,這與包含方向的相鄰關(guān)系(如“信息工程大學(xué)東側(cè)”),都可以采用方向和距離關(guān)系來(lái)表達(dá)。模糊偏移未指定方向和距離,一般通過(guò)“附近”、“旁邊”、“周圍”等模糊偏移關(guān)鍵詞來(lái)表達(dá)。
2.2方向關(guān)系
地址中的方向關(guān)系實(shí)際是一種自然語(yǔ)言中的方向偏移關(guān)系,指在一定參考框架下,從一個(gè)空間目標(biāo)到另一個(gè)空間目標(biāo)的指向,包含參考框架、參考目標(biāo)和源目標(biāo)3個(gè)基本要素[10]。地址中的方向關(guān)系是根據(jù)人類空間認(rèn)知經(jīng)驗(yàn)、意象或觀念通過(guò)自然語(yǔ)言表達(dá)出來(lái),是地址要素之間的方向關(guān)系,如信息工程大學(xué)地址可以表述為“鄭州市科學(xué)大道丹尼斯北側(cè)”(見圖7),其中參考目標(biāo)為“丹尼斯”,源目標(biāo)為“信息工程大學(xué)”,該地址采用絕對(duì)參考框架,即以地球表面作為參考框架。還有一種參考框架為相對(duì)參考框架,表達(dá)相對(duì)方向關(guān)系地址,如上述地址還可表述為“鄭州市科學(xué)大道丹尼斯對(duì)面”。由于相對(duì)參考框架描述的方向表達(dá)起來(lái)比較復(fù)雜,且地址匹配過(guò)程中使用其進(jìn)行推理比較困難,因此本文將相對(duì)參考框架描述的空間方向劃歸到模糊偏移關(guān)系中,通常采用“對(duì)面”、“左側(cè)”、“后面”等關(guān)鍵詞進(jìn)行表述。在地址空間方向關(guān)系中只對(duì)絕對(duì)參考框架描述的方向關(guān)系進(jìn)行分析,由于地址中的絕對(duì)方向主要只有8中,每種絕對(duì)方向關(guān)系可以用一個(gè)方位角來(lái)描述。東、西、南、北、東北、東南、西南、西北的八個(gè)方位角對(duì)應(yīng)為0、π、3π/2、π/2、π/4、7π/4、5π/4、3π/4。除了空間目標(biāo)之間有空間方向關(guān)系,空間目標(biāo)內(nèi)部的不同部分也有空間關(guān)系,延展性空間目標(biāo)本身也有空間方位(方向),道路經(jīng)常使用“中段”、“西段”、“南段”等進(jìn)行描述。
圖7 地址中的方向關(guān)系示例
2.3距離關(guān)系
地址中的距離空間關(guān)系是地址要素之間的距離度量。地址中空間距離關(guān)系分為定性描述和定量描述兩種。定性描述距離可以認(rèn)為是模糊距離關(guān)系,可以通過(guò)“程度副詞+遠(yuǎn)(近)”來(lái)表述。為了便于建模,將模糊空間相離、相鄰關(guān)系及相對(duì)方向關(guān)系也劃分到模糊距離中(如周圍、附近、旁邊、對(duì)面等),統(tǒng)一用空間模糊偏移關(guān)系來(lái)表達(dá)。本文僅對(duì)地址中的定量距離關(guān)系建模,采用“長(zhǎng)度+長(zhǎng)度單位”的方式來(lái)精確表達(dá)。長(zhǎng)度描述詞匯存在大寫小寫,因此地址匹配前需要轉(zhuǎn)換,常用的長(zhǎng)度度量單位包括了m、km等。如圖8所示,地址“鄭州市科學(xué)大道62號(hào)向東200 m”中,“200 m”為距離偏移,其中“100”為長(zhǎng)度,“m”為單位。
圖8 地址中的空間距離關(guān)系示例
3空間關(guān)系地址模型的標(biāo)注體系
地址解析將非結(jié)構(gòu)化的中文地址拆分為地址要素并確定了地址要素的類型,地址標(biāo)注可以作為地址解析結(jié)果的表示形式。如“鄭州市科學(xué)大道62號(hào)”標(biāo)注后為“鄭州市[CITY]科學(xué)大道[ROAD]62號(hào)[BNO]”。地址標(biāo)注體系是將地址模型扁平化,地址標(biāo)注體系要涵蓋地址語(yǔ)句中的所有成分。與漢語(yǔ)語(yǔ)句中的句子成分一樣,在地址中也有地址成分。地址標(biāo)注體系的劃分是根據(jù)詞匯在地址中所擔(dān)任的成分和含義來(lái)進(jìn)行劃分的。
文獻(xiàn)[4]針對(duì)層級(jí)地址模型設(shè)計(jì)了相應(yīng)的標(biāo)注體系,其標(biāo)注體系僅包含了8類地址要素,僅符合較為規(guī)范的層級(jí)地址。張雪英[12-13]設(shè)計(jì)了中文文本的地理命名實(shí)體和地理空間關(guān)系標(biāo)注體系,但并不能涵蓋非規(guī)范地址的所有成分及要求。本文地址標(biāo)注體系在參照現(xiàn)有地址要素劃分體系的基礎(chǔ)上,增加了地址中空間關(guān)系關(guān)鍵詞、并列連詞以及標(biāo)點(diǎn)符號(hào)等其他成分,以滿足非規(guī)范地址的結(jié)構(gòu)化要求。參照《地名地址標(biāo)注規(guī)范》,本文將地址成分分為3大類,地址要素類、空間關(guān)系類和其他成分類。地址要素類包括了省份、城市、區(qū)縣、街道辦事處、行政村(社區(qū)、居委會(huì))、居民小區(qū)、道路(街巷)、門牌號(hào)(樓牌號(hào)、樓層、單元號(hào)等)、興趣點(diǎn),其中興趣點(diǎn)可以是地理實(shí)體的名稱,也可以是具有代表性的地址點(diǎn),如“嵩山路環(huán)城高速入口”;空間關(guān)系類包括了相交關(guān)鍵詞(如“交叉口”)、模糊偏移關(guān)鍵詞(如“旁邊”)、包含關(guān)系關(guān)鍵詞、方向關(guān)鍵詞及距離關(guān)鍵詞;其他成分是并列連詞、標(biāo)點(diǎn)符號(hào)及地址中的無(wú)用成分。該分類標(biāo)注體系如表1所示。
表1 地址標(biāo)注體系分類及其標(biāo)識(shí)對(duì)應(yīng)表
4基于hash表的地址模式統(tǒng)計(jì)分析
4.1基本原理
地址匹配首先要確定地址的表達(dá)模式,因此分析地址表達(dá)模式具有十分重要的意義。顧及空間關(guān)系詞匯的地址表達(dá)模式仍然可以看做是有限狀態(tài)機(jī),這時(shí)有限狀態(tài)機(jī)有向圖中的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)于地址標(biāo)注中的各成分,既可以是地址要素也可以是空間關(guān)系詞匯。但一般不考慮標(biāo)點(diǎn)符號(hào)和無(wú)意義成分。文獻(xiàn)[14]中通過(guò)關(guān)聯(lián)規(guī)則Apriori算法統(tǒng)計(jì)前后地址要素的出現(xiàn)概率來(lái)構(gòu)建高頻地址要素組,再利用有限自動(dòng)機(jī)的方法通過(guò)構(gòu)建地址要素遷移表,進(jìn)而抽象出地址模型。但在地址有向圖中,多條地址路徑匯合之后其剩余路徑便合并了,因此無(wú)法全面反映各條地址路徑的概率。為此,本文的解決方法是將地址有向圖生成一顆完全生成樹,然后利用地址標(biāo)注語(yǔ)料統(tǒng)計(jì)每一條分支路徑的(即一種地址模式)概率,記錄每個(gè)節(jié)點(diǎn)的計(jì)數(shù),對(duì)地址表達(dá)模式進(jìn)行統(tǒng)計(jì)識(shí)別。其原理如下:
依次從地址語(yǔ)料庫(kù)中讀入每一條地址序列,如“鄭州市[CITY]科學(xué)大道[ROAD]62號(hào)[BNO]”;然后獲取其標(biāo)注序列(即地址成分序列),如“[CITY]-[ROAD]-[BNO]”;最后以標(biāo)注值作為節(jié)點(diǎn)構(gòu)建一個(gè)樹,并在每個(gè)節(jié)點(diǎn)賦予經(jīng)過(guò)該節(jié)點(diǎn)的計(jì)數(shù)(見圖9)。在這棵樹中每一條路徑代表一種地址表達(dá)模式,如“City-Road-And-Road-Junk”代表“城市名+道路名+并列連詞+道路名+交叉口關(guān)鍵詞”的地址表達(dá)模式。每個(gè)節(jié)點(diǎn)中的數(shù)字代表樣本地址中行進(jìn)至該節(jié)點(diǎn)的計(jì)數(shù),如上述模式中節(jié)點(diǎn)Junk的計(jì)數(shù)為109,表示樣本中“城市名→道路名→并列連詞→道路名→交叉口關(guān)鍵詞”模式地址的計(jì)數(shù)為109。這樣計(jì)數(shù)越大的節(jié)點(diǎn)表示從根節(jié)點(diǎn)行至該節(jié)點(diǎn)的地址越多,即這種地址模式在日常使用時(shí)越多。
圖9 地址模式樹
4.2基于hash表的地址模式統(tǒng)計(jì)算法
基于統(tǒng)計(jì)的地址模式構(gòu)建算法主要借助于C#中HashTable結(jié)構(gòu),利用哈希表構(gòu)建哈希樹,在樹的每一個(gè)節(jié)點(diǎn)存儲(chǔ)了經(jīng)過(guò)該節(jié)點(diǎn)的次數(shù)。
輸入:地址標(biāo)注語(yǔ)料庫(kù)所有記錄lines,其中每行為一條標(biāo)注語(yǔ)料;
輸出:地址哈希樹hash,每一節(jié)點(diǎn)增加“NCount”子節(jié)點(diǎn)存儲(chǔ)該節(jié)點(diǎn)的計(jì)數(shù)。
算法如下:
(1)定義哈希表hash并初始化,定義哈希表hash1=null;
(2)將hash賦給hash1,依次從Lines中讀取一行l(wèi)ine,line的結(jié)構(gòu)如“鄭州市[CITY]科學(xué)大道[ROAD]62號(hào)[BNO]”,通過(guò)空格將line分割成string型的數(shù)組item;
(3)依次從item取出一個(gè)元素item[i],其結(jié)構(gòu)如“鄭州市[CITY]”,通過(guò)字符串截取獲得地址成分term和成分標(biāo)注tag,如term=“鄭州市”,tag=“CITY”;
(4)判斷hash1中是否包含鍵tag,如果不包含則執(zhí)行hash1.Add(tag,new Hashtable())并繼續(xù)(5),否則繼續(xù)(5);
(5)hash1 = (Hashtable)hash1[tag],判斷hash1是否包含鍵“NCount”,是則將鍵“NCount”的Value計(jì)數(shù)+1;否則執(zhí)行hash1.Add(“NCount”,1);
(6)判斷item[i]是否為item最后一個(gè)元素,如果否執(zhí)行(3);否則執(zhí)行(7);
(7)判斷l(xiāng)ine是否是標(biāo)注語(yǔ)料集的最后一行,不是則執(zhí)行(2);否則執(zhí)行(8);
(8)返回hash并結(jié)束。
4.3地址模式統(tǒng)計(jì)實(shí)驗(yàn)
實(shí)驗(yàn)采用鄭州市5979條百度興趣點(diǎn)地址語(yǔ)料,地址語(yǔ)料按照空間關(guān)系地址模型的標(biāo)注體系標(biāo)注。地址標(biāo)注語(yǔ)料結(jié)構(gòu)如“鄭州市[CITY]科學(xué)大道[ROAD]62號(hào)[BNO]”,如圖10所示。
圖10 地址語(yǔ)料庫(kù)截圖
為實(shí)現(xiàn)較好的可視化效果,將生成的Hashtable借助TreeView進(jìn)行可視化顯示,地址模式樹顯示的層數(shù)為7層。結(jié)果如圖11所示。
圖11 地址模式樹統(tǒng)計(jì)結(jié)果可視化效果
分析門牌號(hào)、興趣點(diǎn)及標(biāo)志物級(jí)別以上的地址要素發(fā)現(xiàn),計(jì)數(shù)較多的地址路徑主要有以下幾類:
1)“City-County-Road-BNO”、“Road-BNO”、“City-Road-POI”、“City-County-Road-BNO-POI”、“City-County-Road-POI”等,這類地址為層級(jí)模式地址,可以用地址有限狀態(tài)機(jī)來(lái)表達(dá);
2)“City-Road-And-Road-Junk”、“City-County-Road-And-Road-Junk”、“Road-And-Road-Junk”、“Road-And-Road-Junk”等,這類地址對(duì)應(yīng)道路交叉口模式地址,這說(shuō)明日常生活中通過(guò)兩條道路的交叉口來(lái)描述地址點(diǎn)位置也十分普遍;
3)“City-County-Road-POI-ORI-DIS”、“Road-And-Road-Junk-ORI”、“City-Road-And-Road-Junk-ORI-DIS”、“City-County-Road-POI-Beside”等,這類地址在上述兩類地址基礎(chǔ)上增加了地址偏移成分,包括精確偏移(“ORI”+“DIS”)和模糊偏移(“Beside”)兩種。
5結(jié)論
空間關(guān)系地址模型與其他地址模型相比,包含地址中地址要素之間的空間關(guān)系。文中將地址中的空間關(guān)系歸納為包含關(guān)、相交、模糊偏移、方向和距離關(guān)系,以適應(yīng)地址中空間關(guān)系建模。在這基礎(chǔ)上,本文設(shè)計(jì)的地址標(biāo)注能夠很好地適應(yīng)地址空間關(guān)系表達(dá)需要。最后本文利用基于hash表的地址模式統(tǒng)計(jì)算法對(duì)地址語(yǔ)料庫(kù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果證明,該統(tǒng)計(jì)方法能夠清晰反映日常地址的使用模式,為下一步地址解析與匹配奠定基礎(chǔ)。此外若將地址模式樹的節(jié)點(diǎn)改存地址序列本身及其計(jì)數(shù),則可以構(gòu)建起地址語(yǔ)料的地址樹,并進(jìn)行區(qū)域地址構(gòu)成分析研究,以輔助地址標(biāo)準(zhǔn)化。后續(xù)研究中,將在空間地址模型的基礎(chǔ)上利用隱馬爾科夫模型、條件隨機(jī)場(chǎng)模型等統(tǒng)計(jì)方法進(jìn)行地址解析,設(shè)計(jì)顧及地址空間關(guān)系的地址匹配算法。
參考文獻(xiàn):
[1]謝小蕙.地理編碼原理及方法研究[D].長(zhǎng)沙:中南大學(xué),2006.
[2]李軍,李琦,毛東軍,等.北京市地理編碼數(shù)據(jù)庫(kù)的研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(2):1-3.
[3]楊柳.空間數(shù)據(jù)全文檢索方法研究[J].測(cè)繪工程,2012,22(6):8-12.
[4]蔣文明,張雪英,李伯秋.基于條件隨機(jī)場(chǎng)的中文地址要素識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(13):129-131.
[5]莊海東,張鴻恩.基于規(guī)則的中文地址匹配系統(tǒng)[J].福建電腦,2013,29(9):130-132.
[6]郭會(huì),宋關(guān)福,馬柳青,等.地理編碼系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2009,35(1):250-252.
[7]吳軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2012.
[8]宋子輝.自然語(yǔ)言理解的中文地址匹配算法[J].遙感學(xué)報(bào),2013,17(4):795-801.
[9]于煥菊,李云嶺,齊清文.顧及實(shí)體空間關(guān)系的地址編碼方法研究[J].地理與地理信息科學(xué),2013,29(5):49-52.
[10] 鄧敏.空間關(guān)系理論與方法[M].北京:科學(xué)出版社,2012.
[11] 張雪英,閭國(guó)年,李伯秋,等.基于規(guī)則的中文地址要素解析方法[J].地球信息科學(xué)學(xué)報(bào),2010,9(6):77-81.
[12] 張雪英,張春菊,朱少楠.中文文本的地理空間關(guān)系標(biāo)注[J].測(cè)繪學(xué)報(bào),2012,41(3):468-474.
[13] 張雪英,朱少楠,張春菊.中文文本的地理命名實(shí)體標(biāo)注[J].測(cè)繪學(xué)報(bào),2012,41(1):115-120.
[14] 朱俊.中文標(biāo)準(zhǔn)地址庫(kù)構(gòu)建關(guān)鍵技術(shù)研究[D].南京:南京師范大學(xué),2013.
[15] 胡克新,張求喜,岳淑英.地籍空間對(duì)象拓?fù)潢P(guān)系一致性研究[J].測(cè)繪與空間地理信息,2015,38(9):115-118.
[16] 周琳,景海濤,賈中星,等.基于GIS的族譜空間信息查詢與可視化研究[J].測(cè)繪工程,2015,24(9):48-52.
[17] 施群山,呂亮,藍(lán)朝楨,等.基于特征的空間態(tài)勢(shì)一體化數(shù)據(jù)模型[J].測(cè)繪工程,2015,24(8):5-7.
[18] 陳換新,孫群,劉雅彬,等.空間數(shù)據(jù)研究的發(fā)展及對(duì)策[J].測(cè)繪工程,2015,24(2):10-14.
[責(zé)任編輯:路曉鴿]
Address model based on spatial-relation and Its analysis of expression patternsZHOU Hai1,2,DU Zexin1,F(xiàn)AN Ruijie3,MA Leilei1,LIANG Rupeng1
(1.School of Geospatial Information,Information Engineering University,Zhengzhou 450001,China;2.Xi’an station of surveying and mapping,Xi’an 710054,China;3.61206 Troops Beijing 100042,China)
Abstract:Address model is basis of address parsing and address matching.This paper proposes an address model based on spatial-relation and its annotation system,then analyzes its structure and advantage.Spatial-relation of address is divided into five categories:containing,intersection,fuzzy-offset,direction,and distance.Finally a new method of analyzing address statistics based on HashTable is proposed,which is used to build the address-patterns tree to analyze the commonly-used expression-patterns of Chinese address.
Key words:address model based on spatial-relation;Patterns of address;HashTable
中圖分類號(hào):P208
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1006-7949(2016)05-0025-07
作者簡(jiǎn)介:周海(1989-),男,碩士研究生.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(41401463);河南省科技攻關(guān)計(jì)劃資助項(xiàng)目
收稿日期:2015-04-14;修回日期:2015-10-08