亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        重慶市中文語義地址模型構(gòu)建方法探討

        2015-02-06 07:58:36臧英斐瞿曉雯
        地理空間信息 2015年3期
        關(guān)鍵詞:重慶市語義解析

        臧英斐,王 斌,瞿曉雯

        (1.重慶交通大學 土木建筑學院,重慶400074;2.重慶市地理信息中心,重慶 401121)

        重慶市中文語義地址模型構(gòu)建方法探討

        臧英斐1,王 斌2,瞿曉雯2

        (1.重慶交通大學 土木建筑學院,重慶400074;2.重慶市地理信息中心,重慶 401121)

        現(xiàn)有重慶市地址模型存在地址不完整、歧義、口語化等弊端。以南岸為例,針對現(xiàn)有數(shù)據(jù)特點,圍繞地址數(shù)據(jù)庫建設(shè)及地理編碼的需求,歸納非結(jié)構(gòu)化中文地址的特點,優(yōu)化現(xiàn)有地址要素結(jié)構(gòu)。提出了基于中文語義的地址模型構(gòu)建方法,建立要素間拓撲關(guān)系,增加上下文約束力,引入支持向量機,有效避免中文自然語言表達歧義,提高地址解析的準確度和效率。

        支持向量機;地址模型;中文語義;重慶市

        地理編碼技術(shù)是指將已存在的中文地址轉(zhuǎn)化為地理坐標,利用空間分析等手段,完成對經(jīng)濟社會信息的分析、管理、統(tǒng)計、可視化表示[1]。美國是地址模型研究技術(shù)最成熟的國家,目前采用的是“拓撲集成的地址編碼與參照系統(tǒng)(TIGER)”,該系統(tǒng)改進了DIME英文屬性存儲的方式,以關(guān)系數(shù)據(jù)庫和文件系統(tǒng)為基礎(chǔ)[2]。隨著空間地理信息資源的開發(fā)和地理信息系統(tǒng)技術(shù)的研究與應(yīng)用,我國各級各地政府部門已經(jīng)開始逐步規(guī)范地名、地址的管理和使用。目前國內(nèi)普遍認為,基于層次關(guān)系的地址要素排列模型較適合中文地址[3]。另外也有人提出,地址要素之間是一種帶有固定包含指向的網(wǎng)狀結(jié)構(gòu)關(guān)系[4]。北大方正數(shù)碼公司也曾推出過Map Searcher,通過人工歸納提取了近20種地址模型,但由于缺乏完備、準確的地址數(shù)據(jù)庫支撐,并未形成有效的服務(wù)能力。

        重慶市現(xiàn)有地址模型采用了傳統(tǒng)的層次關(guān)系模型,由于人文環(huán)境和歷史沿革的特殊性,存在地址命名隨意無序、虛擬地址數(shù)量多、歧義現(xiàn)象較為嚴重等弊端,難以有效滿足日益增長的社會經(jīng)濟數(shù)據(jù)空間定位需求。因此,研究基于語義的中文地址模型構(gòu)建方法,具有重要的理論價值和現(xiàn)實意義。

        1 重慶市地址結(jié)構(gòu)及現(xiàn)有模型分析

        1.1 重慶市地址數(shù)據(jù)現(xiàn)狀及特點

        與歐美國家相比,中國現(xiàn)有的地名、地址體系異常復雜,缺乏規(guī)律性和統(tǒng)一性,導致我國在地址模型構(gòu)建方面的研究受到諸多限制[5]。以南岸區(qū)為例,其地址數(shù)據(jù)存在以下特點:

        1)地址類型難以區(qū)分。例如“沈家塆、東坡池”等,無法通過建立“棟、樓、村”等關(guān)鍵詞庫進行分類,從名字上難以判斷其地址類型。

        2)標準地址的普及度不夠,習慣性、口語化地址十分普遍,如“重慶交通大學”雖然早已更名,但現(xiàn)在很多重慶人依舊使用“交院”。

        3)街路巷、門牌號比較混亂,存在有路無號、有號無建筑物等問題,這使得我們無法借鑒TIGER模型建立主地址數(shù)據(jù)庫(MAF)與建筑物地理位置間一一對應(yīng)的關(guān)系。

        1.2 重慶市現(xiàn)有地址模型分析

        重慶現(xiàn)有地址模型通過人工歸納的方法對地址要素進行分類,將地址分為市、區(qū)縣、街道(鄉(xiāng)、鎮(zhèn))、社區(qū)(自然村)、限定物1、限定物2、門牌號(主號附號幢號單元號),其中限定物包括地片、街巷、組、社、集貿(mào)市場、名勝古跡等,通過人工歸納的方式確定其層次關(guān)系。導致地址種類繁多,各等級地址數(shù)據(jù)相差懸殊,層次關(guān)系復雜。又由于地址本身不規(guī)范導致標準地址數(shù)據(jù)庫中的地址并不“標準”。分析南岸區(qū)地址后得到重慶市現(xiàn)有地址模型的主要地址層次關(guān)系如表1所示。

        通過對現(xiàn)有分類體系研究可以發(fā)現(xiàn),其存在以下問題:

        1)行政區(qū)劃信息不完整,致使地址歧義。該分類方法中,涉及街路巷的數(shù)據(jù)行政區(qū)劃等級只到區(qū)縣,如作為街路巷的“正街”,在葛蘭鎮(zhèn)、洪湖鎮(zhèn)、渡舟街道、鳳城街道等都存在,缺少鄉(xiāng)鎮(zhèn)級的行政區(qū)劃,顯然會造成歧義。

        2)地片概念模糊,致使分詞歧義。在現(xiàn)有數(shù)據(jù)庫中對地片的界定為:除可確定為街路巷、自然村等的其他地址都為地片,如觀音橋、兩路口、李家沱等。這種界定很容易將地片與行政村混淆,如長生橋,從名字判斷是地片,但其實長生橋是渡舟街道下的一個社區(qū)。

        3)層次關(guān)系歸納不規(guī)范,致使解析分歧。根據(jù)《地名地址數(shù)據(jù)規(guī)范》(2010),組社級別前面應(yīng)該是社區(qū)村級別,表1顯然不符合要求。重慶市部分社區(qū)以道路命名,而在進行地址表達時并不會帶上“社區(qū)”二字,如“鳳嶺路1組”是指“鳳嶺路社區(qū)1組”,而真正的鳳嶺路在白石村。

        表1 主要地址層次關(guān)系

        2 重慶市中文語義地址模型總體設(shè)計

        2.1 中文語義地址模型的優(yōu)勢

        不同于國外地址的規(guī)則表達,中文地址沒有分隔符,缺少結(jié)構(gòu)形態(tài),是由一組不特定類地址單元組成的,并在描述過程中多有冗余或缺省現(xiàn)象,很難建立結(jié)構(gòu)化的地址模型。然而,從自然語言處理的角度考慮,根據(jù)現(xiàn)有地址特點建立規(guī)則,在對地址進行分詞、標注、句法分析和語義解析等環(huán)節(jié)后,中文地址亦可以看作一串語義塊的特定排列。

        傳統(tǒng)的地址模型如關(guān)系模型、層次模型等都是面向記錄的模型,需要遵循嚴格的邏輯結(jié)構(gòu),如層次模型中分詞結(jié)構(gòu)必須與已有的層次關(guān)系一一對應(yīng)。但事實上,中文地址的多樣化及復雜性致使其數(shù)據(jù)模型需突破現(xiàn)有的結(jié)構(gòu)限制。如果根據(jù)現(xiàn)有地址表達習慣及特點,設(shè)計一種新的數(shù)據(jù)模型,能更準確地表達地址數(shù)據(jù)間的關(guān)系。

        語義地址模型是語義與普通數(shù)據(jù)模型的有機結(jié)合,能幫助計算機在不同的抽象層次上更好地理解地址結(jié)構(gòu),從而提高建模能力。因此根據(jù)中文地址的特點建立中文語義地址模型更有利于中文地址的抽象表達。

        2.2 重慶市中文地址要素標注

        語義地址模型應(yīng)由語義塊及句式共同構(gòu)成,語義塊通過地址分割獲得,句式即語義塊構(gòu)成地址的規(guī)則,通過句法分析及語義解析獲得,其中句法分析可幫助進行語義塊標注,語義解析可推理各語義塊間的空間關(guān)系與銜接順序。

        若忽略句法模式,則語義地址模型由一系列語義塊組成,即地址要素,故重慶市中文語義地址模型的扁平化表達為:

        地址= [地址元素](1~N)式中,N為該地址可以達到的粒度。

        單獨的地址要素是沒有意義的,經(jīng)過句法分析后得到的具有類型標識的地址要素才可用于語義解析?!兜孛刂窋?shù)據(jù)規(guī)范》(2010)[6]規(guī)定地址要素應(yīng)包括行政區(qū)劃、地址、子地址[7],充分考慮了地址的通用性及擴展性。在此基礎(chǔ)上,結(jié)合重慶市地址的特點,可將地址要素分為以下幾類,如表2。

        表2 地址要素分類

        經(jīng)過對重慶市地址數(shù)據(jù)的分析,同名街路巷問題并不會出現(xiàn)在同一行政村內(nèi),所以行政區(qū)劃等級由原來的4層擴展到5層。詳細的行政區(qū)劃有利于根據(jù)區(qū)劃界線消除語義上的歧義;將行政村與自然村分開,自然村與自然地名(原地片概念)都歸類為限定物1,可以有效避免將行政區(qū)劃與地片混淆的問題;基本地址為地址的主要構(gòu)成部分,從地址要素等級的角度考慮,自然村與自然地名、街路巷的輻射范圍相近,故可放在該級別。重慶市地址大多為“村社+組社”結(jié)構(gòu),而非街路巷,因此設(shè)置子地址部分,將組社、住宅小區(qū)及與其具有相似輻射范圍的集貿(mào)市場、名勝古跡等判定為子地址。

        2.3 重慶市中文地址句法分析

        標注后的地址要素通過一定的排列順序構(gòu)成了一條地址,但此時的排列規(guī)則是隨意的,并不受句法約束。句法分析即根據(jù)已有地址的特點規(guī)定地址要素的排列順序,對于較規(guī)范的地址,一般采用詞尾關(guān)鍵詞統(tǒng)計法來進行識別,即對分析地址的末尾字符進行統(tǒng)計以確定各類型地址要素的關(guān)鍵詞,人工歸納相應(yīng)的分詞規(guī)則,如街路巷中的“大道、街、路、巷”等。但重慶市很多不規(guī)則地址表達較為隨意,不含通名,缺乏可統(tǒng)計的關(guān)鍵詞,如“拗口坡、曾家?guī)r”等,因此人工歸納在這類地址處理中存在一定局限性。基于支持向量機的處理方式可以將線性不可分的地址映射到高維空間,借助地址要素相對位置的約束,簡化其處理過程。

        2.4 重慶市中文地址語義解析

        理論上,地址所描述的位置應(yīng)與某個地理實體重疊,而地址要素與地理實體之間存在著包含、隸屬等復雜的嵌套關(guān)系,所以普通的層次分析并不能滿足中文地址表達的需求。通過對重慶市地址數(shù)據(jù)的分析可得,地址要素間存在一定的拓撲關(guān)系,大致可分為5種:①區(qū)域間的包含關(guān)系,如重慶市包含南岸區(qū);②區(qū)域間的相鄰關(guān)系,如花園路街道與南坪鎮(zhèn)相鄰;③道路間的鄰接關(guān)系,如江南大道與學府大道鄰接;④方位關(guān)系,點位之間的相對方向;⑤距離關(guān)系,點位之間的相對距離關(guān)系,其中后兩種涉及較少。拓撲關(guān)系與地址要素類別有密切聯(lián)系,根據(jù)表2的地址要素分類可得到如圖1所示的地址要素拓撲關(guān)系。

        圖1 地址要素空間關(guān)系

        3 基于支持向量機的中文語義地址模型動態(tài)構(gòu)建方法

        支持向量機(SVM)是數(shù)據(jù)挖掘中的一項新技術(shù),是借助于最優(yōu)化方法來解決機器學習問題的新工具[8]。給定訓練集:

        T={(x1,y1),(x2,y2),…,(xl,yl) }∈(X×Y)l

        式中,xi∈X=Rn;X稱為輸入空間,輸入空間中的每一個點xi由n個屬性特征組成,yi∈Y={-1,1},i=1,2,…,l。

        在地址模型中,輸入空間X為地址串,xi即地址中第i個字。則有:

        SVM是一種典型的兩類分類器,即“是”或“不是”,通過f(xi)地址的句法分析問題就可以轉(zhuǎn)化為對一條自然語言描述的中文地址的每一項進行標注的分類問題。將其映射到高維空間的訓練集不能被線性劃分時,選擇合適的核函數(shù)及其參數(shù),可以加強特征空間中兩類樣本集“線性可分”的程度,提高分類精度。

        特征模板長度是指當前待判斷字符及其左右可能相關(guān)的2個字符所組成的窗體長度,用于結(jié)合上下文判斷該字符屬性。經(jīng)分析,重慶市中文地址中大部分地址要素的最大長度不大于5個字,故假設(shè)特征模板長度C為5,在地址模型中,如圖2所示。

        圖2 特征模板窗口

        傳統(tǒng)的分詞并不考慮語義解析,即忽略了地址要素間的空間關(guān)系對分詞的影響,但事實上地址要素的相對位置可以輔助判斷該地址要素的類別。因此一條地址應(yīng)包括特征模板窗口、上下文約束規(guī)則、類別標記3個部分。以圖2地址為例,其模型構(gòu)建過程如圖3所示。

        圖3 中文地址模型建立過程舉例

        4 重慶市中文語義地址模型構(gòu)建試驗

        SVM是以數(shù)字為特征的分類方法,因此可以將所有地址作為語料庫進行編號,以每一個字符在地址要素中出現(xiàn)的頻率為權(quán)重,通過對語料庫的訓練,可提高對模型建立中不可預期情況的判斷能力。一般而言,不同的核函數(shù)對SVM性能影響并不大,而核函數(shù)的參數(shù)及特征模板C才是影響SVM性能的關(guān)鍵因素[9]。故本文僅考慮核函數(shù)參數(shù)及特征模板對地址模型構(gòu)建效果的影響。

        本文采用僅有一個參數(shù)g的RBF核函數(shù),默認值為1/k,其中k為類別數(shù),由表2得k=15,不包括門址類信息。將南岸區(qū)現(xiàn)有地址作為訓練語料,從中分別抽取500、1 000、2 000、4 000條地址,并依次設(shè)定不同的g值來觀察,結(jié)果如表3所示。

        表3 不同核函數(shù)參數(shù)下的地址解析準確度/%

        由此可得,g值的選取對結(jié)果影響很大,當g=0.08時準確度最高,即采用RBF核函數(shù)作為SVM的核函數(shù)時,當g=0.08時,地址解析效果最佳。

        以南岸區(qū)原始地址為例,采用中文語義模型和傳統(tǒng)人工歸納層級模型分別對500、1 000、2 000、4 000條地址數(shù)據(jù)進行解析,兩者解析的準確度及效率如圖4、圖5所示。

        圖4 地址解析準確度對比

        圖5 不同模型建立地址庫所需時間對比

        5 結(jié) 語

        本文在分析重慶市地址結(jié)構(gòu)及其規(guī)律的基礎(chǔ)上,結(jié)合行業(yè)標準,總結(jié)出適合的地址要素分類方式,引入地址要素間空間拓撲關(guān)系,增加地址上下文結(jié)構(gòu)約束力。在地址模型構(gòu)建中,分析人工歸納層級模型的局限性,發(fā)現(xiàn)非結(jié)構(gòu)化中文地址解析的關(guān)鍵在于解決歧義問題,提出利用SVM將復雜層級模型映射到高維空間構(gòu)造判別函數(shù),以提高地址解析準確度和解析效率的技術(shù)方法,并通過實驗得到驗證。后續(xù)還可以重點研究模型動態(tài)構(gòu)建方法,進一步提高對標準地址數(shù)據(jù)建設(shè)及地址匹配的應(yīng)用支撐能力。

        [1] 蘭小機,彭濤,王飛. 贛州市地理編碼系統(tǒng)及其關(guān)鍵技術(shù)[J].測繪科學,2009(2):231-232

        [2] Dueker K J. Ubran Geocoding[J]. Annals of the Association of American Gepgraphers, 1974,64(2): 318-325

        [3] 李軍,李琦,毛東軍,等.北京市地理編碼數(shù)據(jù)庫的研究[J].計算機工程與應(yīng)用,2004,40(2):1-3

        [4] 黃頌. 中文地址編碼技術(shù)的研究[D].北京:北京大學,2005

        [5] 于濱. 面向全國經(jīng)濟普查需求的專家系統(tǒng)地理編碼方法[D].長沙:中南大學,2010

        [6] GB/T 18521-2001. 地名分類與類別代碼編制規(guī)則 [S].

        [7] 肖振強. 城市地址信息空間化的原理及方法研究[D].青島:山東科技大學,2011

        [8] 王靜. SVM在參數(shù)選擇上的優(yōu)化[D]. 蘭州:蘭州理工大學,2008

        [9] 周奇. 對支持向量機幾種常用核函數(shù)和參數(shù)選擇的比較研究[J].福建電腦,2009(6):42-43

        [10] 于濱. 面向經(jīng)濟普查項目需求的模糊中文地址匹配方法研究[D].長沙:中南大學,2010

        [11] 柳賀. 省級地理信息公共服務(wù)平臺框架建設(shè)與應(yīng)用研究[D].贛州:江西理工大學,2012

        [12] 楊麗. “數(shù)字湖北”中文地理編碼數(shù)據(jù)庫建設(shè)與服務(wù)共享[J].地理空間信息,2013(增刊):37-39

        [13] 王斌,程雪洋,林娜,等. 廣域范圍建筑物信息普查關(guān)鍵技術(shù)探討[J]. 地理空間信息,2014,12(2):32-34

        P208

        B

        1672-4623(2015)03-0122-04

        10.3969/j.issn.1672-4623.2015.03.043

        臧英斐,碩士,研究方向為地理信息技術(shù)應(yīng)用。

        2015-01-28。

        項目來源:測繪遙感信息工程國家重點實驗室開放基金資助項目(13R03);重慶市教委科技資助項目(KJ1400325);重慶交通大學博士基金資助項目(2012kjc2-011)。

        猜你喜歡
        重慶市語義解析
        重慶市光海養(yǎng)蜂場
        蜜蜂雜志(2022年5期)2022-07-20 09:54:06
        重慶市光海養(yǎng)蜂場
        蜜蜂雜志(2022年3期)2022-05-23 05:11:42
        三角函數(shù)解析式中ω的幾種求法
        語言與語義
        鑄造輝煌
        ——重慶市大足區(qū)老年大學校歌
        睡夢解析儀
        電競初解析
        商周刊(2017年12期)2017-06-22 12:02:01
        相機解析
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        久久婷婷国产色一区二区三区| 久久亚洲av成人无码国产| 图图国产亚洲综合网站| 亚洲AV无码成人网站久久精品| 在线观看视频日本一区二区三区| 中文字幕一区二区三区日日骚| 中国精品18videosex性中国| 人人摸人人操| 97视频在线播放| 日本成人三级视频网站| 日本女同性恋一区二区三区网站| 久久久精品中文字幕麻豆发布| 免费观看性欧美大片无片| 国产最新AV在线播放不卡| 国产对白刺激在线观看| 午夜精品人妻中字字幕| 日本加勒比精品一区二区视频| 99久久精品在线视频| 亚洲精品久久久久久久蜜桃| 成人一区二区免费视频| a午夜国产一级黄片| 久久综合激情的五月天| 国产精品人成在线观看免费 | 朝鲜女人大白屁股ass孕交 | 牛牛在线视频| 欧美国产精品久久久乱码| 中文字幕在线亚洲日韩6页手机版| 91美女片黄在线观看| 免费毛片一区二区三区女同| 国产精品亚洲三级一区二区三区| 成人区人妻精品一区二区不卡网站 | 久久99精品中文字幕在| 亚洲女同性恋第二区av| 超碰97人人射妻| 国内精品一区二区三区| 国产av乳头久久一区| 久久亚洲免费精品视频| 国产免费牲交视频| 黑人巨大白妞出浆| 久久久久亚洲AV无码专区一区| 人妻体体内射精一区中文字幕|