亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        顧及通名語義的漢語地名相似度匹配算法

        2014-07-02 00:22:02盧小平
        測繪學報 2014年4期
        關鍵詞:專名本體語義

        程 鋼,盧小平

        1.河南理工大學礦山空間信息技術國家測繪地理信息局重點實驗室,河南焦作 454000;2.河南理工大學測繪與國土信息工程學院,河南焦作 454000;3.信息工程大學測繪與科學技術博士后流動站,河南鄭州 450052

        顧及通名語義的漢語地名相似度匹配算法

        程 鋼1,2,3,盧小平1

        1.河南理工大學礦山空間信息技術國家測繪地理信息局重點實驗室,河南焦作 454000;2.河南理工大學測繪與國土信息工程學院,河南焦作 454000;3.信息工程大學測繪與科學技術博士后流動站,河南鄭州 450052

        地名匹配是地理信息檢索、多源地理空間數(shù)據(jù)集成及更新中的關鍵技術問題。本文根據(jù)規(guī)范漢語地名構詞特點,依據(jù)地名通名與地名類型的關系,建立規(guī)范地名通名語義知識庫,并將由其提供的地名語義作為地名相似度匹配的重要指標。針對基于字面和空間數(shù)據(jù)的地名匹配方法存在的不足,面向規(guī)范地名提出一種綜合了地名專名字面相似度和地名通名語義相似度兩種因素的復合相似度匹配算法模型。該模型模擬人的認知習慣,根據(jù)通名語義相似度程度,通過單調(diào)函數(shù)關系動態(tài)設置專名和通名相似度各自的權重值,利用動態(tài)加權方法求得復合地名相似度指標。在上述模型基礎上,本文提出漢語地名匹配策略和流程,利用通名蘊含的語義增強漢語地名匹配算法的理論基礎和完備性,提高了地名匹配算法準確率。試驗結果表明該模型符合認知習慣,驗證了該方法的合理性和有效性。

        通名;語義;本體;復合相似度;地名匹配

        1 引 言

        隨著“數(shù)字城市地理空間框架建設”戰(zhàn)略的推廣,數(shù)字地名建設及研究已經(jīng)成為學術界的熱點。尤其隨著網(wǎng)絡技術的迅速發(fā)展及人們對基于位置服務需求的快速增長,地名已經(jīng)成為普通民眾獲取信息的重要地理參考。因此,如何從海量的地理信息資源中快速、準確檢索所需信息,已成為地名研究中的重要課題。準確高效的地名匹配算法是實現(xiàn)以地名為參考的信息檢索、排序、數(shù)據(jù)挖掘等功能的關鍵,更是空間數(shù)據(jù)庫中要素匹配的重要研究內(nèi)容。

        地名匹配算法目前主要分為三大類:①將地名視為字符串,從字面相似度的角度研究地名匹配程度,包括全字匹配方法、字符串匹配度函數(shù)法、基于SQL通配符的漢字匹配方法和基于全文檢索技術的查詢方法、模糊查詢及以字母代替漢字等方法[1-3],該類方法提供了較好的查詢效率,但由于將地名作為普通字符串處理,忽略了其符號和語義特性,難以保證較高的準確率;②從空間或幾何角度研究地名或地理要素匹配[4-6],該類方法是以距離、面積、大小、位置及形狀等空間和幾何特性為依據(jù)構建相似度模型,為多源空間數(shù)據(jù)集成和更新提供基礎,該類方法易受數(shù)據(jù)存儲方式、空間數(shù)據(jù)精度、數(shù)據(jù)格式、數(shù)據(jù)庫存取效率等影響,其通用性和應用范圍受到較大限制,由于涉及大量幾何運算,執(zhí)行效率相對較低;③從地名語義特征角度研究地名表達和查詢方法[7-11],該類方法從本質(zhì)性上比較地名間的關系,結果具有較好的可靠性,但由于缺乏統(tǒng)一規(guī)范的標準地名本體,影響了該方法在實際中的應用。

        針對上述3類地名匹配算法存在的不足,考慮到地名組成形式的復雜性,本文面向規(guī)范漢語地名提出了一種顧及通名語義的地名復合相似度匹配算法。該算法顧及了規(guī)范漢語地名獨特的構詞方式[12]及地名通名對地名的指義性[13-14],除考慮專名字面特性外,將地名通名語義知識作為地名匹配的重要參考,結合認知習慣,利用動態(tài)加權法求取地名復合相似度指標,從而提高地名匹配的召回率和準確率。

        2 顧及通名語義的漢語地名復合相似度算法模型

        規(guī)范漢語地名一般由專名和通名兩部分構成。本文提出分別求取兩地名的專名和通名相似度值,再根據(jù)兩者所占的權重計算兩地名的復合相似度值,用公式(1)表示。模型中的專名相似度和通名相似度分別采用字面相似度和語義相似度方法求解

        式中,a、b表示兩個規(guī)范地名;a1、b1分別為a、b的專名;a2、b2分別為a、b的通名;sim_lit(a1,b1)為a1、b1的字面相似度值;sim_sem(a2,b2)為a2、b2的語義相似度值;sim(a,b)為地名復合相似度值,三者均為0到1的數(shù),數(shù)值越大表示相似度越大,0表示完全不同,1表示二者為同一對象。Plit為專名相似度的權重(Plit∈[0,1]);Psem則為通名相似度權重(Psem∈[0,1]),二者滿足Plit+Psem=1。

        權重設置遵循以下認知思想:當通名語義相似度高時,認為二者表達的是相近的地理實體,地名相似度主要由專名相似度表達;反之,說明兩地名表達的是相異的地理實體,專名相似度可靠性隨之降低。由此可見,專名相似度和通名相似度的權重是動態(tài)變化的,據(jù)此本文提出了動態(tài)確權方法——首先為地名定性,考察其語義關系,再由語義相似度決定其專名相似度的權重。

        本文提出的地名相似度值的計算方法(式(1))滿足如下要求:

        (1)任何概念與其自身的語義相似度為1。

        (2)所有地名通名均為同根概念節(jié)點,故sim_sem均為大于0的值。

        (3)若sim_sem為無窮小,則Plit接近0,專名可靠性最低,此時兩通名表示完全不同的兩種地理實體或現(xiàn)象,在不考慮轉(zhuǎn)義通名的情況下,認為二者不可能為同一地名。

        (4)若sim_sem=1,則Plit為1,此時兩地名通名為同一概念,只需比較專名的相似度。

        (5)若sim_sem=1且sim_lit=1,則兩地名的復合相似度值為1,二者為同一地名。

        (6)若sim_lit=0,此時表示個體的標志符完全不同,基本可排除同一地名的可能。

        根據(jù)上文權重設置思想和計算要求,本文提出建立Plit與sim_sem的分段連續(xù)單值遞增函數(shù)關系,如下式

        圖1 專名相似度權重與語義相似度的函數(shù)關系Fig.1 Function between similarity weight of the special names and semantic similarity

        該函數(shù)中PL和PH為分界點,當通名相似度小于PL時,兩地名語義相差較遠,專名可信度急劇降低,取sim_sem2為專名相似度值權重;當通名相似度大于PH時認為兩地名語義相近,專名相似度較為可靠,以sim_sem作為專名相似度值權重;PL和PH(PL<sim_sem<PH)之間的區(qū)域?qū)C尚哦冉橛谏鲜鰞煞N情況,權重關系以連接兩端點的直線函數(shù)表示。PL和PH的設置可以根據(jù)專家經(jīng)驗設置初值,并利用大樣本數(shù)據(jù)進行檢驗、修改,以適應不用的應用環(huán)境。

        3 漢字地名專名相似度

        專名用于指示地理實體專有屬性,由于其用詞廣泛,目前尚缺少統(tǒng)一的漢字語義庫及比較標準,本文簡化其語義比較過程,將其作為字符串,在進行專名比對時僅考慮其字面特性。編輯距離法是較為常用的字面相似度求解方法,用以計算從原字符串轉(zhuǎn)換到目標字符串串所需要的最少的字符插入、刪除和替換的編輯次數(shù)。本文采用該方法計算地名專名相似度,首先從兩個字符串的一端開始比較,記錄已經(jīng)比較過的子串編輯操作,然后得到下一個字符位置時的編輯操作。漢語地名專名比較時以漢字為基本處理單位,對于兩個漢語字符串X=x1x2x3…xn,Y=y(tǒng)1y2y3…ym,其中xi(i∈[1,n]),yi(i∈[1,m])均為漢字字符。漢字編輯距離計算中,編輯操作代價的值是[0,1]之間的非負數(shù),可以根據(jù)需要預先設置不同的值。本文選取0和1兩個值,并規(guī)定:當漢字xi=y(tǒng)j(i=1,2,…,n;j=1,2,…,m)時,替換的代價為0;否則所有編輯操作代價都是1。

        設Ed(a1,b1)為專名a1、b1的編輯距離,則構造地名專名相似度模型如下式

        式中,max(a1,b1)表示漢語字符串a(chǎn)1、b1最大長度(以漢字為單位)。

        例如“河南理工大學”和“河南大學”的專名“河南理工”及“河南”的最小編輯距離為Ed=2,最大長度為4,根據(jù)式(3)可得專名相似度為0.5。

        4 漢語地名通名語義相似度

        地名匹配時除考慮地名專名的字面相似度外,還應考慮地名之間的語義相似度。與傳統(tǒng)的以詞形為切入點、字符匹配算法相比,語義相似度計算是對源和目標詞語在概念層面上的相似度的度量,需要考慮詞語所在的語境和語義等信息。

        本體因其能準確描述概念及其之間的內(nèi)在聯(lián)系,已經(jīng)成為語義相似度的研究基礎。完整的地名本體涉及概念、關系、實例、公理、規(guī)則等內(nèi)容,涵蓋廣泛,包含實例的地名本體數(shù)據(jù)量龐大,涉及空間概念及關系時則更加復雜,其基本內(nèi)涵、構建方法、存儲模式、檢索方式等尚沒有成熟理論和統(tǒng)一的技術。因此,本文提出基于地名分類標準,依據(jù)通名與地名類型的緊密關系,建立僅涉及簡單層次關系的輕量級地名本體——地名通名語義知識庫,用于支持地名語義相似度判斷。

        4.1 地名通名語義知識庫

        地名通名是地名所代表的地理實體或現(xiàn)象的類型、隸屬關系、形態(tài)和性質(zhì)的規(guī)定稱呼,用來區(qū)分地理實體性質(zhì)類別[15]。由于地名用詞不規(guī)范及各種歷史原因,同一通名可能表示多種地理實體類型。對此,本文取地名的主要含義進行表達,暫不考慮近義通名、轉(zhuǎn)義通名等情況[13-16]。

        為充分利用地名中的通名語義知識,通過搜集整理大量地名專著、文獻及開源資料對常用地名通名進行統(tǒng)計,依據(jù)《地名分類與類別代碼編制規(guī)則(GB/T18521—2001)》建立了規(guī)范漢語地名通名語義知識庫,并使其成為一個輕量級的上層地名本體[16]。該本體中的地名通名主要依據(jù)通名所反映地理實體的最基本、最穩(wěn)定的屬性對地名進行分類,建立基于上下位關系(“IS-A”)的通名本體框架。本文建立的通名語義知識庫片段如圖2所示,箭頭表示“IS-A”關系。

        圖2 地名通名知識庫片段Fig.2 Excerpt from knowledge base for general names for places

        4.2 通名語義相似度算法

        基于本體的語義相似度算法主要包括概念信息量法、語義距離法、基于屬性的語義相似度及混合式語義相似度等方法[17-18]。概念信息量法以信息論和概率統(tǒng)計為基礎,需進行大量文集統(tǒng)計工作,不適宜于通名語義的計算;由于缺少對地名通名的嚴格屬性定義,基于屬性的相似度判斷同樣不適合通名語義計算。因此,本文采用基于概念層次結構的語義距離法計算地名通名之間的語義相似度。

        基本假設如下:兩概念的語義距離越大,其相似度越低,反之相似度越高[17-18]。設通名a2和b2分別對應通名語義知識庫中的概念(要素類別)con1和con2,記sim_sem(con1,con2)為二者的語義相似度,根據(jù)通名與概念的關系可知sim_sem(a2,b2)=sim_sem(con1,con2)。

        設Dist(con1,con2)為本體中兩概念的最短語義距離,則語義相似度與語義距離之間的存在如下關系:

        式中,d為調(diào)節(jié)因子,可根據(jù)專家意見或由指定語義距離的概念之間的相似度反演得到。例如,設定某本體中最短距離為1的概念間的語義相似度為0.96,代入上式,可求出d的參考值為24。

        基于語義距離的通名語義相似度算法中,影響語義的主要因子有:概念深度,概念密度,關系類型,關聯(lián)強度和概念屬性等[18-22]。根據(jù)當前通名知識庫的內(nèi)容和結構特點,本文主要考慮前三者對語義相似度的影響。

        4.2.1 概念深度

        概念深度指概念節(jié)點與根節(jié)點的最短路徑中包括的邊數(shù)。概念深度對語義相似度的影響基于以下思想:以“IS-A”關系建立的本體概念樹中,每一概念是其上位概念的細化,越到下層,概念所指的對象越具體,內(nèi)涵越豐富。同等語義距離下,兩個概念節(jié)點的深度越大,相似度越高,反之相似度越低;相反,同等語義距離下二者的概念層次差越小,則二者的語義相似度越高,反之相似度越低。

        定義Dep(con)為概念con的深度;設root為根節(jié)點,令其深度為1,即Dep(root)=1。

        任意非根節(jié)點概念con的深度Dep(con)=Dep(Parent(con))+1,其中Parent(con)為con的直接上位概念節(jié)點。

        Dep(tree)為本體樹的深度,Dep(tree)=max(Dep(coni)),(i=1,2,…,n),其中n為概念的總數(shù),coni為本體中的任意概念。

        因此,概念深度對語義相似度影響因子的計算如式(5),且滿足Ps∈(0,1]

        4.2.2 概念密度

        本體層次中,局部區(qū)域概念密度越大,說明該區(qū)域概念細化程度越大,該處概念分類越具體,在其他因素相同的條件下,直接概念子節(jié)點間的語義相似度就越高。

        定義Child(con)為概念con所包含的直接子節(jié)點的個數(shù);Child(tree)為本體樹中各概念節(jié)點中子節(jié)點數(shù)的最大值。

        設兩個概念con1和con2最近共同祖先為cona,其直接子節(jié)點的個數(shù)為Child(cona);則概念密度對語義相似度影響因子計算如式(6),且滿足Pm∈(0,1]

        4.2.3 關系類型

        本體中概念通過各種關系聯(lián)系在一起,不同關系類型對概念語義相似度的影響也有所不同。如上下位的“同義關系”所表征的語義相似度應大于“整體-部分”關系所表征的語義相似度。在關系類型不多的情況下,可采用專家打分的方法來確定關系類型的語義強度。設Pr為關系強度,則Pr∈(0,1]。

        4.2.4 改進的語義相似度算法

        綜合了上述影響因素的地名通名語義相似度算法為

        式中,α、β、γ、δ為調(diào)節(jié)因子,且滿足α+β+γ+δ=1。由于語義距離在相似度計算中占主導地位,其他因子起輔助作用,所以α的權重相對較大,而β、γ、δ的權重相對較小。該語義相似度模型中權重大小的設置,除遵循上述原則外,可采用與用戶交互或大樣本數(shù)據(jù)進行訓練的方法對初始權重進行修正,以滿足不同上下文應用環(huán)境的要求。

        5 地名復合相似度匹配綜合評價與實例分析

        5.1 地名復合相似度匹配綜合評價

        基于上文的匹配算法模型,本文進一步提出了該算法的計算策略及地名關系的綜合評價方法,其技術流程如圖3。該計算流程采用閾值過濾被檢索對象,逐步排除非目標對象,縮小目標范圍?;具^程如下:①對地名進行預處理,剔除非法字符,保證地名用詞和構成的完整性;②將地名與通名庫進行比對,遵循右側(cè)優(yōu)先,長度優(yōu)先等原則,確定地名通名,進而將地名分解為專名和通名兩部分;③計算通名相似度,其結果可以對兩地名性質(zhì)進行判斷,根據(jù)閾值決定是否需要進入下一步專名相似度的判斷;④比較專名字面相似度,根據(jù)閾值決定是否進入復合相似度計算;⑤根據(jù)上述通名和專名相似度值結合動態(tài)權重函數(shù)求取地名復合相似度值,并對大于閾值的地名進行排序,得到匹配結果。綜合考慮上述流程產(chǎn)生的單項和復合指標,可以較為全面地把握地名的性質(zhì)及它們之間的關系。由于復合相似度的范圍為0~1的正數(shù),數(shù)值越高相似度越高,即越可能為同一地名;數(shù)值越接近0則說明二者的相似度越小,不是同一地名的可能性越大。上述閾值的大小會直接影響算法的效果,其設定通常先根據(jù)經(jīng)驗設定初值,再利用樣本進行檢驗和迭代,逐步接近最優(yōu)值。

        圖3 地名相似度匹配流程Fig.3 Matching process for similarity of place names

        將上述閾值1、閾值2、閾值3均設置為0.5,以下表1中“華北水利水電學院”、“華北水利水電大學”為例說明復合相似度比對過程如下:分離二者的專名和通名,分別得到專名“華北水利水電”和“華北水利水電”及通名“學院”和“大學”;求“學院”、“大學”的語義相似度為0.8,大于0.5;于是進行專名相似性的比較,得到專名相似度為1,大于0.5;再進行復合相似度求取,其值為0.96,大于0.5,且較接近于1,因此認為二者很可能為同一地名。

        5.2 試驗分析

        本文利用河南省某地名數(shù)據(jù)庫對上述算法及流程進行了檢驗,試驗結果證明了該算法的合理性和有效性。

        5.2.1 數(shù)據(jù)來源

        本文以河南省某地名數(shù)據(jù)庫隨機抽取的3000條地名記錄作為試驗數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全省范圍,其中無通名地名147條,無專名地名1條,不規(guī)范地名412條,同區(qū)域(縣級)重復地名322條,不同區(qū)域重復地名541條。試驗使用《地名分類與類別代碼編制規(guī)則(GB/T18521— 2001)》作為構建通名知識庫的基本框架,并利用試驗地名數(shù)據(jù)庫的通名對其進行擴充,作為本次試驗語義比較的基礎。利用兩個同樣的地名記錄集合,進行相互匹配試驗,以驗證匹配效果。由于試驗數(shù)據(jù)并非完全的規(guī)范地名,為保證試驗的有效性,試驗對無通名的地名僅進行了專名相似度求解,對部分不規(guī)范地名進行了預處理。本文僅從規(guī)范地名角度研究地名關系,不考慮地名實際的空間位置關系,因此僅將上述重復地名作為相同地名處理,而不作進一步空間關系的辨析。

        5.2.2 試驗結果與分析

        本文建立的通名知識庫中僅考慮了通名間的上下位關系(未考慮其他關系類型),因此設Pr=1。試驗時,將式(2)、式(3)、式(7)代入式(1),并根據(jù)專家經(jīng)驗及隨機抽取的300條樣本數(shù)據(jù)利用迭代算法對參數(shù)進行優(yōu)化,最終設PL=0.4,PH=0.6,u=24,α=0.8,β=γ=0.1。表1分別求取了典型地名對的“通名相似度”、“專名相似度”、“復合相似度”、純基于字符串的“字面相似度”。

        表1 部分試驗數(shù)據(jù)及匹配結果Tab.1 Part of experiment data and matching results

        (1)“確山縣”和“確山”,從規(guī)范地名來看二者語義上差別很大,前者是“行政區(qū)劃”,后者是“自然地名”,復合相似度指標借助語義知識庫進行判斷,結果為0.32,較接近人的認知的判斷,而字面相似度0.67不能很好地反映這種關系;“東風渠公園”和“東風渠”與此情況類似。

        (2)“河南理工大學”和“河南大學”,為同類型地名,復合相似度匹配算法在通名相同的情況下,以專名相似度代替復合相似度,結果為0.5,降低了二者為同一地名的可信度,較符合實際;其字面相似度為0.67,表明二者是同一地名的可靠性較高,與實際情況不相符。

        (3)“鄭州市”和“焦作市”的情況與(2)類似,通名相同,專名完全不同,復合相似度指標為0,否定了二者同一地名的可能性。

        (4)“河南省”和“焦作市”,通名具有較高的相似度說明二者在性質(zhì)上有相似之處;專名相似度為0,則從符號角度否定了二者的同一性,其復合相似度僅為0.23,基本可以判斷不是同一地名;各指標值符合認知習慣。

        (5)“華北水利水電學院”與“華北水利水電大學”,為同類型高等本科院校,且專名相同,為同一所大學可能性極大,復合相似度指0.96印證了這一點;純字面相似度則忽略了“學院”和“大學”的語義,相似度僅為0.75,不能很好地反映二者的同一性。

        上述典型地名實例充分說明了本文提出的地名復合相似度指標具有較高的地名辨析能力。由試驗結果可以看出,基于本文算法及策略實現(xiàn)的匹配程序查全率為99.08%,查準率為98.55%,達到了預期目標,而且該算法更接近人的認知習慣,提高了規(guī)范地名的匹配準確率,為地名關系判斷提供了科學依據(jù)。從數(shù)據(jù)誤差分析上看,地名不規(guī)范是影響算法有效性的主要因素,今后應進一步加強非規(guī)范地名的處理方法研究。

        6 結 論

        本文將規(guī)范地名分解為專名和通名,利用編輯距離法和改進的語義距離法分別求取專名和通名的單項相似度,再利用動態(tài)加權方法求得地名復合相似度指標,并提出了基于該模型的地名匹配策略和流程,采用閾值過濾非目標對象,增強了地名匹配算法的理論完備性和有效性。主要創(chuàng)新有兩點:①建立基于地名分類的地名通名語義知識庫,并在該庫支持下,從地名性質(zhì)入手,逐步確定地名之間的關系;②模擬認知習慣,根據(jù)地名通名語義相似度動態(tài)確定各單項相似度指標的權重。試驗結果驗證了該方法的科學性和可靠性,提高了無約束規(guī)范地名的匹配準確率,為地名參照的查詢系統(tǒng)提供了有效的檢索方法,為地名本體的應用提供了新思路。該算法中的語義關系僅考慮了通名間的“IS-A”關系,不能全面反映地名間語義關系,今后將重點研究地名本體中其他關系類型尤其是空間關系對地名相似度的影響以及其他地名形式的匹配算法。

        [1] ZENG Wen,YAN Junxia.Design and Application of an Urban GIS Place Name Location Tool[J].Journal of Earth Science,2006,31(9):725-728.(曾文,鄢軍霞.城市GIS地名定位工具的設計及應用[J].地球科學:中國地質(zhì)大學學報,2006,31(9):725-728.)

        [2] YU Jianfeng,WANG Guangxia,WAN Gang.Implement of Geographical Name Retrieval Based on Fuzzy Bopomofo [J].Journal of Geomatics Science and Technology,2008, 25(2):120-123.(於建峰,王光霞,萬剛.基于漢字模糊音的地名查詢方法設計與實現(xiàn)[J].測繪科學技術學報,2008, 25(2):120-123.)

        [3] LIAO Yilan,WANG Jinfeng,MA Jiaqi,et al.Place Name Data Matching Based on BPM-BM Algorithm[J].Bulletin of Surveying and Mapping,2008(6):22-25.(廖一蘭,王勁峰,馬家奇,等.基于BPM-BM算法的地名數(shù)據(jù)匹配[J].測繪通報,2008(6):22-25.)

        [4] TONG Xiaohua,DENG Susu,SHI Wenzhong.A Probabilistic Theory Based Matching Method[J].Acta Geodaetica et Cartographica Sinaca,2007,36(2):210-217.(童小華,鄧愫愫,史文中.基于概率的地圖實體匹配方法[J].測繪學報,2007,36(2):210-217.)

        [5] HAO Yanling,TANG Wenjing,ZHAO Yuxin,et al.Areal Feature Matching Algorithm Based on Spatial Similarity[J].Acta Geodaetica et Cartographica Sinaca, 2008,37(4):501-506.(郝燕,唐文靜,趙玉新,等.基于空間相似性的面實體匹配算法研究[J].測繪學報,2008,37 (4):501-506.)

        [6] AN Xiaoya,SUN Qun,XIAO Qiang,et al.A Shape Multilevel Description Method and Application in Measuring Geometry Similarity of Multi-scale Spatial Data[J].Acta Geodaetica et Cartographica Sinica,2011,40(4):495-502.(安曉亞,孫群,肖強,等.一種形狀多級描述方法及在多尺度空間數(shù)據(jù)幾何相似性度量中的應用[J].測繪學報, 2011,40(4):495-502.)

        [7] LIU Yu,ZHANG Yi,TIAN Yuan,et al.On General Place Names and the Associated Ontology[J].Geography and Geo-Information Science,2007,23(6):1-7.(劉瑜,張毅,田原,等.廣義地名及其本體研究[J].地理與地理信息科學,2007,23(6):1-7.)

        [8] CHENG Gang,DU Qingyun.Construction and Application of Ontologies in Location-based Services[J].Journal of Liaoning Technical University:Natural Science,2009,28 (5):708-711.(程鋼,杜清運.基于位置服務中的本體構建及應用[J].遼寧工程技術大學學報:自然科學版,2009, 28(5):708-711.)

        [9] LI Shuxia,AN Min,LI Hongwei,et al.Design of the Ontology of Place Based on Commonsense Spatial Cognition[J].Journal of Geomatics Science and Technology, 2011,28(6):450-453.(李淑霞,安敏,李宏偉,等.常識空間認知研究與地名本體設計[J].測繪科學技術學報,2011, 28(6):450-453.)

        [10] JANOWICZ K,KESSLER C.The Role of Ontology in Improving Gazetteer Interaction[J].International Journal of Geographical Information Science,2008,22(10):1129-1157.

        [11] JI Xiaoyan,ZHOU Min.A Study of Processing Technique of Place Name Data in Construction of Global Basic Geographic Base Map Database[J].Bulletin of Surveying and Mapping,2006(7):45-48.(季曉燕,周敏.全球基礎地理底圖數(shù)據(jù)庫建設中對地名數(shù)據(jù)處理技術的探討[J].測繪通報,2006(7):45-48.)

        [12] BENNETT B,AGARWAL P.Semantic Categories Underlying the Meaning of Place[C]∥Proceedings of the 8th International Conference on Spatial Information Theory (COSIT 2007).Melbourne:[s.n.],2007.

        [13] ZHANG Chunju,ZHANG Xueying,JI Leijing,et al.RelationMapping between Generic Terms of Place Names and Geographical Feature Types[J].Geomatics and Information Science of Wuhan University,2011,36(7):857-861.(張春菊,張雪英,吉蕾靜,等.地名通名與地理要素類型的關系映射[J].武漢大學學報:信息科學版,2011,36(7):857-861.)

        [14] CHU Yaping,YIN Junke,SUN Donghu.The Toponymy Essentials[M].2nd ed.Beijing:Surveying and Mapping Press,2009.(褚亞平,尹鈞科,孫冬虎.地名學基礎教程[M].第2版.北京:測繪出版社,2009.)

        [15] WANG Jitong.Norms for General Chinese Place Name[J].China Place Name,2002(3):20-23.(王際桐.中國漢語地名通名的規(guī)范[J].中國地名,2002(3):20-23.)

        [16] Ministry of Civil Affairs of the People's Republic of China.Rules for Classification of Geographical Names and Code Representation GB/T18521-2001[S].Beijing:China Biaozhun Press,2002.(中華人民共和國民政部.地名分類與類別代碼編制規(guī)則GB/T18521-2001[S].北京:中國標準出版社,2002.)

        [17] CHENG Gang,LU Xiaoping,GE Xiaosan,et al.Data Fusion Method for Digital Gazetteer[C]∥Proceedings of 18th International Conference.Beijing:[s.n.],2010.

        [18] HUANG Shiguo,GENG Guohua.The Survey on Semantic Similarity Metric[J].Computer Applications and Software,2008,25(2):37-39.(黃世國,耿國華.語義相似性測度方法研究綜述[J].計算機應用與軟件,2008,25 (2):37-39.)

        [19] SUN Haixia,QIAN Qing,CHENG Ying.Review of Ontologybased Semantic Similarity Measuring[J].New Technology of Library and Information Service,2010(1):51-56.(孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現(xiàn)代圖書情報技術,2010(1):51-56.)

        [20] LIU Jingfang,ZOU Ping,ZHANG Pengzhu,et al.Research on an Improved Algorithm of Concept Semantic Similarity Based on Ontology[J].Journal of Wuhan University of Technology,2010,32(20):112-127.(劉景方,鄒平,張朋柱,等.一種改進的本體概念語義相似度算法研究[J].武漢理工大學學報,2010,32(20):112-127.)

        [21] JIANG Hua.Research on Concept Semantic Similarity Computation Based on Ontology[J].Computer Applications and Software,2009,26(7):143-145.(姜華.一種基于本體的概念語義相似度計算研究[J].計算機應用與軟件, 2009,26(7):143-145.)

        (責任編輯:宋啟凡)

        Matching Algorithm for Chinese Place Names by Similarity in Consideration of Semantics of General Names for Places

        CHENG Gang1,2,3,LU Xiaoping1
        1.Key Laboratory of Mine Spatial Information Technologies,National Administration of Surveying,Mapping and Geoinformation,Henan Polytechnic University,Jiaozuo 454000,China;2.School of Surveying and Land Information Engineering,Henan Polytechnic University,Jiaozuo 454000,China;3.Postdoctoral Research Center of Surveying and Mapping,PLA Information Engineering University,Zhengzhou 450052,China

        Matching of place names is one of the key issues in geographic information retrieval, integration and updating for multi-source geospatial data.According to the morphology characteristics for Chinese place names and relations between general names for places and its types;ontology knowledge base for general names for places has been established,based on which semantic of place names is used as an important indicator for matching of place names by their similarity.Aiming at overcoming the shorts of queries by literals or geospatial data for place names,a new matching algorithm and query strategy is proposed for Chinese place names taking both similarities of special names and general names for places into consideration.The method simulates human cognitive habits,in which the weights of similarity for special names and general names for places are set dynamically according to the degree of semantic similarity by a monotonic function relationship.The final composite similarity index for place names is weighted average for similarities of special names and general names for places.Based on the model above,the strategy and flow have been put forward,which enhances the theoretical basis and completeness of matching algorithm for Chinese place names by using semantic knowledge from general names for places,and it thereby improves the accuracy of the matching algorithm.The experimental results show that the matching model is consistent with human cognitive habits,and further demonstrate the rationality and effectiveness of this method.

        general names for places;semantic;ontology;composite index;matching of place names

        CHENG Gang(1981—),male,PhD, associate professor,majors in theory and methods for GIS.

        P208

        A

        1001-1595(2014)04-0404-07

        2013-04-27

        程鋼(1981—),男,博士,副教授,主要研究方向為GIS理論與方法。

        E-mail:chenggang1218@163.com

        CHENG Gang,LU Xiaoping.Matching Algorithm for Chinese Place Names by Similarity in Consideration of Semantics of General Names for Places[J].Acta Geodaetica et Cartographica Sinica,2014,43(4):404-410.(程鋼,盧小平.顧及通名語義的漢語地名相似度匹配算法[J].測繪學報,2014,43(4):404-410.)

        10.13485/j.cnki.11-2089.2014.0060

        國家自然科學基金(41001226;41340034);河南省高等學校骨干教師計劃(2012GGJS-055);河南省教育廳自然科學研究計劃(2010B170006);國家測繪地理信息局重點實驗室開放課題(KLM201202);數(shù)字制圖與國土信息應用工程國家測繪地理信息局重點實驗室開放基金(GCWD201002);河南理工大學博士基金(B2010-9)

        修回日期:2013-07-20

        猜你喜歡
        專名本體語義
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        名義摹狀詞理論及其反駁與辯護
        邏輯學研究(2023年4期)2023-12-17 18:41:07
        北斗衛(wèi)星導航系統(tǒng)專名的確定與保護
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        語言與語義
        古籍專名數(shù)據(jù)庫的構建與統(tǒng)計分析
        文教資料(2019年35期)2019-04-19 06:53:02
        “上”與“下”語義的不對稱性及其認知闡釋
        《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
        文學教育(2016年27期)2016-02-28 02:35:15
        認知范疇模糊與語義模糊
        專名問題的語言哲學、語用學考察
        超碰性爱| 国产欧美日韩午夜在线观看| 内射少妇36p九色| 一边摸一边抽搐一进一出视频| 领导边摸边吃奶边做爽在线观看| 一区二区三区中文字幕| 国产农村妇女毛片精品久久| www国产精品内射熟女| 欧美人成人亚洲专区中文字幕| 亚洲色成人WWW永久在线观看| 免费人成视频欧美| 一区二区三区少妇熟女高潮| 亚洲乱码av一区二区蜜桃av| 中文乱码字字幕在线国语| 亚洲国产精品综合久久网络 | 亚洲精品www久久久久久| 国产成人无码区免费网站| 精品无码av不卡一区二区三区| 啊v在线视频| 蜜桃av区一区二区三| 加勒比av在线一区二区| 国产一区二区三区激情视频| 亚洲夜夜性无码| 精品少妇人妻av无码专区| 91免费在线| 无码av永久免费大全| 日韩人妻大奶子生活片| 国产一区二区三区啊啊| 免费无码专区毛片高潮喷水| 老熟女高潮一区二区三区| 亚洲高清视频在线播放| 青青草视频在线播放81| 国产黄久色一区2区三区| 国产精品免费一区二区三区四区 | 国产亚洲精品久久久久婷婷瑜伽| 男人扒开女人双腿猛进女人机机里 | av无码久久久久久不卡网站| 美国黄色片一区二区三区| 精品国产自拍在线视频| 国产av精选一区二区| 中文字幕无码成人片|