亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        農(nóng)村土地利用數(shù)據(jù)集成的模式匹配方法

        2014-11-15 09:31:36王強(qiáng)
        江蘇農(nóng)業(yè)科學(xué) 2014年9期
        關(guān)鍵詞:模式匹配農(nóng)村土地

        摘要:以模式匹配作為數(shù)據(jù)集成的重要方法可以解決多源數(shù)據(jù)在模式上的差異問題,為用戶提供統(tǒng)一的訪問視圖。通過對現(xiàn)有模式匹配方法及農(nóng)村土地利用數(shù)據(jù)差異類型的分析,提出基于不同模式結(jié)構(gòu)層次的元素匹配和實(shí)例統(tǒng)計(jì)匹配相結(jié)合的復(fù)合匹配方法,通過對模式語義相似度的計(jì)算,解決農(nóng)村土地利用數(shù)據(jù)集成過程中的模式匹配問題。最后選取海南省瓊海市大路鎮(zhèn)農(nóng)村土地利用數(shù)據(jù),驗(yàn)證該方法的可行性和有效性。

        關(guān)鍵詞:農(nóng)村土地;模式差異;模式匹配;語義相似度;實(shí)例統(tǒng)計(jì)

        中圖分類號: S127文獻(xiàn)標(biāo)志碼: A文章編號:1002-1302(2014)09-0391-04

        收稿日期:2013-11-18

        基金項(xiàng)目:國家科技支撐計(jì)劃(編號:2012BAJ23B04)

        。

        作者簡介:王強(qiáng)(1988—),男,河南信陽人,碩士研究生,主要從事空間數(shù)據(jù)語義整合研究。E-mail:yethde@163.com。

        通信作者:朱華吉,博士,副研究員,主要從事時態(tài)GIS理論研究。E-mail:zhuhuaji@126.com。隨著我國經(jīng)濟(jì)快速發(fā)展,國土部門的業(yè)務(wù)范圍不斷擴(kuò)大,積累的農(nóng)村土地利用數(shù)據(jù)也越來越多。這些地理數(shù)據(jù)往往是由不同部門采用各自的數(shù)據(jù)管理軟件,按照各自行業(yè)標(biāo)準(zhǔn)采集和管理,沒有統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范,缺乏應(yīng)有的溝通和信息流動,使跨平臺的數(shù)據(jù)交換出現(xiàn)困難[1]。建立農(nóng)村土地利用數(shù)據(jù)共享機(jī)制,集成多源異構(gòu)土地利用數(shù)據(jù),有助于掌握農(nóng)村土地利用動態(tài)變化、耕地總量動態(tài)平衡情況,便于監(jiān)測、預(yù)測土地類型的變化趨勢和對土地利用情況進(jìn)行分析,對農(nóng)村土地的科學(xué)管理具有重要意義。本研究討論了數(shù)據(jù)集成過程中模式匹配的方法和作用,通過分析農(nóng)村土地利用數(shù)據(jù)模式的差異類型提出了基于元素和實(shí)例統(tǒng)計(jì)相結(jié)合的復(fù)合匹配方法,給出元素匹配中元素語義相似度的計(jì)算公式,設(shè)計(jì)了不同類型屬性的統(tǒng)計(jì)參數(shù),旨在尋找正確的匹配模式,以便數(shù)據(jù)集成。

        1模式及模式匹配

        模式是指按照某種結(jié)構(gòu)組織起來的多個元素的集合,通常由數(shù)據(jù)庫表、列、類或XML元素、屬性等關(guān)聯(lián)元素集組成[2]。模式匹配是指從2個或多個模式中確定相關(guān)元素在語義上的對應(yīng)關(guān)系,并聲明其具體映射過程,其核心在于計(jì)算模式間的相似度。以給定的2個模式元素集合S={S1,S2,…,Sn}和T={T1,T2,…,Tm}作為輸入,發(fā)現(xiàn)語義相關(guān)模式元素S′、T′ ,并給出它們之間的映射關(guān)系,即完成一個模式匹配過程。

        目前大多數(shù)應(yīng)用系統(tǒng)中的模式匹配任務(wù)是由用戶手動實(shí)現(xiàn)的。為了滿足日益迫切的現(xiàn)實(shí)需要和盡量減少模式匹配過程中用戶的參與,人們對模式匹配問題進(jìn)行了一系列研究,并提出多種自動或半自動匹配方法。根據(jù)信息來源和種類,現(xiàn)有模式自動匹配方法可劃分為基于元素的匹配方法、基于實(shí)例的匹配方法、組合式匹配方法等三大類[3]。

        基于元素的匹配方法僅依據(jù)模式元素本身所具有的信息來發(fā)現(xiàn)和確定語義相關(guān)的模式元素。這些信息主要包括元素名稱、元素描述性說明信息、約束信息(如數(shù)據(jù)類型、取值范圍)等?;趯?shí)例的匹配方法是利用數(shù)據(jù)實(shí)例為匹配任務(wù)提供語義線索,分為實(shí)例概括統(tǒng)計(jì)和實(shí)例內(nèi)容統(tǒng)計(jì)2種方法。組合式匹配方法則包含基于元素和基于實(shí)例的方法,更靈活,效果往往也更好。

        針對組合式匹配方法,SemInt系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)技術(shù)通過分析字段或?qū)傩缘募s束和實(shí)例統(tǒng)計(jì)信息來發(fā)現(xiàn)不同數(shù)據(jù)庫中的相關(guān)字段,該系統(tǒng)可以自動執(zhí)行屬性匹配的整個過程,不需要用戶參與。但由于該過程須要大量的訓(xùn)練學(xué)習(xí)處理,容易產(chǎn)生類似于 m ∶n 的不確切匹配候選情況,進(jìn)一步增加用戶對匹配結(jié)果的核對和校正時間[4]。COMA平臺期望以最優(yōu)的策略對不同匹配方法產(chǎn)生的匹配結(jié)果進(jìn)行綜合利用,詳細(xì)討論組合匹配的基本過程以及可采取的組合策略類型,提供一個擴(kuò)展性良好的平臺來綜合各種方法的結(jié)果[5]。LSD系統(tǒng)先通過手工給出的匹配關(guān)系和數(shù)據(jù)實(shí)例訓(xùn)練學(xué)習(xí)器,用訓(xùn)練好的學(xué)習(xí)器產(chǎn)生新的匹配關(guān)系,最后結(jié)合多個學(xué)習(xí)器給出的映射規(guī)則獲取最終匹配結(jié)果。盡管其準(zhǔn)確性較高,但它需要專家知識才能完成人工訓(xùn)練,并且對于大型的應(yīng)用來說很浪費(fèi)時間[6]。

        組合式匹配可以在一定程度上提高匹配效果,但隨著組合信息和方法的增加,系統(tǒng)復(fù)雜性也將隨之增加。由于多種來源的信息具有不同的表達(dá)形式,一般并不能直接被應(yīng)用于混合匹配,而須要制定高效的策略和規(guī)則對其進(jìn)行規(guī)范化處理。復(fù)合匹配是以單個匹配方法為基礎(chǔ)的,為保證其效率和效果,不僅要盡可能地提高每個成員匹配方法的效率和效果,而且應(yīng)該選擇正確的執(zhí)行順序,制定合理的結(jié)果重用和組合策略。

        2數(shù)據(jù)模式差異分析

        模式是對數(shù)據(jù)基本種類和特征的概括性描述,反映的是各類數(shù)據(jù)的結(jié)構(gòu)、屬性、聯(lián)系、約束。由于土地利用數(shù)據(jù)是由不同單位根據(jù)自身實(shí)際需要設(shè)計(jì)數(shù)據(jù)模型,必然會產(chǎn)生不同的模式。數(shù)據(jù)采集單位用不同屬性字段表達(dá)相同的地物類別,或用同一屬性字段表達(dá)不同的空間地物,即存在“同名異物”和“同物異名”問題。數(shù)據(jù)應(yīng)用部門對提供的數(shù)據(jù)模式進(jìn)行不同的重構(gòu)處理,如重新規(guī)劃要素類,為要素類增加或刪除屬性字段,更改屬性約束、取值范圍等。綜合來看,土地利用數(shù)據(jù)的模式差異主要表現(xiàn)在以下方面[7]。

        2.1概括差異

        概括是在定義類型時,將具有公共屬性和操作特征的幾種類型抽象出來,形成一種更一般的超類的機(jī)制。當(dāng)設(shè)計(jì)者采用不同的概括層次描述現(xiàn)實(shí)世界中的相關(guān)實(shí)體時,將產(chǎn)生概括差異。如表1中定義的要素類面狀地物,既可以表示幾何形狀為面狀的地類圖斑,也可以表示具有面積的線狀地物,還可以表示因?yàn)楸壤卟荒苌蠄D而面積過大不能舍棄的零星地物,表2中的要素類只表示地類圖斑。

        2.2聚集差異

        聚集是將幾個不同特征的子對象組合在一起形成一個在語義水平上更高的雙親對象。當(dāng)一個定義的要素類相當(dāng)于另一個或多個要素類的聚集結(jié)果時,將產(chǎn)生聚集差異。如要素類“道路”和要素類“公路”,前者中一個要素的空間形態(tài)和屬性是后者若干個要素的空間形態(tài)和屬性特征的聚合或總和。endprint

        2.3描述差異

        描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來描述和刻畫相同現(xiàn)象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標(biāo)志碼、地類名稱、變更時間、地類代碼、毛面積)和 屬性集合(幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來刻畫地理要素的屬性和空間特征。

        2.4命名差異

        在模式設(shè)計(jì)或定義時,為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區(qū)別,通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物(要素類A)

        2.5約束差異

        當(dāng)要素類對相同概念或關(guān)系采用不同約束條件(如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長度、取值范圍等)時,將產(chǎn)生約束差異。例如,將待入庫的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時,2個數(shù)據(jù)庫分別采用數(shù)值型和字符型來記錄要素的編碼值。

        此外,如果2個關(guān)系(表)中存在共同的數(shù)據(jù)實(shí)例,則可認(rèn)為這2個關(guān)系之間存在匹配關(guān)系,然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個關(guān)系的屬性匹配關(guān)系。因此,數(shù)據(jù)實(shí)例對揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。

        3農(nóng)村土地利用數(shù)據(jù)的模式匹配

        從地理信息系統(tǒng)(GIS)的觀點(diǎn)看,一個典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個屬性。按照不同模式結(jié)構(gòu)層次分類,將要素類(關(guān)系表)當(dāng)作底層元素時,屬性(字段)可以看作是它的實(shí)例;將屬性(字段)作為底層元素時,數(shù)據(jù)記錄即為它的實(shí)例。

        將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配,計(jì)算其元素相似度、約束相似度、實(shí)例相似度,通過最大相似度建立起模式匹配關(guān)系。

        3.1基于元素的匹配

        基于元素的匹配技術(shù)是對單個模式元素進(jìn)行匹配的。對于第1個輸入模式的每個元素,基于元素的匹配在第2個輸入模式中確定匹配元素。在最簡單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層,也可應(yīng)用于高層(非原子層)元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。

        3.1.1元素名稱匹配“如果2個元素的名稱完全相同,則它們存在匹配關(guān)系”,這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語句。語句相似度是指2個語句的相似程度。相似度達(dá)到某個設(shè)定閥值時,就認(rèn)為這2個語句相似。一般語句相似度計(jì)算首先對語句進(jìn)行分割,通過計(jì)算關(guān)鍵詞詞形、詞義相似度,再賦予它們不同的權(quán)重得到語句的相似度[8]。

        對于詞形相似度,可以通過 Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來衡量。對于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系,因此所需的評價方法相對比較復(fù)雜,需要語義詞典支持,如 WordNet、知網(wǎng)等。

        3.1.1.1基于詞形的相似度計(jì)算設(shè)語句S1、S2分別可被切分為m、n個詞語,即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過下式計(jì)算:

        3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語c1、c′1的2個義原[9](描述詞語語義的最小單位),其相似度如下。

        3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等,它們是一種重要的語義信息來源。因?yàn)樵谀J皆O(shè)計(jì)時相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據(jù)來確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。

        3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會存在對應(yīng)關(guān)系,如浮點(diǎn)型屬性和雙精度型屬性存儲的可能都是一定精度的面積數(shù)據(jù),“char”型屬性和“string”型屬性可能都存儲英文字符型數(shù)據(jù);常見日期型數(shù)據(jù)可以用字符串表示,也可以用專門的日期型屬性存儲。

        3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲標(biāo)準(zhǔn)的不同,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時會有不同的屬性值域。

        3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

        3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語義來源。例如,已知A、B之間具有1 ∶1的關(guān)系,并且A與C匹配,那么B與C之間也可能存在匹配關(guān)系。

        基于約束的屬性相似性計(jì)算方法如下:

        Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)

        式中:Sim(αi,βi)為屬性元素第i對對應(yīng)約束因子相似度。

        單獨(dú)使用約束信息經(jīng)常會導(dǎo)致不完全的n ∶m映射,因?yàn)橐粋€模式中可能有多個具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量,而且可與其他匹配程序相結(jié)合(如名稱匹配程序)[10]。

        3.2基于實(shí)例統(tǒng)計(jì)的匹配

        基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級數(shù)據(jù),通過這些實(shí)例級數(shù)據(jù)可以認(rèn)識到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下,尤其是對于半結(jié)構(gòu)化數(shù)據(jù),它們是非常有意義的。特別是在沒有給定任何模式信息的情況下,可以通過實(shí)例數(shù)據(jù)手工或自動構(gòu)造出模式。

        實(shí)例級數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述,可以進(jìn)一步分析模式元素的內(nèi)容和意義,尤其當(dāng)只有有限的可用模式信息時,通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒有給出模式,只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式,如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖;甚至當(dāng)可獲取充裕的模式信息時,實(shí)例級匹配對于發(fā)現(xiàn)錯誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級匹配中,通過選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。

        對于可能匹配的屬性,若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積,其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等,分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個統(tǒng)計(jì)量上的值(表3)。設(shè)定差異閾值,統(tǒng)計(jì)量差異小于閾值則對應(yīng)屬性是匹配的。endprint

        2.3描述差異

        描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來描述和刻畫相同現(xiàn)象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標(biāo)志碼、地類名稱、變更時間、地類代碼、毛面積)和 屬性集合(幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來刻畫地理要素的屬性和空間特征。

        2.4命名差異

        在模式設(shè)計(jì)或定義時,為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區(qū)別,通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物(要素類A)

        2.5約束差異

        當(dāng)要素類對相同概念或關(guān)系采用不同約束條件(如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長度、取值范圍等)時,將產(chǎn)生約束差異。例如,將待入庫的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時,2個數(shù)據(jù)庫分別采用數(shù)值型和字符型來記錄要素的編碼值。

        此外,如果2個關(guān)系(表)中存在共同的數(shù)據(jù)實(shí)例,則可認(rèn)為這2個關(guān)系之間存在匹配關(guān)系,然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個關(guān)系的屬性匹配關(guān)系。因此,數(shù)據(jù)實(shí)例對揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。

        3農(nóng)村土地利用數(shù)據(jù)的模式匹配

        從地理信息系統(tǒng)(GIS)的觀點(diǎn)看,一個典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個屬性。按照不同模式結(jié)構(gòu)層次分類,將要素類(關(guān)系表)當(dāng)作底層元素時,屬性(字段)可以看作是它的實(shí)例;將屬性(字段)作為底層元素時,數(shù)據(jù)記錄即為它的實(shí)例。

        將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配,計(jì)算其元素相似度、約束相似度、實(shí)例相似度,通過最大相似度建立起模式匹配關(guān)系。

        3.1基于元素的匹配

        基于元素的匹配技術(shù)是對單個模式元素進(jìn)行匹配的。對于第1個輸入模式的每個元素,基于元素的匹配在第2個輸入模式中確定匹配元素。在最簡單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層,也可應(yīng)用于高層(非原子層)元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。

        3.1.1元素名稱匹配“如果2個元素的名稱完全相同,則它們存在匹配關(guān)系”,這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語句。語句相似度是指2個語句的相似程度。相似度達(dá)到某個設(shè)定閥值時,就認(rèn)為這2個語句相似。一般語句相似度計(jì)算首先對語句進(jìn)行分割,通過計(jì)算關(guān)鍵詞詞形、詞義相似度,再賦予它們不同的權(quán)重得到語句的相似度[8]。

        對于詞形相似度,可以通過 Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來衡量。對于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系,因此所需的評價方法相對比較復(fù)雜,需要語義詞典支持,如 WordNet、知網(wǎng)等。

        3.1.1.1基于詞形的相似度計(jì)算設(shè)語句S1、S2分別可被切分為m、n個詞語,即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過下式計(jì)算:

        3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語c1、c′1的2個義原[9](描述詞語語義的最小單位),其相似度如下。

        3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等,它們是一種重要的語義信息來源。因?yàn)樵谀J皆O(shè)計(jì)時相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據(jù)來確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。

        3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會存在對應(yīng)關(guān)系,如浮點(diǎn)型屬性和雙精度型屬性存儲的可能都是一定精度的面積數(shù)據(jù),“char”型屬性和“string”型屬性可能都存儲英文字符型數(shù)據(jù);常見日期型數(shù)據(jù)可以用字符串表示,也可以用專門的日期型屬性存儲。

        3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲標(biāo)準(zhǔn)的不同,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時會有不同的屬性值域。

        3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

        3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語義來源。例如,已知A、B之間具有1 ∶1的關(guān)系,并且A與C匹配,那么B與C之間也可能存在匹配關(guān)系。

        基于約束的屬性相似性計(jì)算方法如下:

        Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)

        式中:Sim(αi,βi)為屬性元素第i對對應(yīng)約束因子相似度。

        單獨(dú)使用約束信息經(jīng)常會導(dǎo)致不完全的n ∶m映射,因?yàn)橐粋€模式中可能有多個具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量,而且可與其他匹配程序相結(jié)合(如名稱匹配程序)[10]。

        3.2基于實(shí)例統(tǒng)計(jì)的匹配

        基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級數(shù)據(jù),通過這些實(shí)例級數(shù)據(jù)可以認(rèn)識到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下,尤其是對于半結(jié)構(gòu)化數(shù)據(jù),它們是非常有意義的。特別是在沒有給定任何模式信息的情況下,可以通過實(shí)例數(shù)據(jù)手工或自動構(gòu)造出模式。

        實(shí)例級數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述,可以進(jìn)一步分析模式元素的內(nèi)容和意義,尤其當(dāng)只有有限的可用模式信息時,通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒有給出模式,只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式,如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖;甚至當(dāng)可獲取充裕的模式信息時,實(shí)例級匹配對于發(fā)現(xiàn)錯誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級匹配中,通過選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。

        對于可能匹配的屬性,若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積,其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等,分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個統(tǒng)計(jì)量上的值(表3)。設(shè)定差異閾值,統(tǒng)計(jì)量差異小于閾值則對應(yīng)屬性是匹配的。endprint

        2.3描述差異

        描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來描述和刻畫相同現(xiàn)象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標(biāo)志碼、地類名稱、變更時間、地類代碼、毛面積)和 屬性集合(幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來刻畫地理要素的屬性和空間特征。

        2.4命名差異

        在模式設(shè)計(jì)或定義時,為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區(qū)別,通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物(要素類A)

        2.5約束差異

        當(dāng)要素類對相同概念或關(guān)系采用不同約束條件(如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長度、取值范圍等)時,將產(chǎn)生約束差異。例如,將待入庫的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時,2個數(shù)據(jù)庫分別采用數(shù)值型和字符型來記錄要素的編碼值。

        此外,如果2個關(guān)系(表)中存在共同的數(shù)據(jù)實(shí)例,則可認(rèn)為這2個關(guān)系之間存在匹配關(guān)系,然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個關(guān)系的屬性匹配關(guān)系。因此,數(shù)據(jù)實(shí)例對揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。

        3農(nóng)村土地利用數(shù)據(jù)的模式匹配

        從地理信息系統(tǒng)(GIS)的觀點(diǎn)看,一個典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個屬性。按照不同模式結(jié)構(gòu)層次分類,將要素類(關(guān)系表)當(dāng)作底層元素時,屬性(字段)可以看作是它的實(shí)例;將屬性(字段)作為底層元素時,數(shù)據(jù)記錄即為它的實(shí)例。

        將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配,計(jì)算其元素相似度、約束相似度、實(shí)例相似度,通過最大相似度建立起模式匹配關(guān)系。

        3.1基于元素的匹配

        基于元素的匹配技術(shù)是對單個模式元素進(jìn)行匹配的。對于第1個輸入模式的每個元素,基于元素的匹配在第2個輸入模式中確定匹配元素。在最簡單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層,也可應(yīng)用于高層(非原子層)元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。

        3.1.1元素名稱匹配“如果2個元素的名稱完全相同,則它們存在匹配關(guān)系”,這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語句。語句相似度是指2個語句的相似程度。相似度達(dá)到某個設(shè)定閥值時,就認(rèn)為這2個語句相似。一般語句相似度計(jì)算首先對語句進(jìn)行分割,通過計(jì)算關(guān)鍵詞詞形、詞義相似度,再賦予它們不同的權(quán)重得到語句的相似度[8]。

        對于詞形相似度,可以通過 Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來衡量。對于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系,因此所需的評價方法相對比較復(fù)雜,需要語義詞典支持,如 WordNet、知網(wǎng)等。

        3.1.1.1基于詞形的相似度計(jì)算設(shè)語句S1、S2分別可被切分為m、n個詞語,即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過下式計(jì)算:

        3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語c1、c′1的2個義原[9](描述詞語語義的最小單位),其相似度如下。

        3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等,它們是一種重要的語義信息來源。因?yàn)樵谀J皆O(shè)計(jì)時相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據(jù)來確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。

        3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會存在對應(yīng)關(guān)系,如浮點(diǎn)型屬性和雙精度型屬性存儲的可能都是一定精度的面積數(shù)據(jù),“char”型屬性和“string”型屬性可能都存儲英文字符型數(shù)據(jù);常見日期型數(shù)據(jù)可以用字符串表示,也可以用專門的日期型屬性存儲。

        3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲標(biāo)準(zhǔn)的不同,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時會有不同的屬性值域。

        3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

        3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語義來源。例如,已知A、B之間具有1 ∶1的關(guān)系,并且A與C匹配,那么B與C之間也可能存在匹配關(guān)系。

        基于約束的屬性相似性計(jì)算方法如下:

        Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)

        式中:Sim(αi,βi)為屬性元素第i對對應(yīng)約束因子相似度。

        單獨(dú)使用約束信息經(jīng)常會導(dǎo)致不完全的n ∶m映射,因?yàn)橐粋€模式中可能有多個具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量,而且可與其他匹配程序相結(jié)合(如名稱匹配程序)[10]。

        3.2基于實(shí)例統(tǒng)計(jì)的匹配

        基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級數(shù)據(jù),通過這些實(shí)例級數(shù)據(jù)可以認(rèn)識到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下,尤其是對于半結(jié)構(gòu)化數(shù)據(jù),它們是非常有意義的。特別是在沒有給定任何模式信息的情況下,可以通過實(shí)例數(shù)據(jù)手工或自動構(gòu)造出模式。

        實(shí)例級數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述,可以進(jìn)一步分析模式元素的內(nèi)容和意義,尤其當(dāng)只有有限的可用模式信息時,通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒有給出模式,只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式,如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖;甚至當(dāng)可獲取充裕的模式信息時,實(shí)例級匹配對于發(fā)現(xiàn)錯誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級匹配中,通過選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。

        對于可能匹配的屬性,若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積,其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等,分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個統(tǒng)計(jì)量上的值(表3)。設(shè)定差異閾值,統(tǒng)計(jì)量差異小于閾值則對應(yīng)屬性是匹配的。endprint

        猜你喜歡
        模式匹配農(nóng)村土地
        儲氫場景與氫氣儲運(yùn)系統(tǒng)的多維度模式匹配優(yōu)化研究
        莘縣農(nóng)村土地托管的實(shí)踐與探索
        基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
        電子制作(2019年13期)2020-01-14 03:15:32
        首次大修的《農(nóng)村土地承包法》修改了哪些內(nèi)容?
        農(nóng)村土地流轉(zhuǎn)如何增加農(nóng)民收入
        具有間隙約束的模式匹配的研究進(jìn)展
        移動信息(2018年1期)2018-12-28 18:22:52
        OIP-IOS運(yùn)作與定價模式匹配的因素、機(jī)理、機(jī)制問題
        健全機(jī)制推動農(nóng)村土地確權(quán)
        不能把農(nóng)村土地集體所有制改垮了
        基于散列函數(shù)的模式匹配算法
        亚洲中文字幕综合网站| 国产精品福利影院| 日韩久久av电影| 免费av在线 国产精品| 色欲色香天天天综合网www | 精品深夜av无码一区二区| 亞洲綜合一區二區三區無碼| 美女一区二区三区在线观看视频| 中国少妇久久一区二区三区| 国产精品中文久久久久久久| 久久精品一区二区免费播放| 久久亚洲一级av一片| 在线国产激情视频观看| 国产99在线 | 亚洲| 欧美一级三级在线观看| 少妇激情一区二区三区久久大香香| 国产日产韩国av在线| 欧美裸体xxxx极品少妇| 乱子伦av无码中文字幕| 97久久久一区二区少妇| 久久99精品久久久久久琪琪| 久久久精品人妻一区二区三区四| 丰满少妇又紧又爽视频| 免费人妻精品一区二区三区| 人妻少妇久久久久久97人妻| 极品粉嫩嫩模大尺度无码| 午夜一区二区三区av| 国内嫩模自拍诱惑免费视频| 蜜桃视频无码区在线观看| 欧美人与禽交zozo| 国产一区二区三区在线av| 免费无遮挡无码永久视频| 欧美亚洲国产精品久久高清| 日韩精品中文字幕人妻系列| 亚洲国产精品一区二区成人av| 亚洲性爱视频| 亚洲AV成人无码久久精品在| 国产亚洲中文字幕久久网| 久久精品国产精品青草| 亚洲美女影院| 一级a免费高清免在线|