程綿綿,孫 群,徐 立,陳換新
1. 信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450001; 2. 96911部隊(duì),北京 100011
線化簡(jiǎn)是自動(dòng)制圖綜合中的重要內(nèi)容和經(jīng)典研究問(wèn)題之一,目的是減少目標(biāo)的表達(dá)細(xì)節(jié)而代之以總的圖形特征,迄今為止,已有大量算法提出[1-2]。與此同時(shí),如何對(duì)化簡(jiǎn)算法進(jìn)行評(píng)價(jià)、合理選用以及如何實(shí)現(xiàn)算法的自動(dòng)化成為新的需要研究的課題。針對(duì)這一研究,有學(xué)者提出利用相似性分析不同化簡(jiǎn)算法的特點(diǎn)和進(jìn)行自動(dòng)化簡(jiǎn),如文獻(xiàn)[3—6]分別利用多級(jí)弦長(zhǎng)、傅里葉形狀描述子、多級(jí)弦長(zhǎng)拱高復(fù)函數(shù)及多級(jí)彎曲度半徑復(fù)函數(shù)構(gòu)建相似性度量模型,通過(guò)度量化簡(jiǎn)結(jié)果的相似性變化規(guī)律,分析了制圖綜合領(lǐng)域典型線化簡(jiǎn)算法的特點(diǎn)。這些方法主要是利用相似性對(duì)化簡(jiǎn)算法特點(diǎn)作出評(píng)價(jià),沒(méi)有將相似性用于約束化簡(jiǎn)過(guò)程。文獻(xiàn)[7—9]構(gòu)建了線要素相似關(guān)系度量模型,研究了線要素相似性同尺度變化的關(guān)系,構(gòu)建了相似性隨尺度變化的關(guān)系式,并據(jù)此反推化簡(jiǎn)算法的閾值參數(shù)。該方法為化簡(jiǎn)算法的自動(dòng)執(zhí)行提供了一種有效思路,但是其相似性度量模型較簡(jiǎn)單,對(duì)形狀的相似性度量能力存在一定不足,更為關(guān)鍵的是該方法的前提條件是不同復(fù)雜度的目標(biāo)在相同尺度變化情況下相似度相同,但未進(jìn)行相關(guān)驗(yàn)證?;?jiǎn)是簡(jiǎn)化目標(biāo)細(xì)節(jié)的一種操作,即降低目標(biāo)的復(fù)雜程度,然而現(xiàn)階段,缺少相關(guān)的模型對(duì)目標(biāo)的復(fù)雜度進(jìn)行定量描述。另外,針對(duì)不同復(fù)雜度的目標(biāo),從一個(gè)尺度通過(guò)制圖綜合操作變換到另一尺度,其改變的程度是否相同,即相似度是否相同,目前鮮有相關(guān)研究,而這一研究可為化簡(jiǎn)算法的自動(dòng)運(yùn)行提供理論依據(jù)。
針對(duì)該問(wèn)題,本文對(duì)面輪廓相似性和復(fù)雜性同時(shí)展開(kāi)研究。首先利用面向矢量數(shù)據(jù)的基于弦特征矩陣的相似性度量模型,對(duì)面輪廓線化簡(jiǎn)前后的相似性進(jìn)行度量,然后引入復(fù)雜度的概念,建立輪廓形狀復(fù)雜性度量模型,對(duì)目標(biāo)的復(fù)雜度進(jìn)行定量描述。在驗(yàn)證兩類模型有效性的基礎(chǔ)上,基于現(xiàn)有數(shù)據(jù),探索不同復(fù)雜度目標(biāo)在不同尺度下相似性的變化規(guī)律,并據(jù)此給出相似性約束的自動(dòng)化簡(jiǎn)一般流程,使相似性約束的自動(dòng)化簡(jiǎn)方法更具科學(xué)依據(jù)。
矢量數(shù)據(jù)與柵格數(shù)據(jù)是兩種基本的數(shù)據(jù)組織方式,針對(duì)兩類數(shù)據(jù)模型的計(jì)算也有很大差異。弦特征矩陣形狀描述子是針對(duì)柵格圖像的形狀描述方法,目前主要應(yīng)用于植物葉片圖像的分類和檢索[10]。本文將這一思想應(yīng)用于面狀矢量數(shù)據(jù),構(gòu)造面向矢量數(shù)據(jù)的弦特征矩陣相似性度量模型。
1.1.1 形狀弦特征矩陣
一個(gè)由K個(gè)點(diǎn)序列構(gòu)成的目標(biāo)形狀可表示為A={Pi=(xi,yi)|i=1,2,…,K}。從Pi點(diǎn)出發(fā),沿逆時(shí)針?lè)较驅(qū)ζ溥M(jìn)行均勻采樣,將輪廓按弧長(zhǎng)等分為N個(gè)弧段,且N滿足2T=N,其中T為正整數(shù),則該目標(biāo)可用采樣后的點(diǎn)序列{Qi=(xi,yi)|i=1,2,…,N}表達(dá)。圖1所示為用32個(gè)節(jié)點(diǎn)對(duì)原始43個(gè)節(jié)點(diǎn)的形狀輪廓重采樣的結(jié)果。
圖1 輪廓重采樣及弦特征Fig.1 Resampling and chord feature of the contour
對(duì)于重采樣后的目標(biāo)形狀,給出以下4個(gè)定義。
定義1:弦長(zhǎng),指從輪廓線上的點(diǎn)Qi(xi,yi)出發(fā),沿輪廓線按逆時(shí)針?lè)较虻竭_(dá)另一點(diǎn)Qi+s(xi+s,yi+s)所經(jīng)過(guò)的弧段對(duì)應(yīng)弦的長(zhǎng)度,用ls,i表示,其中S為步長(zhǎng),弦長(zhǎng)的計(jì)算公式為
(1)
(2)
式中,m是落入多邊形內(nèi)部各小段弦的數(shù)量;dj是各小段弦的長(zhǎng)度,可通過(guò)多邊形裁剪算法及簡(jiǎn)單數(shù)學(xué)運(yùn)算得到。
(3)
(4)
需要說(shuō)明的是,特殊情況下,當(dāng)Qi(xi,yi)和Qi+s(xi+s,yi+s)均在輪廓線某條邊上時(shí),即弦與邊共線,此時(shí)弦既不是內(nèi)弦也不是外弦,本文約定Qi(xi,yi)到Qi+s(xi+s,yi+s)直線距離長(zhǎng)度為內(nèi)弦長(zhǎng)。
(1) 外弦長(zhǎng)矩陣
(5)
(2) 內(nèi)外弦絕對(duì)差矩陣
(6)
(3) 平均投影長(zhǎng)度矩陣
(7)
以上矩陣共同構(gòu)成了一個(gè)形狀描述子,記作CFM=(OM,IODM,PM),其中CFM稱為弦特征矩陣描述子。
1.1.2 特征歸一化處理
形狀特征的描述需要滿足相似變換的不變性,即形狀描述不會(huì)隨著目標(biāo)的平移、旋轉(zhuǎn)和縮放變化。因此,需要對(duì)抽取的形狀特征進(jìn)行歸一化處理。首先,當(dāng)目標(biāo)發(fā)生平移時(shí),顯然不會(huì)影響上述三類特征值的計(jì)算結(jié)果,因此弦特征矩陣描述子具有平移不變性。當(dāng)目標(biāo)發(fā)生縮放時(shí),由于相同尺度的特征位于矩陣的同一行,可以按行進(jìn)行歸一化操作,保證各個(gè)尺度的特征在目標(biāo)識(shí)別中具有相同的貢獻(xiàn)。具體做法是,對(duì)矩陣的每一行的元素,用該行的最大值進(jìn)行歸一化處理。當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)時(shí),雖然三類特征值大小不會(huì)改變,但是會(huì)使起始采樣點(diǎn)發(fā)生改變,引起矩陣元素的環(huán)形移位。為使弦特征矩陣描述子滿足旋轉(zhuǎn)不變性,采用傅里葉變換進(jìn)行歸一化操作。具體做法是:將矩陣的每一行看作一個(gè)一維的離散信號(hào),對(duì)其進(jìn)行一維離散傅里葉變換。根據(jù)傅里葉變換的原理,當(dāng)一維信號(hào)發(fā)生平移時(shí),其傅里葉變換系數(shù)的模不發(fā)生改變,這正好滿足旋轉(zhuǎn)不變性的要求。
(8)
經(jīng)過(guò)快速傅里葉變換后,對(duì)于每一個(gè)傅里葉系數(shù)ft(n),計(jì)算它的模|ft(n)|。由于各行獨(dú)立,用各行第1個(gè)元素分別進(jìn)行歸一化,可使|ft(0)|=1,|ft(n)|≤1,(n>1)。用歸一化后的序列替代原來(lái)的行,此時(shí)每一行向量的長(zhǎng)度依然為N。根據(jù)傅里葉變換原理,信號(hào)的能量主要集中在低頻部分,因此為了消除噪聲的影響及增強(qiáng)描述子的緊致性[11],可取前M個(gè)低頻系數(shù)(M?N)作為形狀描述子。通過(guò)此操作,弦特征矩陣描述子的3個(gè)矩陣的維數(shù)全部變?yōu)?T-1)×M。
1.2.1 利用弦特征矩陣度量形狀相似性
弦特征矩陣描述子滿足平移、旋轉(zhuǎn)和縮放不變性,可以通過(guò)直接比較兩個(gè)形狀描述子的3個(gè)矩陣來(lái)度量?jī)蓚€(gè)形狀的差異度。設(shè)形狀A(yù)、B弦特征描述子分別為αA、βA、γA和αB、βB、γB,用矩陣間的歐氏距離,即矩陣差的二范數(shù)計(jì)算形狀A(yù)、B間的差異度,有
d(A,B)shape=(‖αA-αB‖+‖βA-βB‖+
‖γA-γB‖)/(3sqrt((T-1)M))
(9)
式中,‖·‖表示計(jì)算矩陣的二范數(shù);sqrt(·)表示計(jì)算開(kāi)方。由于弦特征描述子各矩陣均進(jìn)行了歸一化,有d(A,B)shape∈[0,1]。從而A、B間的形狀相似度可表示為
sim(A,B)shape=1-d(A,B)shape
(10)
式中,sim(A,B)shape∈[0,1]。
1.2.2 綜合相似性度量模型的建立
(11)
形狀的復(fù)雜性是一個(gè)直觀性很強(qiáng)卻又難以定量描述的概念,現(xiàn)階段學(xué)術(shù)界也沒(méi)有公認(rèn)的嚴(yán)格定義。人們直覺(jué)上通常從輪廓線長(zhǎng)度、面積及對(duì)形狀的熟悉程度來(lái)感受圖形的復(fù)雜度,認(rèn)為越光滑和越充實(shí)的形狀越不復(fù)雜,平滑的輪廓線及較小的周長(zhǎng)與較大的面積是光滑充實(shí)的表現(xiàn)[13-14]。現(xiàn)有的圖形復(fù)雜度計(jì)算方法主要有基于多邊形三角剖分[15]、基于彎曲[16-17]及基于分形[18-19]的方法等,這些方法大多不是針對(duì)地理空間數(shù)據(jù),或者不能對(duì)凹多邊形和凸多邊形建立統(tǒng)一的度量模型[20]。本文將輪廓線彎曲看成振動(dòng)的波,從波振動(dòng)的頻率和幅度兩個(gè)方面建立復(fù)雜度描述因子,最終構(gòu)建復(fù)雜性度量模型。需要說(shuō)明的是,此處將輪廓線看成振動(dòng)的波,只是一種類比,方便理解,與1.1.2節(jié)中傅里葉變換并無(wú)關(guān)聯(lián)。
定義5:方向變化,考慮4個(gè)連續(xù)的節(jié)點(diǎn),即3條連續(xù)的邊,第2條邊相對(duì)于第1條邊的走向?yàn)橄蜃?或右),如果下一條邊的走向?yàn)橄蛴?或左),則稱這種情形為一次方向變化,也稱一次振動(dòng)。圖2描述了發(fā)生方向變化及不發(fā)生方向變化的情形。
為了描述振動(dòng)頻率的大小,首先給出凹口的概念。
定義6:凹口,假設(shè)從輪廓的某個(gè)節(jié)點(diǎn)出發(fā),沿逆時(shí)針?lè)较蜻\(yùn)動(dòng),則每個(gè)右方向的邊的起始節(jié)點(diǎn)處是下凹的,稱該部位為輪廓形狀的一個(gè)凹口。圖3展示了無(wú)凹多邊形和帶凹口多邊形。顯然,帶有凹口的多邊形為凹多邊形,且內(nèi)角大于π的節(jié)點(diǎn)處為凹口。對(duì)于某一多邊形A,設(shè)nA為凹口數(shù)量,vA為頂點(diǎn)數(shù)量,用PA表示凹口的比例,有
PA=nA/vA
(12)
圖2 方向變化舉例Fig.2 Examples for changes of direction
圖3 凹口舉例Fig.3 Example of a notch
分析發(fā)現(xiàn),方向變化的數(shù)量與凹口的數(shù)量有關(guān),如圖4所示。凹口的比例越接近于0.5,方向變化數(shù)越多,振動(dòng)頻率越大,形狀越復(fù)雜;凹口的比例越接近于0或1,方向變化數(shù)越少,振動(dòng)頻率越小,形狀越簡(jiǎn)單。為了使PA接近于0.5時(shí)復(fù)雜度最大、接近于0或1時(shí)復(fù)雜度最小,對(duì)PA進(jìn)行非線性變換,有
freq(A)=16(PA-0.5)4-8(PA-0.5)2+1
(13)
式中,freq(A)為以凹口比例為指標(biāo)的復(fù)雜度描述因子。
圖4 不同凹口比例的多邊形Fig.4 Polygons with different values of vibretion frequency
為定量描述振動(dòng)的幅度,考察兩點(diǎn)之間的連接,顯然兩點(diǎn)之間直線距離最短。圖5為不同復(fù)雜度多邊形的凸殼??梢钥闯?,多邊形輪廓從一點(diǎn)到另一點(diǎn)的距離越長(zhǎng)則該部位越復(fù)雜,因此可以用輪廓周長(zhǎng)相對(duì)凸殼周長(zhǎng)的相對(duì)增量描述振動(dòng)的幅度,有
(14)
式中,ampl_prei(A)為以周長(zhǎng)為指標(biāo)的復(fù)雜度描述因子;prei(·)為周長(zhǎng)算子;convexhull(·)表示計(jì)算凸殼。
圖5 不同復(fù)雜度多邊形的凸殼Fig.5 Convex hulls of polygon with different complexity
分析發(fā)現(xiàn),對(duì)于凸多邊形,freq(A)及ampl_prei(A)的特征值為0,不能對(duì)凸多邊形復(fù)雜度進(jìn)行度量。因此,利用多邊形與其最小外包圓間面積的相對(duì)關(guān)系來(lái)度量不同多邊形的復(fù)雜度,如圖6所示。用circle(·)表示計(jì)算最小外包圓,area(·)為面積算子,有
(15)
式中,ampl_area(A)稱為以面積為指標(biāo)的復(fù)雜度描述因子。
圖6 不同復(fù)雜度多邊形的最小外包圓Fig.6 Minimum envelope of polygon with different complexity
上述3個(gè)因子分別從輪廓的凹口比例、周長(zhǎng)比及面積比3個(gè)方面對(duì)多邊形輪廓的復(fù)雜度進(jìn)行了度量。分析發(fā)現(xiàn),freq(A)與ampl_prei(A)對(duì)形狀復(fù)雜度描述能力較強(qiáng),且當(dāng)二者同時(shí)具有較大值時(shí),復(fù)雜度較大,因此將二者相乘并分配較大權(quán)值,ampl_area(A)只用來(lái)區(qū)分凸多邊形的復(fù)雜度,對(duì)其分配較小權(quán)重,從而得到能夠度量凹多邊形和凸多邊形復(fù)雜度的計(jì)算公式
compl(A)=0.7freq(A)×ampl_prei(A)+
0.3ampl_area(A)
(16)
由于freq(A)、ampl_prei(A)、ampl_area(A)∈[0,1],有compl(A)∈[0,1]。
需要說(shuō)明的是,上述權(quán)重的設(shè)置主要是依據(jù)經(jīng)驗(yàn)設(shè)定的,本文后續(xù)會(huì)通過(guò)試驗(yàn)驗(yàn)證其合理性。當(dāng)然也可根據(jù)需要,通過(guò)其他方式組合這3個(gè)因子構(gòu)造綜合復(fù)雜性度量模型。
3.1.1 相似性度量模型合理性驗(yàn)證
以某面狀湖泊輪廓線為原始數(shù)據(jù),利用ArcGIS中point_remove[21]與bend_simplify[22]兩種化簡(jiǎn)算法對(duì)目標(biāo)以不同閾值化簡(jiǎn),運(yùn)用本文形狀相似性度量模型和綜合相似性度量模型分別度量化簡(jiǎn)前后的相似值,探尋相似值隨化簡(jiǎn)閾值的變化情況。取參數(shù)N=128、M=10、wi=0.25(i=1,2,3,4),表示化簡(jiǎn)前后在空間位置、大小、方向和形狀的關(guān)注程度一致。兩種化簡(jiǎn)方法初始閾值均設(shè)為1 km(實(shí)際距離),步長(zhǎng)1 km,最大值10 km,對(duì)實(shí)心湖泊輪廓線進(jìn)行化簡(jiǎn),分別得到10個(gè)化簡(jiǎn)結(jié)果和相似值。圖7為閾值分別為4 km和5 km時(shí),兩種化簡(jiǎn)方法對(duì)應(yīng)的結(jié)果。圖8顯示了兩種化簡(jiǎn)方法形狀相似度和總相似度隨化簡(jiǎn)閾值的變化規(guī)律。
由于兩種化簡(jiǎn)算法的參數(shù)閾值具有不同的含義,在不考慮化簡(jiǎn)程度的情況下,單純比較同一閾值的相似度沒(méi)有實(shí)際意義。但是可以看出,隨著化簡(jiǎn)閾值的增加,兩種化簡(jiǎn)算法所得結(jié)果的形狀相似度和總相似度均逐漸減小,與人的直觀感受一致,說(shuō)明本文方法能夠正確區(qū)分不同化簡(jiǎn)程度下目標(biāo)的形狀相似性和總相似性。
3.1.2 復(fù)雜性度量模型合理性驗(yàn)證
選取中國(guó)境內(nèi)某比例尺48個(gè)湖泊輪廓線為試驗(yàn)對(duì)象。試驗(yàn)前,為了減小數(shù)據(jù)自身的影響,按文獻(xiàn)[23]方法對(duì)輪廓線中節(jié)點(diǎn)進(jìn)行稀疏處理,刪除不必要的節(jié)點(diǎn)。運(yùn)用本文復(fù)雜性度量方法,分別計(jì)算其復(fù)雜度,按照復(fù)雜度從小到大的排序如圖9所示(未按實(shí)際大小比例繪制)。
圖7 兩種化簡(jiǎn)方法的對(duì)比Fig.7 The comparison of two methods of simplification
圖8 相似度隨閾值變化圖Fig.8 The relationships between similarity and threshold
圖9 不同湖泊輪廓線的復(fù)雜度排序Fig.9 Different lake contour lines according to complexity
從圖9可以看出,復(fù)雜度越小的目標(biāo),形狀越充實(shí),輪廓線越光滑;復(fù)雜度越大的目標(biāo),形狀越不規(guī)則,輪廓線越不光滑。這一結(jié)果與人們的直觀感受基本一致,說(shuō)明運(yùn)用本文方法,能夠正確區(qū)分不同目標(biāo)的復(fù)雜度。
以下進(jìn)一步驗(yàn)證復(fù)雜性度量模型的合理性,研究復(fù)雜性度量模型組成因子間的相關(guān)性。如圖10所示,(a)圖為因子freq與ampl_area相對(duì)于ampl_prei的相關(guān)性曲線,(b)圖為因子freq與ampl_prei相對(duì)于ampl_area的相關(guān)性曲線。可以看出,僅當(dāng)ampl_prei與ampl_area值較小時(shí)(ampl_prei<0.3,ampl_area<0.55,即較簡(jiǎn)單的目標(biāo)),其余兩個(gè)因子存在一定的相關(guān)性,當(dāng)數(shù)值較大時(shí),其余兩個(gè)因子不存在明顯的相關(guān)性。這說(shuō)明除了簡(jiǎn)單目標(biāo)外,3個(gè)參數(shù)間不存在相關(guān)性。因此,運(yùn)用本文3個(gè)因子進(jìn)行目標(biāo)復(fù)雜性度量是合理的。
圖10 復(fù)雜性度量模型組成因子的相關(guān)性Fig.10 Correlation of the parameters of the complexity model
本文試驗(yàn)綜合考慮目標(biāo)的復(fù)雜性和相似性,探索不同復(fù)雜度的目標(biāo)在不同尺度下的相似性的變化規(guī)律。試驗(yàn)采用浙江省舟山市某地區(qū)1∶1萬(wàn)、1∶5萬(wàn)、1∶25萬(wàn)、及1∶100萬(wàn)4種比例尺的框架數(shù)據(jù),從中隨機(jī)挑選100個(gè)面狀島嶼同名實(shí)體,所有同名實(shí)體均為一一對(duì)應(yīng),如圖11所示。
圖11 試驗(yàn)數(shù)據(jù)(未按比例尺繪制)Fig.11 Experimental data (not plotting by scale)
為了直觀展現(xiàn)不同復(fù)雜度目標(biāo)在各比例尺間的相似度大小,以復(fù)雜度為橫軸、相似度為縱軸繪制散點(diǎn)圖,如圖12所示,從中可以看出,數(shù)據(jù)基本滿足線性趨勢(shì)。
首先利用復(fù)雜性度量方法對(duì)1∶1萬(wàn)比例尺的100個(gè)面輪廓進(jìn)行復(fù)雜度計(jì)算,按照復(fù)雜度從小到大的順序從1到100對(duì)目標(biāo)進(jìn)行編號(hào)。然后分別計(jì)算1∶1萬(wàn)比例尺與1∶5萬(wàn)、1∶25萬(wàn)及1∶100萬(wàn)同名實(shí)體的相似度,部分計(jì)算結(jié)果如表1所示。
為了探索復(fù)雜度是否與相似度相關(guān),在SPSS 20.0環(huán)境中,對(duì)1∶5萬(wàn)、1∶25萬(wàn)、1∶100萬(wàn)相似度計(jì)算結(jié)果與復(fù)雜度分別進(jìn)行雙變量相關(guān)性分析,結(jié)果如表2、表3所示。其中sim(1,5)shape、sim(1,25)shape、sim(1,100)shape分別為1∶1萬(wàn)與1∶5萬(wàn)、1∶25萬(wàn)、1∶100萬(wàn)比例尺間同名實(shí)體的形狀相似度,compl為該實(shí)體在1∶1萬(wàn)比例尺下的復(fù)雜度。
表1 不同復(fù)雜度目標(biāo)在不同尺度間的相似度(部分)
圖12 不同復(fù)雜度目標(biāo)在不同尺度間的相似度Fig.12 Similarity between different complexity targets at different scales
表2 描述性統(tǒng)計(jì)量
從結(jié)果可以看出,3類相似度與復(fù)雜度之間的Pearson相關(guān)系數(shù)分別為0.271、0.434、0.515,表示二者存在不完全相關(guān)且為正相關(guān),相關(guān)系數(shù)逐漸增大,說(shuō)明隨著比例尺跨度增大,相關(guān)強(qiáng)度逐漸增強(qiáng);顯著性檢驗(yàn)P值分別為0.006、0.000、0.000,均小于0.01,表示在0.01的顯著性水平上否定了二者不相關(guān)的假設(shè),即相似度與復(fù)雜度之間存在相關(guān)關(guān)系。進(jìn)一步對(duì)相似度和復(fù)雜度進(jìn)行一元線性回歸,得回歸方程
表3 相關(guān)性
*:在0.01水平(雙側(cè))上顯著相關(guān)。
(17)
下面對(duì)回歸模型進(jìn)行分析,模型匯總?cè)绫?所示。總體上看,回歸模型R2均較小,擬合度較低,但是隨著比例尺跨度增大,R2逐漸增大,擬合度呈現(xiàn)好趨勢(shì),說(shuō)明隨著比例尺跨度增大,相似度與復(fù)雜度的線性關(guān)系逐漸增強(qiáng)。D-W統(tǒng)計(jì)量接近于2,說(shuō)明模型殘差不存在自相關(guān)。
表4 模型匯總
*:預(yù)測(cè)變量(常量),compl。
表5、表6顯示了方差分析和回歸系數(shù)的T檢驗(yàn)結(jié)果,回歸部分的F值分別為7.786、22.706、35.306,相應(yīng)的P值分別為0.006、0.000、0.000,小于顯著水平0.05??梢耘袛鄰?fù)雜度對(duì)相似度解釋的部分非常顯著,擬合的模型具有統(tǒng)計(jì)學(xué)意義,回歸系數(shù)的T檢驗(yàn)結(jié)果概率值均小于0.05,回歸方程的系數(shù)非常顯著。另外對(duì)殘差進(jìn)行檢驗(yàn),發(fā)現(xiàn)殘差基本服從正態(tài)分布。
表5 方差分析
*:預(yù)測(cè)變量(常量),compl。
進(jìn)一步分析回歸系數(shù)發(fā)現(xiàn),相鄰比例尺間相似度隨復(fù)雜度的回歸系數(shù)較小,為0.033 7,而compl∈[0,1],可以認(rèn)為復(fù)雜度對(duì)相似度的線性影響較小。用觀測(cè)值均值代替真值,有sim(1,5)shape=0.977 5,標(biāo)準(zhǔn)差為0.014 2,說(shuō)明觀測(cè)數(shù)據(jù)比較接近均值,有較強(qiáng)的可靠性。當(dāng)比例尺跨度增大時(shí),回歸系數(shù)較大,標(biāo)準(zhǔn)差隨之增大,用均值代替真值會(huì)產(chǎn)生較大誤差。同理可得其他兩個(gè)相鄰比例尺間相似度,有sim(5,25)shape=0.954 9、sim(25,100)shape=0.894 3。
表6 系數(shù)
綜上所述,可以得出以下結(jié)論:相似度和復(fù)雜度之間存在顯著的線性相關(guān)關(guān)系,且比例尺跨度越大,復(fù)雜度對(duì)相似度的影響越大。具體應(yīng)用時(shí),復(fù)雜度對(duì)相鄰比例尺間相似度的影響可以忽略不計(jì),當(dāng)比例尺跨度較大時(shí),需要考慮復(fù)雜度的影響。
化簡(jiǎn)是制圖綜合的重要組成部分,在制圖綜合作業(yè)中占據(jù)很大比例,實(shí)現(xiàn)化簡(jiǎn)算法的自動(dòng)化具有很強(qiáng)的實(shí)用意義?,F(xiàn)階段,針對(duì)制圖綜合中的化簡(jiǎn),提出了很多算法,然而針對(duì)具體的制圖綜合作業(yè)過(guò)程,需要指定閾值,如Douglas-Peucker算法的最小垂距、Li-OpenShaw算法的最小圓直徑等,使算法不能自動(dòng)運(yùn)行。本文基于上述研究結(jié)果,提出利用相似性約束進(jìn)行自動(dòng)化簡(jiǎn)。
3.3.1 方法流程
由上文試驗(yàn)可知,一方面,隨著化簡(jiǎn)程度的加大,相似度會(huì)逐漸減小;另一方面,相似度與比例尺變化之間存在一一對(duì)應(yīng)的關(guān)系。因此,對(duì)于需要閾值參數(shù)的化簡(jiǎn)算法,可以利用相似度計(jì)算化簡(jiǎn)最佳閾值,約束化簡(jiǎn)過(guò)程。初始時(shí),對(duì)化簡(jiǎn)算法設(shè)置一較小閾值(具體可根據(jù)目標(biāo)本身的大小適當(dāng)設(shè)置),然后逐漸增大化簡(jiǎn)閾值,度量不同化簡(jiǎn)閾值下的結(jié)果與原始目標(biāo)之間的相似度,當(dāng)相似度最接近目標(biāo)相似度時(shí),可認(rèn)為取得最佳化簡(jiǎn)閾值。相似性約束的自動(dòng)化簡(jiǎn)一般流程如圖13所示,其中d0為初始閾值,di為第i次閾值,s為步長(zhǎng),simi是閾值為di時(shí)綜合結(jié)果與原始目標(biāo)的相似度,sim為理論相似度。
圖13 相似性約束的自動(dòng)化簡(jiǎn)一般流程Fig.13 General automation simplification using similarity constraint
3.3.2 效率分析
上述方法的效率與所采用的化簡(jiǎn)算法和相似性度量算法時(shí)間復(fù)雜度及判斷次數(shù)有關(guān),各類化簡(jiǎn)算法時(shí)間復(fù)雜度不同,已有專門研究[24],此處主要分析相似性度量的時(shí)間復(fù)雜度。
相似性度量算法的時(shí)間復(fù)雜度主要與采樣點(diǎn)數(shù)有關(guān)。設(shè)采樣點(diǎn)數(shù)為N,計(jì)算單個(gè)內(nèi)外弦長(zhǎng)主要過(guò)程是檢查弦與多邊形每條邊的交點(diǎn),時(shí)間復(fù)雜度為O(N),則計(jì)算OM、IODM、矩陣時(shí)間復(fù)雜度為O(N(T-1)N)=O(N2logN),PM時(shí)間復(fù)雜度為O(N(21+22+…+2T-1))=O(N2T)=O(N2)。在特征歸一化處理階段,尺度歸一化時(shí)間復(fù)雜度為O((T-1)N)=O(NlogN),快速傅里葉變換時(shí)間復(fù)雜度為O(NlogN),起點(diǎn)歸一的時(shí)間復(fù)雜度為O((T-1)NlogN)=O(Nlog2N),則計(jì)算CFM描述子的時(shí)間復(fù)雜度為O(2N2logN+N2+3NlogN+3NlogN)=O(N2logN)。相似性度量模型建立階段時(shí)間復(fù)雜度為O(3M(T-1))=O(MlogN),由于M?N,則有相似度計(jì)算的時(shí)間復(fù)雜度為O(N2logN)。
設(shè)相似性約束的化簡(jiǎn)方法需要進(jìn)行R(R為自然數(shù))次相似性判斷,所采用化簡(jiǎn)算法時(shí)間復(fù)雜度為O(S),則本文方法總體時(shí)間復(fù)雜度為O(R×N2logN+R×S)=O(N2logN+S)。
從上述分析可知,相似度計(jì)算的時(shí)間復(fù)雜度主要與采樣點(diǎn)個(gè)數(shù)N有關(guān),且通常N在102數(shù)量級(jí)。另外,通過(guò)運(yùn)用適當(dāng)?shù)乃阉鞑呗?,R可以是一個(gè)不大的自然數(shù),因此在時(shí)間效率上是可以接受的。
3.3.3 試驗(yàn)驗(yàn)證及分析
以Bend_Simplify算法為例,對(duì)上述方法進(jìn)行檢驗(yàn)。試驗(yàn)采用前文試驗(yàn)地區(qū)1∶5萬(wàn)比例尺30個(gè)面狀島嶼輪廓線數(shù)據(jù),如圖14(a)所示,現(xiàn)有1∶25萬(wàn)數(shù)據(jù)如圖14(b)所示,用來(lái)對(duì)化簡(jiǎn)結(jié)果進(jìn)行對(duì)比分析。采用上述方法自動(dòng)綜合1∶25萬(wàn)數(shù)據(jù),初始閾值設(shè)為50 m,步長(zhǎng)5 m,理論相似度采用0.954 9。為了與本文方法對(duì)照,通過(guò)多次試驗(yàn)及專家咨詢,選取150 m作為人工化簡(jiǎn)閾值。
圖14 試驗(yàn)數(shù)據(jù)介紹(未按實(shí)際位置和比例尺繪制)Fig.14 Introduction of experimental data (not plotting by actual location and scale)
按本文方法,自動(dòng)計(jì)算的閾值及相似度如表7所示。將兩種方法綜合結(jié)果與1∶25萬(wàn)現(xiàn)有數(shù)據(jù)疊加顯示,如圖15所示。采用目視比較方法[25]評(píng)價(jià)輪廓線化簡(jiǎn)結(jié)果,可以看出,兩種方法綜合結(jié)果與現(xiàn)有數(shù)據(jù)基本重合,且詳細(xì)程度基本一致,說(shuō)明本文方法自動(dòng)設(shè)置的化簡(jiǎn)閾值是合理的。進(jìn)一步分析可以發(fā)現(xiàn),圖15中1、2、3、6處和4、5處(其他未一一列出),人工設(shè)置的固定閾值化簡(jiǎn)結(jié)果分別出現(xiàn)過(guò)度化簡(jiǎn)及化簡(jiǎn)不足的情況,而自動(dòng)設(shè)置閾值化簡(jiǎn)結(jié)果情況較緩和,分析發(fā)現(xiàn)這是由于不同目標(biāo)形態(tài)不同,傳統(tǒng)方法對(duì)所有對(duì)象都設(shè)置相同的閾值導(dǎo)致的。從表7中也可以看出,本文方法對(duì)30個(gè)目標(biāo)自動(dòng)計(jì)算的化簡(jiǎn)閾值各不相同(最小95 m,最大225 m),說(shuō)明本文方法較好地顧及到了目標(biāo)的個(gè)體差異。
表7 化簡(jiǎn)閾值及相似度
圖15 綜合結(jié)果比較(未按實(shí)際位置和比例尺繪制)Fig.15 Comparison of generalization results(not plotting by actual location and scale)
3.3.4 與傳統(tǒng)方法的比較
本文提出的利用相似性約束進(jìn)行自動(dòng)化簡(jiǎn),主要是為化簡(jiǎn)算法的閾值設(shè)置提供通用的依據(jù)。優(yōu)點(diǎn)是針對(duì)需要閾值參數(shù)的化簡(jiǎn)算法,自動(dòng)計(jì)算化簡(jiǎn)閾值,降低人工參與程度,減少作業(yè)前期的閾值評(píng)估工作。本文方法與傳統(tǒng)作業(yè)方法比較如表8所示。
表8 兩種方法比較
由于本文方法對(duì)每一個(gè)對(duì)象的化簡(jiǎn)結(jié)果都進(jìn)行相似性判斷,因此效率相對(duì)較低。針對(duì)這一問(wèn)題,一方面可通過(guò)改進(jìn)搜索閾值的方法,減少相似度計(jì)算的次數(shù),提高效率;另一方面,對(duì)于某一地區(qū),可事先選取部分要素進(jìn)行試驗(yàn),用計(jì)算的閾值的均值作為該地區(qū)人工選取閾值的參考,這樣不僅可以降低人工評(píng)估閾值帶來(lái)的不確定性,也可大大增加化簡(jiǎn)的效率。
相似性是空間數(shù)據(jù)處理的重要依據(jù),除制圖綜合外,在同名實(shí)體匹配[26]、相似性查詢[27]等領(lǐng)域均具有重要意義。復(fù)雜性作為空間對(duì)象的固有屬性,是相比于面積、周長(zhǎng)等測(cè)度更深層次的信息,其定量計(jì)算結(jié)果是目標(biāo)特征的重要指標(biāo)。本文將相似性和復(fù)雜性進(jìn)行綜合研究,可以挖掘出多尺度空間數(shù)據(jù)間潛在規(guī)律,為空間數(shù)據(jù)處理提供新的思路和方法。本文的主要工作總結(jié)如下:
(1) 針對(duì)矢量面輪廓線,通過(guò)抽取多個(gè)尺度下的內(nèi)弦長(zhǎng)、外弦長(zhǎng)及弧到弦的平均投影長(zhǎng)度構(gòu)造弦特征矩陣,可以較好地描述形狀的凹凸特性和輪廓線的彎曲程度,滿足對(duì)形狀的多級(jí)描述需求。通過(guò)對(duì)弦特征矩陣進(jìn)行離散傅里葉變換,不僅解決了起始節(jié)點(diǎn)不一致問(wèn)題,也增強(qiáng)了抗噪聲干擾能力。
(2) 將輪廓線看成振動(dòng)的波,從凹口比例、凸殼周長(zhǎng)相對(duì)增量及最小外包圓面積相對(duì)增量3個(gè)方面建立復(fù)雜度描述因子,構(gòu)造復(fù)雜性度量模型,可以正確區(qū)分不同復(fù)雜程度的面輪廓線,與人的主觀感受一致。
(3) 將相似度模型和復(fù)雜度模型應(yīng)用于化簡(jiǎn)過(guò)程,探索了不同復(fù)雜度目標(biāo)在不同尺度下相似性的變化規(guī)律。從現(xiàn)有試驗(yàn)數(shù)據(jù)來(lái)看,目標(biāo)本身的復(fù)雜度對(duì)鄰近尺度間同名實(shí)體相似度的影響可以忽略不計(jì),當(dāng)比例尺跨度較大時(shí),需要顧及復(fù)雜度的影響。基于這一結(jié)論,給出相似性約束的自動(dòng)化簡(jiǎn)一般流程,試驗(yàn)表明本文方法結(jié)果合理,且增加了化簡(jiǎn)算法的自動(dòng)化程度。
不同尺度目標(biāo)間的相似度是否與其他因素有關(guān),需要進(jìn)一步探索;相似度約束的自動(dòng)綜合結(jié)果是否合理,需要進(jìn)一步驗(yàn)證。本文利用現(xiàn)有綜合好的數(shù)據(jù)計(jì)算不同比例尺間的相似度,并用來(lái)指導(dǎo)綜合過(guò)程,屬于基于案例的制圖綜合范疇,下一步可以利用本文相關(guān)模型結(jié)合深度學(xué)習(xí)等方法,研究新的自動(dòng)綜合方法。