褚雪梅
(國家測繪局地圖技術(shù)審查中心,北京100830)
網(wǎng)上地圖監(jiān)管的技術(shù)設(shè)計(jì)與研究
褚雪梅
(國家測繪局地圖技術(shù)審查中心,北京100830)
針對監(jiān)管網(wǎng)上地圖的實(shí)際工作需求,設(shè)計(jì)并研發(fā)出圖像識別技術(shù),解決了圖片采集、圖像識別等問題,并提出網(wǎng)上地圖監(jiān)管的技術(shù)途徑。
網(wǎng)上地圖;搜索;監(jiān)管
隨著社會需求的不斷擴(kuò)大,以互聯(lián)網(wǎng)為基礎(chǔ)的網(wǎng)上地圖開發(fā)和應(yīng)用越來越廣泛。據(jù)不完全統(tǒng)計(jì),在互聯(lián)網(wǎng)中涉及地圖內(nèi)容的網(wǎng)站有3~5萬個,并且每個網(wǎng)站中的地圖網(wǎng)頁鏈接十分復(fù)雜,但在網(wǎng)上地圖內(nèi)容的表示方面也不同程度地出現(xiàn)了一些問題,例如:錯繪我國國界線和省級行政區(qū)域界線;漏繪屬于我國領(lǐng)土的重要島嶼及歸屬范圍線;標(biāo)注涉及國家安全的涉密信息等。網(wǎng)上問題地圖不僅使國家安全、領(lǐng)土主權(quán)、民族尊嚴(yán)受到影響,而且損害地圖消費(fèi)者權(quán)益。為此,地圖監(jiān)管部門高度重視并采取相應(yīng)措施,以強(qiáng)化對網(wǎng)上地圖的監(jiān)管。
利用公共搜索引擎搜索網(wǎng)上地圖,會搜索到監(jiān)管中并不需要的海量信息,大量非地圖圖片的干擾,使得對圖片的分析和剔除工作量陡增。所以采用人工傳統(tǒng)方式搜索網(wǎng)上地圖,不僅遍歷周期長,而且網(wǎng)上圖片更新速度比判別速率高,因此無法有效地定位地圖圖片。為了實(shí)現(xiàn)對網(wǎng)上地圖的監(jiān)管,首先是要把網(wǎng)上地圖適時、快速地自動識別出來,為此,組織研發(fā)了圖像識別技術(shù),解決了圖片采集、圖像識別等關(guān)鍵問題,同時,提出網(wǎng)上地圖監(jiān)管的技術(shù)途徑。
網(wǎng)上地圖監(jiān)管的技術(shù)平臺采用J2EE規(guī)范設(shè)計(jì)和開發(fā),其架構(gòu)圖如圖1所示。主要包括:Spring、WebWork2、Hibernate3、QuartZ等。
圖1 網(wǎng)上地圖監(jiān)管技術(shù)平臺架構(gòu)圖
實(shí)現(xiàn)的主要功能:
1.網(wǎng)上地圖搜索
(1)圖片采集
采用Heritrix實(shí)現(xiàn)圖片采集。這是基于Java技術(shù)的網(wǎng)絡(luò)爬蟲組件,可對指定站點(diǎn)的圖片進(jìn)行初次定向采集。就是在基于關(guān)鍵字搜索的同時,利用百度(Baidu)和谷歌(Google)這些搜索服務(wù)商的龐大資源抓取其所獲取的網(wǎng)上圖片,以實(shí)現(xiàn)網(wǎng)上圖片的初始獲取。在搜索獲取到海量圖片的基礎(chǔ)上,再二次過濾出網(wǎng)上地圖。
采用這種組合式的搜索模式對網(wǎng)上圖片進(jìn)行采集,不僅節(jié)省了大量的軟、硬件投入,而且大大提高了網(wǎng)上地圖的搜索效率、深度和廣度。
(2)圖像識別算法
針對樣本庫中地圖、非地圖類目錄,使用SVM算法,按照選定的特征值,分別計(jì)算出地圖和非地圖的重心。該重心是由各特征值組合而成的多維特征向量加權(quán)得到。通過設(shè)定參數(shù),設(shè)置地圖和非地圖之間的閾值,計(jì)算每個圖片的特征參數(shù),與閾值比較。靠近地圖重心的,則被識別為地圖;靠近非地圖重心的,則被識別為非地圖。判斷圖片是否為地圖的主要依據(jù):①圖像塊區(qū)域平滑程度。地圖中一般都是邊緣包裹著大片行政區(qū)域,用一種顏色表示這個區(qū)域,該區(qū)域在灰度分布上是平滑的。地圖的整個圖片區(qū)域平滑程度都很高,而在非地圖圖片上就不具有這些特征,例如風(fēng)景圖片或是人物圖片上。②圖像邊緣和區(qū)域的比例。地圖通常是長邊緣圈出一塊區(qū)域,非地圖圖片由于紋理、立體等因素就不具備這些特性。③圖像強(qiáng)邊緣和弱邊緣的比例。地圖圖片的邊緣大多是強(qiáng)邊緣,非地圖圖片的邊緣都比較短,斷斷續(xù)續(xù),屬于弱邊緣。④ 圖像顏色種數(shù)。用不同的顏色表示不同的圖像屬性,這是地圖表示的典型特征之一。非地圖圖片則用很少的顏色表示區(qū)域?qū)傩?。?圖像顏色離散度。圖像顏色離散度跟顏色種數(shù)相結(jié)合時,種類越少,離散度越高。⑥共生矩陣(12維)。共生矩陣主要是在地圖旋轉(zhuǎn)和縮放時起作用。⑦ DCT變換(三維)。DCT變換是檢測圖像頻率變換。非常復(fù)雜的圖片(地圖一般比較簡單),邊緣和顏色會頻繁變換,高頻占主要部分,地圖不具備這個特征。
(3)地圖識別處理
用研發(fā)的圖片識別算法,對抓取回來的網(wǎng)上圖片進(jìn)行過濾篩選。通過比對樣本庫的地圖數(shù)據(jù),剔除不屬于地圖類的其他信息,最終將地圖圖片挑選出來,其流程如圖2所示。
圖2 地圖識別處理流程
通過實(shí)踐,圖片識別技術(shù)對地圖圖片的識別精度達(dá)到90%以上,虛警率、漏報(bào)率均低于10%,每日處理的網(wǎng)上圖片數(shù)量可達(dá)2~3萬張。對網(wǎng)上地圖的遍歷周期從以前人工模式的幾個月,縮短為3天,提高了網(wǎng)上地圖搜索及監(jiān)管工作效率和質(zhì)量。
2.網(wǎng)上地圖監(jiān)管
(1)網(wǎng)上地圖信息傳輸
選擇中國聯(lián)通線路作為網(wǎng)上地圖搜索及監(jiān)管的信息傳輸主干網(wǎng)線。為避免網(wǎng)絡(luò)帶寬影響信息傳輸,選定了10 MB獨(dú)享網(wǎng)絡(luò)專線,其網(wǎng)絡(luò)、設(shè)備架構(gòu)如圖3所示。隨著網(wǎng)上地圖搜索及監(jiān)管的逐步展開和需求的不斷增大,可對網(wǎng)絡(luò)帶寬做適當(dāng)調(diào)整。
圖3 網(wǎng)上地圖信息傳輸網(wǎng)絡(luò)、設(shè)備架構(gòu)示意圖
(2)網(wǎng)上地圖監(jiān)管系統(tǒng)
國家級地圖監(jiān)管部門將問題地圖搜索出來并直接定位到相關(guān)網(wǎng)站。按照屬地分類管理原則,各省級地圖監(jiān)管部門根據(jù)口令登錄該系統(tǒng),查詢到屬于自己管轄范圍內(nèi)的問題地圖網(wǎng)站并進(jìn)行處理和反饋,構(gòu)成對網(wǎng)上地圖的搜索、檢查、處理的動態(tài)聯(lián)合監(jiān)管系統(tǒng),其流程如圖4所示。
圖4 網(wǎng)上地圖搜索和監(jiān)管系統(tǒng)示意圖
采用自主研發(fā)的圖像識別算法,選擇一定的特征值進(jìn)行篩選過濾,有效地解決了圖片采集、圖像識別等問題,大幅度提高了搜索網(wǎng)上地圖的效率和質(zhì)量。通過對圖片網(wǎng)站的不斷搜索和篩選,將發(fā)現(xiàn)的網(wǎng)上問題地圖,直接地定位到其所發(fā)布問題地圖的網(wǎng)站上,為各級地圖監(jiān)管部門及時檢查和處理提供了可靠的第一手資料。
網(wǎng)上地圖監(jiān)管技術(shù)的設(shè)計(jì)與研發(fā),為網(wǎng)上地圖監(jiān)管提供了有效的技術(shù)手段,尤其是網(wǎng)上地圖自動搜索技術(shù)具有獨(dú)創(chuàng)性,在網(wǎng)上地圖監(jiān)管中發(fā)揮了重要的作用。
[1] 郭從良.信號的數(shù)據(jù)獲取與信息處理基礎(chǔ)[M].北京:清華大學(xué)出版社,2009.
[2] 張亮.現(xiàn)代通信技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2009.
[3] 陳永奇.現(xiàn)代測量數(shù)據(jù)處理理論與方法[M].北京:測繪出版社,2009.
[4] 廖克.現(xiàn)代地圖學(xué)[M].北京:科學(xué)出版社,2003.
Technical Design and Research of Supervision of Online Map
CHU Xuemei
0494-0911(2010)11-0025-03
P20
B
2010-09-08
褚雪梅(1969—),女,山東青島人,工程師,主要從事地圖市場檢查和互聯(lián)網(wǎng)地圖的搜索、檢查及監(jiān)督方面的工作。