萬(wàn) 磊,程效軍,郭 王
(同濟(jì)大學(xué)測(cè)繪與地理信息學(xué)院,上海200092)
大比例尺地形圖數(shù)據(jù)質(zhì)量檢驗(yàn)自動(dòng)化方法初探
萬(wàn)磊,程效軍,郭王
(同濟(jì)大學(xué)測(cè)繪與地理信息學(xué)院,上海200092)
針對(duì)當(dāng)前地形圖數(shù)據(jù)檢驗(yàn)仍主要依靠人工的問(wèn)題,通過(guò)分析人工檢驗(yàn)的流程和數(shù)據(jù)檢驗(yàn)的標(biāo)準(zhǔn),設(shè)計(jì)了數(shù)據(jù)質(zhì)量檢驗(yàn)算法,開(kāi)發(fā)了數(shù)據(jù)質(zhì)量檢驗(yàn)軟件,在數(shù)據(jù)的屬性精度、完整性、邏輯一致性等方面實(shí)現(xiàn)了自動(dòng)化檢驗(yàn)。試驗(yàn)結(jié)果表明,自動(dòng)化檢驗(yàn)程序能夠輔助質(zhì)檢人員在數(shù)據(jù)檢驗(yàn)方面提高效率,同時(shí)可以統(tǒng)計(jì)錯(cuò)誤數(shù)據(jù),為后期分析數(shù)據(jù)錯(cuò)誤原因提供參考。
數(shù)據(jù)質(zhì)量檢驗(yàn);地形圖數(shù)據(jù);自動(dòng)化算法
隨著數(shù)字城市的深入發(fā)展,全國(guó)大多數(shù)城市正在或已經(jīng)建立基礎(chǔ)地理信息數(shù)據(jù)庫(kù)[1],大比例尺地形圖作為城市空間信息系統(tǒng)建設(shè)的基礎(chǔ),需要滿足國(guó)家規(guī)定的各項(xiàng)技術(shù)規(guī)范和標(biāo)準(zhǔn),以及用戶期望的目標(biāo)。數(shù)據(jù)的質(zhì)量不僅關(guān)系到各項(xiàng)工程建設(shè)的質(zhì)量和安全,而且關(guān)系到社會(huì)經(jīng)濟(jì)發(fā)展規(guī)劃決策的科學(xué)性和準(zhǔn)確性,影響著信息化建設(shè)的順利進(jìn)行。在目前實(shí)際測(cè)繪工程中,大量自動(dòng)化的采集手段雖然廣泛使用,但其采集成果還存在各種各樣的問(wèn)題,因此對(duì)入庫(kù)數(shù)據(jù)進(jìn)行質(zhì)量檢驗(yàn)顯得極其重要。然而大比例尺地形圖一般數(shù)據(jù)量大、實(shí)際情況復(fù)雜,傳統(tǒng)的人工檢驗(yàn)已經(jīng)不能滿足日益增長(zhǎng)的建庫(kù)速度與質(zhì)量要求,利用計(jì)算機(jī)輔助人工實(shí)現(xiàn)自動(dòng)化檢驗(yàn)是未來(lái)數(shù)據(jù)質(zhì)量檢驗(yàn)的發(fā)展方向。
《數(shù)字測(cè)繪成果質(zhì)量檢查與驗(yàn)收》(GB/T 18316—2008)規(guī)定了數(shù)字測(cè)繪產(chǎn)品的9個(gè)質(zhì)量元素[2]為檢驗(yàn)的主要內(nèi)容,其中屬性精度、完整性和邏輯一致性是實(shí)際檢驗(yàn)工作的重點(diǎn),一些學(xué)者也對(duì)其進(jìn)行了卓有成效的探討。曾衍偉研究分析了空間數(shù)據(jù)的質(zhì)量模型,總結(jié)了地形圖數(shù)據(jù)各質(zhì)量元素的檢驗(yàn)方法,但對(duì)于屬性精度、位置精度的自動(dòng)化檢驗(yàn)涉及較少[3];丁建勛等從GIS角度出發(fā)分析了地形圖數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因,為檢驗(yàn)方法的設(shè)計(jì)提出了方向[4];范大昭提出利用模板匹配的方法自動(dòng)檢查屬性正確性,利用套合方法檢查分類正確性,但其采用的模板固定無(wú)法修改,且未考慮屬性值的邏輯組合的正確性[5];張彥彥進(jìn)一步擴(kuò)充了檢驗(yàn)?zāi)0?,并允許用戶自定義[6];吳芳華在套合檢驗(yàn)的基礎(chǔ)上提出通過(guò)設(shè)計(jì)符號(hào)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行可視化,從而提高人工檢查的效率[7],該方法目前已成為生產(chǎn)實(shí)踐中最常用的方法之一,但其對(duì)符號(hào)設(shè)計(jì)的結(jié)果依賴較大,且仍需要大量的人工作業(yè);于煥菊從多源空間數(shù)據(jù)角度出發(fā),通過(guò)統(tǒng)計(jì)分析與地址匹配的方法檢驗(yàn)城市大比例尺地形圖數(shù)據(jù)的邏輯一致性與完整性[8],該方法過(guò)于依賴外部數(shù)據(jù)的正確性,且檢查對(duì)象較少。本文根據(jù)地形圖檢驗(yàn)工作中的實(shí)際需要,針對(duì)大比例尺地形圖的屬性精度、完整性和邏輯一致性等質(zhì)量檢驗(yàn),提出一種實(shí)用性強(qiáng)、適用性廣的自動(dòng)化檢驗(yàn)方法。
1.地理數(shù)據(jù)分層
為了更好地規(guī)范地理信息數(shù)據(jù)庫(kù),符合當(dāng)?shù)貙?shí)際需求,各地相關(guān)部門出臺(tái)了相應(yīng)標(biāo)準(zhǔn)。以浙江省為例,《基礎(chǔ)地理信息要素分類與圖形表達(dá)代碼》(DB33/T 817—2010)和《1∶500 1∶1000 1∶2000基礎(chǔ)地理信息及地理實(shí)體數(shù)據(jù)庫(kù)技術(shù)規(guī)程》(征求意見(jiàn)稿)規(guī)定了基礎(chǔ)地理信息數(shù)據(jù)庫(kù)數(shù)據(jù)應(yīng)分為以下21層:水系點(diǎn)、線、面,居民地及設(shè)施點(diǎn)、線、面,交通點(diǎn)、線、面,管線點(diǎn)、線,境界及政區(qū)點(diǎn)、線、面,地貌點(diǎn)、線、面,植被與土質(zhì)點(diǎn)、線、面與注記,同時(shí)對(duì)各層的基本屬性進(jìn)行了規(guī)定。這些規(guī)范都是檢驗(yàn)時(shí)所需要參考的重要標(biāo)準(zhǔn),需根據(jù)圖層的不同分別設(shè)計(jì)檢驗(yàn)方法。
2.檢驗(yàn)內(nèi)容與方法
(1)屬性精度檢驗(yàn)
主要檢驗(yàn)分類正確性與屬性正確性,包括分類代碼值錯(cuò)漏與屬性值錯(cuò)漏的情況。
1)分類正確性。分類代碼作為各要素在信息系統(tǒng)中的“身份證”,表征了其性質(zhì)與內(nèi)容,是信息系統(tǒng)最重要的組成部分,系統(tǒng)中各應(yīng)用(如檢索、查找、決策等)都依賴其正確性,因此對(duì)分類代碼值正確性的檢驗(yàn)是檢驗(yàn)中最重要的一部分。
標(biāo)準(zhǔn)規(guī)定,基礎(chǔ)地理信息要素分類代碼采用10位十進(jìn)制數(shù)字碼,分別為按數(shù)字順序排列的要素分類碼、幾何特征碼和圖形特征碼,其中要素分類碼各位數(shù)代表不同含義,而幾何特征碼與圖形特征碼應(yīng)按規(guī)則組合使用,具體規(guī)定見(jiàn)表1和圖1。
表1 幾何特征碼和圖形特征碼組合
目前主要的檢驗(yàn)內(nèi)容包括:①分類代碼屬性不為空;②不存在非法分類代碼,即在標(biāo)準(zhǔn)文件及項(xiàng)目設(shè)計(jì)書(shū)、技術(shù)總結(jié)中均不存在的代碼;③要素的幾何特征碼與要素幾何類型一致,如點(diǎn)要素分類代碼的幾何特征碼應(yīng)為1或2;④要素的大類碼與要素層類型一致,如水系要素分類代碼的大類碼應(yīng)為2。人工檢查需要提取每一個(gè)要素的代碼,檢查其長(zhǎng)度、格式等并與標(biāo)準(zhǔn)代碼表比對(duì),操作復(fù)雜且重復(fù)性嚴(yán)重。使用自動(dòng)檢驗(yàn)可以減少人工作業(yè),提高效率,分類代碼自動(dòng)檢驗(yàn)的流程如圖2所示。
圖1 分類代碼結(jié)構(gòu)
圖2 分類代碼自動(dòng)檢驗(yàn)流程
提取分類代碼唯一值可以減少循環(huán)執(zhí)行的次數(shù),提高速度,檢驗(yàn)程序中使用數(shù)據(jù)庫(kù)語(yǔ)言LINQ實(shí)現(xiàn)。
2)屬性正確性。分類代碼是所有要素共同的屬性,除此外不同要素有其他不同屬性字段,檢驗(yàn)內(nèi)容也不盡相同,概括起來(lái)包括:①控制點(diǎn)坐標(biāo)不能為負(fù)且不能超出測(cè)區(qū)范圍;②有向點(diǎn)要素旋轉(zhuǎn)角度屬性應(yīng)在值域0~360°內(nèi);③居民地及設(shè)施面樓層屬性值不能為0;④交通線技術(shù)等級(jí)屬性應(yīng)在值域范圍內(nèi);⑤交通線、居民地及設(shè)施面材質(zhì)屬性應(yīng)在值域范圍內(nèi)等,歸納可知檢驗(yàn)核心為屬性值應(yīng)在值域范圍內(nèi)。自動(dòng)檢驗(yàn)算法為:
a.坐標(biāo)屬性的檢驗(yàn)包括小數(shù)位數(shù)是否正確、是否為非數(shù)字、是否為半角字符、是否超出測(cè)區(qū)范圍等。該部分檢查需對(duì)所有數(shù)據(jù)進(jìn)行遍歷,人工操作煩瑣且容易出現(xiàn)漏查、錯(cuò)查的現(xiàn)象。
b.其他屬性檢驗(yàn)主要包括必填屬性項(xiàng)是否不為空、字符是否為半角、屬性值是否在值域范圍內(nèi)等。為提高容錯(cuò)性,允許用戶修改默認(rèn)值域,添加自定義值,程序內(nèi)部使用List型數(shù)據(jù)構(gòu)建值域列表,以保證快速自動(dòng)判斷目標(biāo)值是否在范圍內(nèi)。
(2)完整性檢驗(yàn)
主要檢驗(yàn)要素多余與遺漏的情況,目前常用的檢驗(yàn)方法是模板套合檢驗(yàn)法,但由于實(shí)際地物豐富,人工檢驗(yàn)漏查率較高。
檢驗(yàn)點(diǎn)元素時(shí),對(duì)于控制點(diǎn)和地貌點(diǎn),比較坐標(biāo)值是否相同,若相同則為重復(fù);對(duì)于其他類型點(diǎn),則應(yīng)比較關(guān)鍵屬性值,如兩個(gè)名稱對(duì)象點(diǎn),雖然坐標(biāo)值不同,但名稱、分類代碼屬性值均相同,且距離很近(一般認(rèn)為小于500 m),也應(yīng)判斷為重復(fù)。更特殊的是,對(duì)于居民地及設(shè)施(點(diǎn))要素,若為行政區(qū)劃、政府機(jī)構(gòu)、行政單位等獨(dú)一性要素,只要名稱相同一定是重復(fù)。
檢驗(yàn)線、面要素時(shí),第一步比較長(zhǎng)度與面積是否一致,地物在數(shù)據(jù)庫(kù)中以線或面狀要素表現(xiàn)時(shí)系統(tǒng)會(huì)自動(dòng)賦予長(zhǎng)度與面積屬性值(SHAPE_Length、SHAPE_Area)且精確位數(shù)高(一般為10-6),因此基本不會(huì)出現(xiàn)完全相等的情況;第二步輔助其他屬性值進(jìn)一步判斷,如對(duì)于交通(線)要素,當(dāng)SHAPE_ Length一致時(shí)可以比較道路寬度、名稱屬性值是否也相同。圖3為完整性檢查的流程。
圖3 完整性檢查流程
(3)邏輯一致性檢驗(yàn)
主要檢驗(yàn)屬性項(xiàng)定義、數(shù)據(jù)格式、拓?fù)潢P(guān)系是否正確。屬性項(xiàng)定義及數(shù)據(jù)格式的檢查參照有關(guān)規(guī)定并通過(guò)模板匹配的方法來(lái)實(shí)現(xiàn)自動(dòng)化檢查。
DB33/T 817—2010中對(duì)于各類要素的基本屬性進(jìn)行了規(guī)范,包括要素的中、英文名稱,要素基礎(chǔ)字段的名稱、類型、閾值及可否為空等,其中屬于邏輯一致性的檢查項(xiàng)包括名稱、類型、長(zhǎng)度等。傳統(tǒng)的人工檢查方法需對(duì)所有圖層的所有字段進(jìn)行查看并與規(guī)范比較,重復(fù)操作較多,費(fèi)時(shí)費(fèi)力。使用計(jì)算機(jī)自動(dòng)遍歷圖層讀取字段屬性并與預(yù)先錄入的標(biāo)準(zhǔn)值進(jìn)行比較即可實(shí)現(xiàn)自動(dòng)化檢驗(yàn),算法步驟如下:
1)進(jìn)入圖層i。
2)選擇字段j,提取該字段的名稱、類型、長(zhǎng)度。
3)與標(biāo)準(zhǔn)值比較,若正確,進(jìn)入下一步;若不正確,報(bào)錯(cuò)并進(jìn)入下一步。
4)選擇下一字段并返回步驟2)直到遍歷完該圖層所有字段。
5)進(jìn)入下一圖層直到遍歷完所有圖層。
綜上所述,人工檢驗(yàn)雖然可行,但由于數(shù)據(jù)量巨大,人工檢驗(yàn)往往效率低、錯(cuò)漏率高,且操作煩瑣,重復(fù)性工作多,將這部分工作采用自動(dòng)化檢驗(yàn)代替,可以大大提高檢驗(yàn)的效率與正確性。
根據(jù)前文介紹的自動(dòng)化檢驗(yàn)算法,使用ArcGIS Engine與C#進(jìn)行編程實(shí)現(xiàn),并將檢驗(yàn)程序運(yùn)用到實(shí)際檢驗(yàn)項(xiàng)目中,以驗(yàn)證自動(dòng)化檢驗(yàn)的效果。
以某地區(qū)1∶2000 DLG地理數(shù)據(jù)入庫(kù)項(xiàng)目為例,該項(xiàng)目覆蓋范圍為302.5 km2,數(shù)據(jù)大小為462 MB,共包含1 062 846條記錄,經(jīng)業(yè)務(wù)熟練的質(zhì)檢員對(duì)其進(jìn)行檢查,共發(fā)現(xiàn)65處錯(cuò)誤,耗時(shí)2 h 50 min。利用自動(dòng)化檢驗(yàn)程序?qū)ζ溥M(jìn)行檢查,運(yùn)行時(shí)間為20 min 11 s。程序運(yùn)行界面如圖4所示,檢查結(jié)果見(jiàn)表2,人工檢驗(yàn)結(jié)果與程序檢驗(yàn)結(jié)果的對(duì)比見(jiàn)表3。
圖4 檢驗(yàn)時(shí)自定義參數(shù)設(shè)置與運(yùn)行結(jié)果界面
表2 某地區(qū)1∶2000 DLG地理數(shù)據(jù)檢查結(jié)果
造成人工漏查的原因主要有兩點(diǎn):一是數(shù)據(jù)編碼問(wèn)題,如屬性值為空與屬性值填寫(xiě)為空格顯示時(shí)是沒(méi)有區(qū)別的,但對(duì)應(yīng)的計(jì)算機(jī)編碼是完全不同的,因此無(wú)法通過(guò)人工檢查出來(lái);二是數(shù)據(jù)量過(guò)大的問(wèn)題,如地貌點(diǎn)個(gè)數(shù)為116 218,數(shù)據(jù)量大,人工逐個(gè)檢查位數(shù)錯(cuò)誤或在測(cè)區(qū)范圍外的點(diǎn)很容易出現(xiàn)遺漏,這類需要遍歷實(shí)現(xiàn)的檢查項(xiàng)通過(guò)計(jì)算機(jī)自動(dòng)檢查更容易保證其準(zhǔn)確性和完整性。
造成程序漏查的原因有兩點(diǎn):一是數(shù)據(jù)質(zhì)量問(wèn)題導(dǎo)致算法無(wú)法完全兼容,如河流配置點(diǎn)的方向錯(cuò)誤,對(duì)于有方向(角度)屬性的記錄來(lái)說(shuō),單獨(dú)檢查其方向值是沒(méi)有意義的,只有與其他地物參照比較才能進(jìn)一步判斷,然而入庫(kù)時(shí)這些有方向?qū)傩缘呐渲命c(diǎn)往往沒(méi)有按鄰接順序存儲(chǔ),而是散亂地分布在數(shù)據(jù)庫(kù)中,這就導(dǎo)致難以提出有效算法進(jìn)行自動(dòng)檢驗(yàn)。對(duì)這類問(wèn)題的檢查目前仍需要人工進(jìn)行,如果可以在數(shù)據(jù)采集和錄入時(shí)提高數(shù)據(jù)規(guī)范化程度,保證數(shù)據(jù)存儲(chǔ)符合標(biāo)準(zhǔn),自動(dòng)檢驗(yàn)方法將更具準(zhǔn)確性和兼容性。二是缺少進(jìn)一步約束條件,如某交通線名稱屬性值為“A公路”,但實(shí)際上應(yīng)為“B公路”,這類與實(shí)際不符的錯(cuò)誤在缺少外部約束條件時(shí)程序難以檢驗(yàn)出來(lái),如果可以引入其他多源數(shù)據(jù)如遙感影像數(shù)據(jù)等作為約束條件,并保證數(shù)據(jù)的及時(shí)更新與維護(hù),可以解決此類問(wèn)題。
造成程序錯(cuò)判的原因是個(gè)別地理要素名稱中存在特殊字符,程序未能識(shí)別導(dǎo)致錯(cuò)判。特殊字符在實(shí)際中并不經(jīng)常使用,因此這類錯(cuò)誤數(shù)量較少,且易于排除。
綜上所述,自動(dòng)化檢驗(yàn)程序可以將大部分錯(cuò)誤迅速、完整地檢查出來(lái),且正確率較高,雖然對(duì)于一些需要依賴外部參考數(shù)據(jù)、情況更加復(fù)雜的檢查項(xiàng)存在漏查的現(xiàn)象,但仍顯著地縮小了檢驗(yàn)范圍,有效地提高了效率。由此可見(jiàn),自動(dòng)化檢驗(yàn)在解放人力、提高效率、提高檢驗(yàn)結(jié)果正確性方面具有重要的意義。
隨著測(cè)繪技術(shù)的不斷發(fā)展,未來(lái)城市地理信息基礎(chǔ)數(shù)據(jù)將會(huì)更加海量,更新將會(huì)更加頻繁,因此對(duì)質(zhì)檢速度和質(zhì)量要求也會(huì)越來(lái)越高,自動(dòng)化檢驗(yàn)是必然趨勢(shì)。本文在當(dāng)前人工檢驗(yàn)方法的基礎(chǔ)上,對(duì)可以自動(dòng)化檢驗(yàn)的項(xiàng)目提出了相關(guān)算法并編程實(shí)現(xiàn),通過(guò)實(shí)例進(jìn)行驗(yàn)證。試驗(yàn)結(jié)果表明,該算法實(shí)用可行,能夠顯著提高效率,但仍不能完全實(shí)現(xiàn)自動(dòng)化檢驗(yàn)。因此如何進(jìn)一步提高自動(dòng)化程度是下一步研究的問(wèn)題。
[1] 李宣銳.大比例尺地形圖入庫(kù)前質(zhì)量評(píng)價(jià)方法[J].地理空間信息,2011,9(2):73-74,77.
[2] 國(guó)家標(biāo)準(zhǔn)委員會(huì).數(shù)字測(cè)繪成果質(zhì)量檢查與驗(yàn)收: GB/T 18316—2008[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2008. [3] 曾衍偉.空間數(shù)據(jù)質(zhì)量控制與評(píng)價(jià)技術(shù)體系研究[D].武漢:武漢大學(xué).2004.
[4] 丁建勛,程效軍,石如文,等.淺談珠海市基礎(chǔ)空間數(shù)據(jù)檢查與建庫(kù)預(yù)處理[J].地理空間信息,2005,3 (2):30-32,35.
[5] 范大昭.數(shù)字地圖矢量數(shù)據(jù)檢查的研究與實(shí)踐[D].鄭州:信息工程大學(xué),2001.
[6] 張彥彥.基于規(guī)則的DLG數(shù)據(jù)質(zhì)量檢查方法研究[D].南京:南京師范大學(xué),2007.
[7] 吳芳華.失量地圖數(shù)據(jù)質(zhì)量控制的理論與實(shí)踐[D].鄭州:信息工程大學(xué),2002.
[8] 于煥菊,李云嶺,史德杰,等.城市大比例尺數(shù)字地形圖的多源空間數(shù)據(jù)檢核方法研究[J].測(cè)繪通報(bào),2012 (11):81-83,91.
Research on Automatic Quality Inspection for Large-Scale Topographic Maps
WAN Lei,CHENG Xiaojun,GUO Wang
10.13474/j.cnki.11-2246. 2016.0235.
P208
B
0494-0911(2016)07-0106-04
2015-08-10
萬(wàn) 磊(1991—),男,碩士,主要研究方向?yàn)槿S激光掃描。E-mail:1052590944@qq.com
引文格式:萬(wàn)磊,程效軍,郭王.大比例尺地形圖數(shù)據(jù)質(zhì)量檢驗(yàn)自動(dòng)化方法初探[J].測(cè)繪通報(bào),2016(7):106-109.