莫偉生
(深圳市愛(ài)華勘測(cè)工程有限公司,廣東 深圳 518111)
為實(shí)現(xiàn)土地信息統(tǒng)籌智能化自動(dòng)化管理,常面對(duì)規(guī)劃、現(xiàn)狀、地下管線和土地權(quán)屬等多源異構(gòu)土地信息數(shù)據(jù)的融合利用難題,借助大數(shù)據(jù)的理論和方法,就海量的多源異構(gòu)的土地信息數(shù)據(jù)進(jìn)行梳理與融合技術(shù)的研究,實(shí)現(xiàn)了多源異構(gòu)數(shù)據(jù)的融合利用。該文從大數(shù)據(jù)自動(dòng)關(guān)聯(lián)、大數(shù)據(jù)的清洗、抽取與變換以及大數(shù)據(jù)的歸一化與聚合3項(xiàng)關(guān)鍵技術(shù)介紹面向土地信息統(tǒng)籌管理大數(shù)據(jù)的梳理與融合技術(shù)。
針對(duì)多源異構(gòu)的土地信息統(tǒng)籌管理大數(shù)據(jù),研究面向聚合主題和目標(biāo)的關(guān)聯(lián)數(shù)據(jù)接入方法,進(jìn)行信息抽取,提出面向位置、語(yǔ)義、關(guān)系、時(shí)間和尺度5個(gè)維度的土地信息統(tǒng)籌管理大數(shù)據(jù)聚合模型[1]。根據(jù)聚合分析主題目標(biāo),考慮土地信息統(tǒng)籌管理數(shù)據(jù)多種類型、不同結(jié)構(gòu)特征,對(duì)結(jié)構(gòu)化地理大數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化、清洗等一系列數(shù)據(jù)挖掘的前期處理,對(duì)于半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)地理大數(shù)據(jù)采用信息抽取,從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選知識(shí)單元。根據(jù)土地信息中多源地理大數(shù)據(jù)不同的結(jié)構(gòu)特征,分別進(jìn)行不同的處理,如下所述。
結(jié)合土地信息統(tǒng)籌管理大數(shù)據(jù)聚合目標(biāo),對(duì)結(jié)構(gòu)化數(shù)據(jù)按照抽取-轉(zhuǎn)換-清洗3個(gè)步驟進(jìn)行特征提取。
1.1.1 抽取
從地理大數(shù)據(jù)中提取所需要的數(shù)據(jù),常采用空間數(shù)據(jù)和屬性數(shù)據(jù)抽取2種方式??臻g數(shù)據(jù)抽取主要包括相交、擦除和空間連接等,相交是計(jì)算輸入要素的幾何交集,將所有圖層和要素類中相疊置的要素或要素其中的一部分寫(xiě)入輸出要素類;擦除是將擦除要素的多邊形與輸入要素疊加來(lái)創(chuàng)建要素類,只將處于擦除要素邊界之外的輸入要素復(fù)制到輸出要素類;空間連接是基于2個(gè)要素類中要素之間的空間關(guān)系,將屬性從一個(gè)要素類傳遞到另一個(gè)要素類[2-3]。屬性數(shù)據(jù)抽取通過(guò)使用 SQL查詢語(yǔ)句實(shí)現(xiàn)。
1.1.2 轉(zhuǎn)換
根據(jù)地理大數(shù)據(jù)聚合分析實(shí)際應(yīng)用需求,對(duì)數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換。數(shù)據(jù)格式的轉(zhuǎn)換包括不同數(shù)據(jù)結(jié)構(gòu)間的轉(zhuǎn)換以及同一數(shù)據(jù)結(jié)構(gòu)在不同組織形式間的轉(zhuǎn)換。其中不同數(shù)據(jù)結(jié)構(gòu)間的轉(zhuǎn)換通常使用數(shù)據(jù)格式轉(zhuǎn)換方式,即采用目前國(guó)際上通用的空間數(shù)據(jù)格式轉(zhuǎn)換標(biāo)準(zhǔn),遵循完整性、完備性以及可操作性的原則,實(shí)現(xiàn)各類數(shù)據(jù)格式的相互轉(zhuǎn)換,使數(shù)據(jù)格式統(tǒng)一。
1.1.3 清洗
地理大數(shù)據(jù)關(guān)聯(lián)接入過(guò)程中,通常需要對(duì)數(shù)據(jù)進(jìn)行清加工,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。其中數(shù)據(jù)插值為常用的數(shù)據(jù)清洗工具,主要包括 Kringe插值法,IDW插值法以及趨勢(shì)面法。
1.1.4 特征提取
進(jìn)行前期處理后,統(tǒng)一對(duì)結(jié)構(gòu)化數(shù)據(jù)采用坐標(biāo)提取(Add XY)、地址匹配的方法獲得數(shù)據(jù)中的位置信息;采用 SQL查詢語(yǔ)句提取數(shù)據(jù)中的時(shí)間信息、語(yǔ)義信息和尺度信息;采用空間關(guān)系分析方法獲得數(shù)據(jù)中的空間關(guān)系。
信息抽取是一種自動(dòng)地從非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系及屬性等形成結(jié)構(gòu)化信息的技術(shù)。實(shí)體、關(guān)系和屬性抽取是從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取位置、語(yǔ)義、關(guān)系、時(shí)間、尺度5個(gè)維度特征的信息,從而得到候選知識(shí)單元。
1.2.1 實(shí)體抽取
實(shí)體抽取是從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體,如位置、尺度等信息,應(yīng)用監(jiān)督學(xué)習(xí)與規(guī)則(先驗(yàn)知識(shí))相結(jié)合的方法采用字典輔助下的最大熵算法,實(shí)現(xiàn)基本的文本提取;采用無(wú)監(jiān)督學(xué)習(xí)算法使面向開(kāi)放域的目標(biāo)數(shù)據(jù)集能夠基于實(shí)體的語(yǔ)義特征從搜索日志中識(shí)別出命名實(shí)體,然后采用聚類算法對(duì)識(shí)別出的實(shí)體對(duì)象進(jìn)行聚類,即獲得相似語(yǔ)義環(huán)境下的實(shí)體對(duì)象;采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法在面向開(kāi)放域的目標(biāo)數(shù)據(jù)集中抽取與其具有相似上下文特征的實(shí)體,從而實(shí)現(xiàn)所提取實(shí)體的分類和聚類。
1.2.2 關(guān)系抽取
即提取實(shí)體間的相關(guān)關(guān)系。采用基于條件的關(guān)系抽取,對(duì)于沒(méi)有預(yù)先定義好的實(shí)體關(guān)系模型或者關(guān)系數(shù)量過(guò)多的情況則采用開(kāi)放域關(guān)系抽取方法。而對(duì)于目標(biāo)數(shù)據(jù)集中擁有關(guān)系數(shù)量且有預(yù)先定義好的實(shí)體關(guān)系分類模型可采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行關(guān)系抽取。應(yīng)用基于自監(jiān)督(self-supervised)學(xué)習(xí)方式的開(kāi)放信息抽取原型系統(tǒng)(TextRunner),對(duì)于面向開(kāi)放域的信息抽取方法框架(Open Information Extraction,OIE),采用少量人工標(biāo)記數(shù)據(jù)作為訓(xùn)練,得到實(shí)體關(guān)系分類模型,再根據(jù)該模型對(duì)開(kāi)放數(shù)據(jù)進(jìn)行分類,根據(jù)分類結(jié)果訓(xùn)練樸素貝葉斯模型來(lái)識(shí)別“實(shí)體-關(guān)系-實(shí)體”三元組,并應(yīng)用上下文分析技術(shù)完成支持非動(dòng)詞性關(guān)系的抽取。
1.2.3 屬性抽取
屬性抽取是從不同信息源中采集特定實(shí)體的屬性信息,如時(shí)間等,通常是對(duì)實(shí)體屬性的補(bǔ)充完善,通常采用支持向量機(jī)的方法,如文本創(chuàng)建的時(shí)間屬性。
針對(duì)土地信息統(tǒng)籌管理大數(shù)據(jù)所具有的空間特征、時(shí)間特征和主題特征等多特征,研究面向時(shí)空及主題的土地信息統(tǒng)籌管理大數(shù)據(jù)多元特征提取技術(shù),通過(guò)分析地理概念及其屬性,研究土地信息統(tǒng)籌管理主題特征詞獲取、特征詞庫(kù)建立以及基于主題特征詞的主題域的劃分方法。研究從地理大數(shù)據(jù)中提取位置地名、地理概念以及地理年代等時(shí)空特征的方法。在地理大數(shù)據(jù)提取時(shí)空及主題特征的基礎(chǔ)上,研究地理大數(shù)據(jù)空間信息、時(shí)間信息及主題信息融合關(guān)聯(lián)方法,建立以主題為信息單元的地理大數(shù)據(jù)信息標(biāo)簽及其組織方法。最終形成土地信息統(tǒng)籌管理大數(shù)據(jù)時(shí)空主題特征抽取軟件模塊,以接口的形式對(duì)外提供調(diào)用和服務(wù)。
在大數(shù)據(jù)時(shí)空統(tǒng)一框架的基礎(chǔ)上,研究面向土地信息統(tǒng)籌管理主題的大數(shù)據(jù)主題-時(shí)空關(guān)聯(lián)模型,針對(duì)社交媒體大數(shù)據(jù)主要為文本內(nèi)容的特點(diǎn),將詞向量技術(shù)與機(jī)器學(xué)習(xí)網(wǎng)絡(luò)技術(shù)結(jié)合,進(jìn)行命名實(shí)體識(shí)別、實(shí)體間的關(guān)系抽取、實(shí)體的屬性識(shí)別與抽取以及文本聚類,從聚類中產(chǎn)生主題,再?gòu)闹黝}的關(guān)聯(lián)性出發(fā),實(shí)現(xiàn)面向土地信息統(tǒng)籌管理主題的時(shí)空數(shù)據(jù)關(guān)聯(lián)。
在統(tǒng)一時(shí)空框架的基礎(chǔ)上,對(duì)從文本中獲取的屬性、關(guān)系以及主題進(jìn)行序化和空間化,從地理觀測(cè)大數(shù)據(jù)中可直接抽取空間實(shí)體的相關(guān)空間位置、屬性和拓?fù)潢P(guān)系等信息,對(duì)2類來(lái)源的空間實(shí)體在統(tǒng)一時(shí)空框架中進(jìn)行基準(zhǔn)統(tǒng)一、數(shù)據(jù)格式統(tǒng)一、“三域”標(biāo)識(shí)統(tǒng)一等。
將土地信息統(tǒng)籌管理主題特征數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)的輸入,利用 Encoder-Decoder 的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)特征數(shù)據(jù)進(jìn)行降維,使用同一種網(wǎng)絡(luò),在最小信息損失的前提下,可以確保數(shù)據(jù)降到同一維度的同一個(gè)映射空間,由此實(shí)現(xiàn)對(duì)特征數(shù)據(jù)的歸一化處理。在上述統(tǒng)一的基礎(chǔ)上進(jìn)行特征提取,構(gòu)建多特征關(guān)聯(lián)度量矩陣,對(duì)地理實(shí)體的各個(gè)特征進(jìn)行相似性度量,對(duì)主題一致、時(shí)序關(guān)聯(lián)、空間一致、語(yǔ)義相同的數(shù)據(jù)進(jìn)行抽取,建立時(shí)空到主題、主題到時(shí)空的一體化關(guān)聯(lián),實(shí)現(xiàn)土地信息統(tǒng)籌管理大數(shù)據(jù)多元特征主題關(guān)聯(lián),為協(xié)同表達(dá)提供技術(shù)支撐。
通過(guò)借助專家經(jīng)驗(yàn)以及相關(guān)的先驗(yàn)知識(shí),建立學(xué)習(xí)規(guī)則,解算地理實(shí)體的各個(gè)特征參數(shù)和影響關(guān)系,構(gòu)建多元特征的地理實(shí)體間距離度量指標(biāo),根據(jù)該指標(biāo)得到關(guān)聯(lián)系數(shù),進(jìn)行排序確定最優(yōu)結(jié)果集,并根據(jù)用戶反饋調(diào)節(jié)特征參數(shù),修正關(guān)聯(lián)模型,以獲得更接近用戶所需要的結(jié)果集。
在統(tǒng)一的數(shù)據(jù)清理框架下,系統(tǒng)研究土地利用/覆蓋變化數(shù)據(jù)、自然環(huán)境數(shù)據(jù)和基礎(chǔ)地理大數(shù)據(jù)等多類型、多尺度時(shí)空數(shù)據(jù)清理的技術(shù)方法,包括不一致數(shù)據(jù)的自動(dòng)檢測(cè)與消除技術(shù)、噪聲數(shù)據(jù)的檢測(cè)與平滑技術(shù)及缺失數(shù)據(jù)的自動(dòng)填補(bǔ)等。
2.2.1 不一致數(shù)據(jù)的自動(dòng)檢測(cè)與消除技術(shù)
該研究分別對(duì)關(guān)系數(shù)據(jù)、時(shí)態(tài)數(shù)據(jù)和空間數(shù)據(jù)等不一致檢測(cè)和消除進(jìn)行了研究,提出了相應(yīng)的解決方法。
對(duì)關(guān)系數(shù)據(jù)以進(jìn)行關(guān)系數(shù)據(jù)庫(kù)的第一、第二、第三以及 BC范式檢測(cè)為主,并根據(jù)應(yīng)用領(lǐng)域?qū)I(yè)知識(shí)建立了相應(yīng)的領(lǐng)域知識(shí)和規(guī)則庫(kù),在領(lǐng)域知識(shí)庫(kù)的指導(dǎo)下對(duì)不一致數(shù)據(jù)進(jìn)行檢測(cè)和消除。
對(duì)時(shí)態(tài)數(shù)據(jù)不一致性檢測(cè)與消除主要依賴專業(yè)領(lǐng)域知識(shí)的指導(dǎo)完成,如對(duì)1個(gè)確定的區(qū)域在不同時(shí)間點(diǎn),無(wú)論其經(jīng)過(guò)多少次的圖斑(宗地/地塊)的分割和合并變換,但其圖斑(宗地/地塊)總面積是保持不變的。
對(duì)空間數(shù)據(jù)的不一致檢測(cè)與消除主要對(duì)其進(jìn)行邏輯一致性和拓?fù)湟恢滦詸z查處理??臻g數(shù)據(jù)邏輯不一致主要是指發(fā)生在不同圖幅以及不同圖層數(shù)據(jù)之間相同實(shí)體數(shù)據(jù)屬性數(shù)據(jù)不一致的情況。不同圖幅間邏輯的不一致需要在圖幅接邊時(shí)完成屬性檢查;不同圖層間數(shù)據(jù)的一致性檢查,采用數(shù)據(jù)對(duì)比分析和發(fā)現(xiàn)不同圖層數(shù)據(jù)疊加的方法來(lái)完成。
2.2.2 噪聲數(shù)據(jù)的平滑技術(shù)
該文重點(diǎn)研究了基于回歸分析和聚類分析方法的噪聲數(shù)據(jù)平滑技術(shù),如在城市基本地形圖高程數(shù)據(jù)中,對(duì)抽樣樣點(diǎn)數(shù)據(jù)庫(kù)采用回歸分析方法,發(fā)現(xiàn)異常數(shù)據(jù),并在系統(tǒng)環(huán)境中實(shí)現(xiàn)。
2.2.3 缺失數(shù)據(jù)的自動(dòng)填補(bǔ)技術(shù)
在回歸分析、貝葉斯網(wǎng)絡(luò)、決策樹(shù)以及空間插值分析算法(Kriging 算法、 趨勢(shì)面分析算法和樣條函數(shù)等)的支持下,結(jié)合數(shù)據(jù)源領(lǐng)域知識(shí)和規(guī)則,研究了缺失數(shù)據(jù)的自動(dòng)填補(bǔ)技術(shù),并對(duì)土地利用、區(qū)域社會(huì)經(jīng)濟(jì)發(fā)展統(tǒng)計(jì)數(shù)據(jù)等數(shù)據(jù)進(jìn)行了實(shí)踐研究。
根據(jù)土地信息領(lǐng)域數(shù)據(jù)特點(diǎn),將其劃分為正向數(shù)據(jù)、反向數(shù)據(jù)和適度數(shù)據(jù),并分別定義了其數(shù)據(jù)標(biāo)準(zhǔn)化方法。
正向數(shù)據(jù)標(biāo)準(zhǔn)化定義如公式(1)所示。式中:Xi為標(biāo)準(zhǔn)化指數(shù);Si為量測(cè)值;Dimin為要求的低限即最差值;Diopt為要求最優(yōu)測(cè)度(經(jīng)常取最大值);Ri為i的風(fēng)險(xiǎn)性測(cè)定,常用保證率來(lái)測(cè)度。
該類數(shù)據(jù)為正向測(cè)度數(shù)據(jù),如GDP總量對(duì)區(qū)域發(fā)展來(lái)說(shuō)其取值越大越好,即為正向測(cè)度。
反向數(shù)據(jù)標(biāo)準(zhǔn)化定義如公式(2)所示。
公式(2)中的數(shù)據(jù)為反向數(shù)據(jù),即其取值越小越好,例如對(duì)機(jī)場(chǎng)選址來(lái)說(shuō),地形坡度值即為負(fù)向測(cè)度。
適度數(shù)據(jù)標(biāo)準(zhǔn)化定義如公式(3)所示。
在公式(3)中,該類數(shù)據(jù)為適度數(shù)據(jù),即其取值在某一特定區(qū)間范圍內(nèi)是最優(yōu)的。如對(duì)水稻田的適宜性評(píng)價(jià)中的pH值指標(biāo),它要求在6.5~7.5是最適宜于水稻種植的,即可用公式(3)進(jìn)行標(biāo)準(zhǔn)化處理。
當(dāng)數(shù)據(jù)庫(kù)中屬性字段為數(shù)字類型時(shí),如果從原始的概念層次發(fā)掘,那么最小可性度閥值越小,就會(huì)產(chǎn)生越多不感興趣的規(guī)則,而最小支持率和最小可性度閥值較大則不會(huì)產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則?;谝陨锨樾?,需要通過(guò)屬性泛化將屬性提升到較高的概念層次,然后在泛化的數(shù)據(jù)上再進(jìn)行數(shù)據(jù)挖掘。屬性泛化問(wèn)題在屬性為數(shù)字類型時(shí)常被稱為連續(xù)數(shù)據(jù)離散化。將屬性空間劃分為不重疊的區(qū)間或區(qū)域,且將連續(xù)數(shù)據(jù)映射到這些區(qū)間或區(qū)域,該方法為連續(xù)數(shù)據(jù)離散化常用的方法。這種不允許相鄰的區(qū)間有重疊的方法稱之為硬劃分利益法。工作人員可以使用云模型來(lái)模擬人類靈活地劃分屬性空間的機(jī)制,而硬化分方法不能模擬人類的劃分機(jī)制。當(dāng)每個(gè)屬性看作語(yǔ)言變量時(shí),對(duì)于每一個(gè)語(yǔ)言變量,定義幾個(gè)語(yǔ)言值,相鄰的語(yǔ)言值間允許有重疊??梢杂捎脩艚换サ亟o定表達(dá)語(yǔ)義言值的云,也可以通過(guò)云變換的方法自動(dòng)獲得。基于云模型的泛化方法是一種屬性軟劃分方法。
對(duì)數(shù)域空間引入場(chǎng)的思想,即視每個(gè)數(shù)據(jù)對(duì)象為n維空間中具有一定質(zhì)量的粒子,數(shù)據(jù)對(duì)象周圍形象地存在一個(gè)虛擬作用場(chǎng),位于場(chǎng)內(nèi)的任何其他對(duì)象都將受到場(chǎng)力的作用,因此聯(lián)合作用的所有對(duì)象在空間上就確定了一個(gè)數(shù)據(jù)場(chǎng)。
3.3.1 數(shù)據(jù)場(chǎng)度量
采用物理場(chǎng)的度量方法,研究了數(shù)據(jù)場(chǎng)的場(chǎng)強(qiáng)和場(chǎng)勢(shì)。并將數(shù)據(jù)對(duì)象通過(guò)輻射數(shù)據(jù)能量在數(shù)域空間形成一個(gè)虛擬的空間場(chǎng),該場(chǎng)空間中單一數(shù)據(jù)對(duì)象對(duì)場(chǎng)空間輻射數(shù)據(jù)能量的大小用場(chǎng)強(qiáng)來(lái)度量。常用場(chǎng)強(qiáng)函數(shù)為指數(shù)函數(shù)模型,如公式(4)所示。
式中:f(x,y)為二維指數(shù)函數(shù),x和y為變量,e是數(shù)學(xué)常數(shù),自然對(duì)數(shù)的底數(shù),近似等于 2.718281828,還稱為歐拉數(shù)。
3.3.2 場(chǎng)勢(shì)與勢(shì)函數(shù)
定義數(shù)據(jù)場(chǎng)場(chǎng)勢(shì)為數(shù)域空間中某一具體空間點(diǎn)受空間中所有數(shù)據(jù)對(duì)象輻射數(shù)據(jù)能量之和,即數(shù)據(jù)場(chǎng)的勢(shì)是根據(jù)場(chǎng)強(qiáng)函數(shù)計(jì)算得到的數(shù)域空間中全部單個(gè)數(shù)據(jù)場(chǎng)強(qiáng)之和。根據(jù)標(biāo)量場(chǎng)和矢量場(chǎng)的不同,其場(chǎng)勢(shì)函數(shù)可分別用以下2個(gè)公式表示,如公式(5)所示。
式中:p(x,y)為場(chǎng)勢(shì)函數(shù);d(x,yi)為第i個(gè)數(shù)據(jù)對(duì)象與空間目標(biāo)x之間的距離;σ為第i個(gè)數(shù)據(jù)對(duì)象的輻射因子;n為數(shù)據(jù)對(duì)象的個(gè)數(shù)。
3.3.3 場(chǎng)域劃分方法
數(shù)據(jù)對(duì)象對(duì)數(shù)域場(chǎng)空間的最大影響半徑內(nèi)的區(qū)域?yàn)閿?shù)據(jù)對(duì)象的場(chǎng)域。根據(jù)數(shù)據(jù)對(duì)象的不同特性,場(chǎng)域的劃分方法各不相同,對(duì)于多場(chǎng)源競(jìng)爭(zhēng)空間場(chǎng)域類型,一般可用Voronoi圖方法進(jìn)行處理。
綜上所述,該文基于同位、關(guān)系、語(yǔ)義、尺度與時(shí)序的大數(shù)據(jù)自動(dòng)關(guān)聯(lián)關(guān)鍵技術(shù),著重從土地信息的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)展開(kāi)研究;土地信息統(tǒng)籌管理大數(shù)據(jù)的清洗、抽取與變換關(guān)鍵技術(shù),主要針對(duì)多類型、多尺度的土地信息時(shí)空大數(shù)據(jù)進(jìn)行研究;土地信息統(tǒng)籌管理大數(shù)據(jù)的歸一化與聚合關(guān)鍵技術(shù),主要從研究大數(shù)據(jù)歸一化的方法、基于云模型的數(shù)據(jù)離散化技術(shù)以及基于地理大數(shù)據(jù)場(chǎng)的多類型、多尺度數(shù)據(jù)融合技術(shù)尋求突破口。以上3項(xiàng)關(guān)鍵技術(shù)的研究突破,為實(shí)現(xiàn)面向土地信息多源異構(gòu)大數(shù)據(jù)融合利用起到重要作用,為土地信息統(tǒng)籌管理實(shí)現(xiàn)智能化自動(dòng)化提供技術(shù)支撐。